DeepSeek何以震撼全球？

中国企业深度求索（DeepSeek）的生成式人工智能（generative AI）推出后迅速火爆全球，以极低的成本实现了与ChatGPT等西方顶尖模型媲美的性能，让原本遥遥领先的美国AI企业深感危机重重。

DeepSeek相比美国生成式AI的优势是什么？

DeepSeek的大型语言模型V3完整版本有近700吉字节（gigabytes），大到只能在专业硬件上运行，参数量多达6850亿个，比以往任何供免费下载的模型都要大。相较之下，脸书母公司Meta的Llama 3.1模型只有4050亿个参数。人工智能编码平台Aider的测试结果显示，DeepSeek表现仅次于OpenAI的o1模型。

更令人惊艳的是，DeepSeek是以极低的成本，实现顶级的性能。独立研究公司Melius Research指出，DeepSeek很可能掌握了利用更高效内存和学习策略，来降低模型训练成本的方法，它的模型生成信息的成本仅为OpenAI的ChatGPT模型的十分之一。

DeepSeek的优势也在于它的算法改进和优化，它在算力上得到了节省，在输入数据和语料库上，不像以前要求那么大的数据量和大的算力。

据估计，西方主要AI模型使用了1万6000个专用晶片。DeepSeek的文件则显示，它仅用了约2048块英伟达H800晶片，这款晶片原本是针对中国市场的特供版，在某些性能参数上有所降低，以符合美国2022年对华出口管制。2023年10月，H800也纳入美国对中国出口禁令中。

DeepSeek的劣势是什么？

受中国的审查政策影响，DeepSeek并非总是知无不言。《经济学人》尝试向它询问台湾时，它生成几句就停下来，还删除之前的回答，要求用户“聊点别的”。

目前，美国的人工智能也仍然具备中国对手尚无法匹敌的能力。例如，谷歌的一项研究项目能让用户的网络浏览器与聊天机器人Gemini对话，这或有助于实现人工智能“代理”（agent）与互联网互动的前景。OpenAI的聊天机器人则不仅会帮用户编写代码，还会帮助他们运行代码。

OpenAI还在酝酿多项创新技术，包括据说能力堪比人类专家的“博士级超级代理”。

梁文锋为何平地一声雷？

DeepSeek创始人梁文峰1985年出生于广东省湛江市，2010年获得信息与通信工程硕士学位，毕业后先后创立杭州雅克比投资管理有限公司，以及杭州幻方科技有限公司，致力于通过数学和人工智能进行量化投资。2023年，梁文峰创办DeepSeek，进军通用人工智能领域。

中国媒体指出，DeepSeek的成功与梁文锋在团队管理和技术研发上的独特策略有着密切关系。梁文锋曾说，他的团队“没有什么高深莫测的奇才”，都是没多少经验的年轻人。他认为，“创新须要摆脱惯性，经验有时会成为包袱”。

热度： ° | 返回联合早报首页可查看更多内容。