DeepSeek何以震撼全球?

时间:2025-01-31 08:11内容来源:联合早报 新闻归类:国际新闻

DeepSeek何以震撼全球?

中国企业深度求索(DeepSeek)的生成式人工智能(generative AI)推出后迅速火爆全球,以极低的成本实现了与ChatGPT等西方顶尖模型媲美的性能,让原本遥遥领先的美国AI企业深感危机重重。

DeepSeek相比美国生成式AI的优势是什么?

DeepSeek的大型语言模型V3完整版本有近700吉字节(gigabytes),大到只能在专业硬件上运行,参数量多达6850亿个,比以往任何供免费下载的模型都要大。相较之下,脸书母公司Meta的Llama 3.1模型只有4050亿个参数。人工智能编码平台Aider的测试结果显示,DeepSeek表现仅次于OpenAI的o1模型。

更令人惊艳的是,DeepSeek是以极低的成本,实现顶级的性能。独立研究公司Melius Research指出,DeepSeek很可能掌握了利用更高效内存和学习策略,来降低模型训练成本的方法,它的模型生成信息的成本仅为OpenAI的ChatGPT模型的十分之一。

DeepSeek的优势也在于它的算法改进和优化,它在算力上得到了节省,在输入数据和语料库上,不像以前要求那么大的数据量和大的算力。

据估计,西方主要AI模型使用了1万6000个专用晶片。DeepSeek的文件则显示,它仅用了约2048块英伟达H800晶片,这款晶片原本是针对中国市场的特供版,在某些性能参数上有所降低,以符合美国2022年对华出口管制。2023年10月,H800也纳入美国对中国出口禁令中。

DeepSeek的劣势是什么?

受中国的审查政策影响,DeepSeek并非总是知无不言。《经济学人》尝试向它询问台湾时,它生成几句就停下来,还删除之前的回答,要求用户“聊点别的”。

目前,美国的人工智能也仍然具备中国对手尚无法匹敌的能力。例如,谷歌的一项研究项目能让用户的网络浏览器与聊天机器人Gemini对话,这或有助于实现人工智能“代理”(agent)与互联网互动的前景。OpenAI的聊天机器人则不仅会帮用户编写代码,还会帮助他们运行代码。

OpenAI还在酝酿多项创新技术,包括据说能力堪比人类专家的“博士级超级代理”。

梁文锋为何平地一声雷?

DeepSeek创始人梁文峰1985年出生于广东省湛江市,2010年获得信息与通信工程硕士学位,毕业后先后创立杭州雅克比投资管理有限公司,以及杭州幻方科技有限公司,致力于通过数学和人工智能进行量化投资。2023年,梁文峰创办DeepSeek,进军通用人工智能领域。

中国媒体指出,DeepSeek的成功与梁文锋在团队管理和技术研发上的独特策略有着密切关系。梁文锋曾说,他的团队“没有什么高深莫测的奇才”,都是没多少经验的年轻人。他认为,“创新须要摆脱惯性,经验有时会成为包袱”。

热度: ° | 返回联合早报首页 可查看更多内容。
赞一下
(0)
0%
赞一下
(0)
0%
相关栏目推荐
推荐内容