杭州公司深度求索(DeepSeek)1月20日发布开源大语言模型DeepSeek-R1后,又在1月28日除夕当天发布开源文字生成图像(文生图)大模型Janus-Pro 7B。
DeepSeek-R1在美国大模型排名榜Chatbot Arena上的基准测试排名,已升至全类别大模型第三;在风格控制类模型分类中,与美国OpenAI的GPT-o1并列第一。DeepSeek-R1在化学、数学、编程和推理任务等特定任务上的表现与o1不相上下。此外,Janus-Pro在使用文本提示生成图像的基准测试中,表现优于OpenAI的DALL·E 3和Stability AI的Stable Diffusion。
DeepSeek-R1和Janus-Pro 7B在文生文和文生图方面各有千秋,大有赶超OpenAI等全球一流AI公司的模型之势。真正令人震憾的是,DeepSeek产品做到特别的价廉物美,这对AI产品市场不只是搅动一池春水,而且可能掀起一场变革;如果有更具体和简易的应用,可能会迅速占领AI大语言模型市场。
DeepSeek的产品首先让投资者和公众质疑目前美国大型AI公司大量采购晶片训练模型的做法,认为耗资巨大,无法维持可持续发展和满足普通公众的需求,因而造成投资者纷纷抛售全球科技股。美国总统特朗普也感受到这股飓风,他说DeepSeek的崛起应当为美国企业敲响警钟,“须要专注于竞争以赢得胜利”,并认为这可能传递一种积极信号。
毫无疑问,DeepSeek所拥有的是大语言模型方面优越的性价比。与OpenAI的最新模型o1相比,DeepSeek-R1的成本仅为o1的1/30。它还创建R1的小型版本,让计算能力有限的研究人员也能使用。用o1做一个实验要花375美元(约509新元),但用R1不到10美元。这种性价比的巨大差异,是DeepSeek-R1最重要的利器。
R1模型源于公司在2024年12月发布的一款名为V3的聊天机器人,公司通过强化学习,对V3进行微调而研发出R1。V3成本也极低,但性能却媲美甚至超过主要竞争对手。训练V3成本约为600万美元,而美国Meta的大语言模型Llama 3.1 405B耗费的成本却超过6000万美元。
DeepSeek的竞争力还在于产品是部分开源的。R1模型基于MIT许可协议发布,可免费重复使用,但因此训练数据尚未公开,所以R1模型并非完全开源。但是,研究人员可以研究模型的算法,并在此基础上进行研发。而且,任何人都可以在R1和Janus-Pro模型的开源性质下,无须受限和支付高额费用,就能使用。
相比之下,OpenAI打造的o1和其他模型,包括最新成果o3,不仅不开源,而且本质上都是黑箱,还要求使用者付高额费用。两相比较,DeepSeek的竞争力遥遥领先。
关于如何定义计算的未来
不过,DeepSeek的一系列大语言模型产品也是站在前人基础上的,产品使用的是英伟达晶片。它公开承认使用约2048块英伟达的H800晶片,这是英伟达专为符合2022年美国出口管制法规而设计的弱化版晶片。
在得知DeepSeek系列产品的优异性能后,英伟达总裁黄仁勋说,未来DeepSeek将需要更多的英伟达晶片来满足服务需求,因为它们的“推理过程需要大量的英伟达图形处理器(GPU)和高性能网络”。
任何新兴力量的出现,都是对行业生命力的最佳印证。DeepSeek以开源策略和场景化晶片设计展现的锐意,恰如英伟达当年用GPU颠覆传统计算架构时的锋芒。“这场竞赛并非简单的晶片对决,而是关于如何定义计算的未来。”在听见追赶的急促脚步声后,黄仁勋提出几项任务:一是重构下一代GPU的核心模块,使其既能像乐高般灵活适配垂直场景,又保有通用平台的规模势能;二是软件生态将向学术界开放统一计算架构(CUDA)底层工具链,让更多创新者参与定义计算的语法;三是英伟达的前沿实验室正与生物科技、量子计算、气候建模等领域的先驱者,共同孵化“不可能的任务”,如用生成式AI设计下一世代晶片,或是在虚拟宇宙中预演超导材料的合成路径。
DeepSeek只是在大语言模型领域世界对先进的AI公司进行赶超,但是,AI的下一步或许是英伟达提出的物理AI或物理ChatGPT,即让机器人通过虚拟世界的学习,获得真实物理世界物与物、物与人的交互、交融和对接的能力,成为人类最实用和最有效的AI工具。
英伟达正在创建多个不同的多元宇宙(即多重平行世界),让机器人并行学习,可能同时以10万种不同方式学习行走、取物、做家务、操作电脑等。这可以将原本需要长时间才能训练完成的任务,缩短到几个小时。
人形机器人不久后可极广泛应用
目前,AI大语言模型在文字产品上有太浓厚的AI味,未必能让人接受,依靠大语言模型产生的产品还需要人工鉴定,以去除抄袭的嫌疑和AI味,同时在生成和帮助生成理工和生物医学产品时,也需要人工的检查和核对。因此,AI大语言模型产品大规模进入人类的生活和生产,还有较长时间。
比较而言,物理AI如人形机器人,可能是人类更实用的AI工具,在不久的将来就可获得极广泛的应用,正如个人电脑在今天人手一部一样。
美国方面怀疑DeepSeek,而且提出非正式指控。OpenAI告诉媒体,他们已经发现一些“蒸馏”的证据。所谓蒸馏在AI领域是指将较大、功能较强的模型的知识,提炼到较小的模型中,而且较小的模型性能更好,成本更低。蒸馏在AI行业很常见,但OpenAI的服务条款不允许这种做法。OpenAI并未提供证据细节。
此外,美国一些官员也指责DeepSeek“偷窃”,正对其影响开展国家安全调查。除了怀疑和指责,美国军方也在禁用DeepSeek,美国海军要求全体官兵、工作人员不能以任何方式使用DeepSeek模型,包括处理工作或个人日常事务,也不得在该平台上传、下载或传输任何信息。
微软也加入调查,主要是与DeepSeek相关的组织是否获得OpenAI的数据。美国一些领先公司可能在后续采取措施,以防止蒸馏行为的发生。
看来,关于DeepSeek产品的质量、真相、应用,以及与OpenAI产品的竞争,还须要更多观察,等待水落石出。
作者是北京学者