原本需要投入上亿美元才能训练好的大语言模型,被中国一家名不见经传的初创公司给硬生生地压至数百万美元就能训练出来。
这家来自杭州的初创公司深度求索(DeepSeek)12月26日在微信公众号上宣布全新的开源大模型DeepSeek V3,并大方公布53页的技术论文,披露该模型的所有训练细节及评测结果。
评测显示,上述模型在考察百科知识、代码、数学能力等评测集中得分超过阿里云Qwen2.5-72B和Meta的Llama-3.1-405B这两大开源模型,甚至与世界顶尖的闭源模型GPT-4o及Claude-3.5-Sonnet不分伯仲。
尤其在数学领域,DeepSeek V3在美国数学竞赛(AIME 2024)和中国全国高中数学联赛(CNMO 2024)的表现大幅领先所有开源闭源模型。
让一众科技大佬震惊的是,拥有如此强大性能的DeepSeek竟不如外界想象的那么昂贵。
低成本大模型
深度求索公布的技术论文显示,DeepSeek V3的训练成本仅557万6000美元(758万新元),这一数字包括前期的预训练、上下文长度扩展及后续的训练阶段。
DeepSeek V3的训练仅消耗2048张美国科技巨头英伟达特制的弱化版H800晶片,训练总时长也只有278万个GPU小时(即显卡训练LLM所需的处理时间,现实时间约两个月)。
相比之下,Llama-3.1采用1万6000张更先进的H100晶片,都需要训练3080万个GPU小时(约五至六个月)。单单计算晶片的成本,就至少耗资6.4亿美元。
Open AI创始成员之一卡帕斯(Andrej Karpathy)在社交媒体X上说,按照以往经验,这种能力级别的大模型,通常需要近1万6000张GPU,而目前行业内的模型大多使用约10万张GPU。
他指出:“这看起来是一个很好的证明,显示(我们)在数据和算法方面还有很多工作要做。”
与ChatGPT等模型需要投入极大算力训练资料的强化学习架构(Reinforcement Learning)不同,DeepSeek V3采用了自研混合专家(Mixture of Experts)和多头潜在注意力(Multi-head Latent Attention)架构。
在这一架构下,每个任务会自动分配给不同的专家模型解决,就好比一家公司有多位精通不同领域的专家,如财务、技术、市场等,每位专家只会被分配各自领域的工作,有利于优化算力资源的分配。
据各家媒体和网民的实测,DeepSeek V3基本能回答一些简单的数学问题,如“9.8和9.11哪个大”“strawberry里有多少个r”等基本难不倒它。
《华尔街日报》利用今年AIME的15道题进行测试,发现OpenAI最新的o1模型得出答案的速度比深度求索更快。如一个假设的双人博弈问题需用到策略来解字谜,o1模型在10秒内给出答案,深度求索花了两分多钟。
但报道称,大模型能在首次尝试时就给出正确答案已非常了不起,因为文字题常常难倒AI程序。
广发证券的测试结果显示,DeepSeek V3总体能力与其他大模型相当,在逻辑推理和代码生成领域具有自身特点,但在文本生成和数学计算能力方面,未展现出明显优于其他大模型之处。
不过,有网民发现DeepSeek V3会误称自己是ChatGPT,还说自己是OpenAI在2023年推出的GPT-4版本。甚至让它讲个笑话,生成的结果也和ChatGPT一样。
有舆论质疑DeepSeek V3使用ChatGPT输出内容进行训练,但有分析认为,这很可能是在AI生成内容极速增长的情况下,训练数据被污染所致。深度求索尚未就此回应。
深度求索——AI界的拼多多
深度求索是量化巨头幻方量化2023年4月创立的子公司。与月之暗面、智谱AI、百川智能等获得大厂投资的初创公司不同,深度求索与科技巨头间并无直接关系。在硅谷,深度求索被称为“来自东方的神秘力量”。
事实上,幻方在大模型赛道的布局已久。深度求索原是幻方的AI研究部门,该部门在2021年就持有约1万个英伟达A100显卡,这通常被视为训练大模型的算力门槛。
今年5月,创立刚满一年的深度求索就凭借开源模型DeepSeek V2威震四方。该模型在性能上比肩GPT-4 Turbo,价格却只有GPT-4的百分之一,让深度求索收获“AI界拼多多”的名号。
当时,DeepSeek V2每百万tokens(大模型基本单位,1000个tokens约等于500个汉字)输入价格为1元(人民币,下同,0.19新元)、输出价格为2元,而GPT-4 Turbo每百万tokens的输入/输出价格为72元、217元。
如此白菜价迅速引发一场血雨腥风的大模型价格战,迫使字节跳动、腾讯、百度、阿里巴巴等纷纷跟进。
对于这样的结果,深度求索创始人、80后的梁文锋似乎没有意料到。他表示:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼,这个价格也是在成本之上稍微有点利润。”
梁文锋称:“我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”
大模型的新赛道?
让大模型训练更具性价比,是中国AI企业在特殊的环境下所开拓的一个特别新赛道。
自2023年底以来,越来越多AI开发者开始沿用MoE的架构,以更低廉的成本开发大模型。如腾讯2024年11月发布的大模型混元-Large正是采用了MoE架构,需要的算力仅Meta的十分之一,性能却与Meta的Llama 3.1媲美。
此外,由阿里巴巴和腾讯支持的初创公司月之暗面则正专注于强化学习,模仿人类的试错过程,这种方法在提高性能方面对算力的要求较低。
大模型训练的背后,是海量的AI晶片和算力的堆砌。然而,美国政府从2022年起禁止中国企业采购先进AI晶片,包括英伟达最先进的H100等AI晶片。
尽管不少迹象显示,许多中国AI开发者已找到途径规避禁令,采购受限的英伟达晶片,如通过与中间商交易或利用海外数据中心。但在算力、资金面临严苛挑战之下,它们或许只能另辟蹊径,更加着力于软件、算法等优化,尝试以“四两拨千斤”之势突破算力的瓶颈。
如今深度求索的例子显示,即便是在无奈之下开辟出的低成本赛道,也能以极快的速度追赶美国领先的AI模型。这或许也是AI技术日新月异发展的一种体现,在AI领域赛道日益拥挤的当下,无论是美国还是中国企业,都没有停下脚步喘息的空间。