中国初创企业开发低成本大模型 性能比拟ChatGPT

时间:2024-12-29 07:21内容来源:联合早报 新闻归类:中国聚焦

(香港综合讯)中国一家初创企业成功以较低成本开发出能比拟ChatGPT的大语言模型(LLM)。

总部位于杭州的DeepSeek星期四(12月26日)在微信公众号称,DeepSeek-V3在多项评测成绩中超越了Meta开发的Llama-3.1,并在性能上与OpenAI开发的闭源模型GPT-4o不分伯仲。

据《南华早报》报道,在较高性价比的新训练架构下,DeepSeek的训练成本仅558万美元(758万新元),训练时长仅两个月,远低于GPT-4o逾1亿美元的成本及约三个月的训练时长。

DeepSeek在训练过程中仅使用2048个英伟达为中国市场定制的H800晶片,而据估算GPT-4o至少使用了上万个更先进的H100晶片来训练。美国禁止向中国出口H100晶片。

热度: ° | 返回联合早报首页 可查看更多内容。
赞一下
(0)
0%
赞一下
(0)
0%
相关栏目推荐
推荐内容