(香港综合讯)中国一家初创企业成功以较低成本开发出能比拟ChatGPT的大语言模型(LLM)。
总部位于杭州的DeepSeek星期四(12月26日)在微信公众号称,DeepSeek-V3在多项评测成绩中超越了Meta开发的Llama-3.1,并在性能上与OpenAI开发的闭源模型GPT-4o不分伯仲。
据《南华早报》报道,在较高性价比的新训练架构下,DeepSeek的训练成本仅558万美元(758万新元),训练时长仅两个月,远低于GPT-4o逾1亿美元的成本及约三个月的训练时长。
DeepSeek在训练过程中仅使用2048个英伟达为中国市场定制的H800晶片,而据估算GPT-4o至少使用了上万个更先进的H100晶片来训练。美国禁止向中国出口H100晶片。
热度: °
| 返回联合早报首页 可查看更多内容。