GPT革命｜DeepSeek发布新开源模型称仅用2048卡训练、能力与GPT-4o相当

文｜财新刘沛林

2024年12月27日 22:58

DeepSeek新模型训练成本仅为557.6万美元，较业界平均水平低了近一个数量级

: 资料图：DeepSeek 公司logo。

相关报道: ChatGPT两周年：AI赋能还是颠覆; 对标特斯拉？理想汽车市场承压转型AI寻找突破口; GPT革命｜专访MiniMax闫俊杰：AI内容消费价值大于工具海螺AI全球月活近1000万; GPT革命｜马斯克xAI再融资60亿美元英伟达AMD继续参投; GPT革命｜专访百川智能茹立云：创业需避开互联网厂商商业化半年签约订单数亿元

　　【财新网】开源模型还在不断进化。12月26日，国内私募机构幻方量化旗下的DeepSeek发布新一代开源大模型DeepSeek-v3，DeepSeek称该模型是目前最强的开源大模型，能力与闭源的GPT-4o相近，而训练仅需要2048张英伟达H800AI芯片。作为参考，OpenAI训练最新模型单集群算力规模超过万卡。

　　具体来看，DeepSeek此次发布的模型为MoE（混合专家架构）架构，即将任务分类后分配给不同的专家模型解决，参数量为6710亿，激活参数为370亿。

　　DeepSeek提供的评测结果显示，该模型在考察百科知识、代码、数学能力的多个评测集中得分超过阿里云Qwen2.5-72B和Meta的Llama-3.1-405B这两个最强的开源模型；在这些榜单中，DeepSeek-v3得分与OpenAI于2024年5月发布的GPT-4o，以及Anthropic于6月发布的Claude-3.5-Sonnet两个标杆闭源模型得分齐平。

　　推荐进入财新数据库，可随时查阅公司股价走势、结构人员变化等投资信息。

　　财新机器人产业指数(RII)已发布，点击了解行业动态

责任编辑：屈运栩 | 版面编辑：李东昊

更多更快财经资讯请看财新一线

GPT革命｜DeepSeek发布新开源模型称仅用2048卡训练、能力与GPT-4o相当

推荐阅读

图片推荐

视听推荐

编辑推荐

财新名家

视频

博客

最新文章

English - Caixin Global

In Depth: The Unfinished Transformation of China’s LGFVs

In Depth: From Skies to Shackles, HNA Founder Chen Feng Sentenced to 12 Years in Prison

U.S. Details Steep Port Fees on China-Linked Vessels Starting Oct. 14

The Shady Deals Behind a Veteran Banker’s Suspended Death Sentence

Dongfeng Spins Off EV Brand Voyah for Independent Hong Kong Listing

GPT革命｜DeepSeek发布新开源模型 称仅用2048卡训练、能力与GPT-4o相当

推荐阅读

图片推荐

视听推荐

编辑推荐

最新文章

English - Caixin Global

GPT革命｜DeepSeek发布新开源模型称仅用2048卡训练、能力与GPT-4o相当