财新传媒
公司 > 要闻 > 正文

GPT革命|DeepSeek发布新开源模型 称仅用2048卡训练、能力与GPT-4o相当

文|财新 刘沛林
2024年12月27日 22:58
DeepSeek新模型训练成本仅为557.6万美元,较业界平均水平低了近一个数量级
资料图:DeepSeek 公司logo。

  【财新网】开源模型还在不断进化。12月26日,国内私募机构幻方量化旗下的DeepSeek发布新一代开源大模型DeepSeek-v3,DeepSeek称该模型是目前最强的开源大模型,能力与闭源的GPT-4o相近,而训练仅需要2048张英伟达H800AI芯片。作为参考,OpenAI训练最新模型单集群算力规模超过万卡。

  具体来看,DeepSeek此次发布的模型为MoE(混合专家架构)架构,即将任务分类后分配给不同的专家模型解决,参数量为6710亿,激活参数为370亿。

  DeepSeek提供的评测结果显示,该模型在考察百科知识、代码、数学能力的多个评测集中得分超过阿里云Qwen2.5-72B和Meta的Llama-3.1-405B这两个最强的开源模型;在这些榜单中,DeepSeek-v3得分与OpenAI于2024年5月发布的GPT-4o,以及Anthropic于6月发布的Claude-3.5-Sonnet两个标杆闭源模型。

  推荐进入财新数据库,可随时查阅公司股价走势、结构人员变化等投资信息。

责任编辑:屈运栩 | 版面编辑:李东昊
推广

财新网主编精选版电邮 样例
财新网新闻版电邮全新升级!财新网主编精心编写,每个工作日定时投递,篇篇重磅,可信可引。
订阅