【财新网】开源模型还在不断进化。12月26日,国内私募机构幻方量化旗下的DeepSeek发布新一代开源大模型DeepSeek-v3,DeepSeek称该模型是目前最强的开源大模型,能力与闭源的GPT-4o相近,而训练仅需要2048张英伟达H800AI芯片。作为参考,OpenAI训练最新模型单集群算力规模超过万卡。
具体来看,DeepSeek此次发布的模型为MoE(混合专家架构)架构,即将任务分类后分配给不同的专家模型解决,参数量为6710亿,激活参数为370亿。
DeepSeek提供的评测结果显示,该模型在考察百科知识、代码、数学能力的多个评测集中得分超过阿里云Qwen2.5-72B和Meta的Llama-3.1-405B这两个最强的开源模型;在这些榜单中,DeepSeek-v3得分与OpenAI于2024年5月发布的GPT-4o,以及Anthropic于6月发布的Claude-3.5-Sonnet两个标杆闭源模型。