曾毅：AI大模型性能变强安全能力仍有待提升

文｜财新杜知航

2025年06月05日 23:09

即使是经过安全训练的模型，在面对精心设计的技术类恶意查询时，仍存在被突破的可能性

: 国内外大型语言模型（LLMs）的越狱成功率随发布时间的变化。图：前瞻研究院

相关报道: 【财新周刊】财新周刊｜特别报道：中国AI大模型开闸; 涉围标串标奇安信旗下公司被暂停网络安全部队采购资格; Anthropic发大模型 Claude 4 能持续工作数小时完成千个步骤; 谷歌Gemini大模型再更新 AI搜索添新功能以应对竞争; OpenAI呼吁美国联合盟友孤立中国AI大模型称DeepSeek和中国政府关联

　　【财新网】“人工智能大模型变得越来越强大，但它并没有变得越来越安全，”在2025北京网络安全大会上，北京前瞻人工智能安全与治理研究院（下称“前瞻研究院”）院长、人工智能安全与超级对齐北京市重点实验室主任曾毅指出，即使是今年春节以后新发布的海内外人工智能大模型，也没有由于能力的跃迁，而在安全风险防范方面做得越来越好。

　　曾毅介绍，前瞻研究院的灵御大模型攻防安全评估平台研究了2024年6月到2025年3月发布的49个国内外大模型，发现新的大模型能力虽然提升了，但是其攻击成功率并没有下降。因此人工智能能力的提升并不意味着安全能力的提升，在构建安全的人工智能方面还要走更深刻的道路。

国内外大型语言模型（LLMs）的越狱成功率随发布时间的变化（横轴：年月；纵轴：攻击成功率（%）；灰色圆圈大小代表大模型的大小）图片来源：前瞻研究院

　　推荐进入财新数据库，可随时查阅公司股价走势、结构人员变化等投资信息。

　　财新机器人产业指数(RII)已发布，点击了解行业动态

责任编辑：覃敏 | 版面编辑：李东昊

更多更快财经资讯请看财新一线

曾毅：AI大模型性能变强安全能力仍有待提升

推荐阅读

图片推荐

视听推荐

编辑推荐

财新名家

视频

博客

最新文章

English - Caixin Global

In Depth: The Unfinished Transformation of China’s LGFVs

In Depth: From Skies to Shackles, HNA Founder Chen Feng Sentenced to 12 Years in Prison

U.S. Details Steep Port Fees on China-Linked Vessels Starting Oct. 14

The Shady Deals Behind a Veteran Banker’s Suspended Death Sentence

Dongfeng Spins Off EV Brand Voyah for Independent Hong Kong Listing

曾毅：AI大模型性能变强 安全能力仍有待提升

推荐阅读

图片推荐

视听推荐

编辑推荐

最新文章

English - Caixin Global

曾毅：AI大模型性能变强安全能力仍有待提升