财新传媒
财新传媒
1111111
财新通行证
T中

曾毅:AI大模型性能变强 安全能力仍有待提升

文|财新 杜知航
2025年06月05日 23:09
即使是经过安全训练的模型,在面对精心设计的技术类恶意查询时,仍存在被突破的可能性
news 原图 国内外大型语言模型(LLMs)的越狱成功率随发布时间的变化。图:前瞻研究院

  【财新网】“人工智能大模型变得越来越强大,但它并没有变得越来越安全,”在2025北京网络安全大会上,北京前瞻人工智能安全与治理研究院(下称“前瞻研究院”)院长、人工智能安全与超级对齐北京市重点实验室主任曾毅指出,即使是今年春节以后新发布的海内外人工智能大模型,也没有由于能力的跃迁,而在安全风险防范方面做得越来越好。

  曾毅介绍,前瞻研究院的灵御大模型攻防安全评估平台研究了2024年6月到2025年3月发布的49个国内外大模型,发现新的大模型能力虽然提升了,但是其攻击成功率并没有下降。因此人工智能能力的提升并不意味着安全能力的提升,在构建安全的人工智能方面还要走更深刻的道路。

国内外大型语言模型(LLMs)的越狱成功率随发布时间的变化(横轴:年月;纵轴:攻击成功率(%);灰色圆圈大小代表大模型的大小)图片来源:前瞻研究院

责任编辑:覃敏 | 版面编辑:李东昊

财新网所刊载内容之知识产权为财新传媒及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

如有意愿转载,请发邮件至hello@caixin.com,获得书面确认及授权后,方可转载。

推荐阅读
财新移动
说说你的看法...
分享
取消
发送
注册
 分享成功

订阅财新网主编精选版电邮>>