近日,2025全球数字经济大会数字安全主论坛暨2025北京网络安全大会在京召开。会上,灵御(PandaGuard)大模型安全攻防评估平台正式发布,该平台创新性地采用多智能体系统建模方法对越狱攻击进行系统性评估。该框架在现有研究基础上实现了重要突破,为构建安全可控的人工智能生态提供了重要保障。
北京前瞻人工智能安全与治理研究院院长、人工智能安全与超级对齐北京市重点实验室主任、中国科学院自动化研究所人工智能伦理与治理中心主任曾毅介绍,灵御平台通过将大语言模型越狱安全概念化为多智能体系统来解决这些挑战。在这个系统中,攻击者、防御者、目标模型和安全判断器相互作用。框架抽象并模块化了每个组件,支持即插即用的实验,包含19种攻击算法、12种防御机制和多种判断策略,对49个开源和闭源大语言模型安全性进行了系统化评估。
“灵御平台的这种设计促进了可控的、可重现的评估,并使得能够对模型安全中的跨组件权衡进行深度分析。”曾毅表示,平台实践证明,世界上提出的所有安全护栏没有一个可以防护住所有的攻击算法,也没有一个攻击算法可以突破所有的安全护栏,“在人工智能安全防护领域还有很长的路要走。”
研究发现,不同时间发布的人工智能大模型并没有随着模型能力的提升而同时获得模型的安全性,近期发布的国内外能力更强大的人工智能模型安全性并没有展现出显著的优势,“一些较新的模型在某些安全指标上可能不如早期版本,这揭示了一个重要事实,即安全性能的提升需要专门的优化投入,而不是模型能力提高的自然副产品。”曾毅说。
曾毅表示:“现在国内外没有一个绝对安全的人工智能大模型,但通过类似灵御平台这样的AI安全护栏加固,每一个大模型都可以做到更安全。”
目前,灵御人工智能安全攻防平台的核心框架已开源开放,研究团队发布了完整的代码、配置和评估结果,以支持大语言模型安全领域的透明和可重现研究。
“安全与治理是人工智能的核心能力,将加速人工智能稳健发展与应用。我们的前沿研究表明,如果把安全与模型能力比作鱼与熊掌,实则可以兼得。没有安全治理框架的人工智能不仅是没有‘刹车’,更是没有‘方向盘’。”曾毅说。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。