作者:沈春蕾 来源:中国科学报 发布时间:2026/7/3 11:38:12
选择字号:
《全球大语言模型科技安全防范能力测评报告》发布

 

7月2日,在北京举行的2026全球数字经济大会云智算安全论坛上,《全球大语言模型科技安全防范能力测评报告》(以下简称报告)正式发布。报告由东壁科技数据有限责任公司(以下简称东壁科技数据)联合上海财经大学数字经济学院共同打造,是全球首份大语言模型科技安全专项测评报告,也是首份大语言模型科技向善导向测评报告。

《全球大语言模型科技安全防范能力测评报告》发布。东壁科技数据供图

报告最终测试集包含313条科技类高风险问题,结果分析覆盖38个国内外模型,并按国内/国外、开源/闭源、大规模/小规模等属性进行分组比较。为辅助评估科技内容可靠性,报告从东壁全球科技文献数据平台(Dbdata)选取94,108份科技文献材料,并结合34,452条科技类百科条目构建RAG(检索增强生成)参考,用于判断模型回答中的科学事实、技术原理、因果逻辑和不确定性表述是否可靠。

报告显示,多数模型具备基础拒答能力,直接攻击总体成功率为7.6%,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。

报告指出,目前攻击成功率最高的是场景伪装加上示例诱导,达53.8%,其次是场景伪装、前缀注入攻击、情感伪装,分别达51.3%、43.4%、30.7%,最低的是情感伪装加示例诱导,也达到了26.5%。

测评发现,科技内容可靠性与安全风险存在张力。已回答样本中,80.5%达到较可靠水平,55.1%同时具有较高可靠性和较高滥用风险。对恶意请求而言,可靠性越高不一定越安全。

依托显性攻击、越狱对抗、意图识别、风险管控、知识可靠性五大测评维度量化打分,报告发布38款海内外主流大模型分层排名,多维度榜单清晰展现不同模型的安全防护水平。测评同时指出,场景伪装叠加示例诱导是所有模型的共同薄弱环节,共有21款模型拒答率不足半数。

针对测评暴露出的系统性安全短板,立足产业实际,报告提出,科技安全不能只依赖外部关键词拦截,要坚持内生化原则,把安全能力嵌入模型行为机制。越狱攻击方式更新快,模型版本迭代快,静态测评难以长期反映真实风险,报告建议坚持敏捷化原则,建立持续红队与复测机制,将科技安全测评从单一拒答率扩展为综合指标体系,至少包括“显性请求拒答能力、伪装请求稳健性、善意问题可用性、恶意问题拒答率、滥用风险可控性、科技内容可靠性、可靠且高风险输出占比、可靠且可控输出占比”。

报告强调,针对测评揭示的不同属性模型在安全能力上的系统性差异,应构建精准协同的多元共治机制,形成企业、测评机构、监管部门与行业专家多方协同、精准施策的治理生态。

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
鼎湖山保护区:科技引领人与自然和谐共生 大学课堂在AI时代的N种可能
南京大学团队实现高维光子量子门突破 普通显微镜也能精准定位氨基酸
>>更多
 
一周新闻排行
 
编辑部推荐博文