7月2日,在北京举行的2026全球数字经济大会云智算安全论坛上,《全球大语言模型科技安全防范能力测评报告》(以下简称报告)正式发布。报告由东壁科技数据有限责任公司(以下简称东壁科技数据)联合上海财经大学数字经济学院共同打造,是全球首份大语言模型科技安全专项测评报告,也是首份大语言模型科技向善导向测评报告。
《全球大语言模型科技安全防范能力测评报告》发布。东壁科技数据供图
报告最终测试集包含313条科技类高风险问题,结果分析覆盖38个国内外模型,并按国内/国外、开源/闭源、大规模/小规模等属性进行分组比较。为辅助评估科技内容可靠性,报告从东壁全球科技文献数据平台(Dbdata)选取94,108份科技文献材料,并结合34,452条科技类百科条目构建RAG(检索增强生成)参考,用于判断模型回答中的科学事实、技术原理、因果逻辑和不确定性表述是否可靠。
报告显示,多数模型具备基础拒答能力,直接攻击总体成功率为7.6%,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。
报告指出,目前攻击成功率最高的是场景伪装加上示例诱导,达53.8%,其次是场景伪装、前缀注入攻击、情感伪装,分别达51.3%、43.4%、30.7%,最低的是情感伪装加示例诱导,也达到了26.5%。
测评发现,科技内容可靠性与安全风险存在张力。已回答样本中,80.5%达到较可靠水平,55.1%同时具有较高可靠性和较高滥用风险。对恶意请求而言,可靠性越高不一定越安全。
依托显性攻击、越狱对抗、意图识别、风险管控、知识可靠性五大测评维度量化打分,报告发布38款海内外主流大模型分层排名,多维度榜单清晰展现不同模型的安全防护水平。测评同时指出,场景伪装叠加示例诱导是所有模型的共同薄弱环节,共有21款模型拒答率不足半数。
针对测评暴露出的系统性安全短板,立足产业实际,报告提出,科技安全不能只依赖外部关键词拦截,要坚持内生化原则,把安全能力嵌入模型行为机制。越狱攻击方式更新快,模型版本迭代快,静态测评难以长期反映真实风险,报告建议坚持敏捷化原则,建立持续红队与复测机制,将科技安全测评从单一拒答率扩展为综合指标体系,至少包括“显性请求拒答能力、伪装请求稳健性、善意问题可用性、恶意问题拒答率、滥用风险可控性、科技内容可靠性、可靠且高风险输出占比、可靠且可控输出占比”。
报告强调,针对测评揭示的不同属性模型在安全能力上的系统性差异,应构建精准协同的多元共治机制,形成企业、测评机构、监管部门与行业专家多方协同、精准施策的治理生态。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。