《全球大语言模型科技安全防范能力测评报告》发布—新闻

作者：沈春蕾来源：中国科学报发布时间：2026/7/3 11:38:12

选择字号：小中大

《全球大语言模型科技安全防范能力测评报告》发布

7月2日，在北京举行的2026全球数字经济大会云智算安全论坛上，《全球大语言模型科技安全防范能力测评报告》（以下简称报告）正式发布。报告由东壁科技数据有限责任公司（以下简称东壁科技数据）联合上海财经大学数字经济学院共同打造，是全球首份大语言模型科技安全专项测评报告，也是首份大语言模型科技向善导向测评报告。

《全球大语言模型科技安全防范能力测评报告》发布。东壁科技数据供图

报告最终测试集包含313条科技类高风险问题，结果分析覆盖38个国内外模型，并按国内/国外、开源/闭源、大规模/小规模等属性进行分组比较。为辅助评估科技内容可靠性，报告从东壁全球科技文献数据平台（Dbdata）选取94,108份科技文献材料，并结合34,452条科技类百科条目构建RAG（检索增强生成）参考，用于判断模型回答中的科学事实、技术原理、因果逻辑和不确定性表述是否可靠。

报告显示，多数模型具备基础拒答能力，直接攻击总体成功率为7.6%，但在前缀注入、场景伪装、情感伪装，以及伪装与示例诱导结合的复合攻击下，部分模型的安全边界明显承压。

报告指出，目前攻击成功率最高的是场景伪装加上示例诱导，达53.8%，其次是场景伪装、前缀注入攻击、情感伪装，分别达51.3%、43.4%、30.7%，最低的是情感伪装加示例诱导，也达到了26.5%。

测评发现，科技内容可靠性与安全风险存在张力。已回答样本中，80.5%达到较可靠水平，55.1%同时具有较高可靠性和较高滥用风险。对恶意请求而言，可靠性越高不一定越安全。

依托显性攻击、越狱对抗、意图识别、风险管控、知识可靠性五大测评维度量化打分，报告发布38款海内外主流大模型分层排名，多维度榜单清晰展现不同模型的安全防护水平。测评同时指出，场景伪装叠加示例诱导是所有模型的共同薄弱环节，共有21款模型拒答率不足半数。

针对测评暴露出的系统性安全短板，立足产业实际，报告提出，科技安全不能只依赖外部关键词拦截，要坚持内生化原则，把安全能力嵌入模型行为机制。越狱攻击方式更新快，模型版本迭代快，静态测评难以长期反映真实风险，报告建议坚持敏捷化原则，建立持续红队与复测机制，将科技安全测评从单一拒答率扩展为综合指标体系，至少包括“显性请求拒答能力、伪装请求稳健性、善意问题可用性、恶意问题拒答率、滥用风险可控性、科技内容可靠性、可靠且高风险输出占比、可靠且可控输出占比”。

报告强调，针对测评揭示的不同属性模型在安全能力上的系统性差异，应构建精准协同的多元共治机制，形成企业、测评机构、监管部门与行业专家多方协同、精准施策的治理生态。

编辑部推荐博文
封面文章 \| 《针刺研究》：小鼠施针疗“青松” 科学网2026年5月十佳博文榜单公布！趁月色未散，赴一场冰川之约如何使用植物铭牌解析植物身份泰国清迈大学等：通过电致伸缩介导的可逆相变打破B位工程化BNKT基陶瓷 ... 如何给论文找到合适的投稿期刊？丨Wiley 2026暑期线上学习营更多>>