FCS 文章精要 | 哈尔滨工业大学赵妍妍等：大语言模型安全对齐的综合评估—论文

来源：Frontiers of Computer Science 发布时间：2026/1/12 15:29:06

选择字号：小中大

FCS 文章精要 | 哈尔滨工业大学赵妍妍等：大语言模型安全对齐的综合评估

论文标题：The gains do not make up for the losses: a comprehensive evaluation for safety alignment of large language models via machine unlearning

期刊：Frontiers of Computer Science

作者：Weixiang ZHAO, Yulin HU, Xingyu SUI, Zhuojun LI, Yang DENG, Yanyan ZHAO, Bing QIN, Wanxiang CHE

发表时间：26 Dec 2024

DOI：10.1007/s11704-024-41099-x

微信链接：点击此处阅读微信文章

引用格式：

Weixiang ZHAO, Yulin HU, Xingyu SUI, Zhuojun LI, Yang DENG, Yanyan ZHAO, Bing QIN, Wanxiang CHE. The gains do not make up for the losses: a comprehensive evaluation for safety alignment of large language models via machine unlearning. Front. Comput. Sci., 2026, 20(2): 2002319

阅读原文：

问题概述

针对大模型遗忘学习评价体系不全面的问题，哈尔滨工业大学赵妍妍教授团队撰写了研究论文：大语言模型安全对齐的综合评估。

文章旨在提出面向大模型遗忘学习全面的评价体系，评估包括大模型安全性能、过度安全和通用能力三个方面，提升大模型遗忘学习评估的全面性。

技术步骤

对于经过遗忘学习技术提升安全性能的大模型，全面衡量其在安全能力方面的提升、过度安全方面是否加剧以及通用的指令跟随能力是否受到损害。

实验结果

大量实验结果表明，通过本文提出的测试基准，当前经过遗忘学习技术提升安全性能的大模型，在面对原始有害输入和越狱输入时均能够展现出性能提升，但同时也加剧了过度安全现象和损害了通用能力。

期刊简介

Frontiers of Computer Science （FCS）是由教育部主管、高等教育出版社和北京航空航天大学共同主办，南京大学支持，SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊，月刊，全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华院士，共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库（CSCD）核心库等收录，为 CCF 推荐B类期刊；两次入选“中国科技期刊国际影响力提升计划”；入选“第4届中国国际化精品科技期刊”；两次入选“中国科技期刊卓越行动计划”（一期梯队、二期领军）。

中国学术前沿期刊网

http://journal.hep.com.cn

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
基金申请季，这里有2份攻略请查收！科学网2026年1月十佳博文榜单公布！硬着头皮读文摘，理直气壮写时评 300年踏入新世界：卡尔·林奈1732年的北方之旅从春晚机器人看中国科技的破局与新生狼山南麓白垩纪蛇绿岩套发现简介更多>>