来源:Frontiers of Computer Science 发布时间:2026/1/12 15:29:06
选择字号:
FCS 文章精要 | 哈尔滨工业大学赵妍妍等:大语言模型安全对齐的综合评估

论文标题:The gains do not make up for the losses: a comprehensive evaluation for safety alignment of large language models via machine unlearning

期刊:Frontiers of Computer Science

作者:Weixiang ZHAO, Yulin HU, Xingyu SUI, Zhuojun LI, Yang DENG, Yanyan ZHAO, Bing QIN, Wanxiang CHE

发表时间:26 Dec 2024

DOI:10.1007/s11704-024-41099-x

微信链接:点击此处阅读微信文章

引用格式:

Weixiang ZHAO, Yulin HU, Xingyu SUI, Zhuojun LI, Yang DENG, Yanyan ZHAO, Bing QIN, Wanxiang CHE. The gains do not make up for the losses: a comprehensive evaluation for safety alignment of large language models via machine unlearning. Front. Comput. Sci., 2026, 20(2): 2002319

阅读原文:

问题概述

针对大模型遗忘学习评价体系不全面的问题,哈尔滨工业大学赵妍妍教授团队撰写了研究论文:大语言模型安全对齐的综合评估。

文章旨在提出面向大模型遗忘学习全面的评价体系,评估包括大模型安全性能、过度安全和通用能力三个方面,提升大模型遗忘学习评估的全面性。

技术步骤

对于经过遗忘学习技术提升安全性能的大模型,全面衡量其在安全能力方面的提升、过度安全方面是否加剧以及通用的指令跟随能力是否受到损害。

实验结果

大量实验结果表明,通过本文提出的测试基准,当前经过遗忘学习技术提升安全性能的大模型,在面对原始有害输入和越狱输入时均能够展现出性能提升,但同时也加剧了过度安全现象和损害了通用能力。

期刊简介

Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办,南京大学支持,SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华院士,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐B类期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;两次入选“中国科技期刊卓越行动计划”(一期梯队、二期领军)

中国学术前沿期刊网

http://journal.hep.com.cn

 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
猴痘会再次在全球蔓延吗? 请投票!科学网2025年度十佳博文评选启动
更全更精细,首个千万级免疫细胞图谱发布 2025年度国内十大医学科技热点
>>更多
 
一周新闻排行
 
编辑部推荐博文