|
|
|
|
|
FCS 文章精要 | 南京大学钱超等:从人类反馈中学习多样性 |
|
|
论文标题:Diversity from human feedback
期刊:Frontiers of Computer Science
作者:Ren-Jian WANG, Ke XUE, Yu-Tong WANG, Peng YANG, Hao-Bo FU, Qiang FU, Chao QIAN
发表时间:17 Jul 2025
DOI:10.1007/s11704-025-41167-w
微信链接:点击此处阅读微信文章

引用格式:
Ren-Jian WANG, Ke XUE, Yu-Tong WANG, Peng YANG, Hao-Bo FU, Qiang FU, Chao QIAN. Diversity from human feedback. Front. Comput. Sci., 2026, 20(2): 2002320
阅读原文:

问题概述
多样性在集成学习、强化学习、数据生成和组合优化等很多问题中至关重要。如何定义多样性是一个长期存在的问题。一般来说,多样性优化算法通常先将解映射到表示解的特征的行为空间中,然后再该行为空间中定义并优化一个通用的多样性度量。因此,该问题的核心是如何定义行为空间。很多方法直接从数据中获得行为空间,但与人的需求不符。另一些方法要求专家给出行为空间的定义,但这在很多场景中是很困难的。

技术步骤
南京大学钱超教授团队撰写了研究论文:从人类反馈中学习多样性。文章发现尽管人们很难准确定义合适的行为空间,但很容易区分哪些解是相似的、哪些解是多样的。文章提出了从人类反馈中学习多样性的问题,并提出了通用的 DivHF 算法来加以解决。DivHF 通过询问人类反馈来学习一个与人类需求一致的行为模型。学到的行为模型可以与任意距离度量结合来定义多样性,并可以用在任意多样性优化算法中来得到一组在人类需求下多样的解。

实验结果
为了分析 DivHF 的有效性,文章将 DivHF 用在流行的质量-多样性算法 MAP-Elites 中,并在流行的 QDax 环境中进行实验。结果表明与直接数据驱动的方法相比,DivHF 学到的行为与人类的需求明显更一致,并能够让最终得到的解在人类视角下更加多样。


期刊简介
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办,南京大学支持,SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华院士,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐B类期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;两次入选“中国科技期刊卓越行动计划”(一期梯队、二期领军)。

中国学术前沿期刊网
http://journal.hep.com.cn
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。