本报讯 一场即将召开的国际人工智能(AI)会议里,21%的稿件评审被发现是由AI生成的。
据《自然》报道,许多学者对提交给2026年“国际学习表征会议”(ICLR)的稿件所收到的同行评审表示担忧。他们在社交媒体上指出,其稿件评审中出现了臆造的参考文献,且对其工作给予了冗长且模糊的反馈。据悉,ICLR是机器学习专家的年度聚会。ICLR 2026将于明年4月在巴西里约热内卢举行,超过1.1万名AI研究人员将出席此次会议。
美国卡内基·梅隆大学的AI研究员Graham Neubig是出席人员之一。他收到了疑似由大型语言模型(LLM)生成的同行评审报告。他说这些报告“非常冗长”,其要求进行的分析也不是“审稿人通常会要求的标准统计分析”。
但Neubig需要证据。于是,他在社交媒体上发帖,希望有检测工具能帮助识别会议投稿的同行评审是否由AI生成。第二天,他收到美国科技公司潘格拉姆实验室(Pangram)首席执行官Max Spero的回复,该公司开发了检测AI生成文本的工具。Pangram检测了所有提交给ICLR 2026的19490篇研究论文和75800份同行评审。
Pangram的分析显示,约21%的ICLR同行评审完全由AI生成,超过一半有使用AI的迹象。Pangram已将分析结果发布在网上。
对于许多收到ICLR评审意见的研究人员来说,Pangram的分析证实了他们的怀疑。丹麦哥本哈根大学的计算机科学家Desmond Elliott说,他收到的3份评审中,有一份似乎“没有抓住论文的重点”,并且有一些奇怪的表达。
目前,一些作者已经撤回了投稿。
ICLR 2026的情况凸显了同行评审人为跟上快速发展的研究领域而面临的巨大压力。美国康奈尔大学的计算机科学家、ICLR 2026高级项目主席Bharath Hariharan说,平均每位ICLR评审人被分配了5篇论文,必须在两周内完成评审,这是巨大的负荷,远高于过去的工作量。Neubig补充说:“目前在AI和机器学习领域,我们在评审方面面临危机,因为该领域论文在过去5年呈指数级增长。”(李木子)
《中国科学报》 (2025-12-03 第1版 要闻)