作者:王方 来源: 中国科学报 发布时间:2025-9-16
选择字号:
研究显示论文中的AI文本急剧增加

 

图片来源:Nicolas Economou/NurPhoto

本报讯 美国癌症研究协会(AACR)发现,2024年提交给旗下期刊的稿件中,23%的摘要和5%的同行评议报告可能包含大语言模型(LLM)生成的文本。此外,尽管AACR已要求在投稿时报告人工智能(AI)使用情况,但仅有不到25%的作者遵守了这一规定。近日,该协会在美国芝加哥举行的第十届国际同行评议与科学出版物大会上公布了这一结果。

AACR采用AI工具Pangram检查稿件中的AI痕迹。Pangram对2021年至2024年提交给10种AACR期刊的4.65万篇摘要、46021个章节和29544篇同行评议报告进行了检测,发现自2022年11月OpenAI的聊天机器人ChatGPT公开发布以来,投稿和同行评议报告中疑似AI生成文本的数量有所增加。

分析显示,2023年底,随着AACR禁止同行评议人员使用LLM,AI文本在同行评议报告中的比例下降了50%。但到2024年初,这一比例又增长了1倍多,且仍在持续攀升。

AACR期刊运营与系统主任Daniel Evanko指出:“尽管我们禁止使用LLM进行同行评议,但使用量仍在不断增加,这令人不安。我们计划对所有收到的稿件和同行评议报告进行筛查。”

英国研究诚信公司Clear Skies的创始人Adam Day认为,这款检测工具整体表现十分出色。但他表示:“该工具在假阳性率方面可能存在尚未发现的偏差,需引起重视。”假阳性率是指将人类撰写的文本错误判定为AI生成文本的比例。

Pangram以2021年前的2800万份人类撰写文档进行了训练,其中包括300万篇科学论文,以及“AI镜像”,即LLM生成的文本,在长度、风格和语气上模仿人类撰写的段落。

Pangram首席执行官Max Spero表示,为Pangram添加主动学习模式是一项突破,可有效降低假阳性率。他和团队对工具进行了反复训练,将假阳性率从约1%降至约0.01%。

在2024年公布的一篇预印本中,Spero和同事指出,Pangram的准确率达99.85%,错误率是目前市面上其他AI检测工具的1/38。

在ChatGPT问世前,对AI工具的测试仅在文稿中标记了7篇摘要,且未发现方法章节或同行评议报告存在AI文本。Evanko表示:“自那之后,AI生成文本的检出量稳步上升,且增速远超预期。”

Pangram还能区分不同类型的LLM,包括ChatGPT系列、DeepSeek、LLaMa及Claude。不过,当前版本尚无法区分“完全由AI生成的文本”和“人类撰写后经AI编辑的文本”。

AACR使用Pangram对2024年提交的11959篇摘要、11875个章节及7211篇同行评议报告进行了分析。结果显示,在英语非母语国家的机构中,作者使用LLM的可能性是其他人的两倍多。

研究还发现,2025年提交的论文中,摘要被Pangram标记的论文在同行评议前遭期刊编辑拒绝的可能性是未标记稿件的两倍。此外,章节被标记存在AI生成文本的稿件,被拒稿的可能性更高。

不过,该研究未追踪有多少被标记的稿件最终被期刊发表。此外,研究还表明,当前披露AI使用情况的政策效果有限。

美国西北大学范伯格医学院的Mohammad Hosseini认为,目前无法完全证实被标记的稿件确实使用了AI,不过出版商需要“对违反政策的情况采取行动”。(王方)

《中国科学报》 (2025-09-16 第2版 国际)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
“夸父”遥操作系统测试平台研制成功 新型材料工艺刻蚀高性能微芯片
美资助前景不明之际,多国争相招揽博士生 研究揭示森林涵养水源净化水质作用密码
>>更多
 
一周新闻排行
 
编辑部推荐博文