|
|
AI撰写的“山寨”论文充斥期刊 |
出版商查重也很难发现 |

开放数据集和AI工具可以用来批量生产劣质论文。图片来源:Tutatama/Alamy
本报讯 一项近日公布在预印本平台medRxiv的研究对文献数据库进行了分析,发现包括ChatGPT和Gemini在内的文本生成人工智能(AI)工具被用来重写科学论文并生成“山寨”版本,然后冒充新研究发表。该研究指出,在过去4年半里,有400多篇此类论文发表于112种期刊,而且AI生成的生物医学研究论文能够避开出版商的剽窃检查。
该研究警告称,一些个人和论文工厂可能正基于公开可用的健康数据集,利用大语言模型(LLM)批量生产缺乏科学价值的劣质论文。
瑞士弗里堡大学的药理学家Csaba Szabo表示,如果该问题不加以解决,这种基于AI生成论文的方法可能会被用于各种开放获取数据库,从而生成大量劣质论文。这就像打开了潘多拉魔盒,有价值的文献会被大量合成论文淹没。
研究人员筛选了基于美国国家健康与营养检查调查(NHANES)数据库的关联研究,即通过统计学方法将某一变量与健康结果联系起来的研究。NHANES 包含了数千人的健康、饮食和生活方式数据。
研究人员将搜索重点放在“多余”的研究上,即这些研究的变量和健康结果与已有研究相同,但分析的是略有不同的数据子集,比如不同调查年份的结果或者不同年龄、性别的参与者。
研究人员利用美国国家生物技术信息中心开发的免费生物医学文献检索系统PubMed 进行搜索,发现2021年1月至2025年7月有411篇重复研究发表。其中大多数是简单的“重复”案例,即两篇几乎相同的论文。但有的关联研究重复率特别高,其中一些甚至是在同一年发表的。
“这种情况本不该发生,这对科学文献毫无益处。”研究论文作者、英国萨里大学的生物医学科学家Matt Spick说。
其实,大多数出版商都设有查重机制,但Spick等人怀疑有人利用AI工具规避检查。为了测试AI能否利用同一数据集生成多篇论文,研究人员使用ChatGPT和Gemini重写了分析中发现的3篇重复度最高的文章,每篇都报道了一项已经发表过五六次的特定关联。研究人员要求LLM使用每篇论文中的信息和NHANES数据生成一篇能够避开查重的新论文。然后,他们用许多出版商的抄袭检测工具对这些论文进行了分析,结果评分正常,并未达到抄袭标准。
Spick说,这表明LLM 的确“能够生成一些基于已发表研究且不包含任何新内容的重复论文,并且能通过剽窃检查”。
“总之,由AI驱动的重复发表给出版商带来了旷日持久的挑战。”Frontiers出版社研究诚信负责人Elena Vicario表示。(徐锐)
相关论文信息:
https://doi.org/10.1101/2025.09.09.25335401
《中国科学报》 (2025-09-25 第2版 国际)