AI生成大量劣质重复性研究，查重也能轻松通过—新闻

作者：许悦来源：中国科学报发布时间：2025/9/24 17:08:21

选择字号：小中大

滥竽充数！

AI生成大量劣质重复性研究，查重也能轻松通过

9 月12 日，一项公布在预印本平台medRxiv 的研究对文献数据库分析后发现，包括ChatGPT和Gemini在内的文本生成人工智能（AI）工具被用来改写科学论文并生成抄袭版本，充作新的研究成果。该研究指出，在过去4.5 年间，有400多篇此类论文发表于112种期刊，而且AI生成的生物医学研究论文能够避开出版商的查重。

该研究警告称，一些个人和论文工厂可能正基于公开可用的健康数据集，利用大型语言模型（LLM）批量生产缺乏科学价值的劣质论文。

瑞士弗里堡大学的药理学家Csaba Szabo表示，如果该问题不加以解决，这种基于AI生成论文的方法可能会被应用于各种开放获取数据库，从而生成大量劣质论文。这就像打开了潘多拉魔盒，有价值的文献会被大量合成论文淹没。

Szabo等人筛选了基于美国国家健康与营养检查调查（NHANES）数据库的关联研究，即通过统计学方法将某一变量与健康结果联系起来的研究。NHANES 是包含了数千人的健康、饮食和生活方式数据。

研究人员将搜索重点放在重复研究上，即这些研究的变量与健康结果与已有研究相同，但分析的是略有不同的数据子集，比如不同调查年份的结果或者不同年龄、性别的参与者。

研究人员利用美国国家生物技术信息中心开发的免费生物医学文献检索系统PubMed 进行搜索，发现2021年1月至2025年7月有411篇重复研究发表。其中大多数是简单的“重复”案例，即两家出版商发表了几乎相同的论文。但有3个协会的重复研究数量特别多，每家都有6篇，其中一些甚至是在同一年发表的。

“这种情况本不该发生，这对科学文献系统健康毫无益处。”研究论文作者、英国萨里大学的生物医学科学家Matt Spick说。

其实，大多数出版商都设有查重机制，Spick等人怀疑有人利用AI工具规避检查。为了测试AI能否利用同一数据集生成多篇论文，研究人员使用ChatGPT和Gemini重写了分析中发现的3篇重复度最高的文章，每篇都报道了一种已经发表过五六次的特定关联研究。研究人员要求LLM使用每篇论文中的信息以及NHANES数据生成一篇能够避开查重的新论文。然后，他们用许多出版商的抄袭检测工具对这些论文进行分析，结果评分正常，并未达到抄袭标准。

Spick说，这表明LLM 的确“能够生成一些基于已发表研究的不包含任何新内容的重复论文，并且能通过查重。

“总之，由AI驱动的重复发表给出版商带来了旷日持久的挑战。”Frontiers出版社研究诚信负责人Elena Vicario表示。

相关论文信息：https://doi.org/10.1101/2025.09.09.25335401

https://doi.org/10.1101/2025.07.07.25331008

编辑部推荐博文
你离“高大上”的论文插图可能只差这一步…… 科学网2025年8月十佳博文榜单公布！ MDPI 2025年同行评审周精彩回顾帮助医学专业人士将研究成果快速在高质量的国际期刊上发表这10个神经科学研究方向亟需更多关注中国林科院：溶剂调控助力HMF精准转化新策略更多>>