科学网—AI生成的科学假说在接受检验时不如人类

作者：文乐乐来源：中国科学报发布时间：2025-8-28

选择字号：小中大

AI生成的科学假说在接受检验时不如人类

图片来源：EOLINTANG

本报讯 全球范围内，人工智能（AI）正在推动科学研究加速发展，部分原因在于它使一项曾被认为是人类独有的创造活动——假说的生成自动化了。但当研究人员在现实世界对这些假说进行测试并让人类评估人员对结果进行比较后发现，AI生成的假说仍然不如人类生成的假说，但两者间差距不大，这种落后局面可能不会持续太久。这是此类研究中迄今规模最大的一项。相关论文近日公布于预印本平台arXiv。

如今，AI可以迅速从海量科研文献中找出空白领域，标记出科学家可能忽略的、富有成效的研究方向。比如今年5月，美国FutureHouse公司的科学家宣布发现了一种可能用于治疗视力丧失的药物。其中的许多环节——从文献检索、假说生成到数据分析，都是由团队构建的AI完成的。

但是，前述论文指出，AI系统有时会美化生成的假说，过分强调它们的潜在重要性。论文作者、美国斯坦福大学计算机科学博士生司程磊（音）说，研究还表明，AI在判断想法的可行性方面不如人类。

这项研究得到了赞誉，但也有人对结果持谨慎态度，部分原因在于判断原创性是非常困难的。“新颖性是科学评估的一个难题，也是同行评审中最困难的任务之一。”美国华盛顿大学数据科学家Jevin West说。

该研究检验了关于自然语言处理（NLP）的假说。NLP是支撑大语言模型（LLM）等AI工具的基础技术。研究人员让美国初创公司Anthropic开发的LLM Claude 3.5 Sonnet分析Semantic Scholar数据库中的NLP研究，并生成了数千个假说，并对其原创性进行排名。随后，研究人员付费聘请NLP专家提出与之竞争的假说。

团队同时招募了另一组计算机科学家，让他们在不知情的情况下，评判这两组假说的新颖性和可行性。结果显示，他们给AI的假说打的分更高。这是该团队在2024年报告的一个出人意料的发现，当时引起了媒体的关注。

但在研究的第二阶段，情况发生了改变。研究团队通过社交媒体和其他途径聘请了一组新的NLP专家，对24个AI生成的假说和19个人类假说进行实验验证。这些实验检验了提出的算法将如何改进LLM的某一方面，例如语言翻译能力。之后团队再次让专家评判假说的新颖性，在10分制下，AI假说的新颖性平均得分从5.382骤降至3.406，而人类假说的得分仅从4.596下降到3.968。

司程磊说，上述结果表明检验假说的重要性。“如果只看假说，一些评审专家可能会被某些听起来令人兴奋的词汇所迷惑，但当实际执行代码或对其解读后，就会意识到，这只是一种对已知技术的新颖表述。”这一担忧在2月进行的一项针对50个AI假说的研究中得到了呼应：评估人员判断其中1/3为抄袭，另有1/3部分借鉴了先前的工作。

美国艾伦AI研究所首席科学家Dan Weld表示，这项研究“非常令人兴奋”，但也有局限性。第一，该研究依赖一个LLM基于大量相关研究生成假说，而没有用多种AI工具搜索知名专家撰写的高被引研究论文。第二，人类不一定是新颖性的最佳评判者。先前的研究发现，研究人员在给同一篇计算机科学论文评分时，分歧很大。West补充说，一个实验的新颖性最好在经过多年引用的积累后再进行评估。

尽管存在疑问，但AI和人类的得分非常接近，这在几年前甚至会让研究人员感到震惊。Weld说，如果最终AI提出了大部分假说，而科学家只能完成无法用机器人实现的那部分实验，他不会惊讶。但West说，如果真是这样，那就失去了“科学中最有趣的一部分”，留给科学家的只是“令人头脑麻木”的实验室工作。“科学是一个涉及人类的社会过程。你把人类的因素拿走，那还剩下什么呢？”（文乐乐）

相关论文信息：

https://doi.org/10.48550/arXiv.2506.20803

《中国科学报》 (2025-08-28 第2版国际)

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！诺奖提名，生化先驱——吴宪院士提出与拓展蛋白变性理论空与不空温柔以待的日子 “香农信息与语义无关”与“人机信息与语义有关”的核心逻辑更多>>