美国国防部高级研究项目局(DARPA)的“公开研究与证据信心系统化”(SCORE)项目近日在《自然》发表的多篇论文,报告了历时7年的大型项目的研究结果。他们在对3900篇社会科学论文进行研究后,得出一个令人不安的结论:在对所测试的研究进行重复实验时,只有半数研究结果能够得到验证。
美国斯坦福大学的元科学家John Ioannidis表示,SCORE的研究规模和广度令人印象深刻,但结果“并不令人意外”,因为这与之前小规模研究结果一致。
美国“开放科学中心”(COS)的研究负责人Tim Errington表示,SCORE项目得出的结果,并不意味着科学研究质量低下。COS参与了SCORE项目的部分研究。Errington指出,有些结果无法重复是因为研究人员的失误或极少数的学术不端行为,但SCORE项目发现,大多数情况系是论文提供的数据或实验细节不足,导致实验无法准确重复。
10多年来,研究人员一直在调查科学成果可靠性方面的“危机”。他们发现,许多科学实验无法重复,不仅在社会科学领域,在生物医学领域也是如此。
SCORE团队的865名研究人员对发表在62种期刊上的论文仔细研究。这些论文涵盖了经济学、教育学、心理学和社会学等多个领域。他们通过评估3个特征来检验先前已发表的研究结果是否站得住脚。这3个特征分别是:再现性、稳健性和复制性。
检验一篇论文可信度的一个方法是看其结果能否被再现,即对相同数据进行完全相同的分析能否得出相同的结果。当SCORE团队的一些成员试图再现600 篇论文的数据分析时,发现只有145篇论文提供了足够的细节以供再现,其中只有53%的结果能够被精确重现。不过,Errington表示,许多失败可能是因为SCORE的研究人员需要对程序进行猜测或重新创建原始数据。更开放地共享数据以及更透明地说明方法应该有助于解决这个问题。
SCORE团队还检查了研究的稳健性,即对一篇论文的数据进行另一种合理的分析是否仍得出相同的结论。在接受审查的100篇论文中,约有3/4通过了测试。但有2%的情况下,新的分析得出了与原始论文相反的结论。“这令人担忧。”Errington说,新兴的自动化工具能够对同一数据进行多种合理分析,这种技术被称为“多元宇宙分析”。这有望让研究人员在发表前了解各种方法是否得出相同的结果,从而提高研究的稳健性。
最后,SCORE 对论文的复制性进行了检验。这是3个特征检验任务中最艰巨的一项。研究人员努力重复整个实验,从头开始收集和分析数据。在他们重点关注的164项研究中,只有49%的研究在统计显著性上具有可复制性。这一数字大致与其他类似研究的结果相符。
Errington表示,由于重复实验耗时又费钱,开发包括人工智能(AI)模型在内的自动化分析工具很重要。这些工具能够预测一篇论文是否可靠。SCORE项目的一个目标就是开发出能够为社会科学发现分配置信度分数的自动化工具。
自动化工具的价值通常以人完成任务的效果来衡量,因此SCORE 团队首先检查了人类能否准确预测论文的可重复性。他们测试了两种策略:一种涉及在线市场,另一种则基于结构化的小组聊天和研究人员的独立评估。根据近日公布在预印本服务器MetaArXiv 上的研究,这些策略在预测研究可重复性方面的最高准确率为76%~78%。
SCORE研究人员最初尝试使用自动化工具做类似的事情并不成功。COS的Andrew Tyner牵头开展了一项独立于SCORE的“预测可重复性挑战”,目前该正在测试包括大型语言模型在内的计算工具。挑战获胜者将获得现金奖励。
在去年10月举行的首轮竞赛中,使用AI工具的10支队伍在预测一篇论文能否被重复验证方面的得分低于随机猜测的水平。但在上个月结束的第二轮竞赛中,表现最佳的AI模型准确率达到了68.5%。目前第三轮竞赛正在进行中。
Errington说,这些结果令人鼓舞,表明AI工具终有一天会助力评估科学研究。但这些工具距离实现这一目标还很遥远,“它们还差得远”。
相关论文信息:https://doi.org/10.1038/s41586-025-10078-y
https://doi.org/10.1038/s41586-026-10203-5
https://doi.org/10.1038/s41586-025-09844-9
https://doi.org/10.1038/s41586-026-10251-x
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。