作者:徐锐 来源: 中国科学报 发布时间:2026-4-3
选择字号:
历时7年对3900篇论文进行分析发现
半数社会科学研究无法复制

 

本报讯 美国国防部高级研究计划局的“开放研究与证据的系统化信心”(SCORE)项目组4月1日在《自然》发表多篇论文,报告了一项历时7年的大型研究的结果。研究人员在对3900篇社会科学论文进行分析后,得出一个令人不安的结论——在进行重复实验时,只有半数研究结果得到了验证。

美国斯坦福大学的John Ioannidis表示,SCORE项目的研究规模和广度令人印象深刻,但结果“并不令人意外”,因为这与之前小规模研究的结果一致。

“这并不意味着科学研究的质量低下。”美国开放科学中心(COS)的研究负责人Tim Errington表示,有些结果无法复制是因为研究人员的失误或罕见的学术不端行为所致,但SCORE项目发现,在许多情况下是因为没有提供足够的数据或细节,造成实验无法准确重复。

10多年来,研究人员一直在调查科学成果可靠性的“危机”。他们发现许多科学实验无法重复——不仅在社会科学领域,在生物医学领域也是如此。

SCORE项目的865名研究人员对发表在62种期刊上的论文进行了研究,内容涵盖经济学、教育学、心理学和社会学等多个领域。他们通过评估3个特征检验已发表的研究结果是否站得住脚,分别是可复现性、稳健性和可复制性。

检验一篇论文可信度的一个方法是看其结果能否再现,即对相同数据进行完全相同的分析能否得出相同的结果。当研究人员试图再现600篇论文的数据分析时,发现只有145篇论文提供了足够的细节,其中仅53%的结果能够被再现。不过,Errington表示,许多失败可能是因为SCORE的研究人员需要对程序进行猜测或重新创建原始数据造成的。更开放地共享数据、更透明地说明使用的方法应该有助于解决这个问题。

SCORE团队还检查了研究的稳健性,即对一篇论文的数据进行另一种合理的分析是否仍能得出相同的结论。在接受审查的100篇论文中,约3/4通过了测试。但在2%的案例中,新分析得出了与原始论文相反的结论。“这令人担忧。”Errington说,新兴的自动化工具对同一数据进行多种合理分析,被称为“多元宇宙分析”。这有望让研究人员在发表论文前了解不同的方法能否得出相同的结果,从而提高研究的稳健性。

最后,研究人员对论文的可复制性进行了检验。他们努力重复整个实验,从头开始收集和分析数据。在关注的164项研究中,只有49%在统计学意义上具有可复制性。这一数字与其他类似研究的结果大致相符。

Errington表示,由于重复实验既耗时又费钱,因此开发包括人工智能(AI)模型在内的自动化分析工具很重要。这些工具能够预测一篇论文是否可靠。SCORE项目的一个目标就是开发出能够为社会科学发现分配置信度分数的自动化工具。

自动化工具的价值通常以人们完成任务的效果来衡量,因此SCORE团队首先检查了人类能否准确预测论文的可复制性。他们测试了两种策略:一种涉及在线市场,另一种则基于结构化的群聊和研究人员的独立评估。根据近日公布于预印本平台MetaArXiv的一项研究,这些方法在预测研究可复制性方面的最高准确率为76%至78%。

SCORE团队最初尝试使用自动化工具做类似的事情,但并不成功。COS的Andrew Tyner牵头开展了一个独立于SCORE的“预测可复制性挑战”项目,目前正在测试包括大语言模型在内的计算工具。挑战获胜者将获得现金奖励。

在去年10月举行的首轮竞赛中,使用AI工具的10支队伍在预测一篇论文能否被复制方面的得分低于随机猜测的水平。但在上个月结束的第二轮竞赛中,表现最佳的AI模型准确率达到68.5%。目前第三轮竞赛正在进行中。

Errington说,这些结果令人鼓舞,表明AI工具终有一天会助力评估科学研究,但我们离实现这一目标还很遥远。(徐锐)

相关论文信息:

https://doi.org/10.1038/s41586-025-10078-y

https://doi.org/10.1038/s41586-026-10203-5

https://doi.org/10.1038/s41586-025-09844-9

https://doi.org/10.1038/s41586-026-10251-x

《中国科学报》 (2026-04-03 第2版 国际)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
红椆实现良种挖掘和高效栽培 逆流而上,小鱼勇攀瀑布
他们大胆假设,小心求证,实现变气成材 黑洞质量存在“禁区”
>>更多
 
一周新闻排行
 
编辑部推荐博文