|
|
发现心理学论文中的错误 |
一种开源算法可标记心理学论文中的统计错误 |
最新研究发现,Statcheck在95%的情形下能获得正确结果,但批评者并未被说服。
图片来源:ERHUI1979/ISTOCKPHOTO
当荷兰研究人员研发出一种旨在标记心理学论文中统计错误的开源算法时,科研界对此作出的反应褒贬不一,尤其是在该免费工具读取了上万篇论文并将结果在网上公布后。很多人质疑这个名为statcheck的算法的准确性,或者认为该做法相当于在公开羞辱科研界。
但实际上,statcheck的研发者日前在一篇发表于预印本服务器PsyArXiv的研究中宣称,该算法可在超过95%的情形下获得正确结果。一些外部人士对此表示赞同,并且呼吁将其作为常规应用。“最新论文令人信服地表明,statcheck确实很靠得住。”格罗宁根大学心理计量学家Casper Albers表示。不过,其他人仍未被说服。
Statcheck是由蒂尔堡大学方法学家Michèle Nuijten和阿姆斯特丹大学心理计量学家Sacha Epskamp在2015年研发的。它能搜索论文,以寻找按照美国心理学协会(APA)规定的标准格式发表的数据,并且利用它们计算具有争议性但被广泛用于测量统计显著性的p值。如果计算得出的p值同研究人员报告的结果不同,该工具会将其标记为“不一致”;如果报告的p值低于常用的0.05阈值而statcheck获得的数据并没有,或者与之相反,它会将其标记为“极其不一致”并且可能对文章结论提出质疑。错误的p值越来越被视为心理学的一个大问题。Nuijten认为,大多数错误源于人类,但statcheck无法区分不端行为和无意的错误。
在一项2015年的研究中,Nuijten和同事利用statcheck读取了3万余篇心理学论文,然后发现一半论文至少含有一处数据上的不一致,1/8的论文出现“极其不一致”的现象。去年,Nuijten在蒂尔堡大学的同事Chris Hartgerink利用statcheck分析了5万多项心理学研究报告的近70万条结果,并将其自动公布在发表后同行评议网站PubPeer上。同时,论文作者收到了邮件通知。一些研究人员对这种反馈表示欢迎,但德国心理学会(DGP)表示,公布的内容引发了不必要的声誉损害。普林斯顿大学心理学家、心理科学协会前任会长Susan Fiske将此项努力视为“一种骚扰”。类似研究仅开展了一次。自此以后,研究人员再未公开利用statcheck读取论文。
Statcheck是否公平部分取决于它的准确性。“如果事实证明自动检查在99%的情形下是准确的,那么它确实很不错。如果准确度仅有90%,我会对现有流程非常不满意。”牛津大学发育神经心理学家Dorothy Bishop曾对《撤稿观察》网站表示。
在最新发表的论文中,研究人员利用statcheck分析了49篇文章。而在一篇2011年发表的论文中,Nuijten的同事曾手动核实了这些文章中的统计数据不一致问题。他们发现,该算法的“真阳性率”在85.3%~100%,“真阴性率”在96%~100%。整体来看,这些数据意味着statcheck在96.2%~99.9%的情形下从提取的结果中获得了正确答案。
研究人员还尝试解决另一种批评意见:当研究人员将合理的统计修正应用到数据中时,statcheck经常出现错误。通过寻找特定关键词,研究人员发现,这类修正比其在此前论文中估计的更加普遍。同时,修正数据并非不一致性的主要源头。
凯泽斯劳滕大学实验心理学家Thomas Schmidt对此持谨慎态度。他在日前发表于PsyArXiv的评论中指出,由于statcheck仅在APA风格的报告中起作用,因此该算法仅能计算61%的统计数据测试中的p值。根据Schmidt的计算,statcheck的“灵敏度很差”,仅为52%。“它无法作为一种研究工具被普遍接受,当然也无法用于对海量论文进行的纯自动扫描。”对此,Nuijten表示,其团队从未宣称statcheck能处理所有报告的统计数据,最新研究的重点在于核实该算法在处理其识别出的数据时表现得有多好。
DGP秘书、马尔堡大学心理学家Mario Gollwitzer如今对该算法表示信服。他认为,尽管论文永远不应当仅基于statcheck获得的结果而被驳回,“但我们相信,作者应当在将论文提交给杂志前利用该算法扫描文章内容”。
一些人已经这样做了。Nuijten介绍说,自从开发者在2016年9月将statcheck作为一款网站应用程序发布,已有1.8万余名访客获取了该程序。“statcheck能非常迅速地检查很多统计数据,并且辨别出可能存在问题的数据子集。”位于弗吉尼亚州的开放科学中心执行理事Brian Nosek,表示,“这是一种巨大的效率收益。”
一些新的心理学期刊已将statcheck作为其同行评议过程的一部分。Nuijten则设想将该算法扩展到其他学科,比如生物医学科学。“Statcheck并不完美。”它的开发者自豪地表示,“但已非常接近完美。”(宗华编译)
更多阅读
《科学》相关报道(英文)