光学显微镜能捕捉细胞和器官的显微照片。而它们的重复图像可能出现在科学文献中。
图片来源:Mikhail Tereshchenko/TASS/Getty
3名科学家日前表示,计算机软件现在能快速检测到大量研究文献中的重复图像。
在一项日前发表于预印本服务器bioRxiv的论文中,一个由美国纽约雪城大学机器学习研究人员Daniel Acuna领导的团队报告称,其成功利用一种可处理上万篇生物医学论文的算法寻找重复图像。如果期刊编辑采用类似方法,他们或许能更加简单地在论文发表前检查图像——此事目前需要大量努力并且只有少部分出版物在做。
Acuna 表示,最新成果表明,利用技术检测重复图像是可能的。他并没有公开该算法,因为其存在可能触发错误指控的风险。相反,Acuna和同事计划将其授权给期刊和科研诚信办公室。Acuna介绍说,他已同位于芝加哥的西北大学研究诚信办公室主任Lauran Qualkenbush探讨过该算法。“对于科研诚信办公室来说,这将非常有帮助。”Qualkenbush表示,“我非常希望我所在的办公室将在今年成为试验场,以便弄清楚如何使用Daniel开发的工具。”
2015年年初,Acuna和两位同事利用一种算法从76万篇论文中提取了260多万幅图像。这些文章均来自由美国国立卫生研究院运行的生物医学文献数据库PubMed中的开放获取部分。获得的图像包括细胞、器官和凝胶印迹的显微照片。随后,该算法会将“镜头”移到特征最丰富的区域——颜色和灰度等级变化最大的部分,从而提取每幅图像中具有特色的数字“印迹”。
在清除诸如箭头或者流程图等特征后,研究团队最终获得了约200万幅图像。他们仅对比了来自相同的第一和通讯作者的论文中的图像,以避免每幅图像都相互比较带来的计算负荷。同时,即便图像被旋转、重新调整了大小或者改变了对比度、颜色,该系统仍能挑选出潜在的重复图像。(徐徐)
更多阅读
《自然》网站相关报道(英文)