作者:徐徐 来源:科学网 www.sciencenet.cn 发布时间:2018/3/7 16:58:02
选择字号:
新算法可检测文献中重复图像

 

光学显微镜能捕捉细胞和器官的显微照片。而它们的重复图像可能出现在科学文献中。

图片来源:Mikhail Tereshchenko/TASS/Getty

3名科学家日前表示,计算机软件现在能快速检测到大量研究文献中的重复图像。

在一项日前发表于预印本服务器bioRxiv的论文中,一个由美国纽约雪城大学机器学习研究人员Daniel Acuna领导的团队报告称,其成功利用一种可处理上万篇生物医学论文的算法寻找重复图像。如果期刊编辑采用类似方法,他们或许能更加简单地在论文发表前检查图像——此事目前需要大量努力并且只有少部分出版物在做。

Acuna 表示,最新成果表明,利用技术检测重复图像是可能的。他并没有公开该算法,因为其存在可能触发错误指控的风险。相反,Acuna和同事计划将其授权给期刊和科研诚信办公室。Acuna介绍说,他已同位于芝加哥的西北大学研究诚信办公室主任Lauran Qualkenbush探讨过该算法。“对于科研诚信办公室来说,这将非常有帮助。”Qualkenbush表示,“我非常希望我所在的办公室将在今年成为试验场,以便弄清楚如何使用Daniel开发的工具。”

2015年年初,Acuna和两位同事利用一种算法从76万篇论文中提取了260多万幅图像。这些文章均来自由美国国立卫生研究院运行的生物医学文献数据库PubMed中的开放获取部分。获得的图像包括细胞、器官和凝胶印迹的显微照片。随后,该算法会将“镜头”移到特征最丰富的区域——颜色和灰度等级变化最大的部分,从而提取每幅图像中具有特色的数字“印迹”。

在清除诸如箭头或者流程图等特征后,研究团队最终获得了约200万幅图像。他们仅对比了来自相同的第一和通讯作者的论文中的图像,以避免每幅图像都相互比较带来的计算负荷。同时,即便图像被旋转、重新调整了大小或者改变了对比度、颜色,该系统仍能挑选出潜在的重复图像。(徐徐)

更多阅读

《自然》网站相关报道(英文)

 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表科学网观点。 
SSI ļʱ
相关新闻 相关论文

图片新闻
大规模基因研究重绘开花植物的生命之树 彭慧胜院士团队把“充电宝”做成衣服
缓解肠易激综合征  饮食比服药更有效 银河系发现巨大黑洞
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文
 
论坛推荐