文本挖掘工具找出 “隐藏数据”—新闻

作者：宗华来源：科学网 www.sciencenet.cn 发布时间：2017/6/19 21:37:56

选择字号：小中大

文本挖掘工具找出 “隐藏数据”

图片来源：yahoo.com

忘了释放你的数据？一个名为“完全开放”的工具能查出本应公开但被锁定的在线研究数据集实例。一项日前发表于美国《科学公共图书馆·生物学》杂志的研究显示，上述工具已标记出遗传学研究领域的上百个此类实例。

当相关研究正在接受同行评议时，科学家通常把“隐藏”数据放到网络存储库中，随后再将数据集公开。例如，有两个流行的存储库——“基因表达大棚车”（GEO）和“序列片段归档”（SRA）为研究人员提供使遗传学数据处于隐藏状态的选择。两者均由美国国家生物技术信息中心管理，并且要求当论文发表时，数据集应当被公开。不过，华盛顿大学计算机科学家Maxim Grechkin介绍说，在实践中，科学家通常忘记这么做。

为此，Grechkin和合作者开发了聚焦GEO和SRA的“完全开放”工具，旨在寻找未开放的数据。该工具会扫描论文，以寻找涉及独特数据集识别码（利用GEO或SRA代码格式）的内容。Grechkin表示，它还能被调整用于查询其他存储库。

一旦“完全开放”识别出有效代码，便会搜寻相关存储库，以确定该数据集是否被公开。它会将本应公开但实际没有的任何数据集标记为“逾期”状态。

Grechkin团队利用“完全开放”工具搜寻了生物医学研究领域的开放获取数据库——“公共医学中心”中的约150万篇论文。该工具确认有473个数据集未在GEO中出现，84个数据集未在SRA中出现。

该团队向两个存储库报告了它们的发现。GEO负责搜索的小组负责人Tanya Barrett介绍说，等到员工开始核实时，他们发现，有27个被标记出来的数据集已经公开——意味着对于一些出版物来说，数据公开存在短暂滞后。与此同时，他们释放了429个处于“逾期”状态的数据集。剩余的例子或者引用了不正确的代码，或者提及的是因隐私问题或不完整的数据提交而无法被公开的数据集。

“我们非常高兴将‘完全开放’添加到我们所使用的工具中。”Barrett表示。

她同时介绍说，利用GEO的大多数研究人员的确在论文发表后便释放了他们的数据。GEO员工通常还会利用来自“公共医学中心”和谷歌学术的警告以追踪发表的论文，但由于这是一个手动过程，因此会出现漏检情况。

研究人员在论文中表示，他们计划同SRA员工合作，以确保其隐藏的数据集也能被释放。

目前，“完全开放”工具约每个月搜寻一遍GEO和SRA，并且在其网站上自动更新数据缺失的论文。

“以我的经验来说，将数据放入GEO或SRA的研究人员是打算在某个时间点将其公开的。”曾在《分子生态学》杂志担任过总编辑并就数据共享重要性撰写过文章的Timothy Vines表示。

更大的问题在于，很多研究人员仍未将他们的数据公开。“我知道的大多数研究人员甚至不想费心把数据存储在某个地方，更不用说将其存储然后分享出来了。”荷兰蒂尔堡大学统计学家Chris Hartgerink表示。

与此同时，Hartgerink认为，“完全开放”工具可被调整用于监控拥有明确识别码的临床试验数据集。不过，将其应用到诸如社会科学等领域会更加困难，因为它们并未广泛使用登记代码，从而使数据集很难被追踪到。

“完全开放”存在的一个关键限制是目前它只能扫描可公开获取的论文，因为该团队尚未获得扫描订阅内容的法律权限。Grechkin表示，他们正在同订阅出版商联系，以寻求它们的许可。

Grechkin认为，最终期刊应当分担一些责任，以确保数据集可被公开获取到。未来，“完全开放”工具还可能基于期刊的数据共享实践，开始对它们进行排名。（宗华编译）

更多阅读

《自然》网站相关报道（英文）

以下评论只代表网友个人观点，不代表科学网观点。

�� SSI �ļ�ʱ��

编辑部推荐博文
基金申请季，这里有2份攻略请查收！科学网2026年1月十佳博文榜单公布！挥之不去的乡愁当中国论文发表量全球第一，谁来打破知识的围墙？美国植物园新框架对全球植物园园艺发展启示 2025年高引用的10篇中国作者《自然》论文更多>>