|
|
《科学》社论:确保数据有最大可获取性 |
同期推出专题聚集数据管理 |
《科学》杂志聚焦数据管理。
(图片提供:《科学》)
“科学就是数据,数据就是科学。” 最新出版的《科学》杂志在社论中指出,“数据推动着科学的发展。”不仅如此,社会经济、政治、环境和健康等事业的发展,也需要借助于对科学数据的分析。但是,因不能充分提供公开、透明和可供分享的数据,科学界饱受批评。《科学》杂志发表专题文章聚焦数据,指出所有这些问题的核心是数据的收集、管理、可理解性和可获得性。
数据中蕴藏着金矿。然而,从基因组学、天文学、生态学、临床医学到高能物理等,当今天的数据像洪水般涌来,数据的管理成为一个越来越严重的挑战,科学家们该怎么办?粒子物理学家齐格弗里德·毕史克的一段经历,也许是一个真实的警世故事。
老数据 新发现
毕史克现在是德国马普学会物理研究所所长,20多年前,他在德国同步加速器DESY实验室参与了大规模电子——正电子对撞机上的JADE实验,该实验是研究将夸克和胶子结合在一起形成质子和中子的力。1986年,当DESY实验室为建造功率更强大的对撞机而关闭这个对撞机时,JADE实验也随之结束了。20世纪90年代中期,由于新理论思想的出现,毕史克希望能重新分析JADE实验的老数据,因为这是来自更低碰撞能量的数据。
然而他却发现了一个灾难。自从JADE实验结束、实验经费中止后,这些数据就分散到了世界各地,而且是随意储存在老旧的磁带上。JADE实验的数据尤为典型:由于习惯于大型合作且很快转向更大更好的机器,粒子物理学家们并没有储存和分享数据的标准格式。毕史克用了将近两年的时间,费了九牛二虎之力,再加上诸多幸运,终于重建了这些数据。
然而,新问题又出现了。这些数据中的绝大多数不能被读出,一位研究生花了1年时间写程序,才将这些数据读出。
毕史克恢复这些数据并不仅仅是怀旧。在JADE实验被停止之后,理论物理学家提出了一种“强耦合强度”理论,他们所预言的现象只能在较低能量的对撞机上观察到,是今天的高能量对撞机所不能重复的。通过重新分析这些老JADE实验数据,毕史克的团队写出了十多篇高影响力的论文,部分数据帮助确证了量子色动力学。他说:“我们就像是物理学考古专家,做了太多的工作,其实本不应该这样。如果在实验结束前有恰当的数据保存和分享计划,那么所有这些时间和劳动是可以节省的。”
欧洲核子研究中心的粒子物理学家塞尔瓦托·米勒是一位数据保存专家,他说:“我们有经费生产、收集、分析和发表数据,但没有经费保存数据。”
设立数据档案专家职位
《科学》的社论指出,科学由数据所推动。新技术已经大大减轻了数据收集和分析的过程,同时也能让其他人独立挖掘和重新分析这些数据。今天的社会因多种不同目的而需使用这些科学数据,因此,应当让数据能够被更广泛地获取,成为科学研究的一个基本要素。通过建立透明、标准和公开的数据档案,科学界正努力承担这个基本责任,科学家们也在努力面对不断产生的巨大、复杂和种类繁多的数据。
毕史克认为,JADE实验老数据的可用性应该不是唯一例子。德国同步加速器的物理学家克瑞斯汀·迪亚可奴说:“现在安装的大型对撞机能量越来越高,但它们不能重复低能量对撞机所获得的数据。实际情况是,过去所做的许多实验是独一无二的,它们不能在现在的高能量对撞机上重复。”
在高能物理领域,随着大型科学设施的建造,数据问题会越来越严重。比如,欧洲核子研究中心的大型强子对撞机的建造吸引了世界的目光,另外一些实验就会被相继停止。迪亚可奴说,每个实验都只有一种应用,为特别的任务而建,问题出现在实验结束后,数据只能为小组成员所理解,当他们离开去做别的工作时,这些数据就成了没人管的孤儿,其他人也无法接管这些数据,因为这些原始数据只有参与原始实验的人才明白其中的意义,才有能力对之进行复杂的分析。
科学家们行动起来了。2009年,来自世界几个重要高能物理实验室的研究人员组成了一个名为“高能物理数据保存”(DPHEP)的工作小组,毕史克是创始人之一。DPHEP的目标之一是在每个实验小组设立“数据档案专家”职位,确保实验信息和数据被恰当管理,而且在实验结束和实验小组解散后,这些信息和数据也能长久地保存并为外界所用。
DPHEP估计,设置数据档案专家职位的开销大约相当于对撞机总预算的1%。这是一笔不小的数额,但是,让数据处于可使用状态将会为过去的投资增加新收益。迪亚可奴说:“数据收集结束了,但这并不意味着实验结束了。”
数据管理是一项需要共同努力的事业。作为论文出版的守门人,学术期刊意识到数据的长期贮藏和多种用途,以及数据与诚实的研究结果的密切关系,它们在保证数据的公开性和永久可获得性方面发挥了重要作用。比如,《科学》杂志要求作者将论文所依据的所有数据以可理解的方式让外界获取,并鼓励作者以两种方式来遵从这一要求:或者将数据存入有可能被支持和维持的公共数据库,或者将数据存入期刊的在线支持材料系统。
但对期刊来说,因为没有专门设备,在线支持材料系统的管理是一个棘手问题。对于大型数据库,《科学》杂志要求作者达成数据归档协议,即作者承诺将数据归档到所在机构的网站,并将该数据的复印件送交《科学》杂志。但这种协议只是一种权宜之计。
《科学》杂志的社论认为,促进科学事业发展最重要的力量必须来自科学界,无论是作为期刊和学术的领导者、论文和基金的评审人,还是论文作者本身,科学家都发挥了关键作用。它呼吁科学界在数据的供应和管理上作出积极贡献。