来源:科学网 www.sciencenet.cn 发布时间:2017/8/18 14:31:49
选择字号:
计算机对科学的挑战:我们该如何应对?

 

科学的可重复性(reproducibility)是科学最本质的属性之一,具体指的是一个新的发现在被正式确定为科学认知前应该能够被不断反复检验的。这个关于科学的可重复性观点在十七世纪六十年代由英国科学家Robert Boyle推广。

大体上,其他人能够根据发表在学术期刊上描述的方法到相同的科学研究结果。例如在医学领域,如果一种新药的疗效能够被研究者反复实现,那么这种药则认定为对患有该疾病的患者有效。但若不能,我们则需要知道原本可行的结果是由什么样的意外或者差错引起的,与此同时该药的效果也会被质疑。

在科学发展的大部分进程中,学者们都以一种能使其他人也可以独立再现其研究结果的方式对他们的研究方法加以报道。但是,随着个人计算机的普及,尤其是仅仅依赖于键盘和鼠标就能实现的软件的使用,使很多研究的可复制性也逐渐消失或者变得不再像之前那么清晰明了。科学家在研究过程中越来越依赖电脑,导致大量研究过程被电脑操作过程中的不透明性所掩盖,使得其他人试图再现他们研究结果遇到了很大的不可行性。

最近,多个研究团队就上述问题提出了一些解决方案。他们试图将科学研究过程中没有被记录的数据从电脑操作的“黑匣子”中解放出来,让读者们能够对研究过程和结果加以审慎评估。科学家、公众和科学本身都将从中受益。

计算机处理数据的同时也掩盖隐藏数据

统计学家Victoria Stodden曾对个人计算机在科学发展过程中的独特地位进行过描述。他认为计算机不仅仅是类似于望远镜或显微镜这些能够发现新事物的工具,更是一种变革研究方式的途径,就像一个通过制造“新视镜”来观察科学数据中新模式的“小工厂”。

如今即使在不需要处理大量数据的研究领域,也很难找到不使用计算机的学者了。生态学家使用计算机来模拟生态灾难对动物种群的影响;生物学家用计算机搜索庞大的DNA数据;天文学家用计算机控制望远镜阵列,并对采集到的数据进行处理;海洋学家用计算机整合卫星、船只和从浮标收集到的数据来预测全球气候;社会学家用计算机预测政策可能会产生的影响或者分析采访记录。计算机几乎渗透到各个学科,帮助研究者寻找这些数据中能引起研究兴趣和有研究价值的地方。

与此同时,计算机也逐渐成为个人的仪器设备。我们每个人往往都有自己专用的计算机,并将文件和文件夹里包含的信息视为个人隐私,并隐藏于公众的视野之下。收集数据、分析数据、使结果可视化等操作均在私下由计算机完成。仅仅在整个研究过程的最后,总结性的论文才展现在公众面前。

问题在于大部分的现代科学极为复杂,然而期刊论文又非常简短,要将研究者在计算机上分析数据时所使用的方法和过程中所做的各种决定等这些细节都包括在内几乎是不可能的。那么,其他的研究者该如何判断研究结果的可靠性,或重现分析过程呢?

数据分析

科学家应该给予多少透明度?

斯坦福大学的统计学家Jonathan Buckheit和David Donoho早在1995年就对这个问题展开了讨论,而当时的个人计算机还是一个新兴事物。

“一篇发表在科学刊物上的关于计算科学的论文本身并不是学问,它充其量只是这门学科的广告。真正的学问是整个软件开发环境和生成数据的完整指令。”

他们提出的这个主张具有一定激进性,它意味着所有个人计算机中的相关私有文件和分析工作都应该和期刊论文一起公开发表。

这种主张意味着科学家工作方式的一个重大转变。我们需要展现给其他人一切研究细节,包括从一开始使用电脑时的工作。对于很多学者而言,这是一个颇具压力的方式。Victoria Stodden发现这种方式的最大困难是花费在准备这些材料以及花在书写和整理上的时间过多。而第二大困难则是存在除本人外其他人使用这些文件进行研究却不能使原作者从中获得应有的回报和荣誉的风险。

一个增强可重复性的新工具箱

 

电脑内部结构

最近,包括生物学家、生态学家、核工程师、神经系统科学家、经济学家以及政治学家在内的多个科学家团体共同推荐了一些能轻松跟踪计算机文档和数据分析的工具及方法,并在相关声明文件中加以清晰展示。当各个领域的学者们就一个行动方案达成共识时,这或许昭示着科学研究的分水岭正在成型。

声明文件中的一个主要提议是:通过使用包含计算机运行指令在内的脚本来最大程度地减少并取代数据分析过程中对“鼠标点击式”程序的使用。这可以解决短暂的鼠标移动点击不能留下任何痕迹并且难以开展交流和自动操作的问题。而这些问题在整理数据和使用例如Microsoft Excel等电子表格程序管理任务时普遍存在。另一方面,脚本所包含的指令清晰明了,能够既让作者本人在将来忘记特定细节时回忆起这些细节,也能够让除作者之外的其他学者读懂。同时这些脚本文件内存并不大,包含在论文发表中也不会太占空间。与此同时脚本能轻松地自动操作,节约工作时间,并减少潜在的人为误差。

我们能在微生物学、生态学、政治学和考古学中看到一些例子。学者们通过编写脚本获取研究结果,取代了以往用鼠标点击菜单和按钮、手动编辑电子表格单元格、以及在各个不同软件程序中拖拽文件等传统方式。这些脚本能够自动操作文档的移动、数据清除、统计分析和图表制作,从而节约了大量时间。并且通过阅读公开发表的脚本文件代码,任何人都能看到生成结果的确切步骤。

其他的推荐还包括使用常见的、非专属的文件格式来存储文档(比如用来存储数据表格的CSV文件,亦称逗号分隔变量),以及用简单的标题对文件进行系统分类,让其他人能轻松理解信息的架构。这些科学家还推荐了一些适用于所有电脑系统(如Windows、Mac和Linux)的免费软件(如R和Python)来进行数据分析和可视化处理。对于合作研究,他们建议使用一个叫作Git的免费软件,以此帮助追踪不同人在不同地点和时间对同一文档进行的所有操作。

目前,这些方法都极具先锋性,很多中老年研究人员对此不甚了解。但是许多大学生已经开始了相关的学习。很多研究生也开始了解到使用开源格式、免费软件以及流线型合作的优势,着手寻求来自Software Carpentry、Data Carpentry和rOpenSci等自愿者组织的培训和软件,以此填补平时常规训练的空缺。最近我所在的华盛顿大学(University of Washington)创建了“e科学”研究所,帮助研究人员适应这些改变。除华盛顿大学外,加州大学伯克利分校(University of California Berkeley)和纽约大学(New York University)也是推广这项改变的主要部分。

当学习过这些新技术的学生们毕业并在职位中有所成就时,我们会看到这些标准将成为科学研究的新趋势。学术期刊在发表论文时会要求提供相关数据和代码的文件;基金委也会要求把这些文件上传到公共在线数据库中。

数据分析的脚本范例(作者提供)

开源格式和免费软件实现双赢

学者们使用计算机方式的转变将对公众参与科学有所裨益。随着学者们共享更多的文档和研究方法,公众将获得更多接触科学研究的机会。例如,高中教师能够将论文中发表的公开文件展示给学生,并带领他们展开分析。

同样地,目前许多研究者使用的商业软件颇为昂贵,高昂的花费使得大学或大公司以外的人们难以触及。随着越来越多的研究者使用免费软件,公众将能运用同样的软件对发表的研究结果进行再现和延伸。当然,个人计算机的使用并非是影响科学研究可重复性的唯一原因。其他因素如实验设计的不足,统计方法的不当,科研环境的高度竞争,以及对研究新颖性和高端期刊的过度重视都是其重要影响因素。计算机的独特之处则在于我们能够找到解决这个问题的方法。这些从计算机科学借鉴而来的研究工具和方法相对成熟有效。我们仅仅只需投入一些时间学习这些方法就能帮助重建科学研究的可重复性。

作者:MarwickBenjamin1, 胡越2,岳健平3,4

1,美国华盛顿大学,西雅图1410;2. 澳大利亚伍伦贡大学,伍伦贡2500;3 中国科学院脊椎动物演化与人类起源重点实验室,中国科学院古脊椎动物与古人类研究所,北京 100044;4. 中国科学院大学,北京 100049

作者简介:Ben Marwick (1978.11-),澳大利亚人,现任美国华盛顿大学助理教授、澳大利亚伍伦贡大学(Univeristy of Wollongong)高级讲师。主要从事考古、环境生态及数据分析等方面的研究。

 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表科学网观点。 
SSI ļʱ
相关新闻 相关论文

图片新闻
读文献和模仿:科研新手正确开启学术之路 韦布观测到巨行星
烧毁的卫星正在污染大气 数百个包含种族歧视的植物名称将被改变
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文
 
论坛推荐