一份关于数据开源的“少数派报告”—新闻

作者：陈彬来源：中国科学报发布时间：2021/2/9 13:22:46

选择字号：小中大

一份关于数据开源的“少数派报告”

如果要发明一辆汽车，是不同的人根据自己的喜好，开发出一堆规格尺寸各异、功能互不兼容的零件，还是在前人探索的基础上进一步跟进，形成彼此数据相关和吻合的各种部件，最终完成组装呢？

只要具备常识的人，在这道“选择题”中应该都会选择后者，但问题是——前人探索时所产生的数据，你怎么能知道呢？

这是在接受《中国科学报》采访时，南京大学人工智能学院教授俞扬打的一个比喻。对于这个比喻，远在天津的南开大学计算机科学与技术系主任程明明也深有同感。就在几个月前，为了能够实现科研数据在科研生态中的彼此共享，程明明在网上发起了一项开放共享科研记录行动倡议。

在倡议中，程明明提议国内科研同行尽量开源自己论文的代码以及相关实验数据，同时，通过将论文“英译中”，设立主页、Demo（演示）等形式，给国内学者更多学习、交流的机会。

被忽略的沟通协作

借用电脑Word软件的文件名后缀，程明明将这份倡议命名为“DOCX”。这其中的每个字母都代表了他的一个主张。

“D代表Demo，即希望国内科研人员尽可能为论文中的每个问题做一个在线Demo，方便自己使用，也方便同行的教学实验和科普；O代表Open Source，即在不违反保密和商业协议的前提下，尽量开源自己论文的代码以及相关实验数据；C代表Chinese version，即建议科研同行能将自己发表的英文顶刊论文共享中文翻译版，方便国内读者阅读；X则代表eXplain，即倡议科研人员尽量为每篇论文建立项目主页，方便读者留言提问。”程明明解释道。

在倡议中，程明明表示，近年来，国内科研水平进步很快。以计算机视觉技术为例，目前全球顶级会议论文的第一作者中，华人已超过半数。“但是，我们还得用英文而非母语阅读大部分论文。我们常需验证别人的工作并纠结于为什么实现的结果不一样。我们看到了论文里面的酷炫结果，但尝试这些新技术但并不是很容易。”

究其原因，相关科研数据不公开是个大问题。

此前，国内某科研机构进行过一项持续9年的数据实践研究。他们发现，国内科研数据的交流范围很少超出生产数据的科研团队本身，而且对周边环境数据的共享请求也很少，其原因既包括缺乏专业技能、资源以及共享数据的激励措施，也牵扯科研道德问题。

“在我国的科研领域，开源氛围相对较弱，‘论文’意识过强，导致科研人员忙于发表论文，反而忽略了科研工作其实是科研同行之间沟通协作、共同攻克科学难题的过程。”程明明说，这还导致我们实现前人工作时大量重复。更重要的是，最终的论文不可能把所有细节说清楚，自己的版本往往不如原始作者的版本。

科研生态的有力保障

十多年前，还在求学的俞扬得到国际科研共享数据的支持。“我受益最多的是来自新西兰怀卡托大学的某开源机器学习包和美国加州大学尔湾分校的机器学习公开数据集。”从这些开源数据中，他不但学习到一个优秀项目的工程实现的过程，也贡献过错误纠正。

就在俞扬受益于数据开源几年后，2011年，程明明养成了代码开源的习惯，在不违反保密和商业协议的前提下，尽可能最大化地开放科研成果中的代码和数据。“若干年后，我猛然意识到，自己没有及时开源的代码和数据，由于工作单位和常用电脑的多次更换，大部分都找不到了，而开源数据却可以随时在网络上找到。”程明明说，一次数据开源既方便了别人，又方便了自己。

然而，数据开源对于科研的好处并不局限于“保存数据”。在程明明看来，开源本身就是对科研生态的有力保障。

“近年来，国内科研界对论文造假的质疑时有发生，但这类事件在计算机科学领域却相对较少。一个重要原因在于，该领域开源风气比较浓厚。”程明明说。

对此，俞扬表示，至少在机器学习领域，开源几乎已是业界共识。“算法开源十分高效地完成了成果的有效性检验，也加速了有效成果的传播普及，使得后人的工作可以建立在前人的基础上，推进领域前行。目前我所在的LAMDA研究组已经开源了150多个项目。”

然而，如果将视野放置于整个科研领域，目前国内从事数据开源相关工作的依然属于“少数派”。

在“DOCX”倡议后的留言中，武汉某高校一位遥感专业博士生感叹道：“计算机现在为什么能‘吊打’生化环材，从某种程度上与共享政策有很大关系。科研人员可以在网上找到共享资源，再继续共享开源，进而把整个蛋糕做大。而不是像‘生化环材’那样搞封闭实验。”

那么，是什么在阻碍“生化环材”领域的数据开源？

不必着急的过程

自2020年10月程明明将DOCX倡议发布于网络，至今已有几个月的时间。对于大家的反馈，程明明总结为三句话——几乎全部赞同、没有反对、很多质疑。

在质疑声中，主要的质疑点在于此倡议不存在约束力，同时开源者本身不会有任何获利，因此担心难以执行下去。对此，程明明却看得很开。“这只是我个人倡议，本身就不可能有约束力。如果有人认可并这样做了，那对于建立健康的学术生态就会产生益处，但即使没有人做也不会带来坏处。”

至于“获利”问题，程明明表示，开源科研记录在短期内不会带来收益，但一方面，如果科研人员都能这样做，任何人都可以利用其他人的数据，这在无形中会大大节省时间和精力；另一方面，即使是从纯“获利”的角度来看，开源也未必不会带来好处。

“比如，此前我曾公开过一些研究项目的代码。多年后，企业主动找到我洽谈合作项目，原来他们的负责人在求学时就曾使用过我们开源的代码。开源无形中扩大了合作对象，对此很多人并没有注意。我们这些年很多项目都是这样产生的。”程明明说。

在俞扬看来，目前数据开源面临的重要争议之一，还在于需不需要中文版共享内容。在这个问题上，他的态度十分明确——民族、文化与语言不可分割，中文版的内容十分必要。

“要得到其他语言文化的认同，其根源还是工作的引领性。能带领人们翻越巅峰，才能聚集更多协作者。”俞扬表示，“跑在第二的位置，可以简单地用距榜首多远来衡量成绩。然而，轮到跑在榜首的国产引领，评价就变得十分困难，方向、速度等都会失去参照，质疑声往往比掌声多。”

虽然发布了DOCX倡议，但对于数据开源工作未来的发展，程明明并不着急。“必须承认，数据开源工作在我国还处于发展的初期，并不是政府出台政策就可以‘立竿见影’的。”在他看来，数据开源的推进需要“优胜劣汰”的自然过程。

“作为数据开源的‘先行者’，我们已感受到这项工作带来的益处，而周围的人也会在我们的带动下，体验到其中的好处。至于不开源者，则会在过程中慢慢被边缘化，最终被淘汰。这是一个缓慢的过程，我们需要保持耐心、坚持到底。”程明明说。

编辑部推荐博文
论文投稿新问题！审稿人说插图AI感太重…… 东北师大汤庆鑫/赵晓丽团队获新进展控制与人生：由传递函数想到的王振义院士发现全反式维甲酸治疗血癌成功经验（Crested ibises in Yang County）电解液调控水凝胶界面实现锌金属电池正负极协同稳定更多>>