再次呼吁及时公开共享数据！坚守学术道义与承担社会职责

作者：李晨阳来源：科学网微信公号发布时间：2020/2/20 16:43:12

选择字号：小中大

再次呼吁及时公开共享数据！坚守学术道义与承担社会职责 | 吴仲义蒲慕明专访

要点速览

截至2020年2月10日，共有55条2019-nCoV的病毒基因组可公开获取。其中，在1月22日以前获取的31份测序数据几乎全部来自于中国（仅有1例来自于美国）。然而1月22日以后，余下的24份数据一律源于境外，包括日本、韩国、新加坡、澳大利亚、美国、法国、英国等。

国内学术界对于所谓“高影响因子期刊”发表文章的强烈需求，远远超乎国际的惯例。扣留数据其实也反映了国内论文发表的评价体系。

研究人员对“高分期刊”过度看重的不良风气，在这次疫情里已显示不仅仅是学术圈内的问题了。扣留数据通常不会干扰社会的正常运行，但在当前的危急情形下，影响会是严重而深远的。

现在不要求你写大文章，也不要求你的写作符合高水平期刊的要求，请大家把数据及时共享到开放的平台上！

两周前，中山大学生命科学学院教授、台湾“中研院”院士吴仲义和中科院脑科学与智能技术卓越创新中心学术主任、中科院院士蒲慕明在《国家科学评论》撰文，呼吁同行将新冠病毒的基因组数据尽快公开。

“数据背景的断层，使我们很难在时间与地理上找到连续的规律。数据不规范公开的趋势彰显了学术界的矛盾。”

2月18日，两人再次撰文指出，在当前的危急情形下，科学家扣留数据的影响会是严重而深远的，并呼吁国内学者即时公布和共享新型冠状病毒测序数据。

《中国科学报》：为什么关心新型冠状病毒的基因测序数据？

吴仲义：目前，新型冠状病毒可能已经达到顶峰，不会再进化；但也可能蓄势待发，正要进入危险期。

在两级分化的不确定下，只有公开数据，才能让科学家知道下一步怎么走。

病毒感染人群后可能会发生快速演变，而自然选择偏好高传染力的突变。17年前SARS的爆发也体现出这样的传播规律：2002年11月至2003年1月底，SARS病毒的传播速度较为缓慢，2003年2月起开始迅速加快，这种趋势一直延续至疫情晚期。

传播加速与病毒RNA序列的改变息息相关；尤其是病毒S蛋白在传播前期快速积累了5个氨基酸突变。这说明SARS病毒从果子狸跃染到人之后，经历了一系列的遗传适应性改变。

目前我们已经看到，两场流行病的特征有诸多不同，但这大多是临床分析上的。如果能尽快获得病毒基因组数据，就可以通过对比两种病毒进化动态的差异，更准确地判断疫情，也更精准地进行防控。

蒲慕明：作为作为科研人员，在很急切地寻找基础数据、想研究这个病毒到底有没有变异时，我们却发现，很难找到较新的国内研究数据，

这很不正常。因为国内有更多的病毒材料，也掌握了更多的相关数据，能开展测序工作的科研人员也并不少。

《中国科学报》：国内哪些机构能获得新型冠状病毒基因组的最新序列数据？

蒲慕明：很多地方能做，要求就是第一能拿到病毒，第二具备有资质的病毒实验室。理论上1月22日以前发表序列的这些机构都能做。

《中国科学报》：如此重要的测序数据，在公共平台上却难以查找，这是什么原因导致的？

吴仲义：数据是有的，为何不发我们不知道。

蒲慕明：我们国内没有一个公开的地方可以去查这些数据，这的确很奇怪。我们只能推测有可能是科研人员希望用这些数据去写论文，发表在高影响因子的期刊上。

《中国科学报》：如果真是这样，那是违背学术道德和科研伦理的吧？

蒲慕明：鉴于当前疫情的严峻形势，是这样的。

因此我们建议采用“胡萝卜加大棒”的方式促进数据的发表。

所谓“胡萝卜”，就是建议期刊接收发表初步处理的组学数据。即便没有新的数据产出，基于先期数据完善的分析结果也应该继续接收。

所谓“大棒”，就是期刊应当对那些隐瞒公共卫生安全数据的论文严肃对待，拒绝发表这种基于不道德学术行为的研究。

应对数据发布，国内已经建立了一些开放数据库（例如https://bigd.big.ac.cn/，https://db.cngb.org，或开放数据分析平台（例如https://fight-sars2.genowis.com) 。

现在不要求你写大文章，也不要求你的写作符合高水平期刊的要求，请大家把数据及时共享到开放的平台上！

以下为吴仲义和蒲慕明2月18日在《国家科学评论》发表的呼吁原文：

来源 | 中国科学杂志社

作者 | 吴仲义蒲慕明

翻译 | 吕雪梅（中国科学院昆明动物研究所）

学术道义与社会职责——呼吁即时公布和共享2019-nCov测序数据

2020年伊始，由SARS-CoV-2 (原称2019-nCov) 病毒引发的COVID-19 (2019冠状病毒病) 席卷全国。两周前，疫情日益严峻，我们曾在本栏目呼吁同行，将此病毒的基因组数据尽快公开[1]。

因为这些数据对全球公共卫生安全有重大意义，国际学术界也通过不同渠道紧急敦促数据共享[2]。然而事与愿违，需求越来越迫切，而国内数据的发布却非常缓慢。

现在，我们再次呼吁加快新冠病毒的数据发布速度。基于专家初步分析病毒进化的结果，我们有更充分的理由重复前述倡议（请参阅致谢部分，本文对相关研究结果的引用皆得到许可）。

在疫情防控的关键时期，及时发布病毒数据更该是我们的道义和责任。希望学术界能够促进数据的传播与共享，避免不必要的发布延误。

病毒的进化

根据进化的基本原理，病毒感染人群后可能会发生快速演变——这是迅速公布数据的关键科学依据。自然选择偏好高传染力的突变，进而增强了毒株的进化优势。而病毒传染力增强，也有可能伴随着毒力降低。

17年前，这样的进化规律已经在SARS的爆发中得到过例证[3]。在2002年至2003年的流行周期中，SARS病毒早期的传播速度较为缓慢（2002年11月24日~2003年1月30日），在流行中期迅速增快（2003年2月）。

这一趋势延续了几个月直至疫情晚期。传播加速与病毒DNA序列的改变息息相关；尤其是病毒S蛋白在传播前期快速积累了5个氨基酸突变。这说明SARS病毒从果子狸跃染到人之后，经历了一系列的遗传适应性改变。

本次COVID-19的防控可以借鉴SARS的经验，但也可能有相当的不同。

因此，如果快速发布病毒基因组数据，我们通过对比2019-nCoV与SARS-CoV得以尽快了解它们进化动态的差异。目前临床分析已经揭示了两场流行病的特征有诸多不同，基因组的分析迫在眉睫。

2019-nCoV的缓慢进化可望稍慰人心

目前，病毒在人群中进化的初步分析（崔杰、陆剑，未发表的研究）仅能基于有限的公共数据(https://www.gisaid.org/)。

截至2020年2月10日，共有55条2019-nCoV的病毒基因组可公开获取。

其中，在1月22日以前获取的31份测序数据几乎全部来自于中国（仅有1例来自于美国）。然而1月22日以后，余下的24份数据一律源于境外，包括日本、韩国、新加坡、澳大利亚、美国、法国、英国等。

数据背景的断层，使我们很难在时间与地理上找到连续的规律。数据不规范公开的趋势彰显了学术界的矛盾。

目前的分析结果提示了几个重要的科学问题。最关键的是，“2019-nCoV是否在人群中持续的进化？” 如果这一问题的答案是否定的，病毒没有快速变异，对于抵抗疫情是个定心丸。

从疫情刚开始至2020年2月早期，病毒的变化是相对缓慢的。出现在多例样本中（>=2）的氨基酸突变只有8个。

更重要的是，这些突变的分布与 “沉默”突变（没功能效应的突变）非常相似。这说明，2019-nCoV在传播的过程中没有发生剧烈的适应性变化，这与2002 年SARS病毒非常不同。

简单的说，2019-nCoV可能在野生动物与人之间已经“磨牙”好些时候了，现已进入适应性进化的迟缓期了。我们希望这个推测是对的。如果得到证明，也许可以缓解公众的不安。

隐现危机的可能性

虽然看起来病毒似乎进化迟缓，但是有一些信号不能掉以轻心。

首先，大部分的氨基酸序列突变都出现在近期国外报道的数据中，隐示病毒也许正进化中。

其次，8个氨基酸序列突变是成簇出现的，一个突变似乎促进另一个突变的发生。

第三，尤其需要警惕的是位于病毒ORF8基因中28144位点上的突变—— 在1月5日以前于武汉采集的13例样本中只出现了1次（7.8%），但在1月10日之后于武汉之外采集的42例样本中，出现了18次（43%）。

这样的跃变看起来很惊人，但样本数量不够大，统计学上未必可靠。我们需要更多的数据来查清楚这个突变是否是个危险讯号。

另一个突变，在55例样本中仅出现了五次：橙县（CA2/2020，美国）、巴黎（IDF0373, 0373/2020，法国）、高雄（2/2020，中国）、克莱顿（VIC01/2020，澳大利亚），但全部是在大陆境外。这也是值得密切关注的。

最坏的可能性是，经历了两个月的“慢进化”模式之后，2019-nCoV“摸索”出了进化的途径，开始蠢蠢欲动。SARS病毒进化的第一阶段也恰好是两个月。

上面两个推测，不确定性都很高。因为样本数实在不够大。只有完整并及时地发布数据，才有可能尘埃落定。

数据（不）公开的文化根源

数据共享与否背后有科学文化的不良背景。新发布的数据主要来自于国外而不是疫情严重的国内。关于测序数据是否应该公开发布和自由获取，在国内网络上颇有争论。根源在于如何保护研究贡献、影响知识产权。

更具体来讲，国内学术界对于所谓“高影响因子期刊”发表文章的强烈需求，远远超乎国际的惯例[4]。扣留数据其实也反映了国内论文发表的评价体系。一篇论文不管是在A期刊还是B期刊上发表，还是同一篇论文。

的确，第一批发布病毒序列的论文阐明病毒有人传人的可能，但是没及时告知社会。未来回顾这次疫情，这几天的延迟可能是关键。

关于科研人员道义责任的几点提议

鉴于当前疫情的严峻形势，选择不公开病毒相关的数据是有悖科研道德的。应对数据发布，国内已经建立了一些开放数据库（例如https://bigd.big.ac.cn/，https://db.cngb.org，或开放数据分析平台（例如https://fight-sars2.genowis.com) 。

学术期刊，包括《国家科学评论》(National Science Review)，应该采用“胡萝卜加大棒”的方式促进数据的发表。

一方面（胡萝卜），我们建议期刊接收发表初步处理的组学数据[1]。更进一步，基于先期提交的数据完善的分析结果（即便没有新的数据产出），也应该随后继续接收。

另一方面（大棒），期刊应当对那些隐瞒公共卫生安全数据的论文严肃对待，拒绝发表这种不道德学术行为的研究。正如不符合动物实验伦理的研究无可转圜地拒稿，隐瞒对公共卫生安全至关重要数据的行为，业内更应该秉持零容忍的态度。

致谢

数据分析由中国科学院上海巴斯德研究所崔杰研究员指导的课题组完成，并得到了北京大学陆剑教授课题组的补充；中国科学院昆明动物研究所吕雪梅研究员课题组对本文提供了宝贵的意见；志诺维思（北京）基因科技有限公司凌少平博士提供了组学数据分析平台。为避免致COVID-19与SARS的病毒名称混杂，我们使用2019-nCoV的旧名，最新定名应为SARS-CoV-2。

参考文献：

[1] Wu CI, Poo MM. Natl Sci Rev 2020; Very fast evolution, not-so-fast publication – A proposed solution. https://doi.org/10.1093/nsr/nwaa010

[2] Nature Editorial. Calling all coronavirus researchers: keep sharing, stay open. Nature 578, 7 (2020). https://doi.org/10.1038/d41586-020-00307-x.

[3] He JF, Peng GW and Min J et al. Science 2004; 303:1666-1669.

[4] Wu CI, Poo MM. Natl Sci Rev 2017; 4:518-519. What went wrong in science publishing?

相关专题：聚焦武汉新型冠状病毒肺炎疫情

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。