|
|
“我们看到了生命基因手稿中从未读过的章节” |
人类完整基因组高配“拼图”完成 |
人类完整基因组测序《科学》杂志封面:填补空缺。图片来自:《科学》
北京时间4月1日凌晨,美国科学家带领的国际合作团队在发表于《科学》杂志的6篇论文中报告称,完成有史以来最完整的人类基因组图谱绘制。
21多年前,科学家发表了被称为破译“生命天书”的人类基因组序列草图。不过,当时的序列尚不完整。此后遗传学家持续改进,但仍有约8%的序列缺失或错误。
现在,科学家揭开了最后的谜团,人类基因组图谱的最后一块拼图终于破译。
“人类基因组的这些部分,对我们理解基因组如何工作、遗传疾病、人类多样性和进化非常重要。”该研究发起人之一、美国加州大学圣克鲁兹分校的卡伦·米加(Karen Miga)米加在邮件中向《中国科学报》回复。
“零件”更齐全的“高配”的汽车
科学家于1990年启动人类基因组测序项目,并于2001年公布了首个人类基因组草图。
它使人们对人类生物学和疾病的理解取得了巨大进展。但因为技术限制,最初公布的基因组序列并不完整。
“构成人类23对染色体的DNA碱基对太长了,当时测序时总是要切割。切割后我们就遇到一个问题——人类遗传密码中有大量的重复序列。”中科院院士、国际人类基因组计划参与者陈润生向《中国科学报》解释,其中一类是像“糖葫芦”一样串联的重复序列,另一类则是散在的重复序列
“如果串成串,你不知道它串的是99个重复还是100个重复;散在的问题就不知道要把它接到哪一个具有重复基因的片段上。”他补充说,有人将这部分难测的基因形容为“梦幻的”或“隐蔽的”基因。
2003年人类基因组计划宣告完成之后,遗传学家继续对这部分隐蔽基因进行改进,但仍有约8%的序列存在缺失或错误。
现在,在新技术的支撑下,科学家终于破译了最后一块拼图,绘制出缺失的部分。
新版本基因组被命名为T2T-CHM13。这有两个缘由。
一方面,它由“端粒到端粒”(T2T)联盟绘制。该联盟由米加和美国国家人类基因组研究所的亚当·菲利皮(Adam Phillippy)领导,寓意是对每条染色体从一端到另一端进行测序,因为每条染色体的末端由端粒构成。
另一方面,研究人员是从一个被称为CHM13的细胞系中读取的DNA。该细胞系来自完全性葡萄胎——当精子使一个没有细胞核的卵子受精时在人体内形成的组织。“这是一种妊娠失败情况,可以在实验室中培养这种细胞。”华盛顿大学霍华德·休斯医学研究所研究员、T2T联盟联合主席伊凡·艾奇勒(Evan Eichler)说。
普通人类细胞的每段DNA都有两个副本,一个来自母亲,另一个来自父亲,往往存在重大差异。当科学家试图组装基因组片段时,来自父母的序列可能会混合在一起,掩盖了个体基因组中的实际变化。
使用CHM13避免了这个问题。由此产生的细胞只含有来自父亲的染色体。“这使我们看到了生命基因手稿中以前从未读过的章节。”艾奇勒说。
T2T-CHM13被认为是自人类参考基因组首次发布以来进行的最大改进。
据了解,它比上一个版本增加了近2亿个碱基对以及2000多个新基因;绘制了更精确的五条染色体臂的图谱,这将有助于进一步增加人们对染色体的认识;覆盖了基因组中最复杂的一些区域,包括在重要染色体结构中及其周围发现的高度重复的DNA序列,如将两条染色体连接在一起的着丝粒,和为细胞的蛋白质工厂提供指令的核糖体DNA;还发现了人类基因组中超过200万个变异,为622个医学相关的基因组变异提供了更准确的信息。
“以前我们看到了90%以上的基因组,但还有许多重要方面隐藏在科学视野之外。现在,我们可以站在山顶,看到山下所有的风景,获得人类基因资源的完整图像。”圣克鲁兹分校基因组学研究所主任David Haussler说。
“我们的第一作者都是初期职业早期的科学家、研究生和博士后。这是一项‘草根’工作,并没有任何特定的资金来源基础。T2T代表了一个由充满激情的研究人员组成的虚拟社区,我们共同努力完成了完整的人类基因组测序——尤其是在全球大流行期间。”米加向《中国科学报》说。
对此,人类基因组计划的中国参与者、中国科学院基因组所研究员于军在接受《中国科学报》采访时则比喻说:“假如说把人类基因组序列比作一辆非常复杂的汽车,与20年前完成的人类基因组草图相比,完整的新序列相当于增添了更多零件。”
“没有它能跑,有它更好。”
划时代的“游戏改变者”
弥补8%的空缺,过去十年间出现的第三代DNA测序“长读”技术是一个“游戏规则的改变者”。
在T2T联盟采用的两种技术中,牛津纳米孔DNA测序方法可以一次读取100万个DNA字母,但精度不高;而太平洋生物科学公司的测序方法可以读取大约2万个字母,精度近乎完美。这种两种测序方法的优势“叠加”生成了完整的人类基因组序列。
“这种技术的进步是划时代的,就像火车从蒸汽机发展到内燃机再到信息化、智能化的大踏步前进。”于军说,这是获取完整序列的后盾。
“长读取序列数据,加上执行基因组重建和质量评估的创新方法,是这项努力成功的原因。”米加对记者说。该联盟联合主席菲利皮也表示:“完成真正完整的人类基因组序列就像戴上了一副新眼镜,现在我们可以清楚地看到一切,距离理解这一切意味着什么又近了一步。”
那么,中国相关技术储备如何呢?
深圳华大生命科学研究院群体基因组学领域首席科学家金鑫向《中国科学报》表示,我国10年以前基本上依赖进口国外的基因测序设备,但在2015年已经完成第一款真正的国产基因测序仪,目前拥有全球单日数据量产出最高的一款测序仪。
“在短读长(基因序列精读)部分,我们已经做到了跟全球领先水平并驾齐驱,相关错误率仅有万分之一,甚至是十万分之一。”他表示,相关技术已经非常稳定地投入到“10万中国人基因组计划”“10万罕见病基因组计划”等科研和临床应用中。
在长读方面,他表示,国内包括华大在内的多家机构正处于研发和追赶的阶段,现在也有了一些突破。
期待中国人的完整基因组
随着生命基因之书中每一个新篇章的出现,研究人员都会深入探究其生物学意义。
对于此次人类基因组的新部分,研究人员特别感兴趣的是“神秘”的着丝粒。它们是将两条染色体连接在一起的密集的DNA束,在细胞分裂中起着关键作用。
“约90%的新序列实际上来自染色体的着丝粒。”描述着丝粒周围碱基对序列论文的第一作者、加州大学伯克利分校的博士后尼古拉斯·阿尔特莫斯(Nicolas Altemose)介绍,着丝粒内和周围的新DNA序列约占整个基因组的6.2%,或近1.9亿个碱基对或核苷酸。
他和团队发现,着丝粒的大型蛋白质复合物牢牢地抓住了染色体,这样细胞核内的其他机器就可以将染色体对分开。“一旦这一过程出错,就会得到错误的染色体分离,这将导致各种问题。如果这发生在减数分裂中,就意味着可能会发生染色体异常,导致自然流产或先天性疾病。如果它发生在体细胞中,可能会导致癌症。基本上,细胞会有大量的失调。”他说。
他们还使用T2T-CHM13作为框架,比较了来自世界各地1600名个体的着丝粒DNA,发现了在其周围重复DNA的序列和拷贝数的主要差异。这可以用来追溯人类的谱系,甚至追溯到人类共同的类人猿祖先。
此外,完整的基因组也有助于提高科学家理解不同人群个体基因组变异的能力。例如约翰斯·霍普金斯大学的研究人员通过分析来自世界各地的3200多人的数据,发现了100多万个以前不为人知的基因变异。
据介绍,T2T-CHM13将为由基因组参考联盟构建的标准人类参考基因组38 (GRCh38)提供补充。该基因组起源于人类基因组计划,自2000年第一稿以来一直在不断更新。GRCh38并不代表任何一个个体,而是由多个捐赠者的DNA组装而成,被合并为一个线性序列。
她表示,单个基因组的成功完成并不是最后的定论。目前,T2T联盟已与人类泛基因组参考联盟合作,旨在对350个个体进行全基因组测序,并基于此创建一个新的“人类泛基因组参考”,以此“确保正确地捕获整个相关的基因组”。
在20年多前的国际人类基因组计划中,中国作为唯一的发展中国家,参与了1%的基因序列图谱绘制。
对于这次合作研究中是否有中国科学家参与,米加并未向《中国科学报》直接回复,而是表示:“所有参与者的名字都显示在相关论文中。T2T正在继续发展,欢迎任何国际研究人员加入和参与研究。”
关于这一问题,此次采访中也有中国科学家向记者表示,据他所知没有中国科学家参与其中。
对此,于军则表示,中国人的基因组与现有的完整白人基因组序列仍然存在较大差异,他希望我国尽快发展三代、四代测序技术,测出完整的中国人基因组序列。
更重要的是,他表示,像我国这样的多民族国家应该了解代表性的个体基因组完整性,从而深入破解中华文明繁衍之谜。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。