David Baker正在展示他所在团队设计制作的人工蛋白模型。图片来源:Rich Frishman
David Baker非常欣赏大自然的杰作。“这是我最喜欢的地方。”这位出生在美国西雅图市的科学家站在华盛顿大学的一个台阶上,欣赏着远处海拔4400米的雷尼尔雪山说。
但如果跟着他走进实验室,你很快就会发现这位计算生化学家明显不只满足于自然界的馈赠,至少在分子领域是这样的。
在其办公室里一张低矮的咖啡桌上,放着8个玩具大小的3D打印蛋白质复制品。一些呈环状和球状,一些则呈管状和笼状,在Baker及同事设计制作出它们之前,这些蛋白质模型均不存在。
过去几年,得益于基因组学和计算机学的革命性成果,Baker的团队已经解决了现代科学领域一个最大的挑战:解释氨基酸长链如何折叠为让“生命机器”运转的三维蛋白质。现在,他和同事已经通过这种方法设计并合成了非天然的蛋白质,这些蛋白质可以在医药到材料等不同领域发挥作用。
目前,这位蛋白质设计大师已经开发了一种实验性艾滋病病毒疫苗、旨在同时抵抗所有流感病毒毒株的新蛋白、将重组后的DNA运入细胞内的载体分子以及帮助微生物吸收大气二氧化碳并将其转化为有用化学物质的新酶。Baker团队及其合作者还报告称,他们正在用多达120种设计蛋白质制作进行可自我聚合的“笼子”,这将会打开通往新一代分子机器的大门。
如果说读写DNA引发了分子生物学的一场革命,那么设计新蛋白的本领将会在几乎所有事物身上带来革命。“没有人知道它意味着什么”,因为它有着影响数十个不同学科的潜力,马里兰大学帕克分校蛋白折叠专家John Moult说,“它完全是革命性的。”
从DNA到蛋白质
构建蛋白质的机制对地球上的所有生命来说都是最根本的。解决这一问题的一个方法是在实验上确定蛋白质的结构,比如通过诸如X光结晶法以及核磁共振(NMR)检测等。然而,这些方法不仅缓慢,而且昂贵。即便在今天,国际蛋白质数据库仅储存着大约11万种蛋白质的结构,而科学家认为蛋白质的种类却有亿万种,乃至更多。
了解其他蛋白质的三维结构有助于生化学家洞察每个分子的功能。为此,Baker等计算机建模专家尝试利用计算机模型解决蛋白折叠的问题。
研究人员想到了两种主要的折叠模型。其中,同源建模是将一个目标蛋白的氨基酸序列与一个模板(拥有类似序列且已知其三维模型的蛋白质)进行对比。但这种方法却存在一个主要问题:尽管研究人员已经进行了大量昂贵的X光结晶法以及核磁共振检测,但依然没有足够的已知其结构的蛋白质可以用作模板。
而在20多年前,当Baker开始在华盛顿大学任教时,当时的模板数量就更少。这促使他跟踪第二种方式,即从头建模,该方法是通过计算相邻氨基酸之间的拉力和推力,以此预测蛋白质的结构。Baker还成立了一个生化实验室研究氨基酸之间的互动,从而帮助他建模。
通过这种更加强大的计算能力,他们创建了一个众包性的外延项目(名字是Rosetta@home),该项目可以让人们将闲置的计算机用于需要进行的计算,从而研究所有潜在的蛋白折叠。随后,他们还添加了一个叫作Foldit的视频游戏外延,可以让偏远用户的独特蛋白折叠观点指导Rosetta的计算。该方法吸引了来自国际科学界的100多万名用户,此外还收到了包括从设计新蛋白到预测蛋白与DNA互动方式等在内的20多个软件包。
“David做的最聪明的一件事是成立了一个社群。”Baker此前的博士后、华盛顿大学蛋白设计研究所研究员Neil King说。现在约有400名活跃的科学家持续更新及改进Rosetta软件。该项目可供科研人员和非营利用户免费使用,但是会向企业收取3.5万美元的费用。
基因组学线索
尽管Rosetta非常成功,但其仍有局限性。该软件在预测氨基酸长度小于100的小蛋白质结构方面非常精确,但是和其他从头建模的软件一样,它在构建大蛋白质分子时却存在困难。几年前,Baker开始设想能解构大多数蛋白质结构的方法。
上世纪90年代计算生物学家Chris Sander提出的一项技术给他打开了一扇窗户。Sanders等人很好奇基因序列是否有助于分辨那些展开时距离遥远、折叠成三维结构后彼此临近的氨基酸对。他推理认为,那些比邻的氨基酸对对蛋白质的功能非常关键,并提出那些对蛋白质结构非常必要的特定氨基酸对可能会共同演化。
Baker和同事意识到扫描基因组能够给Rosetta的从头建模提供新的约束条件,他们抓住了这个机会写了一个叫作Gremlin的新软件,可以同时对比基因序列,并呈现所有可能同时进化的氨基酸对。“我们很自然地将它运用到Rosetta中。”Baker说。
其产生的结果非常有力,它让Rosetta成为普遍认为的最好的从头建模方式,而且它背后还有着更加深远的含义。5年前,从头建模仅仅确定了约8000个没有模板的蛋白质家族的56个蛋白。而从那以后,仅是Baker的团队就补充了900个蛋白质结构。哈佛医学院的Debora Marks认为,这种方式已经适用于4700个蛋白质家族。随着基因组数据大规模涌入科学库,Baker和Sander预测,让蛋白折叠模型拥有足够共同演化的氨基酸对数据以解开几乎任何蛋白质结构,可能只需要两三年时间。
“万能”蛋白质
对于Baker来说,这只是开始。随着Rosetta运算能力的稳步提升以及计算能力的日益强大,Baker的团队已经掌握了蛋白折叠的规律,他们已开始利用这些知识尝试“超越大自然的创作物”。“生物医学界几乎所有的东西都会因为能够制作出更好的蛋白质而受到影响。”哈佛大学合成生物学家George Church说。
Baker注意到,数十年来科学家一直在追求一种他称之为“尼安德特人蛋白质设计”的策略,它意味着可以扭曲现有的蛋白基因,使其做一些新事情。“我们过去一直受限于自然界存在的物质……现在我们能够让生物进化走捷径,设计出解决现代问题的蛋白质。”
而且,非天然蛋白质的潜在应用不只局限于医药领域。Baker及其同事还将一种叫作绿色荧光蛋白分子的120个副本聚合到一个笼子上,创建了当它们在组织内移动时能够通过光亮辅助研究的“纳米灯笼”。
预测氨基酸序列如何折叠的能力有助于了解蛋白质如何发挥作用,由此打开了设计出能够催化特定化学反应或是可用作医药、材料的新蛋白通道。这些蛋白基因能够在合成之后植入自然界生成蛋白质的微生物体内。去年,Baker的团队和合作者报告称他们在细菌体内设计了一种全新的新陈代谢通道,它是用一个人工设计的能让微生物将大气二氧化碳转化为燃料和化学物质的蛋白质实现的。
在一项或许可以称为迄今为止最发人深省的研究中,Baker团队设计了能够携带信息的蛋白,模仿DNA的4个核酸信使在DNA分子有名的双螺旋结构中结合、缠绕。现在,这些蛋白质螺旋结构尚不能传递细胞能读取的遗传信息。但它们具有深远的象征意义:蛋白设计者已经超越了自然的限制,现在限制他们的只有自己的想象力。“我们可以利用功能性蛋白建立一个全新的世界。”Baker说。(晋楠)
《中国科学报》 (2016-08-02 第3版 国际)
更多阅读