■赵广立
美国密歇根大学计算医学与生物信息学中心教授安布里什·罗伊(Ambrish Roy)曾于2010年在Nature Protocol发文,称“我有一个要研究的蛋白,但我不知道它的结构和功能”是几乎所有分子和细胞生物学家每天面临的最大难题之一。无怪乎罗伊发此喟叹,当年的统计数字显示,只有0.6%的已知蛋白序列被解析出了相应的结构。
不过,自从美国科学家克里斯蒂安·安芬森(Christian B. Anfinsen)提出“蛋白质的高级空间结构由蛋白质的氨基酸序列决定”后(他也因此获得1972年诺贝尔化学奖),人们开始寻找一种能够预测蛋白质结构的算法,可以精确地从蛋白质的氨基酸序列,利用计算机预测出其复杂的空间结构,甚至其由结构决定的功能。
值得一提的是,尽管随着氨基酸测序技术的发展,越来越多的蛋白质序列得以被高通量的读取,但是从解析一维序列到能够解析实际三维结构,仍然还有很大的距离。
“这不但是生物信息学,也是整个生物学中的一个重要的‘圣杯’。”巴黎笛卡尔大学前沿生物学博士郭昊天如此说道。毕竟,要研究蛋白质的功能或是设计靶向药物,蛋白质结构都是非常重要的一环。
国际蛋白质结构预测挑战竞赛(CASP)应运而生。自首届CASP于1994年在美国加州举办以来,20多年间科学家们开发出许多用于蛋白质结构预测的计算模型,这些计算模型主要分成三大“流派”:演化流、比对流和从零开始的ab initio流——ab initio就是拉丁语里“从最初开始”的意思。
演化流的核心概念是寻找演化历史上同源或者近似同源的氨基酸序列,从它们的结构出发预测新的目标蛋白;比对流则不一定要求演化上同源,直接将目标序列中的片段和曾解析出来的三维结构进行匹配和比对,由此来预测新的蛋白;而最难也最关键的ab initio流,则是完全从零开始预测那些完全找不到相似性的蛋白序列。
随着CASP挑战的持续进行,这些流派之间的界限逐渐变得模糊,越来越多的科研团队开始把这三种流派整合到一个模型之中,融合成一个更加准确的预测模型。而在对模型的优化过程之中,CNN、RNN(循环神经网络)、DNN(深度神经网络)、强化学习等技术也在不断地被调用于各个计算环节。
一个有趣的工作是,华盛顿大学David Baker团队于1999年开发了一款基于ab initio流派的Rossetta模型,利用此模型该团队先后成功预测了长度100个氨基酸左右的若干蛋白和一段长度93个氨基酸的人工合成序列。2005年,Baker团队突发奇想,开发出屏保程序Rosetta@home,使用PC端在闲置时帮助Rossetta服务器进行结构解析的模拟运算。借用这种分布式计算的形式,Rossetta模型调用众多闲置个人计算资源,取得了极好的效果。
《中国科学报》 (2018-12-13 第5版 技术经济周刊)