作者:赵广立 来源:中国科学报 发布时间:2018-12-13
选择字号:
生物界“AlphaGo”来袭?
AlphaFold“大胜”人类的“戏码”不太足

 

AlphaFold虽然胜出,但它距离解决折叠问题还有差距。图片来源:SELF格致论道官网

预测蛋白质结构的难度跟人工智能下棋绝不是一个数量级的,深度学习并不是所有难题的答案。有时候,方法思路比深度学习更重要。

■本报记者 赵广立

继围棋、国际象棋等竞技项目之后,谷歌旗下专注于人工智能(AI)前沿技术的DeepMind团队展示了一项新成就,将其AI技术应用的边际拓宽至基础科学研究领域——蛋白质结构预测。AlphaGo家族也再次“扩军”,迎来新成员“AlphaFold”。

当地时间12月2日,两年一度的国际蛋白质结构预测挑战竞赛(CASP)在墨西哥岛城坎昆举办。正是在这次大赛上,AlphaFold一鸣惊人。在与来自世界各地数百支参赛队伍的“较量”中,DeepMind团队以AlphaFold领衔的“A7D”参赛队在43个参赛蛋白中拿到25个单项最佳模型,并获得总分第一名,将第二名(该团队拿到3个单项最佳)远远抛诸身后。

你可能以为,这是“AlphaGo大胜人类围棋冠军李世石”在“蛋白质结构预测”领域的一场重演。但《中国科学报》记者经过寻访了解到,将神经网络模型、深度强化学习等AI技术用于未知蛋白质结构解析,DeepMind团队既非首创、亦非个例,甚至在此次大赛中排名前五的参赛团队中,都不同程度地使用了深度学习算法。

那么,AlphaFold缘何脱颖而出?此外,有专业人士指出,AlphaFold的此番“大胜”并不完美,那么,AI用于蛋白质结构预测,还有哪些不尽如人意之处?

并不是一次完美的“大胜”

在结果揭晓的当天,谷歌同时发布了一篇供媒体参考的新闻稿件,标题醒目:《AlphaFold:用AI进行科学探索》(英文题目:AlphaFold: Using AI for scientific discovery)。

“DeepMind团队(的新闻稿)并没有披露,此次挑战赛的前五名都使用了深度学习技术,并且其他加入了深度学习的解构预测模型也很好。”巴黎笛卡尔大学前沿生物学博士郭昊天对《中国科学报》举例说,今年参赛的队伍中,很多都使用了CNN等深度学习方法,如拿到了第二名的密歇根大学的Yang Zhang(音:张扬)团队,就在其开发的I-TASSER结构预测模型(近10年来最流行的结构计算模型之一)的基础上,将卷积神经网络(CNN)与之整合、优化,提高了预测准确率。

“该方法与AlphaFold相比,准确率的差别其实相当微弱——前者预测结构和真实结构相符的概率为85.1%,只比AlphaFold的87.9%相差不到3%。考虑到DeepMind的计算力,这个边际效应非常小。”郭昊天说。

曾从事蛋白结构信息学及基于蛋白组学的系统生物学研究的国家纳米科学中心研究员方巧君也告诉《中国科学报》,从与待测蛋白质真实结构的相符程度来看,前几名的差别并没有那么大。

也就是说,AlphaFold之于其他团队的真实优势,并非如“25个单项最佳”与“3个单项最佳”这种数字上的反差那么强烈。

郭昊天告诉记者,早在AlphaFold面世之前,就有一些学者尝试使用神经网络和强化学习来完成模型预测中的“模拟退火”过程。

那么,是什么让此次AlphaFold能够在本次比赛中脱颖而出呢?

“谷歌有钱有TPU!”郭昊天略带调侃地说,DeepMind团队的优势在于“硬件的胜利”,本次蛋白质结构预测挑战赛,确切地说应该是AlphaFold“大胜没钱的研究机构的其他深度学习算法”。

郭昊天解释说,DeepMind可以动用几千片TPU(张量处理单元,谷歌专为机器学习而定制的芯片,笔者注),这是一般科研团队所难以比拟的。“如果使用DeepMind的资源,重新训练模型,或许Zhang团队得到的结果比AlphaFold更好也未可知。”

距离“成功预测蛋白质结构”还差得远

同样参加本次挑战赛的英国科学家Liam McGuffin,观察到许多工作组使用各种机器学习方法试图预测蛋白结构,表达了他对AI给这个领域带来的推动的乐观情绪:“这几年来AI给这个领域带来了惊人的推动,也许在2020年左右,我们就可以基本上解决蛋白结构预测的问题。”

基于此,有评论称:“结构生物学的春天来了。”

方巧君有着不同的看法。“AlphaFold虽然胜出,但是我们也看到它距离解决折叠问题、距离实际运用还有差距。”她告诉记者,实际中待解的蛋白分子都比较大,而比赛中看到的蛋白质只有100个左右氨基酸,“说到2020年就可以基本解决问题有点太乐观了”。

与方巧君持同样观点的还有哈佛大学医学科学博士袁博以及在美国布鲁克海文国家实验室“用机器学习做生物信息”的在读博士Z。他们认为,AlphaFold距离“成功预测蛋白质结构”还差得远。

“在结构生物学领域,这毫无疑问是一项巨大的突破,但也掀起了很多质疑和担忧的声音。事实上,AlphaFold的模型还没有达到极高的准确率,在一些传统模型可以解决的案例中,反而达不到预期的效果。”袁博对《中国科学报》说,AlphaFold对某些蛋白的预测甚至没有达到平均水平。他认为该模型对于“什么样的蛋白分子更有效?为什么更有效”“这样的模型可以被用来实际应用帮助药物开发吗”这些问题都还未详细研究,还存在不少问号。

“深度学习虽然是个‘神器’,但跟任何机器学习一样,深度学习必须依赖足够数据。目前来看,AlphaFold样本数量少得可怜。”Z表示,仅仅大致勾勒出蛋白质结构是远远不够的,人们需要依靠一种可靠性高的蛋白质结构预测手段,而所谓可靠性高,“必须精准预测才行”。因此他认为,模型的预测分辨率必须非常高才有较大实际作用。

方法思路有时比深度学习更重要

就AlphaFold的表现而论,郭昊天谈道:“把深度学习引入蛋白质结构预测是大势所趋,没有道理不用,也没有道理不好用。”他认为,以一个特定的算力,一定存在一个很好的处于“平衡点”的算法——混合了深度学习和基于人类知识的传统方法。对于一般团队的算力而言,DeepMind开发的AlphaFold肯定不是那个平衡点;甚至他们所采用的方法也未必在那个平衡点上。

郭昊天言外之意,在DeepMind可调动的资源范围内,AlphaFold的表现仍有提升空间。

不过,尽管AI在蛋白质结构预测乃至生物信息学领域的潜力仍待进一步挖掘,但依靠越来越智能的计算来解决生物学问题正变得越来越重要,已是大势所趋。甚至在北京大学生物化学与分子生物学教授昌增益看来,蛋白质预测本质上“一直就是一种人工智能的应用,好像不能算是一件新鲜事”。

“我的认识不一定准确,但几年前有学者帮我们预测过蛋白质结构,他们给我的印象就是如此。”昌增益说。

Z也表示,深度学习在生物信息领域里“绝对不是什么新鲜事,现在很多paper都用上了深度学习”。

不过,生物信息学领域的特点,也让AI技术难以尽情施展。“生信领域复杂度太高、可训练的样本太小,这特别不利于设计模型结构和调参。”郭昊天认为,国际蛋白质结构库(PDB)所有物种的蛋白加在一起(含大量衍生同种型蛋白质)只有不到15万个可搜索的结构,这种训练样本显然不合AI的胃口。

“按现在的路子,恐怕很难提高准确率。”郭昊天说,可能过不了多久,就会有一个新的模型超越AlphaFold。

“预测蛋白质结构的难度跟人工智能下棋绝不是一个数量级的,深度学习并不是所有难题的答案。有时候,方法思路比深度学习更重要。”Z对记者如此说道。

《中国科学报》 (2018-12-13 第5版 技术经济周刊)
 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表科学网观点。 
相关新闻 相关论文

图片新闻
薇甘菊“三招”重塑根际氮循环占先机 首次发现,SpaceX火箭坠毁催生空气污染
228米!最长岩芯从南极而来 最新AI模型“星衍”突破天文观测极限
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文