|
北大教授高毅勤: |
和昇腾AI一起探索微观世界的“星辰大海” |
|
如果把参照系缩小,微观世界同样是浩瀚的“星辰大海”。
尽管要放大数亿倍才“肉眼可见”,但分子的组成、结构和运动状态上的小小改变,也许会影响人们的身体健康或材料的性质。因此,进行分子动力学研究已成为新药研发、疾病治疗、材料改性、新材料设计等领域越来越重要的方向。
近日,北京大学理学部副主任、北京大学化学与分子工程学院教授高毅勤及其团队与华为合作,基于昇腾AI开发出新一代具有自主知识产权的分子动力学模拟软件SPONGE,并将其植入开源AI框架昇思MindSpore,让该框架同时具备AI能力和传统分子模拟能力。
这或许能让人们自由翱翔原子、分子的微观世界。
小分子有大“神通”
“我们所处的世界实际上由分子、原子组成,人们身体中或生命过程中起作用的基本单元就是这些微观粒子。”高毅勤告诉《中国科学报》,“要了解这个客观世界,就要先弄清分子的性质,比如分子组成、结构和运动状态等。”
高毅勤解释说,分子有大有小,蛋白、DNA是分子,药物分子也是分子。分子的结构、组成和运动状态多种多样,人体内蛋白质、DNA等分子之间有着密切的相互作用。如果某个分子或某些分子动力学特征(形状、结构和运动状态)发生改变,人们可能就会出现健康问题。
而药物治疗的本质,其实就是药物分子和组成人体的某些分子相互干预、相互作用的结果。如果人们对分子有足够的了解,就可以在健康监测、疾病治疗,包括针对某种疾病的新药设计方面大有作为。
“人们对药物的了解其实就是对药物分子的认识,包括它的化学组成、分子结构、分子运动等。”高毅勤补充说,“尽管原子很小,但有时候一个原子的改变,就会使药物从良药变成毒药。比如,如果将一个氢原子替换成氟原子,表面上看整个分子没有太大变化,但药性却可以发生剧变 。因此,我们追问药理、设计药物的时候,需要深入到原子层面。”
分子和原子很小,通常用亚纳米尺度来描述它们。例如,我们平时常听说的细胞核的尺寸已经很小了,绝大多数细胞核直径不足10微米,肉眼无法看见,而一个细胞核却平均由1012至1013个原子组成,由此可见原子的尺度有多么小。而且,分子、原子虽然很小,但运动速度却快得惊人。
“我们在描述分子运动的时候,常用的时间尺度是飞秒、皮秒、纳秒。”高毅勤说,“飞秒是10-15秒,所以,常规手段做分子跟踪实验非常困难(又小又快),这时候就要借助一些工具,包括分子动力学工具(SPONGE)来研究。我们基于物理原理,把原子通过化学键等相互作用连成分子结构,从而描述它的空间位置、受到的力和运动状态。”
分子动力学显“身手”
借助分子模拟技术,人们可以模拟化学反应、蛋白质折叠以及同一物质在不同状态下的相变,在材料设计、药物设计、化工设计等场景有着广泛应用。比如,在传统的蛋白质结构测定工作中,科学家使用电镜观测后,往往会使用分子动力学模拟工具来辅助确认蛋白质结构。而DeepMind震动世界结构生物学界的AlphaFold 2就是结合大数据、深度学习和分子模拟工具获得蛋白质结构的突出代表。
“AlphaFold 2主要做蛋白质结构预测,就是研究组成蛋白质的原子在空间中是如何排列组合,即它们处于怎样的相对位置。”高毅勤说,“我们和华为合作,在试图基于昇腾AI搭建一个更普适、更易用的平台。AlphaFold 2基于数据来建构分子结构和模型,而我们的分子动力学工具基于两大部分进行分析,一是科学计算,二是基于数据的深度学习模型。”
SPONGE既可以进行蛋白质结构预测,还能进行蛋白质结构打分(结构预测后,对它进行分子动力学分析,并对其中违背物理规律的地方进行修正)。
“我们希望分子动力学工具能涵盖更多的应用场景,能从基因层面到分子药物层面(不只是小分子药物,也可以是大分子药物)提供一个统一的平台。”高毅勤说,“目前我们主要关注和生命科学相关的研究,但这个工具可以应用到其他领域,比如电池相关材料和高分子材料的研究与设计。”
未来的重要趋势
不管是药物设计还是理解生命过程本身,从生物和化学的角度搞清靶点蛋白质的结构都非常重要。过去人们通过实验的办法,不管是使用X射线衍射、核磁共振还是近年来异军突起的冷冻电镜技术,实验周期通常都需要数月甚至数年。
“现在有了高通量的计算方法,就可能把原来数月甚至数年的研究周期缩短到分钟甚至几十秒量级。”高毅勤说,“这将不但节约时间成本,还节省了实验耗材,大大加速科研进程。”
另外,有了高通量的计算,人们可以更全面地理解分子和分子之间相互作用,比较正常和疾病状态下分子状态的不同,为人们寻找新的疾病治疗靶点带来启示。
“原来即使有很多想法,也无法用传统方法一一进行测试和验证。而分子模拟工具一方面可以快速检验很多想法,另一方面可以通过积累大量可靠数据催生新思路,带来新可能。”高毅勤说。
他认为,当数据足够多而且可靠、计算能力足够强的时候,利用计算机根据功能需求来进行分子设计的能力会逐渐加强。
但高毅勤同时强调,有了分子动力学工具,并非就可以抛开实验了。“计算也好,理论推演也好,一定要和实验紧密结合起来,更好地形成互动。”高毅勤说,“计算指导实验、实验检验和纠正计算,形成一个相互补充、相互验证的闭环,这样才能提高科研效率,我相信未来这是非常重要的趋势。”
他们的征程刚刚开始
国际上分子模拟工具很多,产业界也有比较好的应用,但高毅勤一定要自己去做。他认为分子动力学模拟是在分子层面描述一个复杂的过程,自己去开发,一旦有了新的功能需求或技术更迭需要,随时可以补充和更新,用别人的工具就可能永远只能跟着别人走。
此外,分子模拟对运算能力、运算体系和计算量要求都非常高。在这个过程中,一些基于科学原理的思考或者方法(体现为工具或软件)能很好提高它的速度。但使用别人的工具或软件,遇到不适合的地方修改的难度和工作量非常大。
“用别人的软件不管在当前研究还是后续应用中都可能对研究的快速进展造成阻碍。”高毅勤说,“通过发展我们自己的计算方法,同时将深度学习、人工智能方法结合起来,我们现在把SPONGE和MindSpore同构,可以在深度学习框架下实现传统分子模拟计算。”
另外,使用别人的工具或软件也存在潜在的知识产权风险。比如,虽然DeepMind开源了AlphaFold 2,但并未开源其训练代码,也没有提供对应的数据集,这对科研而言或许没有风险,但商业应用却存在一定的侵权问题。
2019年,高毅勤团队准备开发SPONGE时,一度面临巨大挑战。他直言,没有一个好的深度学习框架来配合,写这个工具困难很大。
此时,华为开始发展AI框架昇思MindSpore,也想在科学计算领域里有所作为。双方完全志同道合,华为非常清楚高毅勤的需求,有了昇腾生态的支持,双方强强联合的优势完全被激发出来。
当时高毅勤和华为团队决定复现AlphaFold 2,但这并非简单的重复。他们决定从三个维度(硬件、软件平台和发展新方法)去复现,从而能在复现中得到锻炼、学习和提高。在硬件方面,昇腾的性能表现非常优异;在昇思框架之下,软件平台也显得驾轻就熟;在训练、推理任务等方面表现更为突出。
“不管是计算效率,软硬件配合还是应用场景和计算精度,都达到了AlphaFold 2水平,在某些指标上我们还有比较明显的优势。”高毅勤认为,在自己开发的平台上做事情,不管是方法发展还是前沿创新上,都有更多的灵活度,对未来的发展也十分有利,而且在这个过程中,学生们也能学到真正有用的东西。
“它贯穿了软硬件,贯穿了方法发展、程序编写及应用场景的高效实现,可以全方位地培养人才。”高毅勤说,“华为团队的同学们开始甚至不知道氨基酸是什么,到后来能实现蛋白质结构高精度预测,悟透其中的科学道理,这给我留下很深印象。他们专业、敬业,善于学习,这也是我重视跟他们合作的原因,我们不只是在完成一项技术任务,而是真的在解决科学问题。”
目前,高毅勤团队与华为团队在基于深度学习的分子模拟软件开发方面仍在不断“进化”, 他们基于AI框架昇思MindSpore实现的分子动力学模拟软件架构更简单、开发更高效、使用更“智能”。
深度探索微观世界是人类一直以来的梦想和追求。有了强大AI能力的昇思MindSpore“加持”,SPONGE会为科学计算带来重大变革,引领人们走进原子、分子的“星辰大海”。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。