可预测10亿种蛋白质结构的开源模型来了—新闻

作者：文乐乐来源：中国科学报发布时间：2026/5/28 15:30:58

选择字号：小中大

可预测10亿种蛋白质结构的开源模型来了

随着一款新人工智能工具的发布，已知的蛋白质世界变得更加广阔——该工具生成了包含超过10亿个预测蛋白质结构和数十亿个蛋白质序列的图谱。

5月27日，美国生物医学机构Biohub的研究人员正式发布这一名为“ESM图谱”的数据库。Biohub由美国社交平台“脸书”创始人马克·扎克伯格及其妻子——医生兼教育家普莉希拉·陈创立。

该图谱所包含的预测蛋白质结构比谷歌旗下“深层思维”公司AlphaFold模型数据库多出8亿多条，比之前的ESM图谱多出约3亿条，其中大部分是此前尚未得到充分研究的元基因组序列。

人工智能工具设计出了针对细胞毒性T淋巴细胞相关蛋白4（CTLA-4）的结合体。图片来源：Molekuul/Science Photo Library

“这一图谱全面展现了蛋白质生物学的全貌，尤其是其中最不为人知的部分。”领导该项目的Biohub科学主管Alex Rives表示，“我们认为，它将成为新生物学发现的重要基础。”

这些预测结果是利用人工智能模型ESMFold2得出的。据Biohub称，ESMFold2的性能超越了AlphaFold3（最新版本）和其他蛋白质结构预测人工智能系统。

ESMFold2基于Rives团队2024年发布的“蛋白质语言”模型，该模型由涵盖“生命之树”的数十亿蛋白质数据训练而成。它包含了来自土壤、海洋和其他环境的“元基因组”序列，而这些序列并未收录于AlphaFold的数据库中。

研究人员表示，在确定相互作用蛋白复合物的正确结构方面——包括抗体分子与其抗原分子靶点的结合，ESMFold2的表现优于现有方法，包括AlphaFold3。

在一篇公布于预印本服务器的论文中，研究人员描述了他们如何利用ESMFold2设计能够与癌症和免疫疾病相关蛋白强力结合的新型抗体及其他蛋白质。实验室验证显示，很大比例的设计结果与预期一致。

Rives表示，希望这一免费开源的图谱能帮助科学家在蛋白质世界的已知与未知部分之间建立联系。

在瑞典隆德大学的计算生物学家Gemma Atkinson看来，新发布的图谱是“生物学领域一份的非凡资源”。“看到大规模蛋白质语言模型如何捕捉蛋白质生物学的基本规律，这令人感到兴奋。”

英国伦敦大学学院的计算生物学家Christine Orengo认为，这些预测虽然首先需要经过验证，但有望帮助发现新的蛋白质折叠方式和功能，这对蛋白质设计和生物学基础研究都具有重要意义。

韩国首尔大学计算生物学家Martin Steinegger最关心的问题，则是ESMFold2在预测与已知结构差异较大的蛋白质结构方面表现如何。他的团队发现，ESMFold的第一版在预测非常规蛋白质结构方面表现并不出色，尤其是那些存在于元基因组数据中的结构。

美国麻省理工学院的计算生物学家Sergey Ovchinnikov则认为，“ESM地图”是对广泛使用的包含超过2亿个蛋白质结构的AlphaFold数据库的补充，而非替代。

Ovchinnikov补充道，ESMFold2对蛋白质相互作用的预测令人印象深刻，但不算太出乎意外。今年早些时候，“深层思维”公司旗下机构发布了一款专有模型，在预测此类结构方面取得了显著进展。他表示，虽未直接与ESMFold2进行对比，但其他开源模型在预测蛋白质相互作用方面也取得了令人瞩目的成果。

不过，Ovchinnikov认为，ESMFold2的完全开源和不受任何商业使用限制，意味着它将得到广泛应用。“我预计很多人会很兴奋地尝试使用ESMFold2。”

编辑部推荐博文
封面文章\|《针刺研究》：电针“足三里”扑灭“糖火” 科学网2026年4月十佳博文榜单公布！什么时候发预印本最合适？\| 预印本知多少中大刘逸：跨学科研究思路与国际期刊发表指引拉长时间轴看问题相邻位点—单原子铂催化剂中主导析氢反应的新描述符更多>>