
研究人员希望用AI分析质谱仪数据,为复杂样本的蛋白质识别带来变革。图片来源:LEWIS HOUGHTON
本报讯 蛋白质测序一直是医学诊断、环境和考古学研究面临的挑战。现在,人工智能(AI)正在改变这一领域——通过分析组成蛋白质的氨基酸序列从而识别蛋白质。与传统方法相比,AI不仅识别速度更快,还能帮助研究人员对以前从未见过的蛋白质进行测序。
近日,一项发表于《自然-机器智能》的研究显示,名为InstaNova的AI可以识别伤口中的致病蛋白质和海水样本中微生物产生的未知蛋白质。
事实上,InstaNova并非个例。在过去4年里,研究人员已开发出20多个蛋白质测序AI模型。“很明显,这是该领域的发展方向。”美国华盛顿大学蛋白质组学AI开发人员William Noble说。
蛋白质远比DNA和RNA复杂。人类基因组包含约2万个基因,但这些基因会产生1000万种不同的蛋白质。
生物学家通过将蛋白质分解成肽段来识别蛋白质,肽段由5到20个氨基酸组成。随后他们用质谱仪对这些肽段进行称重,并将其与数十个数据库中已知肽段的重量进行匹配,以确定身份,最终再将这些肽段拼接成完整的蛋白质分子。
但这种方法存在局限性。比如,质谱法发现的多达70%的肽段并不存在于现有数据库中。
“传统蛋白质组学有点像谷歌搜索。如果它不在数据库中,你就找不到它。”丹麦技术大学的蛋白质组学专家Timothy Patrick Jenkins说,特别是随着肽数据库的不断扩充,计算机匹配所需的时间越来越长。
AI则无须匹配肽段。它们计算了所有可能肽段的重量,而后者可能是由对一个给定长度的肽的化学修饰产生的。如果AI得出的片段与实际样本中的肽段匹配,它就会尝试将其组装成完整的蛋白质。
为提高准确性,蛋白质测序AI接受了数百万个已知肽段及其如何组装成蛋白质的训练。这使得AI能够学习氨基酸链最常见的结合方式。
Jenkins说,这种方法类似于大语言模型,就像ChatGPT通过大量文本训练学习语法规则一样。AI也习得了一种蛋白质“语法”,为给定的一组肽提供最可能的序列。
2021年,Noble和同事推出了首个基于深度神经网络的蛋白质测序AI——Casanovo。他们在2024年发表于《自然-通讯》的论文中报告说,该AI能有效识别训练数据中没有的新肽序列。实验表明,Casanovo擅长识别免疫系统攻击癌症时靶向的细胞表面肽,以及海水样本中的未知蛋白质。
而Jenkins和同事开发的InstaNova在深度神经网络基础上引入了扩散策略。AlphaFold等蛋白质结构预测模型也采取了这种策略。
在与Casanovo的对比测试中,InstaNova与升级版InstaNova+结合,从实验室制造的9种生物的蛋白质混合物中成功识别出42%的肽段。
在真实蛋白质组学测试中,InstaNova从感染的腿部伤口中鉴定出1225种血液白蛋白特有的肽,是传统方法检索结果的10倍。其中254种是数据库中没有的新肽。
其他领域的研究人员也在使用蛋白质测序AI。英国剑桥大学蛋白质组学研究员Matthew Collins最近就在测试几种蛋白质测序AI工具分析考古样本的能力。
Collins指出,大多数情况下,考古样本的蛋白质由于在地下经过亿万年发生了化学变化,或者它们来自早已灭绝的动植物,因此不太可能存在于传统蛋白质和肽数据库中,而这些AI模型尤其适用于混乱环境中的蛋白质检测。
利用AI工具,Collins团队已在尼安德特人遗址中发现了兔子蛋白质特征,并在古代巴西的陶罐中检测到鱼类肌肉蛋白痕迹。(徐锐)
《中国科学报》 (2025-04-07 第2版 国际)