作者:李晨 来源:中国科学报 发布时间:2025/10/24 15:54:22
选择字号:
创新方法让AI“见微知著”

 

尽管我们与自身肠道中数以亿万计的微生物“朝夕相处”,但人类对它们的功能却所知甚少。迄今为止,超过70%的人体微生物基因功能仍是未解之谜,这些功能未知的微生物基因产物被科学家们统称为微生物组功能“暗物质”。

10月15日,中国农业科学院深圳农业基因组研究所研究员张艳聪团队与哈佛大学教授Curtis Huttenhower团队合作,在《自然—生物技术》发表了一项突破性研究,开发了一种名为FUGAsseM的蛋白质功能预测AI模型,为系统性解析微生物功能“暗物质”提供了全新解决方案。

微生物世界的“暗物质”难题

人体肠道微生物组编码的基因数量是我们人体基因组编码数量的150倍甚至更多。根据统一人类肠道基因组计划(UHGG)构建的资源库,科学家已经发现了超过1.7亿条蛋白序列。面对如此庞大的蛋白质世界,传统的实验方法显得力不从心。

“人类微生物组研究面临的最大挑战之一,是我们仍然不了解大多数细菌在具体发挥什么作用。”论文共同通讯作者Huttenhower指出,虽然该领域已发展出许多先进的工具与技术,可以精确测量微生物组的组成,但对其功能的解读依然困难。

“部分微生物已被深入研究,但仍有数百种尚不清楚其功能。值得注意的是,微生物堪称‘化学高手’,能够分解人类无法利用的食物成分,也能改变化合物的结构,使药物产生活性。” Huttenhower说,该项研究的重点就是深入解析微生物组中的蛋白质与代谢分子功能,并揭示这些作用如何进一步影响人体健康。

论文唯一第一作者、共同通讯作者张艳聪告诉《中国科学报》,长期以来,学界主要采用序列相似性原则来预测未知基因的功能,但由于基因的表达模式不同,这就会导致预测结果的局限性。

面对这一挑战,该团队另辟蹊径,开发了不依赖于序列相似性的新模式。“FUGAsseM的特色在于它利用多组学数据信息,包括宏转录组中的共表达信息、宏基因组中的共定位信息、序列相似性信息,以及蛋白结构相似性信息,整合成多维网络结构,然后利用机器学习方法来学习这些网络。”

这种方法的核心是“循证推理”理念。张艳聪用一个生动的比喻解释道:“可以把基因想象成工厂里的工人:如果一些工人(未知基因)总是和负责同一生产线的熟练工(已知功能基因)一起上班、一起加班,那他们很可能也在参与同样的生产流程。”

研究团队收集了1595份宏基因组和800份宏转录组数据,这些数据来自对109人持续一年的追踪研究,每两周采集一次样本,最终形成了高质量的数据集。通过这些数据,他们进一步训练AI学习了8万多个已知功能基因的表达模式,从而让AI具备了预测未知基因功能的能力。

在处理数据时,团队还克服了一个重要技术难题。“宏转录组数据是多个物种混合的数据集,我们需要区分基因表达量高是由于拷贝数多,还是本身表达能力强。”张艳聪团队开发了新的标准化处理方法,有效排除了跨物种拷贝数的混淆,为AI学习提供了清晰信号。

卓越性能:精准预测的突破

FUGAsseM在测试中表现优异。张艳聪介绍了两类验证方式:对已知功能基因,FUGAsseM能够以95%的准确率复现其功能;对未知基因功能的预测,采用时间留存验证方式,用2019年的数据训练模型得到预测结果,等待2022年国际上公开的实验数据验证,结果显示预测准确率仍然很高。

具体而言,仅基于宏转录组的模型已达到平均71%的准确率,整合多类证据后准确率可高达95%,媲美甚至优于当前单菌方法预测模型等。在完全独立的实验验证数据上,FUGAsseM依然达到80%的预测准确率,显著优于依赖同源性的方法。

将FUGAsseM应用到人体肠道微生物组研究,团队取得了丰硕成果。

“我们预测出了44万多个基因家族的功能,其中82.3%此前未被表征。”张艳聪表示,“更重要的是,我们发现了3万多个全新的蛋白家族,包括2.7万条弱同源性蛋白家族和6000余条完全无同源性的新型蛋白家族。”

Huttenhower表示,完全无同源性的蛋白家族的发现尤其令人振奋。“这些蛋白与已知蛋白没有序列相似性,我们完全通过它们的共表达模式预测功能,这验证了循证推理模式的有效性。”

在这些新发现的蛋白中,有些与人体健康密切相关。“我们在益生菌Faecalibacterium prausnitzii中预测到新型噬菌体防御。”张艳聪指出,这种益生菌在健康人体内丰度较高,而在疾病患者中较低,新发现的基因可能帮助其抵御噬菌体侵染,维持肠道健康。

研究还揭示了大量此前未知的代谢与环境互作功能,包括铁离子稳态、氨代谢、毒素处理及宿主相关的跨膜转运功能等,为理解肠道菌群与宿主互作提供了新视角。

从工具到应用:多领域潜力巨大

尽管这项研究以肠道微生物组为应用案例,但FUGAsseM的设计具有广泛适用性。“它是一个非常具有广谱性的工具,不仅可以应用于人体微生物组,还可以用于环境微生物组、农业中的根际微生物组或土壤微生物组等。”张艳聪强调。

审稿人对这一工具给予高度评价,认为“FUGAsseM能够精准注释人体微生物组中大量此前未知的‘暗物质’功能基因,与当前国际前沿研究方向高度契合,为深入理解微生物组功能提供了关键突破。”

另一位审稿人则称赞“其代码质量极高,既便于初学者快速使用,也易于资深研究人员扩展与贡献,体现了该工具的专业性与可持续性。”

张艳聪的研究经历本身就是一个跨学科的故事。北京师范大学博士毕业的她,最初专注于微生物进化生态学研究。

“我的博士工作是微生物进化生态,博士后阶段转向功能挖掘和机制解析。微生物组研究首先需要了解群落组成,但更重要的是解析它们在生态系统中的功能。”这一转变促使她开发新的研究工具。“传统方法无法预测许多新基因的功能,这驱使我们开发专门针对群落中新型基因或蛋白功能预测的工具。”张艳聪说。

FUGAsseM的出现标志着微生物组研究正从描述性研究迈向智能化功能解析的新阶段。这一工具不仅为理解肠道菌群与宿主在免疫、代谢和疾病中的复杂互作提供关键资源,也为揭示环境微生物在养分循环与生态平衡中的作用奠定方法学基础。

张艳聪表示,随着更多数据的积累和工具的完善,他们将能更全面地解析微生物世界的功能密码,这对疾病研究、益生菌开发、环境功能预测和农业生态调控都具有重要意义。

相关论文信息:https://doi.org/10.1038/s41587-025-02813-7

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
我国首颗海洋盐度探测卫星完成在轨测试 新型光电神经网络架构让光电计算精度更高
神秘宇宙“斑点”究竟是什么? “向上生长”的芯片,突破摩尔定律限制
>>更多
 
一周新闻排行
 
编辑部推荐博文