■本报记者 李晨
尽管人们与自身肠道中数以亿万计的微生物“朝夕相处”,但对它们的功能所知甚少。迄今为止,超过70%的人体微生物基因功能仍是未解之谜。这些功能未知的微生物基因被科学家统称为微生物组功能“暗物质”。
中国农业科学院深圳农业基因组研究所研究员张艳聪团队与美国哈佛大学教授Curtis Huttenhower团队合作,开发了一种名为FUGAsseM的蛋白质功能预测人工智能模型,为系统解析微生物组功能“暗物质”提供了全新解决方案。近日,这项突破性研究成果发表于《自然-生物技术》。
微生物世界的“暗物质”难题
人体肠道微生物组编码的基因数量是人体基因组编码数量的150倍甚至更多。根据统一人类肠道基因组(UHGG)计划构建的资源库,科学家已经发现了超过1.7亿条蛋白序列。面对如此庞大的蛋白质世界,传统的实验方法显得力不从心。
“人类微生物组研究面临的最大挑战之一,是我们仍然不了解大多数细菌具体发挥什么作用。”论文通讯作者Huttenhower指出,虽然该领域已发展了许多先进的工具与技术,可以精确测量微生物组的组成,但对其功能的解读依然困难。
“部分微生物已被深入研究,但仍有很多种尚不清楚其功能。值得注意的是,微生物堪称‘化学高手’,能够分解人类无法利用的食物成分,也能改变化合物的结构,使药物产生活性。”Huttenhower说,这项研究的重点就是深入解析微生物组中的蛋白质与代谢分子功能,并揭示这些作用如何进一步影响人体健康。
论文第一作者、共同通讯作者张艳聪告诉《中国科学报》,长期以来,学界主要采用序列相似性原则预测未知基因的功能,但基因的表达模式不同,导致了预测结果的局限性。
面对这一挑战,该团队另辟蹊径,开发了不依赖于序列相似性的新模式。“FUGAsseM的特色在于它利用多组学数据信息,包括宏转录组中的共表达信息、宏基因组中的共定位信息、序列相似性信息,以及蛋白结构相似性信息,整合成多维网络结构,然后利用机器学习方法学习这些网络。”
这种方法的核心是“循证推理”理念。张艳聪用一个比喻解释道:“可以把基因想象成工厂里的工人。如果一些工人(未知基因)总是和负责同一生产线的熟练工(已知功能基因)一起上班、一起加班,那他们很可能在参与同样的生产流程。”
研究团队收集了1595份宏基因组和800份宏转录组数据。这些数据来自对109人持续一年的追踪研究——每两周采集一次样本,最终形成了高质量的数据集。通过这些数据,他们进一步训练人工智能学习8万多个已知功能基因的表达模式,从而让人工智能具备了预测未知基因功能的能力。
在处理数据时,团队还攻克了一个重要技术难题。“宏转录组数据是多个物种混合的数据集,我们需要区分基因表达量高是由于拷贝数多,还是本身表达能力强。”张艳聪团队开发了新的标准化处理方法,有效排除了跨物种拷贝数的干扰,为人工智能学习提供了清晰信号。
卓越性能:精准预测的突破
FUGAsseM在测试中表现优异。张艳聪介绍了两类验证方式:对已知功能基因,FUGAsseM能以95%的准确率复现其功能;对未知基因,则采用时间留存验证方式,用2019年的数据训练模型得到预测结果,用2022年国际上公开的实验数据进行验证,结果显示预测准确率仍然很高。
具体而言,仅基于宏转录组的模型已达到平均71%的准确率,整合多类证据后,准确率可达95%,媲美甚至优于当前单菌方法预测模型等。在完全独立的实验验证数据上,FUGAsseM依然达到80%的预测准确率,显著优于依赖同源性的方法。
将FUGAsseM应用到人体肠道微生物组研究,团队取得了丰硕成果。
“我们预测出44万多个基因家族的功能,其中82.3%此前未被表征。”张艳聪表示,“更重要的是,我们发现了3万多个全新的蛋白家族,包括2.7万个弱同源性蛋白家族和6000余个完全无同源性的新型蛋白家族。”
Huttenhower表示,完全无同源性的蛋白家族的发现尤其令人振奋。“这些蛋白与已知蛋白没有序列相似性,我们通过它们的共表达模式预测功能,验证了循证推理模式的有效性。”
在这些新发现的蛋白中,有些与人体健康密切相关。“我们在益生菌Faecalibacterium prausnitzii中预测到新型噬菌体防御。”张艳聪指出,这种益生菌在健康人体内丰度较高,而在疾病患者中较低,新发现的基因可能帮助其抵御噬菌体侵染,维持肠道健康。
研究还揭示了大量此前未知的代谢与环境互作功能,包括铁离子稳态、氨代谢、毒素处理及宿主相关的跨膜转运功能等,为理解肠道菌群与宿主互作提供了新视角。
从工具到应用:多领域潜力巨大
尽管这项研究以肠道微生物组为应用案例,但FUGAsseM的设计具有广泛适用性。“它是一个广谱性的工具,不仅可以应用于人体微生物组,还可以用于环境微生物组、农业中的根际微生物组或土壤微生物组等。”张艳聪强调。
“FUGAsseM能够精准注释人体微生物组中大量此前未知的‘暗物质’功能基因,与当前国际前沿研究方向高度契合,在深入理解微生物组功能方面取得了关键突破。”一位审稿人对这一工具给予高度评价。
另一位审稿人则称赞:“其代码质量极高,既便于初学者快速使用,也易于资深研究人员扩展与贡献,体现了该工具的专业性与可持续性。”
FUGAsseM的出现标志着微生物组研究从描述性研究迈向智能化功能解析的新阶段。这一工具不仅为理解肠道菌群与宿主在免疫、代谢和疾病中的复杂互作提供了关键资源,也为揭示环境微生物在养分循环与生态平衡中的作用奠定了方法学基础。
张艳聪表示,随着更多数据的积累和工具的完善,他们能更全面地解析微生物世界的功能密码,这对疾病研究、益生菌开发、环境功能预测和农业生态调控都具有重要意义。
相关论文信息:
https://doi.org/10.1038/s41587-025-02813-7
《中国科学报》 (2025-11-10 第3版 综合)