研究人员开发可解释AI模型精准鉴定细胞谱系特征基因—新闻

作者：朱汉斌来源：中国科学报发布时间：2026/5/26 10:22:21

选择字号：小中大

研究人员开发可解释AI模型精准鉴定细胞谱系特征基因

在国家重点研发计划、广东省科技计划等项目资助下，中国科学院广州生物医药与健康研究院（以下简称广州健康院）细胞数字孪生研究组开发了一款名为scMarkerGene的可解释人工智能（AI）模型，用于精准鉴定细胞谱系特征基因。近日，相关成果发表于《生物信息学简报》（Briefings in Bioinformatics）。

scMarkerGene工作流程。研究团队供图

在单细胞转录组学分析中，精准识别细胞类型是基础，而发现细胞类型特异性标记基因则是这一过程的核心。传统方法多依赖统计阈值或聚类启发式策略，易受数据噪声、注释偏差及基因高表达但非特异性等问题的干扰。

针对上述挑战，研究团队提出了scMarkerGene模型。该模型基于可解释神经网络框架，通过构建“贡献分数矩阵”，将每个基因对细胞类型判别的影响量化为可解释的贡献值，并结合集成学习与特异性过滤策略，实现了对不同物种、不同测序技术、不同细胞群体规模及高稀疏性数据的稳健标记基因识别。

研究团队系统评估了scMarkerGene在10个公开的单细胞RNA测序数据集上的表现，涵盖拟南芥、果蝇、小鼠、人类等多个物种及多种测序平台。结果表明，该模型在多个评估指标上均优于scanpy、scMAGs、SMaSH、scVI等现有方法。在模拟数据实验中，scMarkerGene能高特异性识别标记基因，并有效滤除非特异性基因。即使引入不同比例的随机丢失噪声，该模型仍保持高鲁棒性。在骨类器官数据集中，scMarkerGene在粗粒度与细粒度细胞类型上均能稳定识别高特异性标记基因，尤其在不足100个细胞的小群体中仍保持最优表现，展现出对罕见细胞群体的强大适应性。

此外，在空间转录组与拟时间序列分析中，scMarkerGene识别出的标记基因在10X Visium小鼠脑组织及人黑色素瘤数据中均展现出清晰的空间定位特征；在BEELINE基准数据中，其在不同离散时间状态下预测的标记基因也均取得最优表现。

论文通讯作者、广州健康院研究员赵永兵指出，scMarkerGene以判别函数为核心、以贡献分数为统一度量，区别于传统方法依赖表达均值差异检验的方式，推动标记基因筛选从“统计描述”走向“机制解析”，为从复杂单细胞数据中解析细胞身份提供了可靠方法。

相关论文信息：https://doi.org/10.1093/bib/bbag223

编辑部推荐博文
科学网绘图频道上线，助力科研！下单立减500元科学网2026年4月十佳博文榜单公布！ 3年6本新刊丨2025-2027《自然》系列新刊反常与非遍历动力学的多尺度建模与模拟郑州航空工业管理学院宋礼猛等人联合发表新综述 PNAS提出同行评审新机制——审稿积分制更多>>