作者:朱汉斌 来源:中国科学报 发布时间:2026/5/26 10:22:21
选择字号:
研究人员开发可解释AI模型精准鉴定细胞谱系特征基因

 

在国家重点研发计划、广东省科技计划等项目资助下,中国科学院广州生物医药与健康研究院(以下简称广州健康院)细胞数字孪生研究组开发了一款名为scMarkerGene的可解释人工智能(AI)模型,用于精准鉴定细胞谱系特征基因。近日,相关成果发表于《生物信息学简报》(Briefings in Bioinformatics)。

scMarkerGene工作流程。研究团队供图

在单细胞转录组学分析中,精准识别细胞类型是基础,而发现细胞类型特异性标记基因则是这一过程的核心。传统方法多依赖统计阈值或聚类启发式策略,易受数据噪声、注释偏差及基因高表达但非特异性等问题的干扰。

针对上述挑战,研究团队提出了scMarkerGene模型。该模型基于可解释神经网络框架,通过构建“贡献分数矩阵”,将每个基因对细胞类型判别的影响量化为可解释的贡献值,并结合集成学习与特异性过滤策略,实现了对不同物种、不同测序技术、不同细胞群体规模及高稀疏性数据的稳健标记基因识别。

研究团队系统评估了scMarkerGene在10个公开的单细胞RNA测序数据集上的表现,涵盖拟南芥、果蝇、小鼠、人类等多个物种及多种测序平台。结果表明,该模型在多个评估指标上均优于scanpy、scMAGs、SMaSH、scVI等现有方法。在模拟数据实验中,scMarkerGene能高特异性识别标记基因,并有效滤除非特异性基因。即使引入不同比例的随机丢失噪声,该模型仍保持高鲁棒性。在骨类器官数据集中,scMarkerGene在粗粒度与细粒度细胞类型上均能稳定识别高特异性标记基因,尤其在不足100个细胞的小群体中仍保持最优表现,展现出对罕见细胞群体的强大适应性。

此外,在空间转录组与拟时间序列分析中,scMarkerGene识别出的标记基因在10X Visium小鼠脑组织及人黑色素瘤数据中均展现出清晰的空间定位特征;在BEELINE基准数据中,其在不同离散时间状态下预测的标记基因也均取得最优表现。

论文通讯作者、广州健康院研究员赵永兵指出,scMarkerGene以判别函数为核心、以贡献分数为统一度量,区别于传统方法依赖表达均值差异检验的方式,推动标记基因筛选从“统计描述”走向“机制解析”,为从复杂单细胞数据中解析细胞身份提供了可靠方法。

相关论文信息:https://doi.org/10.1093/bib/bbag223

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
镍基高温超导机制重要实验证据获发现 万米深渊发现“石茸”
中欧联合研制科学卫星“微笑”卫星升空 玄武岩能让水泥更“绿色”
>>更多
 
一周新闻排行
 
编辑部推荐博文