来源:Quantitative Biology 发布时间:2025/3/21 17:01:57
选择字号:
QB  美国迈阿密大学团队提出综合泛癌分析可揭示突变特征的癌症特异性

论文标题: Comprehensive cross cancer analyses reveal mutational signature cancer specificity

期刊:Quantitative Biology

作者:Rui Xin, Limin Jiang, Hui Yu, Fengyao Yan, Jijun Tang, Yan Guo

发表时间:05 June 2024

DOI:https://doi.org/10.1002/qub2.49

微信链接:点击此处阅读微信文章

癌症的发生和发展与基因突变密切相关,突变特征指的是基因组中由特定生物学过程或环境暴露引起的突变模式,不同类型的癌症可能表现出不同的突变特征。突变特征可以帮助识别引发癌症的潜在原因,因而对突变特征的研究对癌症的发生、发展和作用机制具有重要意义。目前,随着机器学习的深入发展和全基因组测序数据的激增,已知的突变特征不断增加,与特定致病机制相关的突变特征也被逐步证实,但仍有大量新的突变特征尚未被揭示。同时,体细胞突变的随机发生造成的癌症异质性也给诊断带来了极大的挑战。目前,解读突变特征并将其与癌症的发生机制进行关联是目前的一个重点研究方向。

近期,美国迈阿密大学Yan Guo和Jijun Tang团队Quantitative Biology期刊上发表了一篇题为"Comprehensive cross cancer analyses reveal mutational signature cancer specificity"的研究论文。文章通过共线性分析和机器学习方法,从突变特征的角度展示了癌症的异质性和特异性。通过系统的训练和独立验证,发现尽管大多数突变特征是独特的,但某些突变特征对之间可以通过突变模式和突变特征丰度观察到相似性,该结果可能有助于确定尚未明确的突变特征的病因。进一步使用机器学习方法的分析表明,突变特征对癌症的特异性是中等的。在所有癌症类型中,皮肤癌表现出最强的突变特征特异性。

全文概要

研究团队基于癌症基因组图谱(The Cancer Genome Atlas, TCGA)的数据训练机器学习模型,使用国际癌症基因组联盟(International Cancer Genome Consortiumm, ICGC)作为独立测试数据,来识别和比较不同癌症类型中突变特征的相似性和独特性,通过共线性检测了突变特征间的相关性,发现小部分的突变特征具有高度相关性,共享相似的突变模式,因而可根据现有的共线性来预测未知的突变特征的病因。

1. 突变特征和共线性

研究团队构建的机器学习模型,评估了突变特征的癌症特异性,使用Pearson相关系数分析了不同癌症类型的突变基因及其共线性。图1结果表明,尽管大部分突变特征相互独立,但仍存在高度相关的突变特征(r>0.7)。对这些突变特征进一步分析,发现具有显著不同突变模式的突变特征可能源自相同的病因(如紫外线照射、APOBEC诱变等);具有不同病因的高相关突变特征,同样具有相似的突变模式。

图1.共线性分析结果。(A,B) 训练(A)和测试(B)数据集中突变特征之间的 Pearson相关系数热图。(C–F) 四个高度相关的突变特征示例。(G、H) 样本级别的成对余弦相似度箱线图,分别根据训练(G)和测试(H)数据集的突变特征丰度水平计算得出。

2. 机器学习

研究团队对TCGA数据集进行预处理和重新平衡后,将数据集的20%作为验证集来防止过拟合和优化超参数,使用ICGC数据集用于训练,独立评估训练模型的性能。图2展示了研究使用的五种机器学习模型,包括两种基于树模型(随机森林和XGBoost)、两种基于神经网络模型(多层感知器(MLP)和深度神经网络(DNN))和一种基于神经架构搜索(NAS)的模型。主要性能指标采用F1分数,并且每种模型都针对每种癌症类型训练了独立的模型。

图2. 机器学习研究设计和深度神经网络(DNN)可视化。(A) 机器学习的研究设计。(B)应用的DNN模型的结构。

经过该模型的评估,发现皮肤黑色素瘤(SKCM)表现出高度的癌症特异性,是唯一一个可以通过突变特征与其他癌症类型一致区分的癌症类型。其最重要的突变特征包括SBS7a和SBS7b,这两种突变特征与紫外线照射相关。其他重要的特征包括SBS38(仅在皮肤癌中出现)和SBS1(与5-甲基胞嘧啶的自发脱氨相关)。SBS7a和SBS7b的结合,以及SBS38特征的存在,使SKCM的突变特征更突出。所有32个模型的F1分数显著高于随机F1分数的负二项背景分布,表明这些癌症类型的突变特征确实表现出一定的癌症特异性。

图3. 按模型对特征重要性进行排序。

3. 总结与展望

突变特征是癌症基因组学的热点,研究团队通过不同的机器学习模型对数据库中的突变特征进行共线性分析,分析突变特征之间的相似性,特别关注了其癌症特异性。研究结果表明,大多数突变特征几乎没有共线性,而皮肤癌拥有最独特的突变特征。此外,现有的共线性可用于估计尚未阐明的突变特征的病因。其次,证明了一系列机器学习模型都可以在二分预测特征上达到准确分类。本研究和未来的相关研究有望对突变特征进行机制解释,并根据对突变特征的精细表征来指导对癌症患者进行更精准的治疗。

QB期刊介绍

Quantitative Biology (QB)期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。

《前沿》系列英文学术期刊

由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、生命科学、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中12种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。

中国学术前沿期刊网

http://journal.hep.com.cn

 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
子午工程二期通过国家验收 科学家将光转为可流动超固体
你可以“训练”大脑,不被视觉错觉迷惑 银河系三维尘埃分布和特性图发布
>>更多
 
一周新闻排行
 
编辑部推荐博文