大模型辅助识别罕见病致病变异，有奇效—新闻

作者：赵广立来源：中国科学报发布时间：2024/7/28 17:31:20

选择字号：小中大

大模型辅助识别罕见病致病变异，有奇效

对罕见病患者而言，越早确诊越有治愈希望。国际罕见病研究联盟第二个十年计划(2017-2027)的首要目标就是“让所有罕见病患者在就诊后的一年内获得精准诊断”。在大语言模型快速发展的今天，这一理想正在照进现实。

7月28日，《中国科学报》从华大基因获悉，其旗下人工智能（AI）团队已将大模型技术引入罕见遗传病的解读工作中，不仅能准确判断治病变异位点，还可大大提高诊断效率，相关工作已于近日公布于预印本平台medRxiv。

记者了解到，华大基因AI团队近期首次应用微调大语言模型来识别罕见遗传疾病的致病变异，开发出了一种由大语言模型驱动的新方法“Genetic Transformer” (以下简称GeneT)。前期实验结果显示，GeneT在模拟样本和真实临床样本中分别达到99%和98%的致病变异召回率，同时分析效率最高提升了20倍。

具体而言，研究团队利用公开数据构建的数万例阴性和阳性病例作为训练数据集，并将“基于资深遗传病分析专家们解读思维链构建的提示词”作为模型微调的逻辑基础，引导基础大语言模型学习罕见遗传病致病变异筛选的能力。研究团队对6个不同参数量的大语言模型进行微调，使模型专注于致病变异筛选这一任务，最终打造出GeneT。

值得一提的是，小参数量的模型具有和大参数量模型相当甚至更优的最佳预测性能，这对于其未来部署和使用都是更优选择。

为验证结果的可靠性，研究团队利用真实临床场景验证展示了其相较于传统工具及遗传病人工筛选的优势。研究安排专家1（应用了GeneT辅助）和专家2（对照）分别进行候选报出变异的初步筛选和初筛结果复核。结果显示，专家1可以在更短的分析时间内定位阳性位点（若初筛环节也使用GeneT结果，分析时间可以从60分钟缩短到约3分钟），且有更准的选点和更稳定的个体表现。

真实临床场景下GeneT的分析效率和性能表现。图片来自论文

研究者在论文中表示，这项研究成果代表了一种遗传病解读分析方法的“范式转变”，以基因检测大数据为基础、AI算法为核心的智能化筛选工具的开发，正在加速相关罕见病的诊断进程。

值得一提的是，近期沙特阿拉伯阿卜杜拉国王科技大学和美国费城儿童医院，两个独立的研究团队先后评估了大模型在罕见遗传病诊断中进行基因优先排序的实用性。他们的研究结果也表明，大模型凭借其在处理大规模文本数据和复杂问题上的能力，有望辅助临床医生和研究人员更高效地识别疾病相关的基因和变异。

编辑部推荐博文
科学网2024年6月十佳博文榜单公布！ 2024年夏季青藏高原考察：吉隆至帕羊-0720 如何克服阴性实验结果发表难题 NML文章集锦\| 水处理与海水淡化我们不知道答案的125个科学问题(92)成瘾行为施平先生1950年代的一段科教往事更多>>