作者:刁雯蕙 来源:中国科学报 发布时间:2025/10/24 15:58:38
选择字号:
首个百亿级可部署基因组基础模型发布

 

10月23日,在第二十届国际基因组学大会上,华大生命科学研究院与之江实验室联合发布了首个百亿参数可部署的基因组通用基础模型(Genos)。这一针对人类基因组深度优化的基因组基础模型,可支持高达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别,有望为临床疾病诊断、个人基因组解读及前沿科学研究带来突破性变革。相关研究成果于22日发表于GigaScience

发布会现场。华大生命科学研究院供图


基因组学领域内的现有模型大多基于一到两个参考基因组进行训练,难以捕捉人类丰富的遗传多样性。而Genos则系统整合了人类泛基因组参考联盟、人类基因组结构变异图谱计划等多个权威公开资源,首次汇聚了全球范围内636个“端粒到端粒”级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,旨在从源头减少数据偏见,更全面地代表人类遗传多样性。

基因组的语言极其复杂,一个微小的单碱基突变,其影响可能由百万碱基之外的“遥远”调控元件决定。这要求模型既要有“显微镜”般的单碱基精度,又要有“广角镜”般的百万级超长上下文理解能力。为此,Genos通过混合专家(MoE)架构,能在拥有百亿级参数的庞大知识总量的同时,推理成本和资源消耗却远低于同等规模的模型。

为了全面验证模型的性能,研发团队进行了一系列测试。在基因组元件识别、远程调控预测、突变致病性预测等经典评测任务里,Genos在超过一半的任务里比所有现有模型都表现更好,而且长序列评测任务里,如突变热点识别和族群分类上,Genos的表现远超同类模型,展现了其强大的上下文分析能力,有效破译基因组中的“暗物质”。

在直接面向临床应用的致病性突变解读任务中,Genos实现了92%的准确性,当结合021科学基础模型后,准确率高达98.3%,为临床诊断提供了全新的高效工具。

发布会上,华大生命科学研究院宣布,Genos模型将全面、彻底地开源开放,且同时提供12亿和100亿参数两个版本,满足不同应用场景的需求。目前,两个版本的模型权重、架构细节与完整训练流程,均已在GitHub、Hugging Face、魔搭等平台依据MIT开源协议公开发布,供全球开发者和科研人员自由使用。同时,在之江实验室的开放平台Zero2X也已发布。

据介绍,该模型的核心研发团队,来自华大生命科学研究院与之江实验室联合发起的“大模型种子班”。为持续推动模型迭代,华大生命科学研究院近期还联合国内外多家单位共同发起了“十万长读长大人群联盟”和“百亿细胞计划”两项大科学计划,助力基因和细胞的融合大模型开发。

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
我国首颗海洋盐度探测卫星完成在轨测试 新型光电神经网络架构让光电计算精度更高
神秘宇宙“斑点”究竟是什么? “向上生长”的芯片,突破摩尔定律限制
>>更多
 
一周新闻排行
 
编辑部推荐博文