作者:刁雯蕙 来源: 中国科学报 发布时间:2025-10-29
选择字号:
首个百亿级人类基因组基础模型发布

 

本报讯(记者刁雯蕙)在近日举办的第二十届国际基因组学大会上,华大生命科学研究院与之江实验室联合发布了首个百亿级人类基因组基础模型Genos。这一针对人类基因组深度优化的基因组基础模型,可支持高达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别,有望为临床疾病诊断、个人基因组解读及前沿科学研究带来突破性变革。

Genos系统整合了人类泛基因组参考联盟、人类基因组结构变异图谱计划等多个权威公开资源,首次汇聚了全球范围内636个“端粒到端粒”级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,旨在从源头减少数据偏见,更全面地代表人类遗传多样性。

模型既要有“显微镜”般的单碱基精度,又要有“广角镜”般的百万级超长上下文理解能力。为此,Genos通过混合专家(MoE)架构,在拥有百亿级参数的庞大知识总量的同时,其推理成本和资源消耗却远低于同等规模的模型。

在进行基因组元件识别、远程调控预测、突变致病性预测等经典评测时,Genos在超过一半的任务中比所有现有模型表现好。在长序列评测任务中,Genos的表现远超同类模型,展现了强大的上下文分析能力,有效破译基因组中的“暗物质”。在直接面向临床应用的致病性突变解读任务中,Genos实现了92%的准确性,当结合021科学基础模型后,准确率高达98.3%,为临床诊断提供了全新的高效工具。

发布会上,华大生命科学研究院宣布,Genos模型将开源开放,且同时提供12亿和100亿参数两个版本,满足不同应用场景的需求。目前,两个版本的模型权重、架构细节与完整训练流程,均已在GitHub、Hugging Face、魔搭等平台依据开源协议公开发布,供全球开发者和科研人员自由使用。同时,也已在之江实验室的开放平台Zero2X上发布。

《中国科学报》 (2025-10-29 第4版 综合)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
科学家提出“冷冻表界层分析新方法” 真正有助于缓解便秘的食物是它
我国首颗海洋盐度探测卫星完成在轨测试 新型光电神经网络架构让光电计算精度更高
>>更多
 
一周新闻排行
 
编辑部推荐博文