作者:许悦 来源:中国科学报 发布时间:2025/6/26 15:58:22
选择字号:
DeepMind再放大招
解析基因组序列“暗物质”的AlphaGenome问世

 

据《自然》报道,谷歌DeepMind又放大招,发布了开发的新人工智能(AI)模型AlphaGenome。该模型可以帮助科学家解析基因组序列中的“暗物质”——非编码区,了解它如何导致癌症等疾病出现并影响细胞内部工作。目前,从事非商业工作的研究人员可以使用编程接口通过DeepMind的服务器访问该模型。

2001年,《自然》发表由美、英、日、德、法、中六国科学家共同完成的人类基因组序列草图。然而直到现在,约31亿个碱基对中的许多仍然存在待解的谜团。

在人类长长的人类基因组序列中,98%是不直接参与蛋白质编码合成的基因,即非编码区,但它们可以影响蛋白质的活性,并包含了大量与疾病相关的变异位点。这一部分尤其让科学家感到烦恼。

弄清楚DNA序列的作用很难,因为没有答案,就像AlphaFold预测蛋白质3D结构一样。单个DNA片段具有许多相互关联的作用,从吸引一组细胞机器附着在染色体的特定部分并将附近的基因转化为RNA分子,到吸引影响基因表达发生地点、时间和程度的转录因子。例如,许多DNA序列通过改变染色体的3D形状来影响基因活性,从而限制或简化转录机器的访问。

几十年来,科学家们开发了数十种AI模型来理解基因组。其中许多都集中在单个任务上,例如预测基因表达水平或确定外显子是如何被切割并粘贴到不同的蛋白质中的。而AlphaGenome是一个“一体式”解释DNA序列的工具。

AlphaGenome可以输入多达100万个DNA碱基,这可能包括了一个基因和无数的调节元件,并能针对许多生物特性进行数千次预测。而且,AlphaGenome在预测过程中对单个DNA碱基的变化十分敏感,这意味着科学家可以预测突变的影响。

DeepMind的研究人员利用AlphaGenome预测先前研究中发现的一种白血病患者的不同突变。结果该模型准确预测了非编码区突变间接激活了附近的基因。这是这种癌症常见的驱动因素。

不过,研究人员表示,AlphaGenome仅基于人类和小鼠的基因组,以及其他实验数据进行训练,没有测试在其他生物中的预测有效性。此外,AlphaGenome预测的准确性还有提升空间。例如,该模型难以识别位于10万多个碱基对以外的目标基因序列。

美国冷泉港实验室计算生物学家Peter Koo说,AlphaGenome和类似的模型尚未捕捉到不断变化的细胞性质如何影响DNA序列的功能。因为这些模型只能在一个固定环境中进行预测,但细胞是动态的,蛋白质水平、DNA上的化学标签和其他条件会随着时间或细胞类型的不同而变化,这可能会改变同一序列的行为方式。

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
韦布发现一颗小型气态巨行星 中麦578黄淮海区创大面积实收高产典型
新型催化剂在工业级大电流密度下稳定运行 脑洞大开!用棉花生产虾青素,真的可以有
>>更多
 
一周新闻排行
 
编辑部推荐博文