提到生命活动,很多人会第一时间想到那两根彼此螺旋缠绕的“生命之链”——DNA(脱氧核糖核酸)。作为生命体遗传信息的携带者,DNA对于个体生命体以及整个生命体种族的作用不言而喻,但很多人并不知道,DNA要发挥其作用,少不了RNA(核糖核酸)的辅助。
在此过程中,还有一种被称为“RNA修饰”的机制,就像基因表达的“隐形开关”一样,控制着DNA信息在生物体中准确地发挥作用。
但长期以来,科研人员对于“RNA修饰”的研究存在一个烦恼——不同实验室得到的结果经常对不上。这种结果前后不一致的情况,让科研人员很难判断究竟哪些修饰是真实的、能重复验证的。
近日,这一混乱状况终于有望改变。
西交利物浦大学理学院生物科学与生物信息学系助理教授魏震及其团队,联合利物浦大学研究者,在《核酸研究》上发表成果,推出了全球首个整合多种m6A(N6-甲基腺苷)检测技术并通过交叉验证的数据库——m6AConquer。
“这意味着过去研究者各说各话,但现在终于有了一个能‘对齐’所有数据的共同坐标系了。”魏震说。
混乱的“图纸”
要搞清楚什么是“RNA修饰”,什么又是m6A,需要回到微小的细胞层面。
“众所周知,DNA 存在于细胞内部。”魏震说,如果把细胞想象成一个大型加工厂,DNA就像是工厂里的核心设计图纸库,里面存着所有产品(生命体组织和蛋白质结构)的设计方案。
至于RNA,就是连接基因组遗传信息与细胞表型的关键分子。
“依然以‘工厂’为比喻,RNA的重要作用之一,便是从DNA‘图纸库’里复印出特定图纸,再将这些图纸送到细胞内部的‘生产车间’(核糖体),用以指导产品生产。”魏震解释说,承担此类“工作”的RNA又被称为mRNA。
不过,在这一“传送”过程中,图纸并不是一成不变的。
“‘RNA修饰’就是给这些‘图纸’做某些后期的加工处理。”魏震说,这些加工不会改动图纸的核心设计内容(碱基序列),只通过在某些特定位置添加、移除或替换一些小分子化学基团,调整图纸的某些性质。
这其中,m6A便是目前已知最常见的一种“RNA修饰”类型。简单而言,它便是在RNA分子的特定位置,添加了一个甲基(-CH?)基团的化学修饰。虽然常见,但它的作用却很大——能决定mRNA 的“寿命”(是否容易被降解)、能否顺利翻译成蛋白质,进而控制某个基因最终能否合成对应的蛋白质、合成多少……
鉴于其对于生命体的重要作用,人们对于“RNA修饰”的观测和研究也久已有之。但也正因为如此,不同的观测手段得出了大量混乱的观测结果。
“这并不难理解。”魏震说这就好比医院对病人进行检查时,也会用到核磁、超声等不同的检测手段。只不过,对于“RNA修饰”的监测要比医院检查复杂得多,其可能引发误差的技术或非技术因素也要多得多——技术本身的先进与否、操作的误差,乃至于细胞状态,其所处的温度、湿度环境等,都会影响观测结果。
这导致的结果便是——同一个基因、同一个基因位点,在一篇论文里被标成“有修饰”,在另一篇论文里却显示“没有”,从而使研究者无所适从。
“RNA修饰”真伪检测仪
魏震团队的工作,就是要为研究者对m6A的研究终于找到一个可靠、统一且可以验证的数据基准。他们想到的办法是以统计学的方式,整合已有研究,检验各类实验结果的可靠性。
“过去两年实践里,我们团队重点收集了东亚、北美、欧洲三大公共数据库的1393个生物学样本的原始测序数据,覆盖了10种常用的m6A检测技术。”魏震说。
这番努力的最终的成果,便是m6AConquer。
魏震告诉《中国科学报》,m6AConquer整合了来自十种实验技术和数百个公开数据集的m6A 测序结果,并通过引入“正交验证”的算法,筛选出了能够在多种采用不同生化原理的m6A 检测技术中重复验证的修饰位点。
这使得m6AConquer完全可以作为一台“‘RNA修饰’真伪检测仪”,帮助科研人员在“RNA修饰”的研究中,区分“哪些信号是可重复的生物学标记,哪些只是偶然的实验噪音”。
在研究中,魏震团队成功识别出了超过13.5万个高置信度的m6A修饰位点,这些位点在不同的正交实验技术之间,都表现出统计显著的可重复性。
“这项分析首次在该领域中建立了严谨的真实标准数据集,让不同的m6A检测方法的性能评估成为可能。”魏震解释说,科研人员可以直接利用这些经过多平台验证的修饰位点作为统一参考,不再需要为技术差异反复调整。这不仅提高了研究的一致性和可重复性,也为后续算法开发与疾病机理研究提供了可靠的参照系。
不只是数据库,更是一座桥梁
除了确保数据的可靠性外,魏震团队还十分重视数据的“可用性”——如何让这些数据更容易被科学家使用。
“m6AConquer建立了一个标准化的数据共享框架,把原本分散、复杂的原始数据进行了重新整理。”论文共同作者、西交利物浦大学慧湖药学院助理教授李腾龙补充道,这就像把散落在不同国家的字典整合成同一种语言版本,“研究人员无需再花大量时间清洗、对齐数据,就能直接开展比较、建模和验证,大幅提升科研效率与可复现性。
更令人兴奋的是,m6AConquer在整合修饰数据的同时,还将“RNA修饰”与某些基因变异、基因表达和疾病风险结合起来——研究中,该团队发现了超过6000个与高置信度m6A位点修饰水平显著相关的基因变异,其中一些变异位于精神疾病、抑郁症等复杂疾病的风险区域,为科学家理解这些疾病的分子机制提供了新的切入点。
“这意味着我们不仅能看到‘RNA修饰’的‘结果’,还开始理解它背后的‘原因’。有些基因突变可能正是通过影响‘RNA修饰’水平,间接改变了疾病风险。”魏震解释说。
他表示,m6AConquer不仅是一个数据资源,更是连接遗传变异、“RNA修饰”与疾病发生的桥梁。同时,它也为未来利用高置信度数据开展人工智能建模、“RNA修饰”预测和药物靶点研究奠定了坚实基础。
“我们希望这一开放资源能够成为推动表观转录组学从‘数据整合’走向‘机制理解’的重要一步。”魏震说。
相关论文信息:https://doi.org/10.1093/nar/gkaf1204
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。