作者:Manfred G Grabherr 来源:《自然—方法学》 发布时间:2011-6-7 13:29:34
选择字号:
研究探讨RNA-seq数据分析方法
 
高通量RNA测序(RNA-seq)有望描绘出转录组的整体图像,实现样本内所有基因及其亚型的完整注释和定量。随着测序价格的不断下降,以及个人化测序仪的上市,更多的实验室有机会尝试这种新技术。
 
然而,测序之后的数据分析才是真正的挑战。在RNA-seq之后,还需要一些强大的计算工具,才能绘制出完整的转录组图谱。在这一期的《自然—方法学》(Nature Methods)上,来自MIT和哈佛Broad研究院的研究人员发表了一篇综述,介绍了转录组注释和定量的计算方法。
 
首先,他们介绍了一些方法,将读数与参考转录组或基因组直接比对。之后,他们讨论了鉴定表达基因和亚型的方法。最后,他们还介绍了一些方法,来预计基因和亚型的丰度,以及分析样品间的差异表达。
 
由于RNA-seq数据生成的不断改善,现有计算工具的发展有着很大差异。在某些领域,如读数定位,有多种算法存在,但在差异表达分析上,解决方案才刚刚出现。作者们强调了这些方法的核心原理和每种方法的关键差异,以及它们在RNA-seq分析上的应用。他们还讨论了这些不同的方法如何影响结果以及数据的阐释。
 
为了方便读者参考,他们还将现有的方法列成了一张表,注明了它们的原理和用途。另外,他们精选了一些有代表性的方法,应用在已经发表的RNA-seq数据组中。此数据组包含了5800万个末端配对的读数。
 
数据比对是RNA-seq分析中的一项基本任务,然而也面临着一些挑战,比如数据量大,读数很短(36-125 bp),错误率可观,且许多读数跨越外显子-外显子交界。对于RNA-seq的比对方法,作者将其分成“unspliced read aligners”和“spliced aligners” 两类,并分别介绍。
 
转录组重建也是个很困难的任务,因为基因表达差异很大,且读数可能来源于成熟的mRNA,也可能来源于未完全剪接的前体RNA,这样就很难鉴定成熟的转录本。当然,读数短也为分析带来了困难。目前的转录组重建方法主要有两类,一类是基因组指导的,另一类是不依赖于基因组的。作者比较了这两类方法,并具体介绍了每一类下面的几种方法。
 
至于转录组的图谱分析,DNA芯片一直是首选方法。在使用RNA-seq来估计基因表达时,需要将读数适当地标准化,才能提取出有意义的表达预测值。作者介绍了一些方法,来预计基因和亚型的丰度,以及分析样品间的差异表达。
 
作者还提到,随着测序技术的成熟,如读长不断增加,现有的计算工具需要发展,也能满足新的需求,同时新工具也会不断出现,满足新的应用。(来源:生物通 薄荷)
 
 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表科学网观点。
SSI ļʱ
 
 
读后感言:

验证码:
相关新闻 相关论文

图片新闻
数据赋能农业智慧大脑 找到了!胡椒那么辣的原因
科学家解析非洲猪瘟病毒颗粒精细三维结构 “零饥饿”目标面临“隐性”挑战
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文
 
论坛推荐