研究介绍MACS使用方法—论文

作者：张勇等来源：《自然—实验方法》发布时间：2012-9-17 14:35:32

选择字号：小中大

研究介绍MACS使用方法

来自同济大学生命科学与技术学院、哈佛大学公共卫生学院和达纳法癌症研究所的研究人员近日在国际权威杂志《自然—实验方法》（Nature Protocols）上发表了题为“Identifying ChIP-seq enrichment using MACS”的实验手册。

来自同济大学生命科学与技术学院的张勇（Yong Zhang）博士以及哈佛大学公共卫生学院和达纳法癌症研究所的刘小乐 (Xiaole Shirley Liu)博士为这篇文章的共同通讯作者。张勇博士从事生物信息学及表观遗传组学研究。后者的工作侧重于基因调控机制的生物信息和计算生物学研究。

当前研究人员广泛地利用染色质免疫沉淀-测序(ChIP-Seq)在全基因组范围内绘制转录因子结合位点和组蛋白修饰状态。ChIP包括几个基本的步骤：将蛋白质交联到染色质上，剪切蛋白质，用特异的抗体沉淀目的蛋白及相关DNA，以及纯化相关DNA片段等。ChIP通常会生成数毫微克到数百毫微克的DNA，它们是环绕转录因子结合位点或组蛋白标记位点的75- 到300-bp的片段。高通量测序往往会生成数以百万计的来自ChIP-DNA片段5′末端的25- 到75-bp的序列（也称作短读，short reads）。

ChIP-seq数据分析通常以回到参考基因组绘制短读作为开始。尽管许多绘制的读长分散在整个基因组，其他一些存在于构成读富集区域（read-enriched region）的DNA簇中。读富集区域代表了转录因子结合或组蛋白标记位点。多余大多数转录因子和例如H3K4me3等几种组蛋白修饰，ChIP-seq读长通常聚集在几百个bp的窄峰中。而对于一些转录因子例如RNA聚合酶II(RNA polymerase II, pol II)和诸如H3K36me3等其他的组蛋白修饰，读富集区域是宽阔的，跨越数万个bp。例如GC含量、读可作图性（mappability）、DNA重复、拷贝数变异以及局部染色质结构等因素都可以影响基因组不同位点的读分布。

基于模型的ChIP-Seq分析（MACS）是一种设计用于鉴别来自ChIP-seq数据读富集区域的计算机方法。根据科学网统计，自2008年被首次发布以来MACS以被超过300个研究引用，其中包括许多很有影响力的研究工作。MACS由4个步骤构成：去除冗余的读长（reads），调整读取位置，计算峰富集（peak enrichmen）和估计经验错误发现率（FDR）。

在这篇文章中，研究人员提供了关于如何安装MACS以及如何使用它来分析具有不同特征的三种常见类型ChiP-seq数据集的详细示教：序列特异性的转录因子FoxA1，带有窄富集的组蛋白修饰标记物H3K4me3和宽富集的H3K36me3标记物。研究人员还解释了如何注释和可视化MACS的分析结果。用这种算法分析包含3000万个读长的ChIP-seq数据集需要约3GB的RAM和1.5个小鼠的计算时间，这一预计随着序列的覆盖度增加。

现在刘小乐实验室网站http://liulab.dfci.harvard.edu/MACS/向公众提供MACS的开放资源，供免费获取。（来源：生物通何嫱）

更多阅读

《自然—实验方法》发表论文摘要（英文）

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

以下评论只代表网友个人观点，不代表科学网观点。

�� SSI �ļ�ʱ��