当前位置:科学网首页 > 小柯机器人 >详情
科学家利用CellSpace对单细胞ATAC-seq数据进行可扩展且无偏的序列信息嵌入
作者:小柯机器人 发布时间:2024/5/12 13:55:34

美国纪念斯隆-凯特琳癌症中心Christina S. Leslie研究组利用CellSpace对单细胞ATAC-seq数据进行可扩展且无偏的序列信息嵌入。该项研究成果于2024年5月9日在线发表在《自然—方法学》上。

据研究人员介绍,标准的scATAC测序(scATAC-seq)分析管线将细胞表示为相对于峰值图集或基因组瓦片的稀疏数字向量,因此忽略了可访问位点的基因组序列信息。

研究人员介绍看一种高效、可扩展的序列信息嵌入算法——CellSpace,该算法用于scATAC-seq,可学习DNA k-mers和细胞在同一空间的映射,以解决这一局限性。研究表明,CellSpace能捕捉scATAC-seq数据集中有意义的潜在结构,包括细胞亚群和发育分层,并能根据嵌入同一空间的结合主题的接近程度对单细胞中的转录因子活动进行评分。重要的是,即使单个数据集是根据不同的峰图集处理的,CellSpace也能隐性地减轻多个样本、供体或检测产生的批次效应。因此,CellSpace为整合和解释大规模scATAC-seq数据集提供了强大的工具。

附:英文原文

Title: Scalable and unbiased sequence-informed embedding of single-cell ATAC-seq data with CellSpace

Author: Tayyebi, Zakieh, Pine, Allison R., Leslie, Christina S.

Issue&Volume: 2024-05-09

Abstract: Standard scATAC sequencing (scATAC-seq) analysis pipelines represent cells as sparse numeric vectors relative to an atlas of peaks or genomic tiles and consequently ignore genomic sequence information at accessible loci. Here we present CellSpace, an efficient and scalable sequence-informed embedding algorithm for scATAC-seq that learns a mapping of DNA k-mers and cells to the same space, to address this limitation. We show that CellSpace captures meaningful latent structure in scATAC-seq datasets, including cell subpopulations and developmental hierarchies, and can score transcription factor activities in single cells based on proximity to binding motifs embedded in the same space. Importantly, CellSpace implicitly mitigates batch effects arising from multiple samples, donors or assays, even when individual datasets are processed relative to different peak atlases. Thus, CellSpace provides a powerful tool for integrating and interpreting large-scale scATAC-seq compendia.

DOI: 10.1038/s41592-024-02274-x

Source: https://www.nature.com/articles/s41592-024-02274-x

期刊信息

Nature Methods:《自然—方法学》,创刊于2004年。隶属于施普林格·自然出版集团,最新IF:47.99
官方网址:https://www.nature.com/nmeth/
投稿链接:https://mts-nmeth.nature.com/cgi-bin/main.plex