在国家自然科学基金、国家重点研发计划等项目资助下,中国科学院广州生物医药与健康研究院研究员陈捷凯、副研究员林立惠团队研究提出了一种创新性的空间数据整合算法——Polyomino。该算法能够在单细胞分辨率下,高效且精准地重建空间转录组图谱。相关成果近日以封面文章形式在线发表于《基因组研究》(Genome Research)。
在生命体内,细胞并非孤立存在,而是依据空间位置相互通信,共同构建出精密的组织与器官结构。空间转录组学作为揭示这一细胞空间组织蓝图的关键技术,近年来发展势头迅猛。然而,现有的单细胞数据与空间数据整合方法,在处理动辄百万级规模的细胞数据时,往往面临运算效率低下和噪声干扰严重的双重挑战,难以同时保证处理速度与结果精度。
当期期刊封面。研究团队供图
针对上述科学问题,研究团队借鉴了图像处理中“感兴趣区域”的先进理念,创新性地提出通过多层次区域约束来精准分配细胞位置。与传统方法直接进行细胞分配不同,Polyomino算法先将空间数据划分为多个格子单元,利用水平/垂直条带、空间聚类等多层次区域化信息来约束细胞定位,进而在格子内部进行精细匹配。这一独特设计不仅大幅降低了计算量,还有效抵御了细胞分割误差、细胞类型比例失衡等常见噪声干扰。
在一系列模拟实验和真实数据评估中,Polyomino算法展现出了卓越的性能:
一是计算效率极高。在整合约1.5万个单细胞和近2万个空间点的数据时,Polyomino仅用141秒便完成计算,比现有算法快10至1000倍,是目前唯一能够在单次运行中高效处理百万级细胞整合任务的算法。
二是精度与鲁棒性并重。在多种噪声场景(如细胞分割误差、比例偏差)下,Polyomino均能保持高精度;在小鼠胚胎和大脑皮层的验证实验中,该算法均能准确重建细胞的空间分布。
三是应用前景广阔。在结直肠癌肝转移组织的分析中,Polyomino揭示了常规树突状细胞在肿瘤与旁肿瘤区域的空间亚群差异,并识别出与血管生成密切相关的免疫信号网络,为深入理解肿瘤微环境提供了全新视角。
Polyomino算法不仅成功突破了大规模数据整合的计算瓶颈,更为研究组织发育、疾病机制乃至未来临床应用提供了更高分辨率的分析工具。研究者认为,随着单细胞与空间组学数据量的持续增长,Polyomino有望成为构建全景细胞图谱、解析器官发生与病理变化的重要方法学支撑。
值得一提的是,该研究工作是人类细胞谱系大科学研究设施系统四的重要组成部分。
相关论文信息:https://doi.org/10.1101/gr.280532.125
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。