近日,中国农业科学院农业基因组研究所农业基因组学技术研发与应用创新团队开发出了一种新算法——TRFill,解决了现有工具无法完全填补基因组间隙的难题,显著提升了基因组质量。相关研究成果发表在《基因组生物学》(Genome Biology)上。
动植物基因组的许多区域存在大量高度重复的DNA片段(如人类着丝粒、番茄端粒附近区域),这些重复结构会干扰基因组的准确拼接,导致测序结果出现错误或缺失。由于重复区域的复杂性,现有的组装软件难以完全填补基因组间隙。
为此,研究团队开发了一种名为TRFill的新算法,该算法能有效解决动植物基因组测序中的重复序列难题。TRFill利用两种高精度测序数据(PacBio HiFi长读序列和Hi-C染色体空间信息),成功填补了基因组组装中的重复区域缺口。
经测试,在人类着丝粒和番茄端粒这些传统测序难题区域,该算法能够成功修复近2/3的重复序列结构。特别在番茄中,完善的端粒重复序列图谱首次让研究人员能够从群体层面分析这些复杂结构的变异规律。该技术为绘制更完整的基因组图谱、研究重复序列功能提供了重要工具。
该研究得到国家自然科学基金、中国农业科学院科技创新工程等项目资助。
相关论文信息:https://doi.org/10.1186/s13059-025-03685-5
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。