|
|
|
|
|
三大核心升级!ARGs-OAP v3.0更新ARG数据库与分析流程 Engineering |
|
|
论文标题:ARGs-OAP v3.0: Antibiotic-Resistance Gene Database Curation and Analysis Pipeline Optimization
期刊:Engineering
DOI:https://doi.org/10.1016/j.eng.2022.10.011
微信链接:点击此处阅读微信文章

由抗生素抗性基因(ARG)编码的抗生素抗性激增,对全球公共卫生构成日益严重的威胁。随着技术的进步,特别是宏基因组测序的普及,科学家们已经获得了高速解读不同样本中ARG谱的能力。为了以高通量的方式分析数千个ARG,需要标准化和集成的流程。广泛使用的抗生素抗性基因在线分析流程(ARGs-OAP)的新版本(v3.0)对参考数据库——结构化抗生素抗性基因(SARG)数据库和综合分析流程都进行了重大改进。
为此,香港大学张彤教授团队在中国工程院院刊《Engineering》发表了题为“ARGs-OAP v3.0: Antibiotic-Resistance Gene Database Curation and Analysis Pipeline Optimization”(ARGs-OAP v3.0——抗生素抗性基因数据库的更新和分析流程升级)的研究性论文,第一作者殷晓乐。文章介绍了ARGs-OAP v3.0 的最新更新,其中包括:①一个精心策划的数据库,通过修订层次结构减少注释偏差;②升级了注释、分类和量化工具,增加了环境样本的ARG覆盖率,以及计算ARG 丰度的新方法;③改进网站,对ARG进行综合深入分析和统计可视化。

图1. ARGs-OAP v3.0 已经更新,包括一个新的数据库、一个完善的流程和具有多种功能的网页。
SARG 数据库作为 ARGs-OAP 的核心支撑,此次更新其序列组织架构从旧版的三层跃升至四层(类型 - 机制 - 亚型 - 序列),新纳入 6 个机制组:抗生素靶点改变、抗生素靶点保护、抗生素靶点替代、外排泵、酶失活和渗透性降低。并细分出多个亚组,让抗性基因的分类更精细。研究团队通过严谨的手动验证与多源信息比对,新增 1717 个 ARG 亚型,同时删除 1425 个分类模糊序列,使数据库的 SARG v3.0 完整版涵盖 32 个类型、2842 个亚型与 13672 个序列,准确性与全面性大幅提升。不仅如此,还针对不同应用构建子数据库,SARG v3.0-L 助力长读数注释、SARG v3.0-S 服务短读数定量、SARG v3.0-E 聚焦表达分析,为科研人员提供个性化研究工具。
ARGs-OAP v3.0 的量化工具实现关键革新。新公式依据基因系统差异设动态参数 k,精准校正双组分、三组分系统及其他 ARG 亚型的量化偏差,大幅降低误报率。操作层面,全新文件管理系统允许直接上传原始数据,一键启动量化,后续集成地理比较、污染源识别等多元分析模块,并以可视化图表清晰呈现结果,有力提升研究效率与成果解读便利性。

图2. SARG v3.0-F(n = 13 672)的可视化版本有两种格式。(a)具有支持搜索功能的树ARG类型;(b)SARG数据库中每个本体的存档信息,包括相关类型、亚型、机制组、亚组、参考序列和环境流行度信息。aadA:氨基糖苷-3-腺苷酸转移酶。
性能评估环节,在模拟与真实环境宏基因组数据集测试中,ARGs-OAP v3.0 表现卓越。于推荐截断点下,其在基因识别的精度与灵敏度表现突出,模拟数据误报率低于 2%。对比旧版,新版本在多环境样本中显著提升 ARG 检测覆盖率,污水、河水等样本的检测丰富度与丰度变化显著,如河水检测度提升达 28.8%,有力证明其在复杂环境样本分析中的可靠性与优势。

图3. ARGs-OAP v3.0平台的短读长工作流程。查询数据集可以进行分析,以一种高效和准确的方式量化ARG,然后使用集成的工具进行可视化和解释。一个例子是“地理比较”包,它的接口需要选择查询样本的环境类型,然后上传一个输入文件,这是对ARGs-OAP进行分析后的ARG丰度的母表。生成的概要文件包括一个箱形图及一个基于查询样本和存档数据库生成的地图,该数据库包含来自13种栖息地的1427个样本。

图4. ARGs-OAP v3.0平台上可用于长读长的工具,包括整合子识别和质粒分类。I-VIP:整合子可视化和识别流程。

图5. 评估更新后的数据库及用于ARG注释和量化的流程。在读长为150 bp的模拟宏基因组数据集上应用ARGs-OAP v3.0并采用梯度的截断点时,评估MCC(a)、灵敏度(b)和精度(c)。颜色梯度代表了在0~1范围内的MCC(a)、灵敏度(b)和精度(c)的值。(d)通过应用三个版本的ARGs-OAP,对来自不同环境的宏基因组进行进一步评估。对于每个环境,条形图表示所使用的参考数据库:(左)SARG v1.0;(中)SARG v2.2;(右)SARG v3.0。ARG定量单位为每个原核细胞的平均的ARG拷贝数。图中的百分比标签是与版本v2.2相比,使用SARG v3.0检测到的ARG数量的增加。BF:生物膜。
据介绍,ARGs-OAP于2016年首次发布,并于2018年进行更新。文章表明,这种分析工具已继续开发,以在抗生素抗性的环境方面的研究中取得更好的性能。在ARGs-OAP v3.0中,对数据库更新和不同分析工具的集成都进行了改进。首先,参考数据库SARG已经更新到3.0版本,根据更新的知识删除/添加序列,调整类型和亚型的名称,添加机制组和亚组的信息,并在CARD等其他数据库的基础上扩大覆盖范围。SARG v3.0-S(短读长定量的子数据库)和SARG v3.0-E(快速分析的子数据库)排除了与突变、阻遏物和调节因子相关的基因,已经嵌入了ARGs-OAP v3.0作为参考数据库,而SARG v3.0-F可以通过树结构和字典形式进行可视化。其次,从ARGs-OAP开始,使用集成工具开发了用户友好的工作流程,并进行了后续分析,包括风险等级方案、地理比较、MST和与其他生态系统的相似性/不相似性分析。在分析流程中实现了可视化,这将促进数据解释和有效沟通。
论文信息:
Xiaole Yin, Xiawan Zheng, Liguan Li, An-Ni Zhang, Xiao-Tao Jiang, Tong Zhang. ARGs-OAP v3.0: Antibiotic-Resistance Gene Database Curation and Analysis Pipeline Optimization. Engineering, 2023, 27(8): 234-241
开放获取:
https://doi.org/10.1016/j.eng.2022.10.011
更多内容
Engineering农业学科论文合集(2024—2025)
英国诺丁汉大学联合罗尔斯-罗伊斯提出水射流热障涂层去除新方法,实现磨料水射流加工效率大幅提升
《工程(英文)》:引领工程科技创新 服务国家战略需求
喜报:Engineering海外传播斩获佳绩!
Engineering征稿启事:人工智能赋能工程科技
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。