中国科学院上海药物研究所研究员郑明月团队开发了一种由大型语言模型驱动的NMR数据提取工具NMRExtractor,能够从海量开放获取的文献中自动提取实验性核磁共振(NMR)数据,并构建出了迄今为止规模最大的开放式NMR数据库NMRBank。5月28日,相关研究发表于《化学科学》。
NMR光谱是化学研究中强大且应用广泛的技术之一,能够提供分子环境的详细信息,对结构和原子间相互作用非常敏感。在过去二十年中,研究人员开发了多个数据库用于存储分子的1H和13C NMR光谱,但这些数据库的规模仍较为有限。
研究团队提出的NMRExtractor,可自动从科学文献中提取化合物名称、NMR条件和1H/13C NMR化学位移等关键信息。基于该工具,研究团队构建了NMRBank,其中包含225809条NMR数据记录,每条记录包括化合物的IUPAC名称、SMILES描述符、1H/13C NMR化学位移、模型赋予的置信度评分,以及文章PMID和期刊名称等元数据。分析结果显示,NMRBank所覆盖的化学空间显著超越现有的公共NMR数据集。
NMRExtractor提取流程和NMRBank数据集构建的示意图。图片由研究团队提供
?
研究团队表示,该提取流程具备高度可扩展性,支持新研究论文的自动处理,使NMRBank可持续更新,不仅拓展了开放NMR数据的覆盖范围,也为基于人工智能的NMR预测及相关化学研究奠定了数据基础。
相关论文信息:http://doi.org/10.1039/d4sc08802f
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。