来源:ENGINEERING Chemical Engineering 发布时间:2026/6/17 14:03:15
选择字号:
ECE 论文解读|耦合分子结构与深度学习,提升定量结构-性质关系模型预测性能

论文标题:Enhancing quantitative structure-property relationship models by integrating complete molecular structure with deep learning

期刊:ENGINEERING Chemical Engineering

作者:Bo Ouyang, Dian Zhang, Zhe Chen, Zhao-Quan Wen, Zheng-Hong Luo

发表时间:14 Jan 2026

DOI:10.1007/s11705-026-2638-6

微信链接:点击此处阅读微信文章

文章信息

▎ 文章题目

Enhancing quantitative structure-property relationship models by integrating complete molecular structure with deep learning

▎ 文章来源

Bo Ouyang, Dian Zhang, Zhe Chen, Zhao-Quan Wen, Zheng-Hong Luo. Enhancing quantitative structure-property relationship models by integrating complete molecular structure with deep learning. ENG. Chem. Eng., 2026, 20(3): 16

DOI:10.1007/s11705-026-2638-6

研究背景

传统定量结构-性质关系(QSPR)模型依赖于分子描述符来量化分子结构并建立与物理性质的相关性,难以实现多品类有机化合物超临界物性的高精度和广适配预测。近期上海交通大学罗正鸿团队发表的研究论文,将完整分子结构优化与深度学习进行融合,构建出兼具高预测精度、强鲁棒性的CNN增强型ANN-QSPR模型,突破了传统QSPR方法的核心局限,为化工领域有机化合物物性预测提供了一定支撑。

研究框架

本研究整体框架如下:收集了1359种有机物的超临界温度Tc与压力pc数据,采用密度泛函理论(DFT)获取分子结构;利用RDKit库计算了400个分子描述符,通过数据驱动的最大信息系数(MIC)方法筛选出20个信息量最大的描述符。基于上述输入构建了三类模型:(1)仅使用描述符的传统QSPR模型;(2)仅使用分子结构的CNN模型;(3)CNN增强的描述符模型。最后与工程常用的JOBACK基团贡献法对比,验证了CNN增强型QSPR模型的优越性能。

文章亮点

精准筛选分子描述符特征

基于Python平台的RDKit库计算得到了400个有效分子描述符,通过MIC法系统量化了非线性相关性,明确与Tc相关性最高的分子描述符为LabuteASA,与pc相关性最高的分子描述符为Chi0n,同时确定Tc预测模型的最优描述符数量为18个,pc预测模型的最优描述符数量为14个,为模型输入优化提供了量化依据。

多模型性能边界清晰

同一标准化数据集完成四类方法的横向对比显示,仅以分子结构为输入的3DResNet模型在千级数据量下存在严重过拟合,不适用于超临界物性预测;传统ANN模型可满足基础工程需求,但精度仍有提升空间;JOBACK方法操作简便但存在预测盲区(无法预测74种分子)且对Tc > 600 K的高温体系偏差显著。

CNN增强型ANN模型性能领先

CNN增强的ANN模型在验证集中实现了超临界物性预测的领先精度,其中Tc预测R2 = 0.888、r = 0.947、MAPE = 5.03%、MSE = 1682;pc预测R2 = 0.919、r = 0.960、MAPE = 6.37%、MSE = 11.7,综合性能显著优于传统ANN模型与JOBACK基团贡献法。

模型鲁棒性与普适性优异

完成模型鲁棒性验证,发现模型在不同数据划分方式下的平均性能与基础验证结果高度一致,无极端预测偏差。数据集覆盖烷烃、烯烃、炔烃、卤代烃、醇、胺等13大类1359种有机化合物,相较于单一品类专用模型普适性更强,可适配绝大多数有机物种的超临界物性工程预测需求。

结论与展望

融合完整分子结构与深度学习的CNN增强型ANN模型,有效弥补了传统QSPR方法的信息丢失缺陷,实现了多品类有机化合物超临界Tc和pc的高精度预测。但受DFT结构优化计算成本较高的限制,模型实际应用门槛仍有待降低。未来研究将考虑采用更快且资源要求更低的分子结构优化方法,或从预先计算的分子数据集中进行迁移学习,以降低使用成本并进一步提升模型的工程适用性。

重要图表解读

图2 展示了与Tcpc相关性最高的30个分子描述符最大信息系数(MIC)值,MIC值范围为0–1,数值越高代表描述符与目标物性的非线性相关性越强。该结果明确了与Tc相关性最高的分子描述符为LabuteASA,与pc相关性最高的分子描述符为Chi0n。

图3 从R2r、MAPE、MSE四个维度完成了误差评估,显示了训练集与验证集的误差变化趋势,证明了模型无明显欠拟合或过拟合问题,确定了传统ANN模型的最优输入维度,为模型的轻量化与高精度平衡提供了数据支撑。

图7 利用JOBACK方法预测得到的Tepe的散点图及概率密度函数,整体预测误差在工程可接受范围内。Tc预测R2 = 0.815、MAPE = 4.92%,pc预测R2 = 0.916、MAPE = 5.64%;但对Tc > 600 K的物质,预测偏差显著增大,部分物质残差可达+200 K或–300 K。

作者简介

第一作者

欧阳博,博士毕业于上海交通大学,随后于该校从事博士后研究。现担任中南大学讲师,主要研究方向为机器学习辅助反应器建模。

通讯作者1

闻昭权,博士毕业于上海交通大学,现担任江苏海洋大学副教授,硕士生导师,主要研究方向为化工热力学与传递过程模拟与优化。

免费全文

 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
我国攻克硅基量子芯片关键材料 《自然》(20260611出版)一周论文导读
研究揭示链霉菌调控香蕉抗枯萎病分子机制 量子自旋液体存在“自旋子”首获实验证据
>>更多
 
一周新闻排行
 
编辑部推荐博文