来源:Advanced Powder Materials 发布时间:2025/10/24 15:11:04
选择字号:
机器学习在热催化CO2加氢中的应用:催化剂设计、过程优化与机理研究

论文题目:Machine learning application in thermal CO2 hydrogenation: catalyst design, process optimization, and mechanism insights

期刊:Advanced Powder Materials

DOI:https://doi.org/10.1016/j.apmate.2025.100333

微信链接:https://mp.weixin.qq.com/s/YKoXBOgk6gFobMNQbbrS9g

一、文章摘要

实现碳中和目标的关键路径之一是将CO2高效转化为高附加值化学品与燃料。机器学习正加速这一进程,它从材料组成、电子结构和反应条件等多源数据中挖掘隐含规律,辅助催化剂筛选、工艺优化,并为揭示反应机理提供计算证据。本文系统综述了机器学习在热催化CO2加氢领域的前沿应用,聚焦催化剂设计、过程优化与反应机理解析三大核心方向。文章首先概述了机器学习的核心工具、数据来源及标准化工作流程;随后依据算法类型和应用场景,梳理了机器学习在多元化催化剂(如合金、氧化物、高熵合金、单原子催化剂)发现、过程性能预测与放大优化、以及机理解析(如吸附能、势能面、反应路径网络)中的代表性研究;进一步探讨了SHAP、SISSO等可解释性方法的价值,以及贝叶斯优化与高通量-自动化-闭环平台在实现“快速迭代”中的作用;最后,分析了面向真实工况与产业化的挑战与前景。通过剖析大量前沿研究与应用案例,本文首次构建了 机器学习算法-关键描述符-催化性能指标之间的映射关系图谱,旨在为CO2加氢研究提供一套通用的智能解决方案参考框架。

二、研究背景

全球每年排放约400亿吨CO2,其高效转化是实现"双碳"目标的核心挑战。传统催化研究依赖试错实验,面临周期长、成本高、机理不明确三大痛点:

(1)催化剂开发需筛选巨量的组分组合

(2)反应路径涉及多尺度非线性耦合

(3)工业放大受限于能效与经济性平衡

而机器学习通过挖掘隐藏的"描述符-性能"关联,正颠覆这一领域的研究模式。

三、创新点

(1)首创应用图谱框架。构建机器学习在热催化CO2加氢领域的全链条应用图谱(催化剂设计→工艺优化→机理研究),填补该领域系统性综述空白。

(2)揭示描述符-算法协同机制。阐明关键描述符(如d带中心、吸附能分布)与最优算法(XGBoost/GPR/PINN)的匹配规律,指导精准预测。

(3)提出了物理约束机器学习等未来方向,如融合第一性原理的神经网络(PINNs)等,解决小样本数据下的外推预测难题,推动机器学习模型从“黑箱”向“可解释”演进。

四、文章概述

在“双碳”目标驱动下,二氧化碳(CO2)加氢技术作为一种将CO2转化为高价值化学品与燃料的关键策略,正受到越来越多的关注。传统CO2加氢催化剂的开发和工艺优化严重依赖于耗时耗力的“试错法”实验以及高计算成本的量子力学模拟,不仅效率低下,而且难以揭示催化剂组成、反应条件与催化性能之间复杂且非线性的内在联系,极大地限制了新型高效催化体系的发现与工业化进程。

为了应对上述挑战,机器学习(ML)为解决催化剂发现和优化的复杂问题提供了一个强大的解决思路。机器学习的核心能力在于利用先进算法从现有数据中学习,揭示隐藏在数据背后的复杂模式和关系,并据此做出快速、准确的预测。在CO2加氢领域,机器学习不仅能阐明催化剂结构、反应条件与催化性能之间错综复杂的非线性关系,还能探索和阐明可能的反应路径,从而为设计高性能催化剂和高效工艺提供关键指导。

1. 机器学习:催化研究的新范式

机器学习工作流程通常包含几个关键阶段,如图1所示。首先是数据收集与预处理,该阶段需要汇编一个标准化的数据集,并进行数据清洗,以消除冗余信息、修正错误并确保数据一致性。接下来是特征工程,旨在从原始数据中创造性的提取最相关的特征并进行降维,以构建能够有效表征系统的描述符。数据集准备就绪后,通常会被划分为训练集和测试集(例如,80%训练:20%测试)。模型在训练集上进行学习,然后在测试集上进行评估,以检验其泛化能力并防止过拟合。最后,通过模型评估与超参数调优,研究人员可以调整模型的内部参数,以进一步提升其在特定任务上的性能。随着训练过程的迭代,模型不断从数据中学习,其预测精度也随之逐步提高。

图1:机器学习工作流程的基本原则和结构.

机器学习算法可大致分为几个类别(图2)。监督学习使用带标签的数据进行训练,旨在学习一个从输入到输出的映射函数,常用于回归(预测连续值,如产率)和分类(预测离散标签,如催化剂是否高活性)任务。无监督学习则处理无标签数据,旨在发现数据内在的结构或模式,如通过聚类将相似的催化剂分组,或通过主成分分析(PCA)等技术进行降维。此外,还有半监督学习(结合少量有标签数据和大量无标签数据)和强化学习(通过与环境的交互和试错来学习最优策略),这些新兴范式也在催化研究中展现出巨大的应用潜力。

图2:已应用于CO2加氢的主要机器学习算法分类

2. 机器学习驱动的催化剂设计与反应机理深度解析

2.1从“黑箱”到“白箱”:机器学习在揭示反应机理中的应用

机器学习在催化领域的应用正经历一场深刻的范式转变,从最初主要作为一种高精度的“黑箱”预测工具,演变为能够提供深刻物理化学见解的“白箱”分析方法。这一转变的核心在于,研究重点不再仅仅是预测催化剂的性能“有多好”,而是要揭示其性能优异的“为什么”。早期应用中,像人工神经网络(ANN)这样的复杂模型虽然预测准确,但其决策过程不透明,限制了其在指导理性、假设驱动的催化剂设计方面的作用。近年来,随着可解释性机器学习方法的发展,这一局面正在改变。

案例研究1:MMLPS用于反应路径的自主发现

一个典型的例子是Shi等人开发的微动力学引导的机器学习路径搜索(MMLPS)方法,该方法被用于系统地探索Cu和Cu-Zn合金表面的CO2和CO加氢反应网络。MMLPS建立在随机表面行走反应取样(SSW-RS)方法之上,其创新之处在于能够完全自主地探索所有可能的反应路径,而无需依赖任何先验的机理假设。该方法的核心驱动力是其集成的机器学习全局神经网络(G-NN)势函数。这个G-NN势函数在大量的密度泛函理论(DFT)数据集上进行训练,能够以远低于DFT的计算成本,提供接近DFT精度的能量和力预测。这样可以对数千个反应中间体和过渡态的势能面进行快速评估,从而克服了传统DFT方法在探索复杂反应网络时计算成本过高的瓶颈。MMLPS利用这种机器学习加速的模拟,结合在线微动力学模块和电路反应理论,动态识别并优先探索动力学上最有利的反应路径。通过这种方式,机器学习不仅仅是一个数据拟合工具,而是成为实现全自动、无偏见、可解释的反应路径发现的基础。该研究最终揭示了Zn原子在Cu(211)阶梯边缘的优先装饰效应,并明确了CO2加氢主要遵循甲酸盐路径,而CO加氢则遵循甲酰基路径的详细机理。这充分展示了机器学习如何从数据中生成全新的、可验证的科学假设(图3)。

图3:(a)MMLPS方法用于研究CO2和CO加氢反应网络及确定反应路径示意图。(b)Zn合金化的Cu(111)和Cu(211)表面的最稳定构型(铜原子为黄色,锌原子为蓝色,边缘铜原子为棕色)。(c)CO2加氢和(d) CO加氢在Cu(111)(黑色)、Cu(211)(红色)、0.11 ML Zn-Cu(211)(橙色)和0.22 ML Zn-Cu(211)(蓝色)上的吉布斯自由能曲线。

案例研究2:SISSO用于关键物理描述符的识别

另一个解决“黑箱”问题的强大工具是“符号回归”类算法,其中的代表是“Sure Independence Screening and Sparsifying Operator”(SISSO)。该算法能够从大量候选特征中筛选出少数几个关键描述符,并构建一个简洁、具有明确物理意义的数学表达式来预测目标属性。Khatimirad等人在研究In2O3/ZrO2催化剂的CO2加氢制甲醇时,利用SISSO分析了92个由DFT计算得出的描述符(包括吸附能和空位形成能)。SISSO最终发现,甲醇产率主要由反应温度以及CO2和羟基物种在活性位点上的吸附平衡共同决定,并构建了一个高度精确的非线性预测模型。类似的,Qin等人在研究过渡金属掺杂和氢溢流效应对In2O3/ZrO2基催化剂性能的影响时,也成功运用SISSO识别出与反应活化能强相关的关键描述符,如Au团簇的Bader电荷(图4)。SISSO的优势在于它生成的模型本身就是一种科学洞见,将复杂的构效关系提炼为可理解的物理化学原理,从而直接指导实验设计。

图4:(a) 在Cu、Ni和Pd改性的In2O3-ZrO2催化剂上CO2到CH3OH的转化路径的势能曲线。(b) 在Au4/In2O3-ZrO2催化剂上的势能曲线。(c)使用不同算法对活化能的预测性能

这些案例共同标志着机器学习在催化研究中的成熟。最有价值的机器学习工具不再是那些仅仅提供预测结果的工具,而是那些能够将海量、复杂的数据转化为简洁、可检验、并与基础化学原理相契合的科学假说的工具,从而真正加速科学发现的循环。

2.2 加速材料发现:新兴催化体系的高通量筛选

机器学习的另一项核心贡献和能力在于其能够赋能高通量筛选,从而在传统方法无法企及的广阔化学空间中快速发现全新的催化材料。这一过程通常依赖于计算数据与机器学习模型的协同作用。对于尚未合成的新材料,实验数据是缺失的,因此DFT等第一性原理计算方法成为生成初始数据的关键。DFT可以计算被认为与催化性能密切相关的基本属性(如吸附能)。然而,对数以百万计的候选材料进行DFT计算仍然不现实。此时,机器学习模型便充当了DFT的“代理模型”或“加速器”,通过学习少量DFT计算数据,建立从简单的原子或组分特征到DFT计算目标属性的映射关系,进而对海量候选材料进行快速预测。

高熵合金(HEAs):Roy等人的工作是这一策略的典范。他们旨在从Cu、Co、Ni、Zn、和Mg等元素组成的多元合金中筛选用于选择性CO2加氢制甲醇的高熵合金催化剂。首先通过DFT计算了少量代表性合金表面上关键中间体(如*H, *O, *CO, *HnCO)的吸附能,然后使用这些数据训练了高斯过程回归(GPR)和核岭回归(KRR)模型,以预测更广泛组分范围内的吸附能。模型输入的是易于获取的描述符,如元素的偶极极化率、金属半径和综合了泡林电负性与价电子的组分描述符Ψ。通过这种机器学习驱动的筛选,他们成功识别出35种具有优异甲醇选择性潜力的候选合金,极大地缩小了实验验证的范围。

单原子与双原子催化剂(SACs/DAAs):对于结构更为复杂的单原子催化剂,Arrieta和Foppa 采用了一种更为精巧的“子群发现”(SGD)AI方法。与构建一个全局预测模型不同,SGD旨在识别能够表征高性能催化剂子集的、具体的、可解释的“规则”。例如,通过分析36种单原子合金(SAAs)上近800个不同吸附位点的DFT数据,SGD发现的规则可能是:“如果单原子的d轨道半径较大且电子亲和能较高,则其对CO2的活化能力强”。这种方法不追求对所有材料的普适性预测,而是专注于高效地“挖掘”出最有希望的候选者,为实验提供了极为明确的指导方向。

类似的工作流程也成功应用于其他前沿材料。Abraham等人 利用随机森林回归(RFR)模型,基于d带中心、功函数等电子描述符,高通量筛选了二维材料MXenes的CO2吸附和活化性能。Parmer等人则针对过渡金属钳形配合物,训练RFR模型以金属中心的亲电性为目标,快速评估了超过28万种候选配合物的催化潜力。

然而,这种高度依赖计算数据的筛选策略也凸显了一个核心挑战:模型的预测精度和可靠性完全取决于训练所用的DFT数据的质量。DFT计算本身是对真实物理世界的近似,可能无法完全捕捉真实反应条件下催化剂表面的动态重构、复杂的多相界面等。这就造成了“干净但可能不完全真实”的计算数据与“真实但充满噪声和复杂性”的实验数据之间的矛盾。因此,开发能够有效融合稀疏、高保真度的实验数据与海量、中等保真度的计算数据的机器学习方法,如迁移学习(在DFT数据上预训练,在实验数据上微调)或多保真度建模,是该领域未来发展的关键方向,这将有助于构建既具有广泛适用性又具备高预测精度的模型。

3. 机器学习驱动的过程优化与性能预测

机器学习在过程优化中的核心作用是建立一个连接催化剂内在属性和外部反应条件的桥梁,以精准预测并最大化目标产物的产率。通过对从文献、实验或模拟中获得的大型数据集进行训练,机器学习模型能够捕捉到CO2转化率、产物选择性和时空产率等关键性能指标与众多输入变量之间的复杂非线性关系,从而指导工艺参数的优化。

甲烷生产:在CO2甲烷化研究中,Ni基催化剂因其高活性和低成本而备受关注。ANN模型结合多标准决策方法已经被成功应用于确定在Ni/Al2O3催化剂上平衡甲烷高产率与低环境影响的最佳操作窗口。Kuddusi等人则展示了主动学习的强大能力,他们在一个包含超过5000万种可能配方的巨大设计空间中,仅通过48次实验,就利用高斯过程(GP)模型指导优化了Ni-Co/Al2O3催化剂的配方和反应条件,使甲烷的时空产率提高了近50%。更大规模的数据挖掘工作也取得了显著成果,例如Yang等人构建了一个包含2777个数据点的综合数据库,并训练了LightGBM模型,其预测精度R2超过0.90。通过与SHAP等可解释性工具结合,模型不仅能精准预测,还能揭示出活性金属含量、载体组成和反应温度等是影响催化性能的关键因素,从而指导了新型低温高活性甲烷化催化剂的发现。

碳氢化合物/烯烃生产:CO2经由费托合成(FTS)路线转化为长链碳氢化合物和烯烃的过程更为复杂,其产物分布对催化剂(通常为Fe基)的组成和工艺条件极为敏感。Fedorov和Linke通过对文献数据进行整理和分析,利用RFR模型阐明了碱金属助剂(如K、Na)对提升链增长概率和烯烃选择性的关键作用。为了应对这种高度复杂性,Yang等人引入了自动化机器学习(AutoML)框架。该框架能够自动完成模型选择、特征工程和超参数调优的全过程,极大地提升了建模效率和预测精度。他们利用AutoML-DE框架和XGBoost模型,成功预测了CO2制备轻烯烃过程中的催化性能,并筛选出具有高烯烃产率潜力的催化剂体系(图5)。

图5: 评估四种AutoML-DE模型对低碳烯烃C2–C4选择性的预测准确性:(a) 预测值与实际值的图形比较;(b) 预测偏差示意图;(c) 训练和测试数据集的回归图;(d) 预测误差的密度分布

甲醇生产:甲醇是CO2加氢最重要的目标产物之一,相关的机器学习研究也最为广泛。Suvarna等人汇编了超过1400个关于Cu基、Pd基等催化剂的文献数据点,发现集成学习模型,特别是极限梯度提升(XGB),在预测甲醇时空产率方面表现出卓越的准确性和泛化能力。Tripathi等人的研究也证实,基于大型文献数据库训练的梯度提升回归树(GBRT)和ANN模型,能够以高精度(R2值通常在0.9以上)预测CO2转化率和甲醇选择性。这些模型通过特征重要性分析,一致地指出了反应温度、压力、空速和H2/CO2比是决定甲醇合成性能的最主要工艺参数。

在这些数据驱动的优化研究中,一个值得关注的趋势是物理信息神经网络(PINNs)的兴起。传统的机器学习模型完全依赖数据,其预测可能在物理上不自洽,尤其是在数据稀疏的外推区域。PINNs通过将已知的物理定律(如质量守恒、能量守恒的偏微分方程)直接嵌入神经网络的损失函数中,从根本上解决了这一问题。Ngo和Lim在模拟CO2甲烷化固定床反应器时,将反应动力学和物料衡算方程作为约束,使得PINN模型在训练数据极少的情况下依然能做出准确且符合物理规律的预测。同样,Cui等人利用混合PINN框架模拟了CO2加氢制备多种醇类的复杂反应网络。PINNs代表了数据驱动方法与第一性原理建模的深度融合,为建立高保真、数据高效的化学反应器“数字孪生”开辟了新途径,预示着过程模拟和优化领域的重大变革。

4. 成本与能源效率的系统性优化

除了提升催化剂的微观性能,机器学习也被越来越多地应用于宏观层面,即对整个CO2加氢工艺的经济性和能源效率进行系统性优化。传统的过程设计优化计算量巨大且耗时。Lee等人创新性地采用了高斯过程贝叶斯优化(GPBO)方法对直接CO2加氢制甲醇的“超结构”进行优化。该方法能够同时优化反应器配置、催化剂负载和操作参数等离散与连续变量,设计出的新工艺将CO2转化率提升至52.5%,并将甲醇的均化成本从446/吨降至412.5/吨,展示了机器学习在颠覆性工艺创新中的巨大潜力 。(图6)

图6 CO2制甲醇过程的总体超结构框架。反应器从1开始顺序标记,而产物回收单元从2开始编号。(b) 通过GPBO优化后的工艺流程图

Samad等人和Bao等人则将机器学习与?分析相结合,以实现过程的能效最优化。他们利用GPR、ANN和XGBoost等模型作为高精度代理模型,替代了耗时的过程模拟,并结合多目标遗传算法(NSGA-II)来同时优化产率和最小化?损失。研究发现,反应器是主要的?损失单元。通过优化,他们不仅找到了最佳的操作条件和催化剂配方,还显著提升了系统的整体能效,为实现可持续的CO2加氢技术提供了数据驱动的解决方案。

这些研究体现了机器学习作为一种多尺度集成工具的独特价值。它能够将原子尺度的催化剂描述符(影响催化性能)与设备尺度的反应器性能(影响转化率和选择性),最终与工厂尺度的经济指标(成本和能耗)联系起来。这种跨尺度的关联能力使得研究人员能够摆脱孤立地优化催化剂活性的传统思路,转而采取一种全局性的、以最终经济或环境效益为导向的整体优化策略,这对于推动CO2加氢技术的商业化应用具有至关重要的意义。

五、挑战与展望

尽管机器学习在推动CO2加氢研究方面取得了显著进展,但仍面临诸多核心挑战:

1.数据质量与可用性:数据是机器学习的基石。然而,催化领域的数据普遍存在不一致、缺失值和噪声等问题,严重影响模型的可靠性。特别是许多数据集仅依赖理论计算,未能充分反映真实反应条件下的催化剂表面动态变化,导致模型预测与实际情况存在偏差。此外,高质量实验数据的稀缺性是另一个核心障碍,这容易导致模型过拟合和泛化能力差。

2.模型的可解释性:许多高性能的机器学习模型尤其是深度学习模型如同“黑箱”,虽然预测精度高,但其决策过程不透明,难以提供清晰的物理或化学洞见。这阻碍了基于模型的发现进行假设驱动的、理性的催化剂设计。

3.标准化与基准:目前该领域缺乏统一的特征选择方法、模型评估指标和基准数据集。不同研究采用的描述符和评估方法各异,导致模型性能难以进行公平比较,影响了领域内的协同发展和知识积累

为应对上述挑战并充分释放机器学习的潜力,未来的研究应聚焦于以下几个方向:

1.构建高质量的标准化数据库:建立开放共享、包含实验和计算数据的高质量数据库是当务之急。整合来自表面科学、高通量实验和DFT计算的多源数据,将有助于构建更全面、更贴近真实的模型。同时,利用迁移学习、数据增强和合成数据生成等技术,可以有效缓解数据稀缺问题。

2.增强模型的可解释性与物理一致性:发展可解释性机器学习(XAI)框架和事后解释方法,对于从“黑箱”模型中提取机理洞见至关重要。更具前瞻性的方向是探索PINN等新兴模型。PINN将物理定律(如质量守恒、能量守恒、反应动力学方程)作为约束直接整合到神经网络的训练过程中,确保模型预测在物理上是自洽的,从而在数据稀疏的情况下也能保持高精度和良好的外推能力。

3.整合多尺度模拟与先进机器学习算法:将机器学习与DFT、微观动力学模型更紧密地结合,可以实现从原子尺度到反应器尺度的跨尺度模拟与设计。这种融合不仅能加深对反应机理的理解,还能加速发现具有优异性能的新型催化材料。

4.探索新兴机器学习范式:除了PINN,强化学习(RL)也展现出巨大潜力。RL智能体通过与环境的“试错”交互来学习最优策略,特别适用于动态、不确定的催化过程优化,例如在线调整反应条件以应对催化剂失活或原料波动。深度学习(DL)则能处理更复杂的非线性关系和高维特征,将在催化剂发现、过程优化和机理探索中扮演越来越重要的角色。

总之,通过克服数据瓶颈、提升模型的可解释性、并积极拥抱PINN和RL等前沿技术,机器学习将继续作为推动CO2加氢技术走向高效、经济和可持续未来的核心驱动力。

六、启示

本综述深入剖析了机器学习在热催化CO2加氢领域的革命性应用,为实现碳中和目标提供了数据驱动的新范式。主要启示有:

1.机器学习已成为加速催化剂研发与过程优化的强大引擎。它能够从海量复杂数据中挖掘深层规律,显著缩短传统试错周期,为高效、低成本的CO2转化路径提供了前所未有的机遇。

2.跨学科融合是未来科研的关键。本综述表明将材料科学、化学工程与人工智能深度结合,能够突破单一学科的局限,催生出如高熵合金催化剂智能筛选等创新解决方案。

3.可解释性机器学习与自动化高通量平台的结合,将极大推动科研的“快迭代”进程。这不仅有助于揭示复杂的反应机理,更能加速实验室成果向工业应用的转化。

最后,本综述首次构建的机器学习算法-描述符-性能指标映射图谱,为CO2加氢领域的研究者提供了宝贵的通用范式和路线图。我们相信,随着数据积累和算法进步,机器学习将在CO2资源化利用的道路上发挥越来越核心的作用。

引用信息:Rasoul Salami, Tianlong Liu, Xue Han, Ying Zheng, Machine learning application in thermal CO2 hydrogenation: catalyst design, process optimization, and mechanism insights, Adv. Powder Mater. 4 (2025) 100333. https://doi.org/10.1016/j.apmate.2025.100333

扫二维码 查看全文

原文链接:https://www.sciencedirect.com/science/article/pii/S2772834X25000697

 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
我国首颗海洋盐度探测卫星完成在轨测试 新型光电神经网络架构让光电计算精度更高
神秘宇宙“斑点”究竟是什么? “向上生长”的芯片,突破摩尔定律限制
>>更多
 
一周新闻排行
 
编辑部推荐博文