■本报见习记者 任芳言
化学家的研究直觉是怎么培养的?靠多年的实验积累。如今,研究者尝试培养机器学习算法的“直觉”,经过训练,算法可以比研究者学得更快。
5月18日,厦门大学研究人员在《物质》上发表文章,通过机器学习,他们找到了锆铪氧簇纳米金属有机框架(MOF)合成过程中的关键变量:调节剂浓度和配体溶解度。据此经验,他们实现了二维薄膜、凹八面体或空心八面体等一系列不同形态MOF的精准制备。
“算法把这些变量的重要性呈现给我们,这跟化学家的经验和直觉也是吻合的。”论文通讯作者之一、厦门大学化学化工学院教授汪骋告诉《中国科学报》。
从“没定律”到“有地图”
在合成化学领域,研究者常常调侃:晶体生长的第一定律就是没有定律。这侧面说明了提升材料制备的精确度有多难。
以MOF的制备为例,目前研究提出的生长理论只能提供模糊的方向,研究者在实验中往往要不断试错。MOF的稳定性受金属氧化态、还原电位、离子半径等因素的影响,研究者在制备过程中需要调节温度、酸碱度、反应物浓度等多个参数。
“当多个变量同时变化时,化学家的直觉不一定会很准。”论文通讯作者之一、厦门大学数学学院副教授周达表示。
如果用机器学习方法指导材料设计,能在多大程度上提高材料制备效率?带着这一念头,汪骋和周达展开了合作。
研究团队首先用决策树算法分析了不同合成条件下的物相和形貌,批量制备MOF,进而找出影响材料形貌的重要变量:水和甲酸浓度。他们再用随机森林算法确定形貌和试验条件的对应关系。
“我们发现水和甲酸这两个变量最关键后,就去集中调节它们,看会有怎样的结果。”汪骋说。在他看来,经过训练的机器学习算法能描绘出材料制备的地图,告诉研究者材料制备的方向,“对整个流程掌控有很大帮助”。
驯化算法,改布点方式
与传统实验中控制变量法设置的指标不同,为了训练算法,研究者需要让变量分布得相对均匀,即用更发散的布点方式。获得材料合成过程中的数据后,研究者可以根据实际需求选择算法、做参数训练。最终,他们从看似纷乱繁杂的数据图表中,获得晶体制备的宝贵经验,并绘制出相图。
“这有些像教学生”,周达表示,材料制备中获得的实验数据,一部分用于参数训练,就像给学生的阅读教材;另一部分则用于检测,就像考试题。
对汪骋而言,能制备出的纳米材料越薄越好。为了更快地对纳米薄片进行测量、总结制备规律,他与周达等人又用上了图像识别中的Mask-RCNN算法。
为了降低测量成本,研究团队选择用扫描电镜技术获得纳米薄片厚度信息,但由于薄片的状态不规则,就需要通过算法进行筛选。扫描了超过1500张电镜图像后,他们终于确定了制备MOF的最佳条件。并据此设计出复杂的分步合成序列,获得更多复杂的MOF及其结构。
“这些不同形貌的纳米材料用于烯烃加氢的催化反应,展现了非常不同的活性。”汪骋表示。
拥抱“尤里卡时刻”
但目前来看,这一系列操作的成本还有压缩空间。由于需要批量制备薄膜,人力物力成本较高,且数据量很大,还要考虑电镜等使用成本。“我们现在正在尝试从自然语言,即现有的文献中提取信息,扩大数据来源,降低成本。”汪骋说。
“与传统的盲目试错相比,此方法大大缩短了获得理想晶相的时间。”武汉大学化学与分子科学学院教授邓鹤翔这样点评道。
邓鹤翔对《中国科学报》表示,晶体合成的魅力在于寻找合适的化学反应条件,而灵光乍现得到理想产物是研究者“最为欣喜的尤里卡时刻”。如果用传统方法,这种寻找的过程往往很漫长。
不止于合成化学,汪骋等人已经开始将算法运用到催化研究中。“我觉得在机器学习进来之后,这个领域可能有新的突破。”汪骋说。
相关论文信息:https://doi.org/10.1016/j.matt.2020.04.021
《中国科学报》 (2020-05-20 第4版 综合)