加速催化剂设计,上海交大贺玉莲课题组基于 AutoML 进行知识自动提取

日常生活中,「催化」是最为常见的化学反应之一。比如,酿酒酿醋的本质,就是粮食中的淀粉在微生物酶的催化作用下,转变成酒精和醋酸的过程。

用更为学术的说法——在化学反应里能改变反应物反应速率(既能提高也能降低)而不改变化学平衡,且本身的质量和化学性质在化学反应前后都没有发生改变的物质叫催化剂。

化学工业中,85% 以上的过程都依赖催化剂加快反应速率,设计新型高效催化剂对整个产业的重要意义不言而喻,其中,理解和确定最佳催化剂的过程中,有一个最具信息量的特征,即催化剂表面反应物的化学吸附能量 Eads。化学反应内在十分复杂,这也使得明确决定 Eads 的关键物理量存在显著困难。

近日,上海交通大学密西根学院助理教授贺玉莲课题组,在国际综合性顶级期刊《美国国家科学院院刊》 (Proceedings of the National Academy of Sciences of the United States of America, PNAS) 发表题为「Interpreting Chemisorption Strength with AutoML-based Feature Deletion Experiments 」的研究论文。该研究针对确定决定 Eads 的关键物理量提出了一种新方法,即基于自动机器学习 (AutoML) 的特征删除实验,从高通量密度泛函理论 (density functional theory, DFT) 数据库中实现了知识的自动提取。

研究亮点:

  • 基于自动机器学习 (AutoML) 的特征删除实验,从高通量密度泛函理论 (DFT) 数据库中实现了知识的自动提取

  • 研究论证了在二元合金催化剂表面的吸附位点的局部几何信息,对化学吸附能量 Eads 的重要影响,展示了基于 AutoML 特征删除实验的稳定性、一致性和潜力

  • 该研究成果在催化剂设计优化方面有着重要意义,并在方法学上产生重要的影响

在这里插入图片描述

论文地址:
https://www.pnas.org/doi/10.1073/pnas.2320232121

关注公众号,后台回复「自动机器学习」获取完整 PDF

严谨科学的高质量数据集

本研究选择了一个高通量密度泛函理论计算的解离化学吸附能数据集作为基准。通过使用 Mamun 等人建议的相同 DFT 协议重现吸附能,从而验证数据质量。

该数据库包含 DFT 计算的二元合金表面上各种吸附物的 Eads 值,这些吸附物由 37 种不同金属元素组成。随后,研究人员从包含 88,587 个条目的数据集中精选出了涉及 10 余种吸附物的化学吸附反应,仅保留了 5 种双原子分子吸附剂 (H2、O2、N2、CO 和 NO),如下表,共计 8,418 个条目。

在这里插入图片描述

本文研究了双原子化学吸附反应

限制吸附剂为双原子分子,主要是为了减少由吸附剂结构引起的复杂性,并统一吸附剂描述,使机器学习模型能够专注于所涉及合金(即催化剂)的表面行为。

自动机器学习 (AutoML) 引导的知识提取方法

此前,研究人员倾向于使用机器学习 (ML) 方法,特别是可解释的人工智能 (XAI),以发现有关催化反应的新见解。然而,随着化学领域 AI 技术的快速发展,XAI 提供的模型和特定特征解释,可能难以满足化学研究人员所需的清晰度和确定性水平。因此,本研究提出了一种替代方案,即自动机器学习 (AutoML) 引导的知识提取方法, 如下图:

在这里插入图片描述

研究概览

研究人员并没有深入研究机器学习算法的内部工作原理,而是将许多可比较的机器学习模型捆绑在一起进行集体分析。具体来说,研究人员基于一个简单而基本的原则建立物理见解——假设「 临界」物理量应该显著影响物理模型的可预测性;因此,去掉这些量会降低模型的有效性,反之亦然。

第一步,构建并验证初始基准特征集 (Ftotal) 以确保其描述性,使用该特征集的模型应该表现出可接受的预测性能。

第二步,从 Ftotal 中删除内部相关的特征,以检查模型可预测性中的任何变化。

这种方法有3个好处:

  1. 物理洞察力是通过比较不同特性集的性能来收集的,因此明确地纳入了物理考虑因素。通过精心设计的实验设置,可预测性的变化可以与物理假设联系起来;

  2. 通过分析可比较模型的统计量以降低模型的随机性;

  3. 这种方法避免了在知识提取过程中理解机器学习算法的详细数学结构,从而避免了模型复杂性和可解释性之间的权衡。

研究结果:吸附位点的局部几何信息是关键物理量

通过定制的基于 AutoML 的特征删除实验,本研究发现:对于二元合金催化剂表面,吸附位点的局部几何信息为决定 Eads 的关键物理量,而不是合金催化剂的本征电子或者物理化学性质。

具体而言,研究通过将特征删除实验,与基于神经网络的可解释人工智能 (XAI) 工具实例化变量选择 (INVASE) 相结合,总结出了预测 Eads 的最佳特征集,包含有 21 个固有的、非 DFT 计算的本征物理量 F21。利用该特征集,在涉及 1,600 余种的合金表面约 8,400 个化学吸附反应中,实现了 0.23 eV 的平均绝对误差 (MAE)。

下表显示了 F21 的详细信息,包括 1 个吸附剂特征、3 个几何特征、7 个物理化学特征和 10 个电子特征。

在这里插入图片描述

贪婪扫描中表现最好的特征集的细节

研究人员将经过验证的特征删除方法应用于 Ftotal,确定了 F21 的几何、物理化学和电子特征的相对重要性。结果如下图所示:从 F21 中删除电子特征导致 ΔMAE ≈ 0.04 eV,使得 MAE = 0.30 eV,与 Ftotal 相当。

在这里插入图片描述

F21 的详细分析

与 Ftotal 类似,尽管只选择了 3 个几何特征,但几何信息在 F21 中起着最为关键的作用,如上图 (b) 所示,ΔMAE 约为 0.4 eV。上图 © 表明,相较电子特征而言,从 F21 中删除合金物理化学信息的影响更大 (ΔMAE ≈ 0.15 eV)。特别是,研究人员发现了合金组分 B 的一个具体特征,即原子半径 B,其重要性尤为突出。无论删除顺序如何,当移除原子半径 B 时,观察到 ΔMAE 约为 0.1 eV。原子半径 B 的重要性可能与双金属纳米晶体中的「配体」或「应变」效应有关。将第二金属 B 引入到主金属基体 A 中可能会引起电子状态和/或晶格应变(压缩或拉伸)的显著变化,从而影响化学吸附强度。

如上图 (d) 所总结的那样,在 F21 上发现的相对重要性排序为几何 > 物理化学 > 电子,与 Ftotal 的发现一致。

综上所述,本研究论证了,在二元合金催化剂表面的吸附位点的局部几何信息,对化学吸附能量 Eads 的重要影响,展示了基于 AutoML 的特征删除实验的稳定性、一致性和潜力。与传统的可解释性模型相比,该方法避免了模型复杂性与可解释性之间的折衷,将科学见解的来源从阐明模型行为,转移到评估特征集性能,将人为干扰对于结论的影响最小化,从对输出的统计行为中提取知识。

这种新提出的基于 AutoML 的特征分析方法,是揭示复杂物理科学中统计特征重要性的一种强大而灵活的工具,甚至超越了催化领域。

催化领域迈向高效未来

设计新型催化剂是解决许多能源和环境挑战的关键。然而,一方面,许多催化反应涉及复杂的反应机理,其中包括多种中间体和过渡态的生成和转化,这些反应机理可能受到多种因素的影响,如溶剂、温度、压力等,使得预测和理解催化剂的性能变得非常困难;另一方面,由于催化剂合成的复杂性和不确定性,试错的成本往往较高,传统方法可能需要尝试多种不同的材料和反应条件,这增加了催化剂开发的时间和成本。

为了克服这些挑战并提高新型催化剂的设计效率和性能,需要引入人工智能技术。人工智能可以利用大数据和机器学习算法来分析复杂的催化反应机理,加速催化剂的设计和优化过程。例如:

晶体结构预测和设计 :人工智能可以用于预测和设计催化剂的晶体结构,从而提高催化性能。过去,科学家们通过调整已知晶体或试验新的元素组合来寻找新的晶体结构,如今深度学习等技术可以分析大量的晶体结构数据,并从中发现规律和趋势,从而指导催化剂设计。

化学反应预测和优化 :人工智能可以帮助预测化学反应的产物和反应途径,并优化反应条件,以实现所需的催化效果。比如,科学家通过训练神经网络模型,可以建立反应机理的预测模型,并据此指导实验设计。

高通量材料筛选 :人工智能可以加速高通量材料筛选过程,从大量候选材料中快速识别具有潜在催化性能的候选物。

智能实验设计和优化:人工智能可以帮助设计和优化实验方案,以最大程度地提高催化剂的合成效率和性能。通过结合机器学习和自动化实验技术,可以搭建智能实验平台,自动化地执行实验流程,并根据实时数据进行调整和优化。

举例而言,2023 年 9 月,北海道大学 (Hokkaido University) 的研究人员展示了一种外推机器学习方法,开发新型多元素反向水煤气变换催化剂。该研究使用 45 个催化剂作为初始数据点,并执行闭环发现系统的 44 个循环(ML 预测+实验),研究人员对总共 300 种催化剂进行了实验测试,并鉴定出 100 多种催化剂,这些催化剂与之前报道的高性能催化剂相比,具有更优异的活性。

该研究以「Accelerated discovery of multi-elemental reverse water-gas shift catalysts using extrapolative machine learning approach」为题,发布在 Nature Communications。

在这里插入图片描述

未来,人工智能有望进一步提高催化剂的设计和合成效率,加速新型催化剂的发现和应用,从而推动化学领域的发展。

参考资料:
1.http://www.sdqiying.com/cxinwenz/469/
2.https://www.zhihuiya.com/newknowledge/info_2859.html
3.https://www.ceshigo.com/article/11511.html
4.https://www.jiqizhixin.com/articles/2023-10-21-19

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/823725.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

51单片机工程模板的建立(基于STC15系列库)

一、开启前准备 1.STC15官方库文件 1.1 stc15-software-lib-v1.0.rar;下载地址:STC15系列库(带使用手册)资源-CSDN文库 2.Keil4_C51软件,或其它版本; 二、创建工程模板 1.建立文件分类 listing&#xf…

干货!微信小程序通过NodeJs连接MySQL数据库

在前后端数据库架构的思维中,微信小程序的生态地位是充当前端,后端和数据库还需开发者另外准备。微信开放社区提供强悍的云函数、云数据库、CMS内容管理,无疑为开发小程序的功能提供了不少便捷。 当我们在开发PC端的系统时,常见的…

Springboot+Vue项目-基于Java+MySQL的在线视频教育平台系统(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:Java毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &…

Java中的容器,线程安全和线程不安全

Java中的容器主要指Java集合框架中的一系列类,它们提供了存储和操作对象的能力。在讨论容器的线程安全性时,我们可以将其分为两大类: 线程安全的容器: Vector: 这是ArrayList的线程安全版本,所有方法都被同步以确保在…

动态代理,XML,Dom4j

文章目录 动态代理概述特点代码实现实现的关键步骤优点 XML概述作用编写第一个XML文件组成声明元素(标签、标记)属性注释转义字符[实体字符字符区(了解) 约束DTD约束Schema约束名称空间 Dom4jXML解析解析方式和解析器解析方式解析器Snipaste_2024-04-17_21-22-44.png<br /&g…

视觉SLAM学习打卡【11】-尾述

到目前为止&#xff0c;视觉SLAM14讲已经到了终章&#xff0c;历时一个半月&#xff0c;时间有限&#xff0c;有些地方挖掘的不够深入&#xff0c;只能在后续的学习中更进一步。接下来&#xff0c;会着手ORB-SLAM2的开源框架&#xff0c;同步学习C。 视觉SLAM学习打卡【11】-尾…

Java27

FileOutputStream类 文件字节输出流FileOutputStream类是OutputStream类的子类write()方法顺序地向输出流写入字节&#xff0c;直到关闭输出流。 使用FileOutputStream类&#xff0c;操作本地文件地字节输出流&#xff0c;可以把程序中的数据写到本地文件中&#xff0c;其中写…

Java实现对称加密算法 DES/3DES/AES

一、DES加密算法 1.1 原理 DES是一种对称加密算法&#xff0c;它使用相同的密钥进行加密和解密操作。 DES算法的核心是一个称为Feistel网络的结构&#xff0c;它将明文分成左右两部分&#xff0c;并通过多轮迭代和替换操作来生成密文。 DES算法使用56位密钥&#xff08;实际…

基于SpringBoot+Vue的装饰工程管理系统(源码+文档+包运行)

一.系统概述 如今社会上各行各业&#xff0c;都喜欢用自己行业的专属软件工作&#xff0c;互联网发展到这个时候&#xff0c;人们已经发现离不开了互联网。新技术的产生&#xff0c;往往能解决一些老技术的弊端问题。因为传统装饰工程项目信息管理难度大&#xff0c;容错率低&a…

面试突击---MySQL索引

面试突击---MYSQL索引 面试表达技巧&#xff1a;1、谈一下你对于mysql索引的理解&#xff1f;&#xff08;为什么mysql要选择B树来存储索引&#xff09;2、索引有哪些分类&#xff1f;3、聚簇索引与非聚簇索引4、回表、索引覆盖、最左匹配原则、索引下推&#xff08;1&#xff…

概念解读稳定性保障

什么是稳定 百度百科关于稳定的定义&#xff1a; “稳恒固定&#xff1b;没有变动。” 很明显这里的“稳定”是相对的&#xff0c;通常会有参照物&#xff0c;例如 A 车和 B 车保持相同速度同方向行驶&#xff0c;达到相对平衡相对稳定的状态。 那么软件质量的稳定是指什么…

小白必看的Ubuntu20.04安装教程(图文讲解)

总的来说&#xff0c;安装Ubantu包含以下三个步骤&#xff1a; 一、安装虚拟机 二、Ubuntu镜像下载 三、虚拟机配置 一、安装虚拟机 选择安装VMware Workstation&#xff0c;登录其官网下载安装包&#xff0c;安装点这里。 下载后运行安装向导&#xff0c;一直Next即可。最…

2024腾讯一道笔试题--大小写字母移动

题目&#x1f357; 有一个字符数组,其中只有大写字母和小写字母,将小写字母移到前面, 大写字符移到后面,保持小写字母本身的顺序不变,大写字母本身的顺序不变, 注意,不要分配新的数组.(如:wCelOlME,变为wellCOME). 思路分析&#x1f357; 类似于冒泡排序&#xff0c;两两比较…

ssm055基于spring框架的中小企业人力资源管理系统的设计及实现+jsp

中小企业人力资源管理系统设计与实现 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本中小企业人力资源管理系统就是在这样的大环境下诞生&#xff0c;其可…

[lesson39]逗号操作符的分析

逗号操作符的分析 逗号操作符 逗号操作符(,)可以构成逗号表达式 逗号表达式用于将多个子表达式连接成为一个表达式逗号表达式的值为最后一个子表达式的值逗号表达式中的前N-1个子表达式可以没有返回值逗号表达式按照从左向右的顺序计算每个子表达式的值 重载逗号操作符 在C…

OPC-UA是这样在食品和饮料中应用的

什么是 OPC-UA OPC Unified Architecture&#xff0c;即 OPC-UA&#xff0c;是一种基于 TCP/IP 的协议&#xff0c;用于自动化工程师实时、高可靠性、高效性地在控制系统级别共享数据。 OPC-UA 的特点 安全通信: OPC-UA 使用先进的加密方法和严格的访问控制&#xff0c;确保数…

CV每日论文--2024.4.15

1、Connecting NeRFs, Images, and Text 中文标题&#xff1a;连接 NeRF、图像和文本 简介&#xff1a;神经辐射场&#xff08;NeRFs&#xff09;已经成为表示3D场景和物体的标准框架&#xff0c;引入了一种新的数据类型用于信息交换和存储。与此同时&#xff0c;多模态表示学…

Excel文件解析(Java)

一、概述 在应用程序的开发过程中&#xff0c;经常需要使用 Excel文件来进行数据的导入或导出。所以&#xff0c;在通过Java语言实现此类需求的时候&#xff0c;往往会面临着Excel文件的解析(导入&#xff09;或生成&#xff08;导出)。 在Java技术生态圈中&#xff0c…

<计算机网络自顶向下> 多路复用与解复用

多路复用/解复用 端口号区分进程到进程多路解复用工作原理 解复用作用&#xff1a;TCP或者UDP实体采用哪些信息&#xff0c;将报文段的数据部分交给正确的socket&#xff0c;从而交给正确的进程主机收到IP数据报 每个数据报有源IP地址和目标地址每个数据报承载一个传输层报文段…

(算法版)基于二值图像数字矩阵的距离变换算法

Hi&#xff0c;大家好&#xff0c;我是半亩花海。本项目展示了欧氏距离、城市街区距离和棋盘距离变换的实现方法。通过定义一个距离变换类&#xff0c;对输入图像进行距离变换操作&#xff0c;并生成对应的距离矩阵。在示例中&#xff0c;展示了在一个480x480的全黑背景图像上设…