改进化学品研发模式,缩短化学品从发现到应用的时间是化工行业中所有科学研究者和产业人员的最终目
标。本文提出:化学品设计是一个涉及多组分、多尺度和多物理场的复杂过程,现有的实验研究模式难以深入高
效地揭示相关的物理化学机制;因此,需要借助多尺度计算机模拟技术,从微观分子层面的化学结构出发,耦合
多种模拟方法来预测宏观产品的性能;同时,随着计算机算力的提升,将基于物化机制的多尺度计算机模拟方法
与数据驱动的人工智能相结合的研发模式,具有广阔的应用前景,例如基于高精度多尺度模拟数据训练的机器学
习模型能够指数级地缩短化学品结构-性质的预测。尽管如此,由于广阔的分子结构空间和复杂的分子作用力关
系,新型化学品研发面临着众多独特的挑战。如何借助人工智能提高现有模拟技术的准确性与速度,更好地理解
和预测材料的性质和特点,并将人工智能引入材料设计算法,以实现更高效地探索和优化复杂的化工设计参数,
使其更适应实际需求,是化学品设计研究的前沿方向。本文从多尺度模拟、材料设计框架和科学计算软件开发三
个方面,分析讨论了人工智能驱动化学品创新设计的发展现状,阐述了人工智能技术在实现化学品设计创新途径
中所起的重要作用,并对人工智能驱动在化学品设计的研究方向和发展目标进行了展望,以助力实现新型化学品
的设计,为我国化工产业发展提供坚实的技术支撑。
关键词:人工智能;化学品设计;计算机模拟
中图分类号:TQ317;TP18 文献标志码:A 文章编号:1000-6613 (2023) 08-3910-07
AI-driven innovative design of chemicals in practice and perspective
WU Zhenghao1,2,ZHOU Tianhang3,4,LAN Xingying3,4,XU Chunming3,4
(1 Department of Civil and Environmental Engineering, Northwestern University, 2145 Sheridan Road, Evanston, Illinois
60208-3109, United States; 2 Department of Chemistry, Xi’an Jiaotong-Liverpool University, Suzhou 215123, Jiangsu,
China; 3 College of Carbon Neutrality Future Technology, China University of Petroleum (Beijing), Beijing 102249, China;
4 State Key Laboratory of Heavy Oil Processing, China University of Petroleum (Beijing), Beijing 102249, China)
Abstract: It has long been a grand goal for researchers and industry professionals in the chemical
engineering community to revolutionize the paradigm of chemical product development and shorten the
time from product discovery to application. However, chemical product design is a complex process involving
multiple components, scales, and physical fields. It is difficult for existing experimental research models
to reveal the relevant physical and chemical mechanisms in depth and efficiently. Therefore, it is necessary
观点 DOI:10.16085/j.issn.1000-6613.2023-0811
收稿日期:2023-05-15;修改稿日期:2023-07-08。
基金项目:国家自然科学基金创新群体项目 (22021004);国家自然科学基金青年基金 (22308376);中国石油大学 (北京) 青年拔尖 (20230080);
碳中和联合研究院 (CNIF20230209)。
第一作者:吴正浩 (1995—),男,博士,博士后。研究方向为人工智能及化学产品设计。E-mail: zhenghao.wu@northwestern.edu。
通信作者:周天航,博士,岗位副教授,研究方向为人工智能及化学产品设计。E-mail: zhouth@cup.edu.cn。
引用本文:吴正浩, 周天航, 蓝兴英, 等 . 人工智能驱动化学品创新设计的实践与展望[J]. 化工进展, 2023, 42(8): 3910-3916.
Citation:WU Zhenghao, ZHOU Tianhang, LAN Xingying, et al. AI-driven innovative design of chemicals in practice and perspective[J]. Chemical Industry and
Engineering Progress, 2023, 42(8): 3910-3916.
·· 3910
2023 年 8 月 吴正浩等:人工智能驱动化学品创新设计的实践与展望
to use multi-scale computer simulation technology to predict the properties of chemical products by coupling
multi-scale simulation methods starting from the chemical structure at the micro-molecular level. Along
with the increasing computing power, “artificial intelligence (AI) -driven” approaches are becoming a
significant promise in the pursuit of this objective, where AI is being organically integrated with established
multi-scale simulation techniques for efficient and high-fidelity modeling framework with potential for
transformative impact on chemical design. For instance, machine learning models trained on high-fidelity
multi-scale simulation data can accelerate the prediction of chemical structure-property relationship by
orders of magnitude. However, the chemical industry, particularly, the development of new chemical
products, presents many unique challenges. The crude application of AI to existing problems and data to
construct some predictive models can hardly break the existing bottlenecks fundamentally. Hence, it is
imperative to consider how we can integrate AI techniques more effectively and comprehensively with
innovative chemical product design. We envision this can be achieved through, e.g., using AI to optimize
existing physics-based simulation techniques and efficiently explore hundreds of millions of design
parameters to find the best design solutions. Here we discuss the recent development of AI-driven chemical
innovation design from three aspects: multi-scale simulation, material design framework, and scientific
software development, with an emphasis on the important role of AI technology in achieving the innovation
pathway of chemical products. At last, we present our perspective on the current efforts to embrace AI
techniques in the engineering of novel chemical product, with the goal of providing a strong foundation to
support the advancement of domestic chemical industry.
Keywords: artificial intelligence; chemical products design; computer modeling
当今,化学品广泛应用于医药、能源、材料、
食品等领域,新型高性能化学品的研究和开发引起
了密切关注。但化学品的设计和制备是一个复杂过
程,涉及大量高维空间的研究参数。传统的化学品
设计过程通常是通过将化学原理与工程技术相结
合,基于理论与直觉来调整配方和参数以指导实验
设计,从而寻找最优方法来设计和开发高性能、高
效率和环境友好的新型化学品。但这些传统的“试
错”方法普遍受到“维度灾难”的困扰,不仅需要
付出极高的时间和材料成本,也难以保证在几乎无
穷的材料设计参数中寻找到最优解,更难以阐明微
观结构与关键性能和机制之间的关联,极大地限制
了新产品的有效开发和化学工业的科技进步。相比
于实验技术,多尺度计算机模拟技术为充分探索化
学品的结构-性能关系和分子机制提供了一个高效
路径,并具有更多的“接口”与人工智能 (AI) 进
行结合:一方面,AI 提供了将多尺度模拟结果中
复杂参数空间映射到目标函数的非线性方法,保证
了在化学品复杂材料结构空间中进行高效的性能
(构效关系) 映射的可能性;另一方面,通过将遗
传算法、主动学习和深度生成模型等机器学习算法
融入化工材料设计过程,提供了根据化学品目标性
能获得相应结构参数的高效反向设计方法。
因此,将 AI 有效融入到多尺度模拟计算中,有
望克服化学品创新设计中的瓶颈问题,是“Al for
Science”这一理念的典型代表。然而,这一融合
过程涉及的研究方向和内容繁多。本文作者团队以
化学品创新设计的可行性、精准和高效为目标,认
为除了大家所熟知的构建精准机器学习构效预测模
型,以下三个方面的 AI 驱动研究应该摆在更为重
要的位置 (图 1):准确快速的多尺度模型;高效
的材料正向、反向设计方法;基于 AI 特性的科学计
算软件。本文将首先从计算机模拟方法的创新出
发,围绕化学品中典型的高分子材料,例如高分子相
容剂、高分子导热材料进行讨论。同时关注 AI 驱动
化学品创新设计,强调在 AI 时代中,创新计算机模
拟基础设施对未来化工研究与发展的重要性。
1 AI 辅助的多尺度模型与分析
现实中,化学品的设计需要借助表征手段分析
原子和分子的相互作用关系,以阐明相关机制。但
在多尺度计算模拟中,研究者首先要基于符合物理
规律的相互作用关系构建准确的原子和分子模型,
以进行化学品的创新设计。在化学工程系统与化学
品设计中,通常涉及从材料组分的分子到反应器的
工业装置等多层次时空尺度,通过多尺度计算机模
·· 3911
www.hgjz.com.cn 化工进展,2023,42(8)
拟技术 (例如,从量子化学到分子动力学再到连续介
质力学),可以实现自下而上,以电子、原子等微观
粒子为基础,重新认识和重构传统化学化工过程。
然而,经典的计算机模拟,虽然在部分领域显示出
卓越的作用,如单分子功能预测,但仍然无法有效
地应用于与实际相近的真实系统,因为其所需要的
计算资源随模拟体系的增大而指数级增加。近年
来,人工智能 (AI) 技术在自然科学、计算科学等
学科中的融合发展为改进并加强多尺度模型构建和
采样速率,特别是高模拟精度及速度提供了可能
(图 2)。其中,通过 AI 技术来帮助发展更全面准确
的理论技术来确定粒子之间在各种条件下的相互作
用力是改善多尺度模拟计算技术重要的方向之一,
以此为新型化学品设计提供更坚实的基础。
1.1 全原子机器学习势能
准确表示微观粒子 (原子) 间复杂的相互作用
(势能面) 对于使用分子动力学模拟预测材料性能
和设计至关重要。虽然,在 Born-Opperheimer 约化
条件约束下,可以通过量子力学计算电子云之间的相
互作用力得出原子间作用力,即从头算分子动力学
(ab-initio MD) 模拟。但是,ab-initio MD 所需的
计算资源极为昂贵 (关于粒子数指数级增长)。因
此模拟的体系往往局限于 10~100 原子,限制了其
在化工材料领域的广泛应用。最近,机器学习的快
速发展提供了高效准确拟合高维势能面的可能性,
能够用较低的计算成本提供实现较高的准确性。例
如,Deep Potential 团队成功地以 ab-initio 的精度在
分子动力学中模拟了百亿原子级别的体系,展现出了
机器学习势能 (machine-learning force-field,MLFF)
的优势与潜在的应用前景。
然而,MLFF 在化学化工研究中的普及仍存在
挑战。目前常规的机器学习架构主要适用于文字、
图片、视频等一维和二维的对象,如何精确地表达
三维空间中的原子,并使其符合物理定律,仍是机
器学习领域的一个难题。另外,使用现有的高精度
的 ab-initio MD 技术来标记数据较为耗时,如何使
用更少的数据训练以获得性能较好的 MLFF 是一个
亟需解决的问题。为了更好地评估 MLFF,找出其
中对性能至关重要的特征,从而推进 MLFF 领域更
好的发展,本文作者团队最近参与的一项工作[1]在图 2 人工智能辅助的多尺度模型建立
图 1 人工智能驱动化学品创新设计的三个重要方面
·· 3912
2023 年 8 月 吴正浩等:人工智能驱动化学品创新设计的实践与展望
材料、蛋白质、小分子等多种体系上测试评估了一
系列具有不同特点的MLFF,包括 DeepPot、Dimnet、
Schnet、Nequip 等。这项工作提出了三项新的评估
MLFF 的标准:①由模拟轨迹计算的观测量;②模
拟的稳定性;③ MLFF 的计算效率。与现行 MLFF
评估和验证标准要求训练模型的能量/力误差尽量
小不同,这项工作明确指出,MLFF 训练时的能量
和力误差的数值大小并不一定与其在模拟中的实际
表现有明显关联。因此,需要重新考虑 MLFF 模型
的评估标准并在评估模型时综合考虑实际模拟的观
测量、稳定性和计算速度,以确保 MLFF 模型的可
靠性和有效性。在评估的一系列MLFF中,具有O(3)
对称性的 Nequip,即在神经网络操作中内生地嵌入
了三维空间中分子的平移、旋转、翻转等对称性,在
各项指标和体系中的综合表现出色。经过细致系统
的分析并结合最近一项有关机器学习表达能力的研
究,机器学习架构在三维空间中分子的多体效应
(many-body effect) 等的表达能力,特别是对于物
理对称性群 (symmetry group) 的考虑,是 MLFF 在
真实模拟条件下性能的关键。基于这些理解,本文
作者团队相信深入研究发展 MLFF,将有助于进一
步提高其在实际化学化工过程中的应用价值。
1.2 机器学习粗粒化模型
尽管相对于 ab-initio 模拟方法,MLFF 全原子
模型的计算速度已经提高了数倍,但是其仍受限于
较小的系统尺寸和较短的模拟时长 (约10nm和1ns)。
为了进一步提高模拟的速度,一个广泛使用的概念
是粗粒化 (coarse-graining,CG)。粗粒化 CG 是多
尺度模拟中最重要的概念之一,CG 模型也是化学
化工领域模拟的重要的组成部分[2-3]。在 CG 模型中,
几个原子或者分子被划进一个“超级”粒子,以减少
所需要模拟的粒子数,从而可以在更大的时空尺度
上进行分子动力学模拟,使理解和预测与实际化学
化工系统更相近的尺度上的机理与过程成为可能。
然而,训练准确的机器学习 CG 模型通常需要
比机器学习全原子模型更多的数据。这是由于在将
聚合原子聚合为粗粒化粒子的过程中引入了额外的
误差,增大了学习的难度。因此,获取大量高质量
数据是开发可靠高效的机器学习粗粒化模型的关键
之一。与此同时,自上而下地基于实验数据建立准
确的粗粒化模型亦是一项极有意义且颇具挑战的工
作。自动微分作为机器学习核心组成部分,最近被
引入分子动力学中,以高效准确地开发势能模型。
在最近的一项工作中,本文作者团队使用自动微分
技术将整个分子动力学模拟可微分化从而使得从模
拟轨迹直接对势能函数计算梯度成为可能[4]。将可
微分模拟与随机梯度下降优化方法相结合,本文作
者团队开发出一种新的方法来优化势能函数,展示
了如何使用可微分分子动力学模拟方法,从高质量
的实验数据中自上而下地学习出液态水分子温度可
转移的粗粒化模型。这为未来构建更可靠的通用粗
粒化模型奠定了坚实的基础。因此,将机器学习方
法与以粗粒化模型为代表的多尺度模拟策略有机地
结合,通过引入高质量的实验和模拟数据,可以促
进化学化学品快速高效的多尺度设计与开发。
1.3 机器学习辅助模拟分析
机器学习方法不仅可以用于构建物理模型,还
广泛应用于进行模拟结果的分析。在材料研究中,
构建结构与性质之间的精确关系 (即构效关系) 非
常关键。机器学习因其强大的适应能力而成为构建
构效关系的强有力技术。在最近的一项研究中,本
文作者团队成功运用高效的耗散粒子动力学模拟技
术,预测了数百种不同接枝情况下共聚物刷的相容
性。针对这些高度复杂的数据,本文作者团队运用
机器学习技术有效构建了结构和性质之间的关系,
为未来高性能聚合物相容剂的开发提供了高效直接
的预测模型。另外,分子动力学模拟的结果需要从
非常复杂的轨迹、能量等数据中进行分析和发掘。
机器学习因其强大的降维、拟合等能力,已经成为
了分析分子动力学模拟数据的强有力工具。例如,
本文作者团队利用神经网络以脂质分子原子轨迹作
为输入,准确预测在不同酒精浓度下脂质分子的构
象性质[5],从而帮助判断冠状病毒模型细胞膜在酒
精作用下的稳定性。神经网络高效准确的预测能
力,使得快速分析数成百上千个组成成分的细胞膜
成为可能,为开发高效的病毒酒精消毒液提供了理
论基础。随着机器学习在分子动力学模拟数据分析
中的广泛应用,分子模拟在实际场景中的应用将得
以更快速地推进。
2 材料设计方法
众多先进化工技术的发展是以特殊性能材料为
核心。例如,膜分离技术作为支撑水资源、能源、
环境、传统产业改造等领域的战略性高新技术,亟
需新型具有高选择透过性的高性能聚合物材料设计
与制备进行支撑。然而,聚合物材料的结构设计和
性能优化是一个跨越多个尺度的复杂系统,看似微
小的结构变化,如在高分子链中增加一个支链或单
·· 3913
www.hgjz.com.cn 化工进展,2023,42(8)
体序列的差异,都会对性能产生巨大影响。为此,
有针对性地开发高效材料设计方法成为关键所在。
为了解决这一挑战,本文作者团队基于正向设计和
反求设计两种研究思路,针对聚合物材料这一典型
化学品,探索构建智能研究框架,进行 AI 驱动的
设计和结构调控,见图 3。
2.1 正向设计
随着计算能力和基于物理模型的迅速发展,计
算机模拟,特别是分子模拟技术,可以高效测试化学
化工材料的性质并进行预测。总的来说,与实验相
比,计算机模拟作为一种正向设计的工具,可以极大
地提高材料研发和设计的效率,同时能够降低成本。
以聚合物为例,将已有聚合物进行共混可提高
聚合物材料力学性能、加工性能,降低成本,并扩
大使用范围,是实现聚合物改性和生产多功能新型
聚合物材料的重要途径之一。然而,绝大多数聚合
物是不相容的,导致混合产品的机械性能差、界面
张力高。研究表明,在共混物中加入与其具有相同
化学组分的共聚物是实现突破原有体系热力学极
限、开发高性能聚合物的有效方法。但对于共聚物
来说,微小的结构变化 (如嵌段连接方式或序列的
差异) 都会对性能产生影响。因此,亟需开发一种
能够从繁多结构信息中解析与辨认其关键作用的相
容性描述符,以便实现高效、合理地设计高性能相
容剂的分子结构。
本文作者团队首先通过耗散粒子动力学模拟
(DPD) 研究了线型嵌段共聚物在不相容聚合物相
之间的相容性能[6],并以此解析了相容剂结构特
性,建立了幂律拟合模型,实现了线型嵌段共聚物
的相容效率随聚合物化学、分子结构和共聚物分子
数量的变化预测。基于此研究,本文作者团队还针
对由骨架和多个侧链组成的更复杂拓扑结构的接枝
共聚物[7],结合热力学分析和界面模型计算,关联
界面张力随接枝共聚物多样性结构参数变化的关
系,从而辨识出起主要相容作用的结构描述符,并
以此为基础开发了 DPD/ML 的智能研究框架,实现
了在分子水平上准确预测具有多个描述符 (如分子
结构和化学成分) 的特定接枝共聚物的相容性效
率,并基于不同描述符的重要性等级,开发了 ML
模型的机理解释方法。以此为基础,本文作者团队
成功实现了高相容性共聚物的分子量、拓扑结构和
序列的精准设计,开创了以功能基元-序构为核心
的相容剂正向设计的普适方法,创新发展了共聚物
拓扑结构解析方法,剖析了界面增容时共聚物的空
间分布机制,结合热力学剖析构建机器学习辅助的
研究框架,提出了共聚物增容信息的描述符辨认方
法,并以此进行高相容性共聚物的分子量、拓扑结
构和序列的精准设计,从而开创了一种以功能基
元-序构为核心的相容剂正向设计的普适方法。
2.2 反求设计
反求设计,即如何从复杂的材料设计参数空间
中找到对应材料目标性质的参数,对实现高性能化
学化学品的创新设计十分重要。以下本文作者团队
将以高性能聚合物导热性质为实例探讨如何将 AI
结合理论与模拟进行有效的材料反求设计。
共聚物材料的低本征导热性会导致积热,进而
引发材料溶胀、产品性能降低。高效开发高本征导
热性共聚物材料已经成为储能技术发展的强烈诉求
和重要科学问题。本文作者团队瞄准这一科学问
题,提出从聚合物材料的单体排列具有基因特性这