人工智能(AI)正越来越多地融入科学发现,以增强和加速研究,帮助科学家提出假设、设计实验、收集和解释大型数据集,并获得仅靠传统科学方法可能无法实现的洞察力。
过去十年间,AI取得了巨大的突破。其中就包括自监督学习和几何深度学习(Geometric Deep Learning):前者允许在大量无标签数据上训练模型,后者则利用有关科学数据结构的知识来提高模型的准确性和效率;还有生成式人工智能方法:它可以通过分析包括图像和序列在内的各种数据模式,创造出小分子药物和蛋白质等设计。
这些方法在整个科学过程中为科学家提供了许多帮助;不过,尽管取得了这些进步,但仍然存在的核心问题。人工智能工具的开发者和用户都需要更好地了解这些方法何时需要改进,数据质量差、管理不善带来的挑战依然存在。
这些问题横跨各个科学学科,因此,现在需要开发能够促进科学理解或自主获取科学理解的基础算法方法——这也是人工智能创新的关键重点领域。
如何收集、转换、理解数据为形成科学见解和理论奠定了基础;而2010 年代初兴起的深度学习极大地扩展了这些科学发现过程的范围和雄心。
现在,人工智能(AI)越来越多地应用于各个科学学科,以整合海量数据集、完善测量、指导实验、探索与数据相匹配的理论空间,以及提供与科学工作流程相结合的可操作的可靠模型,从而实现自主发现。
数据收集和分析是科学理解和发现的基础,也是科学的两大核心目标 ;而定量方法和新兴技术,从显微镜等物理仪器到引导等研究技术,长期以来一直被用于实现这些目标。20 世纪 50 年代引入的数字化技术为计算机在科学研究中的普遍应用铺平了道路;自 2010 年代以来,数据科学的兴起使人工智能能够从大型数据集中识别出与科学相关的模式,从而提供有价值的指导。
尽管科学实践和程序在科学研究的各个阶段各不相同,但人工智能算法的发展却跨越了传统上相互孤立的学科:这些算法可以加强科学研究的设计和执行。它们通过优化参数和功能,自动收集、可视化和处理数据,探索候选假设的广阔空间以形成理论,以及生成假设并估计其不确定性以建议相关实验,正在逐渐成为研究人员不可或缺的工具。
人工智能时代的科学。科学发现是一个多方面的过程,涉及几个相互关联的阶段,包括假设形成、实验设计、数据收集和分析。人工智能可以在这一过程的每个阶段增强和加速研究,从而重塑科学发现。这里展示的原则和说明性研究突出了人工智能对提高科学认识和发现的贡献。
自 2010 年代初以来,人工智能方法的威力已大大增强,这是因为有了快速、大规模并行计算和存储硬件(图形处理单元和超级计算机)的帮助,再加上新算法的支持,人们可以获得大量数据集。
后者包括深度表征学习,特别是多层神经网络,能够识别基本、紧凑的特征,同时解决科学问题中的多项任务。
- 其中,几何深度学习已被证明有助于整合科学知识,这些知识以物理关系、先验分布、约束条件和其他复杂描述符(如分子中原子的几何形状)的紧凑数学陈述的形式呈现。
- 自我监督学习使在有标签或无标签数据上训练的神经网络能够将所学表征迁移到标签示例较少的不同领域,例如,通过预训练大型基础模型并使其适应于解决不同领域的各种任务。
- 此外,生成模型可以估计复杂系统的基础数据分布,并支持新的设计。
- 与人工智能的其他用途不同,强化学习方法=通过探索许多可能的场景,并根据所考虑实验的预期信息增益等指标为不同行动分配奖励,从而找到环境的最佳策略。
在人工智能驱动的科学发现中,可以利用适当的归纳偏差将科学知识纳入人工智能模型,归纳偏差是将结构、对称性、约束条件和先验知识作为紧凑数学语句的假设。然而,应用这些法则可能会导致方程式过于复杂,人类即使使用传统的数值方法也无法求解。
一种新出现的方法是将科学知识纳入人工智能模型,包括基本方程信息,如物理定律或蛋白质折叠中的分子结构和结合原理。这种归纳偏差可以减少达到相同准确度所需的训练实例数量,并将分析扩展到广阔的未探索科学假设空间,从而增强人工智能模型。
与人类利用人工智能的其他领域相比,利用人工智能进行科学创新和发现面临着独特的挑战。最大的挑战之一是科学问题中假设空间的广阔性,使得系统性探索变得不可行。
例如,在生物化学领域,估计有 1060 种类似药物的分子可供探索。人工智能系统有可能通过加速流程和提供接近实验精确度的预测来彻底改变科学工作流程。然而,为人工智能模型获取可靠注释的数据集存在挑战,这可能涉及耗时、耗资源的实验和模拟。尽管存在这些挑战,人工智能系统仍可实现高效、智能和高度自主的实验设计和数据收集,人工智能系统可在人类监督下运行,对结果进行评估、评价和采取行动。这种能力促进了人工智能代理的发展,这些代理可在动态环境中持续互动,例如,可做出实时决策,为平流层气球导航。
人工智能系统可以在解释科学数据集和从科学文献中概括性地提取关系和知识方面发挥重要作用。最近的研究结果表明,无监督语言人工智能模型有潜力捕捉复杂的科学概念,如元素周期表,并在功能材料被发现前几年就预测其应用,这表明有关未来发现的潜在知识可能蕴藏在过去的出版物中。
科学家将 Word2vec 的 Skip-gram 变体应用到文本语料库中,该变体被训练来预测出现在目标单词附近的上下文单词。结果证明,无监督方法可以在材料发现前几年推荐用于功能应用的材料。
AlphaFold 可生成高度精确的蛋白质结构
科学家引入了一种分子模拟方案——具有量子力学准确性的可扩展模型,基于由从头数据训练的精心设计的深度神经网络生成的多体势和原子间力。
最近取得的进展,包括成功揭示了已有 50 年历史的蛋白质折叠问题和人工智能驱动的数百万粒子分子系统模拟 ,都证明了人工智能在解决具有挑战性的科学问题方面的潜力。然而,在取得重大发现的同时,“人工智能促进科学(AI4Science)”这一新兴领域也面临着巨大挑战。与任何新技术一样,AI4Science 的成功取决于我们是否有能力将其融入日常实践并了解其潜力和局限性。
不过,我们也无需过度担忧这些挑战:在科学发现中广泛采用人工智能的障碍包括发现过程每个阶段特有的内部和外部因素,以及对方法、理论、软件和硬件的实用性和潜在滥用的担忧。
实验平台收集的数据集规模和复杂程度不断增加,导致科学研究越来越依赖实时处理和高性能计算,以选择性地存储和分析高速生成的数据。
1)数据选择
典型的粒子碰撞实验每秒产生超过 100 TB 的数据。这类科学实验正在挑战现有数据传输和存储技术的极限。在这些物理实验中,99.99% 以上的仪器原始数据都是“背景事件(background event)”,必须实时检测并丢弃,以控制数据传输速率。
为了识别罕见事件、便于未来的科学研究,深度学习方法用搜索离群信号的算法取代了预先编程的硬件事件触发器,以检测压缩过程中可能遗漏的意外或罕见现象。背景过程可使用深度自动编码器生成模型。自动编码器会为以前未见过的、不属于背景分布的信号(罕见事件)返回较高的损失值(异常得分)。
与有监督异常检测不同,无监督异常检测不需要注释,已广泛应用于物理学、神经科学、地球科学、海洋学和天文学。
2)数据标注
训练有监督模型需要带有注释标签的数据集,这些标签可提供有监督信息,以指导模型训练,并根据输入估计目标变量的函数或条件分布。
伪标注和标签传播是替代费力的数据标注的诱人选择,只需一小部分准确的标注,就能对海量无标注数据集进行自动标注。在生物学领域,为新表征的分子分配功能和结构标签的技术对于监督模型的下游训练至关重要,因为实验生成标签非常困难。
例如,尽管下一代测序技术不断发展,但只有不到 1%的测序蛋白质标注了生物学功能。另一种数据标注策略是利用在人工标注数据上训练的代理模型来标注未标注的样本,并利用这些预测的伪标签来监督下游预测模型。相比之下,标签传播(label propagation)则是通过基于特征嵌入构建的相似性图将标签扩散到未标记的样本中。除自动标注外,主动学习还能确定需要人工标注的信息量最大的数据点或需要进行的信息量最大的实验。通过这种方法,可以用较少的专家提供的标签来训练模型。
数据标注的另一种策略是利用领域知识制定标注规则。
3)数据生成
随着训练数据集的质量、多样性和规模提高,深度学习的性能也在提高。创建更好模型的有效方法是通过自动数据增强和深度生成模型生成额外的合成数据点来增强训练数据集。
除了人工设计此类数据扩增外,强化学习方法还能发现一种自动数据扩增策略:这种策略既灵活又与下游模型无关。深度生成模型,包括变分自编码器、生成对抗网络、
标准化流(normalizing flows)和扩散模型,可以学习底层数据分布,并从优化的分布中采样训练点。
生成对抗网络已被证明可用于科学图像,因为它们可以合成许多领域的逼真图像,包括粒子碰撞事件、病理切片、胸部 X 射线、磁共振对比、三维(3D)材料微观结构、蛋白质功能以及基因序列。概率编程是生成模型中的一种新兴技术,它将数据生成模型表示为计算机程序。
4)数据细化
超高分辨率激光和无创显微镜系统等精密仪器可直接测量物理量或通过计算现实世界中的物体进行间接测量,从而得出高度精确的结果。
人工智能技术大大提高了测量分辨率、降低了噪音、消除了测量圆度的误差,从而实现了各站点(site)一致的高精度。人工智能在科学实验中的应用实例包括将黑洞等时空区域可视化、捕捉物理粒子碰撞、提高活细胞图像的分辨率以及更好地检测不同生物环境中的细胞类型。
深度卷积方法利用频谱反褶积(spectral deconvolution)、灵活的稀疏性(sparsity)和生成能力等算法上的进步,可以将较差的时空分辨测量结果转化为高质量、超分辨和结构化图像。
去噪是各种科学学科中一项重要的人工智能任务,包括从噪声中区分出相关信号并学习如何去除噪声。去噪自动编码器(DAE)可以将高维输入数据投射到更紧凑的基本特征表示中。这些自动编码器可最大限度地减少未损坏输入数据点与根据噪声损坏版本的压缩表示重建的输入数据点之间的差异。其他形式的分布学习自动编码器,如变分自编码器(VAE)也经常被使用:变分自编码器通过潜在自编码学习随机表示,保留基本数据特征的同时忽略非必要的变异源(variation),可能代表随机噪声。
例如,在单细胞基因组学中,自动编码器优化了数百万个细胞中基于计数的基因激活向量,通常用于改进蛋白质-RNA 表达分析。
深度学习可以提取不同抽象程度的科学数据的有意义表征,并对其进行优化,通常通过端到端学习来指导研究。高质量的表征应尽可能多地保留数据信息,同时保持简单易懂。有科学意义的表征应结构紧凑、具有鉴别性、能区分潜在的“变异因素(variation)”,并能编码可在多项任务中通用的潜在机制。
1)几何先验
由于几何和结构在科学领域发挥着核心作用,在学习表征中整合几何先验已被证明是有效的。对称是几何学中一个被广泛研究的概念。它可以用不变性和等差性来描述,以表示神经特征编码器等数学函数在一组变换(如刚体动力学中的 SE(3) 组)下的行为。重要的结构特性,如分子体系的二级结构含量、溶剂可及性、残基紧密度(residue compactness)和氢键模式,都与空间方向无关。
在科学图像分析中,对象在图像中平移时不会发生变化,这意味着图像分割掩码是平移等变的,因为当输入像素平移时,它们会发生等效变化。通过增加训练样本,将对称性纳入模型可以使人工智能在使用有限的标记数据集(如三维核糖核酸和蛋白质结构)时受益匪浅,并且可以改善对输入的外推预测:因为输入与模型训练期间遇到的输入明显不同。
2)几何深度学习
图神经网络已成为在具有底层几何和关系结构的数据集上进行深度学习的主要方法。从广义上讲,几何深度学习涉及发现关系模式,并通过神经信息传递算法为神经网络模型配备归纳偏差,明确利用以图形和变换组的形式编码的局部信息。
根据科学问题的不同,科学家们开发了各种图表示法来捕捉复杂系统。方向性边缘有助于玻璃系统的物理建模,带有连接多个节点的边缘的超图被用于染色质结构的理解,在多模态图上训练的模型被用于创建基因组学中的预测模型,稀疏、不规则和高度关系图被应用于许多大型强子对撞机物理任务,包括从探测器读数中重建粒子以及区分物理信号与背景过程。
a)几何深度学习通过利用图和神经信息传递策略,整合了科学数据(如分子和材料)的几何、结构和对称性信息。这种方法通过沿图中的边交换神经信息来生成潜在表征(嵌入),同时考虑其他几何先验,如不变性和等差数列约束。因此,几何深度学习可以将复杂的结构信息纳入深度学习模型,从而更好地理解和处理底层几何数据集。b)为了有效地表示卫星图像等不同样本,捕捉它们的相似性和差异性至关重要。自我监督学习策略(如对比学习)通过生成增强的对等物和对齐正对同时分离负对来实现这一目标。这种迭代过程增强了嵌入,从而产生了信息丰富的潜在表征,并在下游预测任务中取得了更好的表现。c)屏蔽语言建模能有效捕捉自然语言和生物序列等序列数据的语义。这种方法是将输入的屏蔽元素输入转换器块,其中包括预处理步骤,如位置编码。自我注意机制由灰色线条表示,其颜色强度反映了注意权重的大小,它结合了非屏蔽输入的表征,以准确预测屏蔽输入。这种方法通过在输入的许多元素中重复这一自动完成过程,产生高质量的序列表征。
3)自监督学习
当仅有少量标注样本可用于模型训练,或为特定任务标注数据的成本过高时,监督学习可能就不够用了。在这种情况下,利用有标签和无标签数据可以提高模型性能和学习能力。
自监督学习是一种能让模型学习数据集一般特征而无需依赖显式标签的技术。有效的自监督策略包括预测图像的遮挡区域、预测视频中过去或未来的帧,以及使用对比学习教模型区分相似和不相似的数据点。
自监督学习是一个关键的预处理步骤,它可以在大型无标签数据集中学习可转移的特征,然后在小型有标签数据集中微调模型,以执行下游任务。这种预先训练的模型对科学领域有广泛的了解,是通用的预测器,可适用于各种任务;从而提高标签效率,超越纯监督方法。
4)语言建模
屏蔽语言建模是自然语言和生物序列自监督学习的常用方法。
将原子或氨基酸(标记)排列成结构以产生分子和生物功能,类似于字母组成单词和句子以定义文档的含义。随着自然语言和生物序列处理的不断发展,它们也在相互促进。在训练过程中,目标是预测序列中的下一个标记,而在基于掩码的训练中,自监督任务是利用双向序列上下文恢复序列中被掩码的标记。
蛋白质语言模型可以对氨基酸序列进行编码,以捕捉结构和功能特性并评估病毒变体的进化适应性。这些表征可用于各种任务,从序列设计到结构预测;在处理生化序列时,化学语言模型有助于有效探索广阔的化学空间。如今,它们已被用于预测性质、规划多步合成(multi-step syntheses)和探索化学反应空间。
5)Transformer架构
Transformer是一种神经架构模型,可通过灵活模拟任意标记对之间的相互作用来处理标记序列,超越了早期使用递归神经网络进行序列建模的努力。
Transformer在自然语言处理中占据主导地位,并已成功应用于一系列问题:包括地震信号检测、DNA 和蛋白质序列建模、序列变异对生物功能影响的建模、以及符号回归。虽然Transformer统一了图神经网络和语言模型,但Transformer的运行时间和内存占用可能与序列长度成二次方关系,从而导致长程建模(long-range modelling)和线性化注意机制(linearized attention mechanisms)在效率方面面临挑战。
因此,无监督或自监督的生成式预训练Transformer被广泛使用,然后进行参数高效微调。
6)神经算子
标准的神经网络模型可能无法满足科学应用的需要,因为它们假定数据离散度是固定的。这种方法不适合以不同分辨率和网格收集的许多科学数据集。此外,数据通常是从连续域中的潜在物理现象(如地震活动或流体流动)中采样的。
神经算子通过学习函数空间之间的映射来学习不受离散化影响的表征。神经算子保证离散化不变,这意味着它们可以处理任何离散化的输入,并在网格细化时收敛到一个极限。神经算子经过训练后,可以在任何分辨率下进行评估,无需重新训练。相比之下,当部署过程中的数据分辨率与模型训练时的数据分辨率发生变化时,标准神经网络的性能就会下降。
可检验的假设是科学发现的核心。它们可以有多种形式:从数学中的符号表达到化学中的分子和生物学中的基因变异。例如,Johannes Kepler花了四年时间分析恒星和行星数据,最终提出了一个导致发现行星运动规律的假设。
人工智能方法可以在这一过程的多个阶段发挥作用。它们可以从嘈杂的观测数据中识别出候选的符号表达式,从而提出假设;它们可以帮助设计对象,如与治疗目标结合的分子,或与数学猜想相矛盾的反例,建议在实验室中进行实验评估。
此外,人工智能系统还能学习假设的贝叶斯后验分布,并利用它生成与科学数据和知识相匹配的假设。
a)高通量筛选是指利用在实验生成的数据集上训练的人工智能预测器,筛选出少量具有理想特性的筛选对象,从而将候选对象库的总规模减少几个数量级。这种方法可以利用自监督学习,在大量未筛选对象上对预测器进行预训练,然后在带有标记读数的筛选对象数据集上对预测器进行微调。实验室评估和不确定性量化可以完善这种方法,从而简化筛选过程,使其更具成本效益和时间效率,最终加快候选化合物、材料和生物分子的鉴定。b)人工智能导航仪利用强化学习代理和设计标准(如奥卡姆剃刀)预测的奖励,在符号回归过程中关注候选假设中最有希望的元素。图中所示的示例说明了牛顿万有引力定律数学表达式的推理过程。低分搜索路径在符号表达式树中显示为灰色分支。c)人工智能微分器是一种自动编码器模型,可将离散对象(如化合物)映射到可微分的连续潜空间中的点。这个空间允许对对象进行优化,例如从庞大的化学库中选择能最大限度地提高特定生化终点的化合物。理想化的景观图描述了学习到的潜在空间,较深的颜色表示富含预测分数较高的对象的区域。通过利用这一潜在空间,人工智能分化器可以高效地识别出能最大化红星所示所需属性的对象。
1)科学假说的黑箱预测器
要为科学探索确定有前途的假设,就需要有效地检查许多候选假设,并选择那些能最大限度提高下游模拟和实验收益的假设。
在药物发现中,高通量筛选可以评估数千到数百万个分子,而算法可以优先选择需要进行实验研究的分子。可以对模型进行训练,以预测实验的效用,如相关的分子特性或符合观察结果的符号公式。然而,许多分子可能无法获得这些预测因子的实验基础数据。因此,可以采用弱监督学习方法来训练这些模型,将有噪声、有限或不精确的监督作为训练信号。这些方法可以经济有效地替代人类专家的注释、昂贵的硅学计算或更高保真的实验。
在高保真模拟基础上训练的人工智能方法已被用于高效筛选大型分子库,如 160 万个有机发光二极管候选材料 和 110 亿个合成配体候选材料。在基因组学领域,经过训练能从 DNA 序列预测基因表达值的变压器架构有助于确定基因变体的优先次序。在粒子物理学中,识别质子中的固有粲夸克需要筛选所有可能的结构,并对每个候选结构拟合实验数据。为进一步提高这些过程的效率,可将人工智能筛选出的候选结构送往中低通量实验,利用实验反馈不断完善候选结构。实验结果可通过主动学习和贝叶斯优化反馈到人工智能模型中,使算法能够完善其预测,并将重点放在最有希望的候选结构上。
当假设涉及分子等复杂物体时,人工智能方法就变得非常有价值。例如,在蛋白质折叠方面,AlphaFold2可以根据氨基酸序列预测蛋白质的三维原子坐标,其精确度甚至可以达到原子级,甚至可以预测结构与训练数据集中的任何蛋白质都不同的蛋白质。这一突破促进了各种人工智能驱动的蛋白质折叠方法的发展,如 RoseTTAFold。除了正向问题,人工智能方法也越来越多地用于逆向问题,旨在了解产生一组观察结果的因果因素。逆向问题,如逆向折叠或固定骨架设计,可使用在数百万个蛋白质结构上训练过的黑盒预测器,根据蛋白质骨架三维原子坐标预测氨基酸序列。
不过,这种黑盒人工智能预测器需要大量训练数据集,尽管减少了对现有科学知识的依赖,但可解释性有限。
2)组合假设空间导航
尽管对所有与数据相匹配的假设进行采样令人生畏,但一个可管理的目标是寻找一个好的假设,这可以表述为一个优化问题。与依赖人工设计规则的传统方法相比,人工智能策略可用于估算每次搜索的回报,并优先选择价值较高的搜索方向。通常采用强化学习算法训练的代理来学习策略。该代理学会在搜索空间中采取能使奖励信号最大化的行动,奖励信号可定义为反映所生成假设的质量或其他相关标准。
为了解决优化问题,可以使用进化算法来解决符号回归任务,进化算法会生成随机符号法则作为初始解集。在每一代中,候选解都会有细微的变化。算法会检查任何修改所产生的符号定律是否比之前的解决方案更适合观测结果,并将最好的解决方案保留到下一代。
不过,强化学习方法正逐渐取代这一标准策略。强化学习利用神经网络,通过添加预定义词汇表中的数学符号,并利用所学策略决定下一步添加哪个符号,从而依次生成数学表达式。数学公式表示为一棵解析树。学习策略将解析树作为输入,以决定扩展哪个叶节点和添加哪个符号(来自词汇表)。使用神经网络解决数学问题的另一种方法是将数学公式转化为二进制符号序列。然后,神经网络策略可以按概率顺序每次增加一个二进制字符。通过设计一种衡量反驳猜想能力的奖励,这种方法可以在事先不了解数学问题的情况下找到数学猜想的反驳方法。
组合优化也适用于发现具有理想药物特性的分子等任务,其中分子设计的每一步都是一个离散的决策过程。在这个过程中,部分生成的分子图将作为学习策略的输入,对在分子中选定位置添加新原子和添加哪个原子做出离散选择。通过迭代执行这一过程,策略可以生成一系列可能的分子结构,并根据其与目标特性的匹配度进行评估。搜索空间过于广阔,无法探索所有可能的组合,但强化学习可以通过优先选择值得研究的最有前景的分支来有效地引导搜索。强化学习方法可以使用训练目标进行训练,鼓励产生的策略从所有合理的解决方案(具有高回报)中采样,而不是像强化学习中的标准回报最大化那样,只关注一个好的解决方案。
目前,这些强化学习方法已成功应用于各种优化问题,包括蛋白质表达最大化、规划水力发电以减少对亚马逊流域的不利影响,以及探索粒子加速器的参数空间。
人工智能代理学习到的政策预见了一些最初看似非常规的行动,但事实证明是有效的。例如,在数学领域,监督模型可以识别数学对象之间的模式和关系,帮助引导直觉和提出猜想。这些分析指出了以前未知的模式,甚至是世界的新模型。然而,在模型训练过程中,强化学习方法可能无法很好地泛化到未见过的数据中,因为代理在找到一连串有效的行动后,可能会陷入局部最优状态。为了提高泛化能力,需要采取一些探索策略来收集更广泛的搜索轨迹,以帮助代理在新的和修改过的环境中表现得更好。
3)优化可变假设空间
科学假设通常以离散对象的形式出现,例如物理学中的符号公式或制药和材料科学中的化合物。虽然组合优化技术已经成功地解决了其中的一些问题,但可微分空间也可用于优化,因为它适合基于梯度的方法,这种方法可以有效地找到局部最优点。
为了能够使用基于梯度的优化方法,有两种方法经常被使用:
- 第一种是使用 VAE 等模型,将离散的候选假设映射到潜在可变空间中的点。
- 第二种方法是将离散假设弛豫为可在可微分空间中优化的可微分对象。这种弛豫可以采取不同的形式,例如用连续变量替换离散变量,或使用原始约束条件的软版本。
物理学中的符号回归应用使用语法 VAE。这些模型使用无上下文语法将离散符号表达式表示为解析树,并将解析树映射到可变潜空间。然后采用贝叶斯优化法优化符号规律的潜在空间,同时确保表达式在语法上有效。
在天体物理学中,VAE 被用于根据预训练的黑洞波形模型估算引力波探测器参数。这种方法比传统方法快达六个数量级,因此捕捉瞬态引力波事件非常实用;在材料科学领域,热力学规则与自动编码器相结合,设计出一个可解释的潜在空间,用于识别晶体结构的相图;在化学领域,简化分子输入线输入系统(SMILES)-VAE等模型可将 SMILES 字符串(即以计算机可轻松理解的离散系列符号形式表示化学结构的分子符号)转化为可利用贝叶斯优化技术进行优化的可微分潜空间。通过将分子结构表示为潜在空间中的点,我们可以设计可微分目标,并利用自监督学习对其进行优化,从而根据分子的潜在表示预测分子特性。
这意味着,我们可以通过将人工智能预测器的梯度反向传播到分子输入的连续值表示来优化离散分子结构。解码器可以将这些分子表征转化为近似对应的离散输入,这种方法可用于蛋白质和小分子的设计。
与原始假设空间中的机理方法相比,在潜在空间中进行优化能更灵活地模拟潜在数据分布。然而,在假设空间中探索稀少的区域进行外推预测可能效果不佳。在许多科学学科中,假设空间可能远远大于实验所能考察的范围。例如,据估计大约有10^60个分子,而即使是最大的化学库也只包含不到 10^10 个分子。
因此,我们迫切需要一种方法,在这些基本未开发的区域中高效搜索并识别高质量的候选解决方案。
通过实验评估科学假设对科学发现至关重要。然而,实验室实验可能成本高昂且不切实际。计算机模拟已成为一种有前途的替代方法,为更高效、更灵活的实验提供了可能。虽然模拟依赖于手工制作的参数和启发式方法来模仿真实世界的场景,但与物理实验相比,模拟需要在准确性和速度之间做出权衡,这就需要了解其背后的机制。
然而,随着深度学习的出现,这些挑战正在通过识别和优化假设以进行高效测试,以及赋予计算机模拟将观察结果与假设联系起来的能力而得到解决。
1)高效评估科学假设
人工智能系统提供了实验设计和优化工具,可以增强传统的科学方法,减少所需的实验数量并节省资源。具体来说,人工智能系统可以协助完成实验测试的两个基本步骤:规划和指导。在传统方法中,这两个步骤往往需要反复试验,效率低下,成本高昂,有时甚至危及生命。人工智能规划为设计实验、优化实验效率和探索未知领域提供了系统方法。同时,人工智能引导将实验过程引向高产假设,让系统从先前的观察中学习并调整实验进程。这些人工智能方法可以是基于模型的,使用模拟和先验知识;也可以是无模型的,仅基于机器学习算法。
人工智能系统可以通过优化资源利用和减少不必要的调查来帮助规划实验。与假设搜索不同,实验规划涉及科学实验设计中的程序和步骤。化学中的合成规划就是一个例子。合成规划涉及寻找一连串步骤,通过这些步骤可以从现有化学品中合成目标化合物。人工智能系统可以设计出所需化合物的合成路线,从而减少对人工干预的需求。
主动学习也被用于材料发现和合成。主动学习包括与实验反馈反复互动并从中学习,以完善假设。材料合成是一个复杂的资源密集型过程,需要对高维参数空间进行有效探索。主动学习利用不确定性估计来探索参数空间,以尽可能少的步骤减少不确定性。
在正在进行的实验中,决策通常必须实时调整。然而,如果仅凭人类的经验和直觉,这一过程既困难又容易出错。强化学习提供了另一种方法,可持续应对不断变化的环境,最大限度地提高实验的安全性和成功率。例如,强化学习方法已被证明对托卡马克等离子体的磁控制有效,算法与托卡马克模拟器互动,优化控制过程的策略。在另一项研究中,强化学习代理利用风速和太阳高度等实时反馈来控制平流层气球,并为导航寻找有利的风流。
在量子物理学中,实验设计需要动态调整,因为复杂实验未来实体化的最佳选择可能与直觉相反:强化学习方法可以通过迭代设计实验和接收实验反馈来克服这一问题。例如,强化学习算法已被用于优化量子系统的测量和控制,提高了实验效率和精度。
a)利用人工智能对复杂动态系统进行核聚变控制:Degrave 等人开发了一种人工智能控制器,通过托卡马克反应堆中的磁场调节核聚变。人工智能代理接收对电气电压水平和等离子体配置的实时测量结果,并采取行动控制磁场和实现实验目标,如维持正常的电力供应。b)在复杂系统的计算模拟中,人工智能系统可以加速罕见事件的检测,如蛋白质不同构象结构之间的转换。c)用于求解偏微分方程的神经框架,其中的人工智能求解器是一个经过训练的物理信息神经网络,用于估计目标函数 f。当微分方程的表达式是未知的(以 η 为参数)时,可以通过求解多目标损失来估算微分方程,从而优化方程的函数形式及其与观测值 y 的拟合。
2)利用模拟从假设中推导出可观测的数据
计算机模拟是一种强大的工具,可以从假设中推导出可观测的数据,从而对无法直接验证的假设进行评估。然而,现有的模拟技术严重依赖于人类对所研究系统内在机制的理解和知识,这可能是次优和低效的。人工智能系统可以通过更好地拟合复杂系统的关键参数、求解支配复杂系统的微分方程以及模拟复杂系统中的状态,来提高计算机模拟的准确性和学习效率。
科学家在研究复杂系统时,通常会创建一个涉及参数化形式的模型,这就需要领域知识来确定参数的初始符号表达式。分子力场就是一个例子,这种力场可以解释,但在表示各种函数方面能力有限,需要很强的归纳偏差或科学知识才能生成。为了提高分子模拟的准确性,人们开发了一种基于人工智能的神经势能,它能拟合昂贵但准确的量子力学数据,以取代传统的力场。
此外,不确定性量化已被用于定位高维自由能面上的能障,从而提高分子动力学的效率。对于粗粒度分子动力学,已利用人工智能模型确定系统需要从所学的隐藏复杂结构中粗化的程度,从而降低大型系统的计算成本。在量子物理学中,神经网络因其灵活性和准确拟合数据的能力,在波函数或密度函数的参数化过程中取代了人工估计的符号形式。
微分方程对复杂系统的时空动态建模至关重要。与数值代数求解器相比,基于人工智能的神经求解器能更完美地整合数据与物理。这些神经求解器将物理学与深度学习的灵活性相结合,将神经网络建立在领域知识的基础上。
人工智能方法已被应用于多个领域的微分方程求解,包括计算流体动力学、预测玻璃系统结构、求解刚性化学动力学问题,以及求解艾克纳方程以描述地震波的传播时间。在动力学建模中,连续时间可以用神经常微分方程建模。神经网络可以利用物理信息损失对纳维-斯托克斯方程在时空域中的解进行参数化。然而,标准卷积神经网络对解法的精细结构特征建模能力有限;这个问题可以通过学习利用神经网络建模函数间映射的算子来解决。此外,求解器必须能够适应不同的领域和边界条件。这可以通过将神经微分方程与图神经网络相结合来实现,从而通过图分割实现任意离散。
统计建模是一种强大的工具,可通过对复杂系统中的状态分布建模,对这些系统进行全面的定量描述。由于能够捕捉高度复杂的分布,深度生成建模最近已成为复杂系统仿真中的一种重要方法。一个著名的例子是基于标准化流的波尔兹曼生成器。标准化流可以将任何复杂分布映射到先验分布(例如简单的高斯分布),然后使用一系列可逆神经网络将其返回。标准化流虽然计算成本高昂(通常需要数百或数千个神经层),但却能提供精确的密度函数,从而实现采样和训练。
与传统模拟不同,标准化流可以直接从先验分布中采样,并应用计算成本固定的神经网络来生成平衡状态。这增强了晶格场和规范场论中的采样,并改进了马尔科夫链蒙特卡罗方法——否则这些方法可能会因模式混合而无法收敛。
要利用科学数据,就必须利用模拟和人类的专业知识来建立和使用模型。这种整合为科学发现带来了机遇。然而,要进一步提高人工智能在各科学学科中的影响力,还需要在理论、方法、软件和硬件基础设施方面取得重大进展。
要实现通过人工智能推动科学发展的全面而实用的方法,跨学科合作至关重要。
1)实际考虑因素
科学数据集往往不能直接用于人工智能分析,因为测量技术的限制会产生不完整的数据集、有偏差或相互矛盾的读数,而且由于隐私和安全问题,数据集的可访问性有限。
此外,联合学习和加密算法可用于防止向公共领域发布具有高商业价值的敏感数据。利用开放的科学文献、自然语言处理和知识图谱技术可以促进文献挖掘,为材料发现、化学合成和治疗科学提供了支持。
深度学习的使用对人工智能驱动的环内设计、发现和评估提出了复杂的挑战。为了实现科学工作流程自动化、优化大规模仿真代码和操作仪器,自主机器人控制可以利用预测,在高通量合成和测试线上进行实验,创建自动驾驶实验室。生成模型在材料探索领域的早期应用表明,可以识别出数百万种可能的材料,这些材料具有所需的特性和功能,并可对其可合成性进行评估。在化学合成中,人工智能优化候选合成路线,然后由机器人按照预测的合成路线引导化学反应。
人工智能系统的实际实施涉及复杂的软件和硬件工程,需要一系列相互依存的步骤:从数据整理和处理到算法实施以及用户和应用界面设计。实施过程中的细微差别都可能导致性能的巨大变化,并影响到将人工智能模型融入科学实践的成功与否。
因此,需要考虑数据和模型的标准化。由于模型训练的随机性、模型参数的变化以及训练数据集的不断变化,人工智能方法可能会受到可重复性的影响,而这些因素既依赖于数据,也依赖于任务。标准化基准和实验设计可以缓解这些问题。提高可重复性的另一个方向是通过开源计划,发布开放模型、数据集和教育计划。
2)算法创新
为了促进科学理解或自主获得科学理解,需要进行算法创新,以建立一个基础生态系统,在整个科学过程中使用最合适的算法。
尽管许多科学定律并不具有普遍性,但它们的适用性一般都很广泛。与最先进的人工智能相比,人类大脑能更好、更快地概括修改过的环境。一个很有吸引力的假设是,这是因为人类建立的不仅仅是一个观察到的统计模型,而是一个因果模型,即由所有可能的干预(例如,不同的初始状态、代理人的行动或不同的制度)所索引的统计模型系列。将因果关系纳入人工智能仍是一个年轻的领域,仍有许多工作要做。自我监督学习等技术在科学问题上具有巨大潜力,因为它们可以利用大量无标签数据,并将知识转移到低数据环境中。然而,目前的迁移学习方案可能是临时性的,缺乏理论指导,而且容易受到基础分布变化的影响。尽管初步尝试已经解决了这一难题,但仍需更多探索,以系统地衡量跨领域的可迁移性并防止负迁移。
此外,为了解决科学家们关心的难题,人工智能方法的开发和评估必须在真实世界的场景中进行,如药物设计中可信的可实现合成路径,并包括校准良好的不确定性估计器,以评估模型的可靠性,然后再将其过渡到真实世界的实施中。
科学数据是多模态的,包括图像(如宇宙学中的黑洞图像)、自然语言(如科学文献)、时间序列(如材料的热黄变)、序列(如生物序列)、图(如复杂系统)和结构(如三维蛋白质配体构象)。例如,在高能物理中,射流是夸克和胶子在高能量下产生的粒子对准喷射;从辐射模式中识别它们的子结构有助于寻找新的物理学。喷流子结构可以用图像、序列、二叉树、通用图和张量集来描述。虽然利用神经网络处理图像的研究已经非常广泛,但仅仅处理粒子图像是不够的。同样,单独使用喷气子结构的其他表示方法也无法提供复杂系统的整体综合系统视图。尽管整合多模态观测结果仍是一项挑战,但神经网络的模块化特性意味着不同的神经模块可以将不同的数据模态转化为通用的矢量表征。
科学知识,如分子中的旋转等差性、数学中的相等约束、生物学中的疾病机理以及复杂系统中的多尺度结构,都可以纳入人工智能模型。然而,哪些原则和知识最有帮助、最实用,目前还不清楚。由于人工智能模型需要大量数据才能拟合,因此在数据集较小或注释稀少的情况下,将科学知识融入模型可以帮助学习。因此,研究必须建立将知识融入人工智能模型的原则性方法,并了解领域知识与从测量数据中学习之间的权衡。
人工智能方法通常以黑箱形式运行,这意味着用户无法完全解释输出是如何产生的,以及哪些输入对产生输出至关重要。黑箱模型会降低用户对预测的信任度,在一些领域的适用性有限,在这些领域中,模型输出在实际应用之前必须被理解,例如人类太空探索,以及预测为政策提供依据的领域,例如气候科学。尽管可解释性技术层出不穷,透明的深度学习模型仍然难以实现。不过,人脑能综合出高层次的解释,即使不完美,也能说服其他人,这给我们带来了希望:通过对现象进行类似的高层次抽象建模,未来的人工智能模型将能提供可解释的解释,其价值至少不亚于人脑提供的解释。这也表明,研究更高层次的认知可能会激发未来的深度学习模型,使其同时具备当前的深度学习能力和处理可言语化抽象概念、因果推理以及从分布中归纳的能力。
3)科学行为和科学事业
展望未来,对人工智能专业技术的需求将受到两股力量的影响。
首先,存在即将从应用人工智能技术中获益的问题。其次,智能工具有能力提升技术水平并创造新的机遇:例如自动驾驶实验室。
第二,智能工具有能力提升技术水平并创造新的机遇:例如检查生物、化学或物理过程,这些过程发生在实验无法达到的长度和时间尺度上。
在这两种力量的基础上,我们预计研究团队的组成将发生变化,包括人工智能专家、软件和硬件工程师,以及新的研究形式、 软件和硬件工程师,以及涉及各级政府、教育机构和企业的新型合作形式。
然而,计算这些更新所需的计算量和数据量是巨大的。因此,大型科技公司对计算基础设施和云服务进行了大量投资。尽管营利性组织和非学术性组织也能使用庞大的计算基础设施,但它们的计算能力和计算成本并不高。尽管营利性组织和非学术性组织可以使用庞大的计算基础设施,但高等教育机构可以更好地整合多个学科。此外,学术机构往往拥有独特的历史数据库和测量技术,这些技术在其他地方可能不存在,但对AI4Science来说却是必要的。这些互补性资产促进了产学合作的新模式,从而影响到研究问题的选择。影响研究问题的选择。
随着人工智能系统的性能接近或超过人类,用它来替代常规实验室工作正变得可行。这种方法使研究人员能够根据实验数据反复开发预测模型,并选择实验来改进模型,而无需手动执行费力的重复性工作。为了支持这种模式的转变,培训科学家设计、实施和改进实验室工作的教育计划正在兴起。这些计划帮助科学家了解 何时适合使用人工智能,并防止人工智能分析得出的结论被曲解。
人工智能工具的误用和对其结果的曲解会产生重大负面影响。然而,人工智能的滥用并不仅仅是一个技术问题;它还取决于那些引领人工智能创新和投资人工智能实施的人的动机。建立道德审查流程和负责任的实施策略至关重要,包括 此外,还必须考虑与人工智能相关的安全风险,因为将算法重新用于人工智能已变得越来越容易。由于算法可适应广泛的应用,它们可以为一种目的而开发,但又可用于另一种目的,这就造成了一种安全风险。
要利用科学数据,就必须利用人工智能。展望未来,人工智能有可能开启以前遥不可及的科学发现。
来源:
[1]https://www.nature.com/articles/s41586-021-03819-2
[2]https://www.nature.com/articles/s41586-019-1335-8#Fig1
[3]https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.120.143001
[4]https://www.nature.com/articles/s41586-023-06221-2#Fig2