从引力波探测到RNA测序，AI如何加速科学发现

来源：AI科技评论

编译:眉钉

编辑:琰琰

越来越复杂的实验和日益增长的数据为科学探索带来了新的挑战，而实验表明，机器学习，尤其是深度神经网络架构的通用性能够解决广泛且复杂的问题， ImageNet 等大型数据集的激增，引导了许多不同深度学习方法的深入探索。

这篇综述论文重点关注机器学习和实验设计的融合，以及如何通过加速数据处理、实时决策来解决关键的科学问题。

在过去几年，许多机器学习的进步源于异构计算硬件的使用，特别是图形处理器(GPUs)使大型机器学习算法得以快速进步。经过大数据集训练的AI模型已经能够执行复杂的任务，同时，以减少计算量而实现快速和高效训练的新型深度学习算法也开始越来越多的出现。

强大的机器学习技术与实验设计的结合，可以缩短科学发现的时间，从嵌入实时特征到跨分布式网络，计算数据中心的大规模机器学习在许多不同的科学应用实验上取得大的跨越。不过，高效的解决方案依然需要领域专家、机器学习研究人员和计算机架构设计师之间的共同合作。

随着机器学习工具变得越来越复杂，如何构建大模型来解决复杂的问题成为了新得关注点，例如语言翻译和语音识别，它们的出现使得科学应用在快速发展中广泛收益。目前这些应用已经出现多样化，因为人们不得不意识到如何调整他们的科学方法从而更好地利用人工智能的好处，包括人工智能对事件的实时分类能力，如识别粒子碰撞或引力波合并；包括系统控制，如来自等离子体和粒子加速器的反馈机制的响应控制。在这些所有情况下，机器学习都是以设计目标为驱动因素的。

考虑到文章篇幅，我们将从三个部分对整篇综述报告进行呈现，第一，机器学习如何探索广泛的科学问题；第二，快速机器学习作为一种颠覆性技术，如何改变我们处理数据的方式，通用的数据表示法和实验程序有哪些。第三，从算法设计到系统架构的硬件对机器学习进行整体设计。

机器学习应用：从基础物理，医学工程到边缘计算

随着科学生态系统规模的快速增长，数据处理和新范式需要集成到系统设计层面来完成。通过复杂数据处理过程的研究，作者发现，不同领域和架构之间实现机器学习可能会有很大差异，但仍然具有相似的底层数据表示和集成机器学习的需求。报告中列举了大量科学领域的应用案例，涵盖现有技术和未来需求。接下来，我们将重点介绍机器学习在物理学、生物医学工程学以及无线网络和边缘计算三个领域的应用现状和挑战。

基础物理学

正如爱因斯坦在 1916 年预测的那样，引力波在广义相对论中表现为时空度量的变化，并在时空结构中以光速进行传播。例如，美国激光干涉引力波天文台(LIGO)、欧洲“处女座”(Virgo)引力波探测器和日本神冈引力波探测器(KAGRA)均采用公里级激光干涉仪网络探测引力波。

引力波为基础物理研究提供了一种独特的方法，包括在强场域测试广义相对论、引力波的传播速度和极化、物质在核密度下的状态、黑洞的形成、量子引力效应等，它以一种与电磁和中微子天文学相辅相成的方式，打开了全新观察宇宙的窗口。在未来的观察中，LIGO、Virgo 和 KAGRA 将探测到越来越多的引力波后备，但这对当前的检测框架提出了计算挑战，该框架依赖于匹配滤波技术，需要将来自模拟的参数化波形（模板）与引力波时间序列数据相匹配。

随着仪器低频灵敏度的提高，以及引力波搜索参数空间扩展到自旋效应和低质量致密物体，匹配滤波尺度将变差。为了估测引力波的物理特性，迄今为止一直使用随机贝叶斯后验采样器（比如马尔可夫链蒙特卡罗法和嵌套采样法）。这些分析方法可能需要数小时到数天才能完成，搜索和参数估计也产生了不可避免的延迟，进而可能阻碍时间敏感源(如双星、超新星和其他未知系统)的电磁跟踪。

此外，引力波瞬态的观测也容易受到环境和仪器噪声的影响。瞬态噪声伪影可能被误识为潜在来源，特别是当引力波瞬态具有未知的形态时(例如超新星、中子星故障)。仪器噪声谱中的线路噪声会影响对连续引力波(如自旋中子星)和随机引力波（例如未解的致密双星系统引力波的天体物理背景）的搜索。这些噪声源很难模拟，目前的噪声减除技术不足以去除更复杂的噪声源，如线路噪声和非平稳噪声源。

近年来，机器学习算法在引力波物理学的不同领域进行了探索。卷积神经网络已被应用于探测和分类二元结的引力波、超新星核坍塌的爆发引力波以及连续引力波；递归神经网络(RNNs)的自动编码器使用无监督策略检测引力波；FPGA递归神经网络在引力波低延迟检测方面发挥着潜力。

此外，概率生成机器学习模型用于引力波参数估计的后验采样，在模拟数据上取得与贝叶斯采样器相当的性能，大大缩短了完成时间。机器学习算法也被用于提高引力波数据质量，减少噪声。瞬态噪声伪影可以通过时频变换和恒Q变换或检查LIGO的辅助通道来进行识别和分类。

尽管机器学习算法在引力波数据分析中显示出了很大的潜力，但其中许多算法仍处于概念验证阶段，尚未成功应用于实时分析。目前需要努力的方向是，为了降低低延迟分析创建计算基础设施，提高训练数据的质量(例如扩展参数空间，使用更真实的噪声模型)，并更好地量化这些算法在较长的数据延伸上的性能。

生物医学工程

由于高分辨率和高通量生物医学设备的进步，我们已经看到生物医学数据的爆炸式增长，如生物医学图像、基因组序列和蛋白质结构。各种机器学习算法已经被广泛应用于医疗场景中，如AI增强现实显微镜能够自动分析细胞图像和实时表征细胞。机器学习用硅片预测荧光标记、无标记罕见细胞分类、形态表征和RNA测序。对于原位细胞分选、实时治疗反应预测和增强现实显微镜辅助诊断，深度学习模型的数据结构也能够大幅提高速度和效率。

现阶段，机器学习临床应用面临的主要挑战是训练和测试数据不足。对于需要专家知识的超大图像和视频数据集，医学数据标注过程既耗时又昂贵。训练模型推理的延迟也给实时诊断和手术操作带来了计算困难，而时间关键型医疗保健的服务质量要求小于300毫秒，就像实时视频通信一样。为了达到每秒60帧(FPS)的高质量医疗视频，深度学习模型的效率和性能变得至关重要。

推理精度和速度是机器学习算法需要改进的主要方面。一些先进的机器学习模型可以达到很高的推理速度。如常用于医学成像的对象检测模型YOLOv3-tiny，可以在标准数据集上以超过200 FPS的速度处理图像；基于GPU和FPGA的分布式无线传感器网络和基于5G高速Wi-Fi的机器学习模型都部署在医疗AI应用中。用于脑卒中、血栓形成、结肠息肉、癌症和癫痫快速诊断的机器学习模型显著减少了病灶检测和临床决策的时间。实时人工智能辅助手术可以改进围手术期工作流程，实现视频分割、手术器械检测、组织变形可视化。高速机器学习在远程诊断、手术和监测等数字健康领域发挥着至关重要的作用。

无线网络和边缘计算

在许多科学研究中，无线设备和服务已经成为收集和传递大数据的关键工具。此外，移动信息已被证明在了解人类活动及其对环境和公共健康的影响方面十分有用。数据流量的指数级增长给无线基础设施带来了巨大的压力。特别是，小区间干扰大大影响了可靠性和延迟性。为了满足用户对数据通信和增值AI/机器学习业务的需求，无线提供商必须：1) 开发更智能的无线电资源管理学习算法，以适应复杂多变的通信量和干扰条件; 2)在边缘设备上实现大量机器学习/AI计算和功能，以达到更低的延迟和更高的通信效率。

机器学习模型的常规实现，尤其是深度学习算法，远远落后于实用程序的数据包级动态。为了提高效率，现有的机器学习/AI服务通常在云中执行，但代价是通信开销大和延迟高。无线网络和边缘计算面临的主要挑战是如何构建可以在小型蜂窝接入点内以低于10毫秒的低延迟执行复杂任务的计算平台。

研究人员提出了许多种学习算法，希望通过神经网络完成特定的无线电资源管理任务。最初训练神经网络控制电力传输采用的是监督学习。最近，有人提议采用深度强化学习可以更好地改善通路和网络的不确定性问题，而且只需要少量先验训练数据。

后来许多工作开始集中在边缘计算和深度学习间的融合。有研究人员使用联邦学习的方式训练AI模型，而不是将所有数据发送给中央控制器进行训练。由于缺乏既快速又高效的实用型ML/AI解决方案，上述工作基本上停留在仿真阶段。更具体地说，开发一种计算平台，使得该平台能够以小于10ms的速度执行复杂ML模型，且可以配置在小型小区接入点是现阶段的主要目标。

数据处理的三种主要形式

实时、加速的人工智能推理有望在当前和未来的科学仪器领域提高探测能力。为设计高性能的AI系统，我们需要重点关注目标域机器学习算法的性能系数，它可能受到推理延迟、计算成本、可靠性、安全性和极端环境下运行能力的影响。例如，机器学习在大型强子对撞机上触发需要延迟100 ns的稀有事件采集系统。

此外，先进科学仪器的实时分析必须不间断地分配计算资源，无线医疗设备处理患者敏感信息必须保密。上述特征和特性为人们分辨出域和应用程序之间的差异和共性提供了可量化的准则。这些准则可以解决不同科学领域的不同需求。合适的数据表达是设计过程中重要一步，也是第一步，因为它能够决定模型的应用场景。

数据表示

在特定领域使用的数据表达方式对计算系统和数据存储均有影响。国际上，跨域数据表达可以分为原始数据和重构数据。数据表达方式通常因重建阶段和数据处理管道中的上游步骤而异。当数据具有图像性质时，现有的应用程序包括完全连接的CNN模型在内，通常将预处理的熟练特征变量作为输入值或 CNN模型。现有的CNN算法发展成果得益于变量的精准性和高效性。

为了充分挖掘CNN模型的力量，使其信息损失降到最低水平，需要采用一种合适的原始数据表达方式，例如点云，它根据不同实验和测量系统的原始数据可以明显得出：

空间数据：用于描述几何空间中的物理对象。主要有两种类型：矢量和栅格数据。矢量数据可以由点、线或多边形组成；栅格数据是指由像素组成的网格，像素相依表示为图像或其他的值，如强度、电荷、场强等。
点云：一种空间数据类型。这种数据表达是通过整理一组空间数据（即三维空间中的点）创建的，这些数据通常在空间中共同构成一个对象。
时序数据：用于表示系统/实验在特定时间的状态。跨时段收集而来的数据会按照特定的顺序进行分类。时间序列数据是上述表达方式中的一个子集，其中的数据以固定的时间间隔进行采样。
时空数据：可在空间和时间两个维度上测量和观测某个系统。在这种情况下，数据可以被认为是时空的。
多光谱数据：用于表达多个传感器中的输出值，上述传感器能够从电磁光谱的多个频段捕获测量值。多光谱表达通常用于成像，与能够识别波长各异的光的传感器有关。通常会涉及几个到几十个光谱的量级。
高光谱数据：用于表示从大量光谱（如100s）中得到的测量值。这些从各异的窄带光谱中采集到的图像被合并成一个高光谱立方体，该立方体具有三个主要维度，前两个维度参考了二维空间位置（例如，地球表面)，第三个维度代表了每个“像素”位置的完整频谱内容。

点云

点云数据表达是高能粒子领域中一个常见的概念。在高能粒子领域里，经大量探测器收集而来的测量数据被合并成一个数据集。在众多高能粒子应用中，点云通常用于表示数据尺寸超过1Pb/s的粒子射流。通俗地说，点云可以用来捕捉任何三维空间事件和空间中运动部件的相互作用。

质子之间发生碰撞后的残余物在定制化和优化后的探测器中产生信号，在空间中以点的形式显示。扫描后的各类图像数据可以按照点云的方式呈现，生物医学工程和虚拟实境中的CT和PET扫描也是利用点云进行成像，还有用于产品设计、实体对象建模、体系结构和基础设施设计的三维扫描仪。

上述成像任务中，大部分都是按照从GB到TB的顺序生成相应大小的点云。域共享点云表达（例如高能粒子和生物医学成像）也会涉及到空间特性。

图注：Kaggle数据集中，Track机器学习在三维空间中将粒子跟踪命中进行可视化

多/高光谱数据

多光谱数据在无线医疗监测和无线通信系统之间普遍存在。一组生理传感器通常代表不同的模式，被合并成一个多光谱数据集，用于医疗监测和干预系统。对于无线通信而言，通过多光谱数据捕获信号干扰情况和网络流量状况，两个领域都会跨时间捕获数据，因此也会显示出时间特性。

与其他领域相比，这两个领域中生成的数据大小可以被认为相对较小（从100s Mb/s到10s Gb/s)。高光谱数据被用于许多天文学应用、医学成像和电子显微镜领域，用于实现更多的材料科学设计和发现应用。

如图7所示，电子显微镜中显示的是高光谱数据。将电子探针栅格化在所研究的样品上，并在像素探测器上捕获衍射图。当电子探针在样品上扫描时，像素探测器进行图像捕捉。新兴的多信使天文学应用进一步提升了高光谱数据表达的效用，这些数据表达是结合了大量探测器和望远镜的观测结果汇总而成。

图7 .二硫化物二维材料的4D - STEM实验测量。

实现低延时、高效率的ML算法

作者重点对如何构建高效机器学习算法的技术和技巧进行了简要概述。在考虑硬件的情况下，构建算法实现协同设计，需要为硬件编程提供高效的平台。为实现这这一点将从三个部分进行介绍：重点讨论神经网络设计和训练，以便实现硬件的有效应用；将机器学习硬件计算平台分为“常规CMOS硬件”和“新兴的超CMOS硬件”两部分进行介绍。前者将解决近期的硬件方案，后者专注于频谱的投机端。

同时，由于编程新硬件领域发展迅速，作者以一个具体示例阐明设备家族面临的选择和挑战：即现场可编程门阵列（FPGA），希望从FPGA的细节中，为读者了解软件设计的基本方法提供帮助。本文将以用于高效部署机器学习模型的系统方法为例进行简单介绍。

科学领域中的许多机器学习问题要求延迟时间短，资源较为有限。然而，大多数现有的先进CNN模型延迟度非常高，且占用内存大，消耗量高。出于上述原因，实践者被迫使用非理想精度的次优模型（例如浅层CNN）来避免这一延迟问题。大量的文献致力于通过解决上述延迟问题，以提升CNN模型有效性，大致归纳如下：

1、设计全新的高效NN架构；2、 NN架构与硬件的协同设计；3、量化（低精度推断）；4、剪枝和稀疏推断；5、知识蒸馏。

作者在文中阐述了需要在高吞吐量和低延迟环境下的机器学习算法，既包括系统设计和培训，也包括机器学习模型的高效部署和应用。在硬件应用方面主要讨论了两类内容：现有的传统CMOS技术和超CMOS技术。在常规的CMOS案例中，在摩尔定律的基础上，人们重点研究机器学习设计的先进硬件架构。对于众多硬件来说，机器学习算法的协同设计是特定科学领域对硬件（包括其体系结构和可编程性）要求的关键，一个高度相关和极其重要的硬件平台的示例就是FPGA，作者认为，这些技术提供了令人兴奋和超级高效的技术，虽然它们可能具有投机性，但相对于常规技术，已经大幅提升了现有的技术水平。

总结与展望

这篇综述报告主要阐述了高效的机器学习算法的应用，如何使跨领域的科学发现成为现实。这个过程中，科学探索时常产生令人激动的新研究和新发现。然而，这是一个相对崭新的领域，蕴藏着丰富的潜力，也面临着跨领域的开放性挑战。除了报告中阐述的内容之外，我们希望通过这篇文章对科学用例及其交叠的呈现能够给读者提供在其他研究中展开应用的灵感。

机器学习的训练和部署手段以及计算机体系结构都是一个非常迅速发展的领域，新的任务接踵而至。在机器学习和科学领域中不断引入新方法，同时理解不同硬件下新算法的协同设计以及部署这些算法的工具流的易用性就显得尤为重要。这里的创新之处将快速和广泛采用强大的新机器学习硬件得以实现。在超CMOS技术的情况下，这些应用性设计是很重要的，同时也要考虑到技术的成熟程度、融入计算体系结构以及如何编程这类器件。

我们期待着在不久的将来能够重温这些话题，看看在应用程序、机器学习技术和硬件平台领域的发展速度——最重要的是它们的融合，在科学上领域上取得的颠覆性突破。

注：这篇综述报告是第二届年度Fast Machine Learning大会的概述，汇集了从粒子物理学家、材料学家到健康监测研究人员，以及机器学习学者和计算机系统架构师等多个科学专家的内容，希望通过专家观点和概念找到特定领域应用、机器学习、实验和计算机系统架构之间汇合点，以加快科学发现。以下是整篇报告的具体章节：