编辑/绿萝
去年,麻省理工学院(MIT)的研究人员开发出了「液体」神经网络,其灵感来自小型物种的大脑,不仅能在训练阶段学习,而且还能持续不断地适应。可用于自动驾驶和飞行、大脑和心脏监测、天气预报和股票定价。
但是随着神经元和突触数量的增加,这些模型的计算成本变得越来越高,需要笨拙的计算机程序来解决其潜在的复杂数学问题。
现在,同一个研究团队发现了一种缓解这一瓶颈的方法,即通过求解两个神经元通过突触相互作用背后的微分方程,解锁了一种新型快速高效的 AI 算法——「封闭式连续时间」(CfC) 神经网络。这些模型具有与液态神经网络相同的特征:灵活、因果关系、稳健性和可解释性,但速度快几个数量级且可扩展。因此,这种类型的神经网络可用于任何涉及随着时间的推移深入了解数据的任务。
「我们称之为 [CfC] 的新机器学习模型用封闭形式近似取代了定义神经元计算的微分方程,保留了液体网络的美丽特性,而不需要数值积分,」该研究的主要作者 Daniela Rus 教授说,「CfC 模型具有因果性、紧凑性、可解释性,并且可以高效地进行训练和预测。它们为安全关键型应用程序开辟了可信赖的机器学习之路。」
该研究以「Closed-form continuous-time neural networks」为题,于 2022 年 11 月 15 日发布在《Nature Machine Intelligence》上。
论文链接:https://www.nature.com/articles/s42256-022-00556-7
由常微分方程 (ODE) 构建的连续神经网络架构,可用于对具有复杂动态的数据进行建模。这些模型将静态神经网络的深度维度和递归神经网络 (RNN) 的时间维度转换为连续向量场,从而实现非均匀采样数据的参数共享、自适应计算和函数逼近。
虽然基于 ODE 的神经网络具有精心的记忆和梯度传播设计,但在相对较小的基准测试中与先进的离散循环模型相比具有竞争力,但由于使用了先进的数值微分方程 (DE) 求解器,它们的训练和推理速度很慢。随着数据、任务和状态空间的复杂性增加(即需要更高的精度),这就变得更加麻烦。
在这里,该研究团队推导出一个封闭的连续深度模型,它具有基于 ODE 的模型的建模能力,但不需要任何求解器来建模数据。
图 1:神经和突触动力学。(来源:论文)
在这项工作中,研究人员用相应的非线性算子替换描述神经元与其输入非线性突触连接的相互作用的非线性 DE 的积分(即解)。这在原则上可以使用函数式泰勒展开来实现。然而,在液态时间常数 (LTC) 网络的特定情况下,可以利用封闭形式的表达式来表示系统对输入的响应。
所提出的连续神经网络产生了相当快的训练和推理速度,同时与基于 ODE 的对应网络一样具有表现力。研究人员为一类明确模拟时间的连续神经网络提供了近似封闭形式解的推导。
研究人员应用线性 ODE 理论来分析求解 LTC DE 的动力学。然后,剖析所获得的封闭形式解决方案的属性,并设计一类新的神经网络模型,称之为封闭形式连续深度网络 (CfC)。CfC 在其公式中具有明确的时间依赖性,不需要数值 ODE 求解器来获得它们的时间展开。因此,它们最大限度地平衡了求解器的准确性和效率。
表 1:模型的计算复杂度。
与基于 ODE 的同类算法相比,这种明确的时间依赖性允许 CfC 在训练和推理时间方面至少快一个数量级,而不会损失准确性。
图 2 显示了一个基于 LTC 的自动驾驶训练网络。进一步说明了在给定相同参数化的情况下,所提出的解决方案与单神经元 ODE 所展示的实际动力学有多接近。
图 2:封闭形式解在实践中的紧度。(来源:论文)
近似于 LTC 网络的封闭形式解决方案,同时在很大程度上保留了其等效 ODE 系统的轨迹。研究人员将其解决方案开发成 CfC 模型,在复杂时间序列预测任务的训练和推理方面,该模型至少比神经 ODE 快 100 倍。
此外,CfC 在一系列任务上的表现优于最先进的同类模型,在通过运动传感器识别人类活动、模拟步行机器人的物理动力学建模以及基于事件的顺序图像处理方面具有更高的速度和性能。例如,在一项医学预测任务中,新模型在 8,000 名患者的样本中速度提高了 220 倍。
图 3:PhysioNet。(来源:论文)
使用互联网电影数据库(IMDB,包含 25,000 个训练句和 25,000 个测试句)进行情感分析,CfC 优于高级 RNN 基准测试。
图 4 :IMDB 数据集的结果。(来源:论文)
在物理动力学建模中,CfC 的性能大大优于其他基线,这支持了它们对不规则采样的物理动力学进行建模并具有缺失相位的强大能力。值得一提的是,在这项任务中,CfCs 甚至以 18% 的优势明显优于 transformer。
表 3:每个时间步的回归。(来源:论文)
CfC 在自动驾驶中能够稳健地学习执行自主导航,CfC 与 ODE 具有相似的稳健性。此外,与 NCP 类似,CfC 具有参数效率。他们在其 RNN 组件中使用大约 4,000 个可训练参数执行端到端自主车道保持任务。
图 5 :车道保持模型的参数计数。(来源:论文)
「基于微分方程的神经网络系统很难求解并扩展到例如数百万和数十亿个参数。获得神经元如何相互作用的描述,而不仅仅是阈值,但解决细胞之间的物理动力学使我们能够建立更大规模的神经网络,」Hasani 说。「这个框架可以帮助我们解决更复杂的机器学习任务,实现更好的表示学习,并且应该成为任何未来嵌入式智能系统的基本构建块。」
Boeing 公司 Aurora Flight Sciences 的人工智能和机器学习小组负责人 Sildomar Monteiro 说:「最近的神经网络,例如神经 ODE 和液体神经网络,都有由表示无限潜在状态的特定动力系统组成的隐藏层,而不是显式的层堆栈。」
「这些隐式定义的模型已经显示出最先进的性能,同时需要的参数比传统架构少得多。但是,由于训练和推理所需的高计算成本,它们的实际采用受到限制。」他补充说,这篇论文「显示了这类神经网络的计算效率有了显著提高……且有可能实现与安全关键型商业和国防系统相关的更广泛的实际应用。」
相关报道:https://techxplore.com/news/2022-11-brain-dynamics-flexible-machine-learning.html