MIT提出封闭式连续时间神经网络,解决大脑动力学问题可产生灵活的机器学习模型...

编辑/绿萝

去年,麻省理工学院(MIT)的研究人员开发出了「液体」神经网络,其灵感来自小型物种的大脑,不仅能在训练阶段学习,而且还能持续不断地适应。可用于自动驾驶和飞行、大脑和心脏监测、天气预报和股票定价。

但是随着神经元和突触数量的增加,这些模型的计算成本变得越来越高,需要笨拙的计算机程序来解决其潜在的复杂数学问题。

现在,同一个研究团队发现了一种缓解这一瓶颈的方法,即通过求解两个神经元通过突触相互作用背后的微分方程,解锁了一种新型快速高效的 AI 算法——「封闭式连续时间」(CfC) 神经网络。这些模型具有与液态神经网络相同的特征:灵活、因果关系、稳健性和可解释性,但速度快几个数量级且可扩展。因此,这种类型的神经网络可用于任何涉及随着时间的推移深入了解数据的任务。

「我们称之为 [CfC] 的新机器学习模型用封闭形式近似取代了定义神经元计算的微分方程,保留了液体网络的美丽特性,而不需要数值积分,」该研究的主要作者 Daniela Rus 教授说,「CfC 模型具有因果性、紧凑性、可解释性,并且可以高效地进行训练和预测。它们为安全关键型应用程序开辟了可信赖的机器学习之路。」

该研究以「Closed-form continuous-time neural networks」为题,于 2022 年 11 月 15 日发布在《Nature Machine Intelligence》上。

42a5081a90b30a40c720b2dfc535fc0f.png

论文链接:https://www.nature.com/articles/s42256-022-00556-7

由常微分方程 (ODE) 构建的连续神经网络架构,可用于对具有复杂动态的数据进行建模。这些模型将静态神经网络的深度维度和递归神经网络 (RNN) 的时间维度转换为连续向量场,从而实现非均匀采样数据的参数共享、自适应计算和函数逼近。

虽然基于 ODE 的神经网络具有精心的记忆和梯度传播设计,但在相对较小的基准测试中与先进的离散循环模型相比具有竞争力,但由于使用了先进的数值微分方程 (DE) 求解器,它们的训练和推理速度很慢。随着数据、任务和状态空间的复杂性增加(即需要更高的精度),这就变得更加麻烦。

在这里,该研究团队推导出一个封闭的连续深度模型,它具有基于 ODE 的模型的建模能力,但不需要任何求解器来建模数据。

f3e5405e5eaba0b93ba3e84619c7dcc5.png

图 1:神经和突触动力学。(来源:论文)

在这项工作中,研究人员用相应的非线性算子替换描述神经元与其输入非线性突触连接的相互作用的非线性 DE 的积分(即解)。这在原则上可以使用函数式泰勒展开来实现。然而,在液态时间常数 (LTC) 网络的特定情况下,可以利用封闭形式的表达式来表示系统对输入的响应。

所提出的连续神经网络产生了相当快的训练和推理速度,同时与基于 ODE 的对应网络一样具有表现力。研究人员为一类明确模拟时间的连续神经网络提供了近似封闭形式解的推导。

研究人员应用线性 ODE 理论来分析求解 LTC DE 的动力学。然后,剖析所获得的封闭形式解决方案的属性,并设计一类新的神经网络模型,称之为封闭形式连续深度网络 (CfC)。CfC 在其公式中具有明确的时间依赖性,不需要数值 ODE 求解器来获得它们的时间展开。因此,它们最大限度地平衡了求解器的准确性和效率。

表 1:模型的计算复杂度。

6fdfcbbe91fcfe6b42b895ddbd2c8ef2.png

与基于 ODE 的同类算法相比,这种明确的时间依赖性允许 CfC 在训练和推理时间方面至少快一个数量级,而不会损失准确性。

图 2 显示了一个基于 LTC 的自动驾驶训练网络。进一步说明了在给定相同参数化的情况下,所提出的解决方案与单神经元 ODE 所展示的实际动力学有多接近。

5f386eb1223b212c7f4980dbdd64ebac.png

图 2:封闭形式解在实践中的紧度。(来源:论文)

近似于 LTC 网络的封闭形式解决方案,同时在很大程度上保留了其等效 ODE 系统的轨迹。研究人员将其解决方案开发成 CfC 模型,在复杂时间序列预测任务的训练和推理方面,该模型至少比神经 ODE 快 100 倍。

此外,CfC 在一系列任务上的表现优于最先进的同类模型,在通过运动传感器识别人类活动、模拟步行机器人的物理动力学建模以及基于事件的顺序图像处理方面具有更高的速度和性能。例如,在一项医学预测任务中,新模型在 8,000 名患者的样本中速度提高了 220 倍。

e74ba3adb8f53f4be6b951053f3e2fac.png

图 3:PhysioNet。(来源:论文)

使用互联网电影数据库(IMDB,包含 25,000 个训练句和 25,000 个测试句)进行情感分析,CfC 优于高级 RNN 基准测试。

f70406f654e25cbc8ed4c73f7c6d29a8.png

图 4 :IMDB 数据集的结果。(来源:论文)

在物理动力学建模中,CfC 的性能大大优于其他基线,这支持了它们对不规则采样的物理动力学进行建模并具有缺失相位的强大能力。值得一提的是,在这项任务中,CfCs 甚至以 18% 的优势明显优于 transformer。

表 3:每个时间步的回归。(来源:论文)

9c6f01b2bdf2e31509a0757497c87eb4.png

CfC 在自动驾驶中能够稳健地学习执行自主导航,CfC 与 ODE 具有相似的稳健性。此外,与 NCP 类似,CfC 具有参数效率。他们在其 RNN 组件中使用大约 4,000 个可训练参数执行端到端自主车道保持任务。

01e674b05d3d607f71633ef48cc55f11.png

图 5 :车道保持模型的参数计数。(来源:论文)

「基于微分方程的神经网络系统很难求解并扩展到例如数百万和数十亿个参数。获得神经元如何相互作用的描述,而不仅仅是阈值,但解决细胞之间的物理动力学使我们能够建立更大规模的神经网络,」Hasani 说。「这个框架可以帮助我们解决更复杂的机器学习任务,实现更好的表示学习,并且应该成为任何未来嵌入式智能系统的基本构建块。」

Boeing 公司 Aurora Flight Sciences 的人工智能和机器学习小组负责人 Sildomar Monteiro 说:「最近的神经网络,例如神经 ODE 和液体神经网络,都有由表示无限潜在状态的特定动力系统组成的隐藏层,而不是显式的层堆栈。」

「这些隐式定义的模型已经显示出最先进的性能,同时需要的参数比传统架构少得多。但是,由于训练和推理所需的高计算成本,它们的实际采用受到限制。」他补充说,这篇论文「显示了这类神经网络的计算效率有了显著提高……且有可能实现与安全关键型商业和国防系统相关的更广泛的实际应用。」

相关报道:https://techxplore.com/news/2022-11-brain-dynamics-flexible-machine-learning.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481401.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自上而下的因果关系:数学结构与观察者

导语复杂性的基础是模块化的分层结构,导致基于较低级别网络的结构和功能的涌现级别。通俗而言,当需要执行复杂的任务时,可以将其分解为子任务,每个子任务都比整个项目更简单,需要更少的数据和更少的计算能力&#xff0…

从大脑中汲取灵感,能效提高了1000倍,新芯片拓展AI的可能性

来源:ScienceAI人工智能算法无法以目前的速度保持增长。像深度神经网络这样的算法——它受到大脑的松散启发,多层人工神经元通过称为权重的数值相互连接——每年都在变大。但如今,硬件改进已无法跟上运行这些海量算法所需的大量内存和处理能力…

5G/6G:构建一个更加互联智能的世界

来源:IEEE电气电子工程师在过去几年中,随着5G网络技术的兴起,5G基础建设与应用也日渐成熟。2023年,通信行业的发展步伐也并未放缓。在《IEEE全球调研:科技在2023年及未来的影响》中显示,当半数的受访者谈及…

Science 撤稿“天使粒子”论文,原始数据受质疑

海归学者发起的公益学术平台分享信息,整合资源交流学术,偶尔风月11月18日, Science 撤下了王康隆、张首晟等科学家完成的著名“天使粒子”论文。2021年3月 Nature 也撤回了代尔夫特理工大学的一篇“天使粒子”相关的论文。两篇重量级论文的倒…

2022年全球人工智能产业态势分析

来源:学术plus 作者:学术plus观察员 曹文,惠文审核:行业研究顾问 辛鑫,行雁国家战略风向1.1 全球主要国家密集发布政策举措,争夺人工智能领域优势2022年全球主要国家在人工智能领域的竞争仍然激烈。据英国牛…

你与植物人有何区别?意识与复杂性的新研究给你答案

来源:Mindverse Research作者:郭瑞东相比无意识的时间,当你有意识时,你会有怎样的直观感受?是觉得更加不可预测,还是能够用相距更长的事件进行描述?如果将有意识时的大脑活动记录下来&#xff0…

NeuroAI作者,冷泉港主任独家专访:忽视神经科学给我们的启示是愚蠢的

来源:智源社区采访&整理:李梦佳校对:熊宇轩神经科学究竟如何启发AI?不同路径如何殊途同归?智源社区采访了NeuroAI白皮书的第一署名作者,来自冷泉港实验室(Cold Spring Harbor Laboratory&am…

AI再卷数学界,DSP新方法将机器证明成功率提高一倍

来源:机器之心编谷歌的吴宇怀 (Yuhuai Tony Wu)等研究者设计了一种叫做「Draft, Sketch, and Prove」 (DSP)的新方法将非形式化的数学证明转化为形式化的证明。实验结果显示,自动证明器在 miniF2F 上解决的问题比例从 20.9% 提高到了 38.9%。自动证明数学…

华人数学家死磕欧拉方程10年,用计算机找到了让它失效的“奇点”

来源:金磊 发自 凹非寺量子位 | 公众号 QbitAI专研长达10年,论文足足177页。华人数学家通过计算机,找到了让著名欧拉方程失效的“奇点”。△图源:Quanta Magazine欧拉方程,是250年前(1755年)由瑞…

张益唐零点问题论文会是什么结果?

关注 哆嗒数学网 每天获得更多数学趣文最近,菲尔兹奖得主在他的一篇旧博文的评论区对张益唐关于朗道-西格尔猜想的论文进行了评论。大概意思是,论文还没被确认是正确的,因为文章已经发现的各种问题,其中一些问题还是阻碍验证的过程…

大型互联网系统架构演进,BATJ其实无需神化……

来源:云技术一、前言说到互联网系统架构,在互联网行业日渐成熟的今天,一谈到这背后的技术体系,很多人脑海中可能就会浮现从网上看到的,一个个庞大的知识图谱,能说地清楚其中一二的同学,自然是志…

AI能否改变我们发现新药的方式?哈佛医学院团队开发AI驱动的药物发现平台

编辑 | 绿萝世界人口老龄化、慢性病和传染病负担日益加重,迫切需要安全有效的药物来满足全球数十亿人的医疗需求。然而,发现一种新药并将其推向市场是一个漫长、艰巨且昂贵的过程。长期以来,人工智能(AI)一直被认为能够…

城市大脑的基本原理与战略意义分析

本文发布于2022年10月中国指挥与控制学会会刊作者:刘锋城市大脑是21世纪以互联网为核心的世界数字生态向类脑结构演化并与智慧城市结合的产物,世界统一的数字神经元将人、物、系统和组织有机的结合在一起实现万物互联,云反射弧机制实现数字神…

“史上最贵”世界杯,暗藏哪些传感器黑科技?

来源:综合来源:科技日报、IDG资本、中国日报双语新闻、感知芯视界等编辑:感知芯视界2022年卡塔尔世界杯(FIFA World Cup Qatar 2022)是第二十二届世界杯足球赛,是历史上首次在卡塔尔和中东国家境内举行、也是继2002年韩日世界杯之…

刘庆生:学术需要批判氛围

来源:刘庆生科学网博客链接地址:https://blog.sciencenet.cn/blog-673617-1364620.html作者:刘庆生(中国地质大学)最近在抖音上看了复旦大学特聘教授张汝伦的一个短视频。他在视频中提到,上海电视台采访一位…

斯蒂芬·沃尔夫勒姆 | 圣塔菲研究所的初创故事

来源:集智俱乐部 作者:斯蒂芬沃尔夫勒姆 数学家、物理学家、计算机科学家导语:圣塔菲研究所被誉为复杂性科学的圣地,被称为“没有围墙的研究所”,那么它是如何创建发展起来的呢?2019 年,为了纪…

为什么地球的生物都是碳基生命?科学家:大自然环境选择的结果

来源:科学的乐园地球是一个有着多达数百万种生物形式的生命世界,不管这些物种的外形有多大的差异,也不管是植物还是动物,它们都有一个共同的本质,都是碳基生命。可能有朋友会说了,生命体内最多的物质不是氧…

台积电1nm,有新进展

来源:万物智能视界中国台湾地区行政院副院长沈荣津昨日接受本台媒专访时表示,台积电1纳米新厂将落脚桃园龙潭,台积电大本营在新竹科学园区,若真的想要超前部署台湾半导体先进制程,就近选择龙潭科学园区是最理想之处&am…

除了作画、写歌、写文章,AI大模型还能帮我们做什么?

来源:AI前线随着技术的发展,AI 已经在金融、医疗、智慧城市等多个场景实现了技术落地,人们也可以将时间和精力,投入到更具有挑战性和创造性的工作中。今年,在极其需要创造力的绘画领域,随着大模型技术的不断…

最近,人工智能推进了数学研究的进程,揭示了矩阵乘法的新可能性

来源:今日头条(逻辑黑洞)当试图找到最有效的方法时,甚至像矩阵乘法这样抽象的事情也会像游戏一样。这有点像用尽可能少的步骤来解魔方。对于矩阵乘法,即使在相对简单的情况下,每一步都可以有超过10^12个选项…