模块化的机器学习系统就够了吗?Bengio师生告诉你答案

e1da1db723503794b5d246044a8a450d.png

来源:机器学习研究组订阅


Bengio 等研究者刚「出炉」的预印本论文,探讨了机器学习系统的一个重要方向问题。

深度学习研究者从神经科学和认知科学中汲取灵感,从隐藏单元、输入方式,到网络连接、网络架构的设计等,许多突破性研究都基于模仿大脑运行策略。毫无疑问,近年来在人工网络中,模块化和注意力经常被组合使用,并取得了令人印象深刻的结果。

事实上,认知神经科学研究表明,大脑皮层以模块化的方式表示知识,不同模块之间进行通信,注意力机制进行内容选择,这也就是上述提到的模块化和注意力组合使用。在近期的研究中,有人提出,大脑中的这种通信方式可能对深度网络中的归纳偏置有意义。这些高级变量之间依赖关系的稀疏性,将知识分解为尽可能独立的可重组片段,使得学习更有效率。

尽管最近的许多研究都依赖于这样的模块化体系架构,但研究者使用了大量的技巧以及体系架构修改,这使得解析真正的、可用的体系架构原则变得具有挑战性。

机器学习系统正逐渐显露出更稀疏、更模块化架构的优势,模块化架构不仅具有良好的泛化性能,而且还能带来更好的分布外(OoD) 泛化、可扩展性、学习速度和可解释性。此类系统成功的一个关键是,用于真实世界设置的数据生成系统被认为由稀疏交互部分组成,赋予模型类似的归纳偏置将是有帮助的。然而,由于这些真实世界的数据分布是复杂和未知的,该领域一直缺乏对这些系统进行严格的定量评估。

由来自加拿大蒙特利尔大学的 Sarthak Mittal、Yoshua Bengio、 Guillaume Lajoie 三位研究者撰写的论文,他们通过简单且已知的模块化数据分布,对常见的模块化架构进行了全面评估。该研究强调了模块化和稀疏性的好处,并揭示了在优化模块化系统时面临挑战的见解。一作及通讯作者 Sarthak Mittal 为 Bengio 和 Lajoie 的硕士生。

3867929310994d92ece23026937e941e.png

  • 论文地址:https://arxiv.org/pdf/2206.02713.pdf

  • GitHub 地址:https://github.com/sarthmit/Mod_Arch

具体而言,该研究扩展了 Rosenbaum 等人的分析,并提出了一种方法来评估、量化和分析模块化架构的常见组成部分。为此,该研究开发了一系列基准和指标,旨在探索模块化网络的效能。这揭示了有价值的见解,不仅有助于识别当前方法的成功之处,还有助于识别这些方法何时以及如何失败的。

该研究的贡献可总结为:

  • 该研究基于概率选择规则来开发基准任务和指标,并用基准和指标来量化模块化系统中的两个重要现象:崩溃(collapse)和专业化(specialization)。

  • 该研究提炼出常用的模块化归纳偏置,并通过一系列模型进行系统地评估,这些模型旨在提取常用的架构属性(Monolithic, Modular, Modular-op、GT-Modular 模型)。

  • 该研究发现,当一个任务中有很多潜在规则时,模块化系统中的专业化可以显著提高模型性能,但如果只有很少的规则,则不会如此。

  • 该研究发现,标准的模块化系统在专注于正确信息的能力和专业化能力方面往往都不是最优的,这表明需要额外的归纳偏置。

定义 / 术语

本文中,研究者探究了一系列模块化系统如何执行常见的任务,这些任务由我们称为规则数据的合成数据生成过程制定。他们介绍了关键组成部分的定义,包括(1)规则以及这些规则如何形成任务,(2)模块以及这些模块如何采用不同的模型架构,(3)专业化以及如何评估模型。详细设置如下图 1 所示。

026ff19d0c5721eb38b425f6df06dd01.png

规则。为了正确理解模块化系统并分析它们的优缺点,研究者考虑采用的综合设置允许对不同的任务要求进行细粒度的控制。尤其是必须在如下公式 1-3 中展示的数据生成分布上学习操作,他们称之为规则。

b500fd4a61946c0cb1ce64c9bf1f6aa2.png

给定上述分布,研究者定义了一个成为其专家的规则,也即规则 r 被定义为 p_y(·|x, c = r) ,其中 c 是表示上下文的分类变量,x 是输入序列。

任务。任务是由公式 1-3 中展示的一组规则(数据生成分布)描述。不同的{p_y(· | x, c)}_c 集合意味着不同的任务。其中对于给定数量的规则,研究者在多个任务上训练模型以消除任何对特定任务的偏见。

模块。模块化系统由一组神经网络模块组成,其中每个模块都对整体输出做出贡献。通过如下函数形式可以看出这一点。

230b87a98d2deaf1529cb8201dca5192.png

其中 y_m 表示输出,p_m 表示 m^th 模块的激活。

模型架构。模型架构描述了为模块化系统的每个模块或者单片系统的单个模块选择什么架构。在本文中,研究者考虑采用了多层感知机(MLP)、多头注意力(MHA)和循环神经网络(RNN)。重要的是,规则(或者数据生成分布)进行调整以适用于模型架构,比如基于 MLP 的规则。

数据生成过程

由于研究者的目标是通过合成数据来探究模块化系统,因此他们详细介绍了基于上文描述的规则方案的数据生成过程。具体地,研究者使用了简单的混合专家(MoE)风格的数据生成过程,希望不同的模块可以专门针对规则中的不同专家。

他们解释了适用于三种模型架构的数据生成过程,它们分别是 MLP、MHA 和 RNN。此外,每个任务下面都有两个版本:回归和分类。

MLP。研究者定义了适用于基于模块化 MLP 系统的学习的数据方案。在这一合成数据生成方案中,一个数据样本包含两个独立的数字以及从一些分布中采样的规则选择。不同的规则生成两个数字的不同线性组合以给出输出,也即线性组合的选择是根据规则进行动态实例化,如下公式 4-6 所示。

cbff403b97d04769938b572b6b7388e4.png

MHA。现在,研究者定义了针对模块化 MHA 系统的学习而调整的数据方案。因此,他们设计了具有以下属性的数据生成分布,即每个规则分别由不同的搜索、检索概念以及检索信息的最终线性组合组成。研究者在如下公式 7-11 中用数学方法描述了这一过程。

9ccb914831e4107744b5be024033c16b.png

RNN。对于循环系统,研究者定义了一种线性动态系统的规则,其中可以在任何时间点触发多个规则中的一个。在数学上,这一过程中如下公式 12-15 所示。

37c4874019f6161ce6c01394980904e6.png

模型

以往一些工作宣称端到端训练的模块系统优于单体系统,尤其是在分布式环境中。但是,对于这些模块化系统的好处以及它们是否真的根据数据生成分布进行专业化处理还没有详细和深度的分析。

因此,研究者考虑了四类允许不同程度专业化的模型,它们分别是 Monolithic(单体)、Modular(模块化)、Modular-op 和 GT-Modular。下表 1 展示了这些模型。

69152022431db498d4977e1003df6b48.png

Monolithic。单体系统是一个大型神经网络,它以整体数据 (x, c) 作为输入,并依此做出预测 y^。系统中显式 baked 的模块化或稀疏性没有出现归纳偏置,并完全取决于反向传播来学习解决任务所需的任何函数形式。

Modular。模块化系统由很多模块组成,每个模块都是给定架构类型(MLP、MHA 或 RNN)的神经网络。每个模块 m 将数据 (x, c) 作为输入,并计算输出 yˆ_m 和置信度分数,跨模块归一化为激活概率 p_m。

Modular-op。模块化操作系统与模块化系统非常相似,仅有一点不同。研究者没有将模块 m 的激活概率 p_m 定为 (x, c) 的函数,而是确保激活仅由规则上下文 C 决定。

GT-Modular。真值模块化系统作为 oracle 基准,即完美专业化的模块化系统。

研究者表明,从 Monolithic 到 GT-Modular,模型越来越多地包含模块化和稀疏性的归纳偏置。

度量

为了可靠地评估模块化系统,研究者提出了一系列度量,不仅可以衡量此类系统的性能优势,还能通过崩溃和专业化这两种重要的形式进行评估。

性能。第一组评估度量基于分布内和分布外(OoD)设置中的性能,反映了不同模型在各种任务上的表现。对于分类设置,研究者报告了分类误差;对于回归设置,研究者报告了损失。

崩溃。研究者提出了一组度量 Collapse-Avg 和 Collapse-Worst,以此来量化模块化系统遭遇到的崩溃量(也即模块未充分利用的程度)。下图 2 展示了一个示例,可以看到模块 3 未被使用。

专业化。为了对崩溃度量做出补充,研究者还提出了以下一组度量,即(1)对齐,(2)适应和(3)量化模块化系统获得的专业化程度的逆互信息。

实验

下图表明,GT-Modular 系统在大多数情况下都最优(左)的,这表明专业化是有益处的。我们还看到,在标准端到端训练的模块化系统和 Monolithic 系统之间,前者的表现优于后者但差距不大。这两个饼图共同表明,当前的端到端训练的模块化系统没有实现良好的专业化,因此在很大程度上是次优的。

146764f4bafb47991faac0797992230c.png

然后,该研究查看特定架构选择,并分析它们在越来越多的规则中的性能和趋势。 

ead169e046d0885f1b7475728237d5e5.png

图 4 显示,虽然完美的专业化系统 (GT-Modular) 会带来好处,但典型的端到端训练的模块化系统是次优的,不能实现这些好处,特别是随着规则数量的增加。此外,虽然这种端到端模块化系统的性能通常优于 Monolithic 系统,但通常只有很小的优势。

600ff40b1ebfc585e508b214ef6a7e77.png

在图 7 中,我们还看到不同模型的训练模式在所有其他设置上的平均值,平均值包含分类错误和回归损失。可以看到,良好的专业化不仅可以带来更好的性能,而且可以加快训练速度。

c871698cdd03cabf3423a618d03c6101.png

下图显示了两个崩溃度量:Collapse-Avg 、Collapse-Worst。此外下图还显示了针对不同规则数量的不同模型的三个专业化指标,对齐、适应和逆互信息:

a8e98be2c2199f3a0c17cf62f17b393a.png

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

8117b264543dea85484ddf2e6c2044e0.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481983.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

卷积神经网络概述及示例教程

来源:海豚数据科学实验室研究人员在研究图像处理算法时提出了CNN(卷积神经网络)的概念。传统的全连接网络是一种黑盒子 - 它接收所有输入并通过每个值传递到一个dense 网络,然后再传递给一个热输出。这似乎适用于少量的输入。当我…

华为公布最新“十大发明”!

来源:华为“十大发明”旨在肯定和奖励有潜力开创新的产品系列、成为产品重要商业特性,并为公司和行业带来巨大商业价值的发明或专利技术。日前,华为在深圳举办2022创新和知识产权论坛,发布了2021年华为十大发明(Huawei…

毕业设计-课程设计-Spring+SpringMVC+Mybatis项目—企业权限管理系统(1)

JavaEE:SpringSpringMVCMybatis项目—企业权限管理系统 首先给出项目演示地址:http://www.youngxy.top:8080/SSM/ 项目架构图: 一:功能需求 1.1 商品查询 基于SSM整合基础上完成商品查询,要掌握主面页面main.jsp及商…

机器人技术中的人工智能:问题和解决方案

来源:ScienceAI机器人技术是一个多元化的行业,有很多变数。它的未来充满了不确定性:没有人能预测它未来几年的发展方向和方向。机器人技术也是一个不断增长的领域,有 500 多家公司致力于产品可分为四类:传统工业机器人…

任正非最新发言:鼓励胡说八道,系统工程不能搞垄断

来源 : 深城物联6月10日,华为“心声社区”微信公众号披露了任正非5月29日与系统工程领域科学家、专家会谈纪要。在会谈纪要的记录中,任正非分享了他对于系统工程的四方面见解。任正非提到,科学就是无尽的前沿,不要急功近利。国家重…

SpringBoot:如何处理SprintBoot提示Whitelabel Error Page以及了解原因?

目录 QUESTION:如何处理SprintBoot提示Whitelabel Error Page? ANSWER: 一:产生原因 二:如何处理 2.1Whitelabel Error Page 白页 2.2新建controller包 2.3成功运行 三:根本原因分析 QUESTION:如何处理SprintBo…

作为意识计算框架的主动推理

来源:CreateAMind作为意识计算框架的主动推理 (机器翻译约八千字)摘要最近,主动推理的机械框架被提出作为发展意识的支配性理论的原则基础,这将有助于解决该领域的概念差异(威斯2018;霍维和塞斯2020).为了证…

连接MySql出现异常解决:java.sql.SQLException: The server time zone value is unrecognized or represents。

QUESTION: java.sql.SQLException: The server time zone value �й���׼ʱ�� is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via the s…

JSP和HTML中实现字符串换行

QUESTION:jsp中String字符串没有换行?怎样将含格式的String保持原有格式输出到html上? ANWSER: 目录 QUESTION:jsp中String字符串没有换行?怎样将含格式的String保持原有格式输出到html上? ANWSER: 方法…

一夜之间,谷歌AI就具有了「人格」,故事还炒得绘声绘色

来源:机器之心虽然谷歌表示不同意,还让提出这种说法的工程师「带薪休假」了。作为AI技术报道者,有点跟不上技术发展的速度了......一夜之间,谷歌AI就具有了人格,并且成功登上国内热搜。而这条消息也成功让众多网友也是…

阿里云服务器重启后无法访问的解决

QUESTION: 阿里云服务器重启后无法访问,可以PING通? ANWSER: 一、配置安全组 二、关闭防火墙 sudo systemctl stop firewalld 临时关闭 sudo systemctl disable firewalld ,然后reboot 永久关闭 sudo systemctl s…

21世纪八大新兴技术领域对美国战略威慑的影响

来源::兰德公司网站平台编辑:黄潇潇编译:沐俭,知远战略与防务研究所 【知远导读】本篇推送节选自兰德公司的报告《打破威慑——审视21世纪科技对战略威慑的影响》(Disrupting Deterrence:Examin…

让AI做决策,我们的社会准备好了吗?

来源:学术头条随着技术的加速发展,人工智能(AI)在决策过程中发挥着越来越重要的作用。人类越来越依赖算法来处理信息、推荐某些行为,甚至代表他们采取行动。但是,如果真的让 AI 帮助、甚至代替我们来做决策…

Linux下安装多个Tomcat服务器

目录 QUESTION:阿里云服务器Linux下安装多个Tomcat服务器的方法 ANSWER: 一、安装前的下载相关文件 1.1下载tomcat 1.2准备工具 二、登陆linux服务器进行安装 2.1将安装包上传到服务器 2.2解压和配置 2.3编辑环境变量 2.4生效文件 2.5修改catalina.sh 2.6修…

现在的人工智能是否走上了数学的极端?

来源:知乎—谢凌曦地址:https://www.zhihu.com/question/519393525/answer/2430233113“强基固本,行稳致远”,科学研究离不开理论基础,人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑,为…

JUnit-4.12报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing异常的解决

目录 QUESTION:JUnit-4.12报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing异常的解决? ANWSER: 问题原因: 方法一: 方法二: QUESTION:JUnit-4.12报java.lang.NoClassDefFoundError: or…

谷歌丢弃 TensorFlow:豪赌 JAX

来源:云头条・谷歌是机器学习领域的开拓者,发布了其中一种最早的通用框架TensorFlow。・Meta发布AI框架PyTorch之后,TensorFlow逐渐失去了开发人员的青睐。・如今谷歌内部正押宝在一个取代TensorFlow的新AI项目JAX上。2015年,谷歌…

Lucene基本使用和代码实现

目录 Lucene:全文检索技术 一、Lucene的介绍 1.1背景 1.2优点 1.3Lucene的缺点 1.4全文检索 二、Lucene的基本使用流程 2.1Lucene检索过程 2.2获取文档 2.3分析文档(分词) 2.4创建索引 2.5查询索引 三、Lucene具体实现 3.1下载 3.2实际开发…

深度学习的坎坷六十年

来源:机器之心编辑:极市平台从1958年弗兰克.罗森布拉特发明的感知机、RNN、LeNet-5到Transformers等等,前人们一步一步的带动着深度学习往前跑。本文主要偏向于计算机视觉方向,带大家回想智慧凝结的每一个里程碑。1958 年&#xf…

全干货!机器学习通识篇知识分享

来源:海豚数据科学实验室机器学习(通识篇).机器学习定义机器学习(Machine Learning)本质上就是让计算机自己在数据中学习规律,并根据所得到的规律对未来数据进行预测。机器学习包括如聚类、分类、决策树、贝…