Hinton的胶囊网络不太行?CVPR Oral论文:不比卷积网络更「强」

来源:机器学习研究组订阅

在一篇 CVPR 2021 Oral 论文中,来自慕尼黑大学、微软亚研的研究者对胶囊网络和卷积网络进行了全面的对比。一系列实验表明,一些被认为对胶囊网络(CapsNet)至关重要的设计组件实际上会损害它的鲁棒性,而另一些设计则有利于 CapsNet 的鲁棒性。

卷积神经网络取得了很大的成功,也很受欢迎。但是它也并不适合所有的任务。架构上的一些缺陷导致它并不能很好地完成一些任务。

因此,Hinton 和他的同事们提出了胶囊网络 (CapsNet) 作为 CNN 模型的替代。胶囊具有等变性并且输入输出都是向量形式的神经元而不是 CNN 模型中的标量值。胶囊的这种特征表示形式可以允许它识别变化和不同视角。在胶囊网络中,每一个胶囊都由若干神经元组成,而这每个神经元的输出又代表着同一物体的不同属性。这就为识别物体提供了一个巨大的优势,即能通过识别一个物体的部分属性来识别整体。

一直以来,人们普遍认为 CapsNet 比卷积网络更鲁棒。然而,还没有研究对这两个网络进行全面的比较,也不知道 CapsNet 中的哪些组件影响其鲁棒性。

在本文中,来自慕尼黑大学、微软亚研的研究者首先仔细研究了 CapsNet 中不同于图像分类的 ConvNet 网络的特殊设计,揭示了 CapsNet 中五个主要的组成部分:变换过程、动态路由层、挤压函数、除交叉熵损失之外的边际损失以及用于正则化的附加类条件重构损失。除了这些主要差异之外,研究者还对三种鲁棒性进行了全面的消融实验,包括仿射变换的鲁棒性、识别重叠数字的能力和语义表征的紧凑性。

论文地址:http://128.84.4.27/pdf/2103.15459

该研究表明,一些被认为对 CapsNet 至关重要的设计,即动态路由层和变换过程,实际上会损害它的鲁棒性,而另一些设计则有利于 CapsNet 的鲁棒性。基于这些发现,他们通过引入 CapsNet 成功背后的关键组件来增强 ConvNet。与 CapsNet 相比,本文提出的简单 ConvNet 具有更好的鲁棒性。

鲁棒性比较:胶囊网络 VS 卷积网络

在这一部分中,研究者对 CapsNet 的鲁棒性进行了实证研究。在深入研究之前,他们首先介绍了 CapsNet 和 ConvNet 的体系架构。CapsNet 是一种具有动态路由的胶囊网络 [24]。由于对 CapsNet 的研究仍处于初级阶段,将 CapsNet 与 LeNet 类型的 ConvNet——ConvNet-FC 进行了比较。ConvNet-FC 和 CapsNet 如下图 1 所示,输入是 28×28 MNIST 数据集图像。

  • ConvNet-FC:ConvNet 基准是 Conv(256, 5, 1) + Conv(256, 5, 1) + Conv(128, 5, 1) + FC(328) + FC(192) + Softmax(10) );

  •  CapsNet:CapsNet 带有动态路由,是 Conv(256, 9, 1) + Conv(256, 9, 2) + 动态路由,后面是一个重构子网络,FC(512) + FC(1024) + FC (28×28)。特征映射是通过两个标准卷积层计算的。

输入仿射变换的鲁棒性

为了检查两种模型的变换鲁棒性,研究者使用流行的基准 [24, 3],其中模型在 MNIST 上训练并在 AffNIST 上测试。数据集示例如下图 2 所示。除了 ConvNet-FC 和 CapsNet 之外,实验中还包括了基准上的 SOTA 模型,即 Aff-CapsNet。它通过消除动态路由和在转换过程中共享转换矩阵来简化 CapsNet。

结果如下表 1 所示,由结果可以得出,在 ConvNet-FC 和 CapsNet 之间存在差距。如文献 [24,3] 所述,CapsNet 优于 ConvNet-FC,Aff-CapsNet 优于 CapsNet。

研究者以 Aff-CapsNet(一个简化的 CapsNet)为基准,对下表 2 中 CapsNet 的组成部分进行了进一步的消融研究。其中,动态路由不利于变换的鲁棒性,这一结果在表 1 中也体现出来。此外,当不使用挤压函数时,CapsNet 必须将胶囊长度回归到极限值(例如 0 或 1),这是一项艰巨的任务,会导致性能不佳。边际损失(margin loss)会略微削弱 CapsNet 的变换鲁棒性,而重构对其没有影响。而非条件重构方法在每次训练迭代中更新所有的胶囊,因此性能略有提高。

基于上述发现,研究者提出了一个新的简单的 ConvNet 基准——ConvNet-Avg。以两个卷积层开始,并以全局平均池化和输出层结束,这也是图像分类中常用的体系架构。利用交叉熵损失对模型进行训练,当模型达到测试性能(99.22%)时停止训练。如表 1 所示,该研究提出的简单的 ConvNet-Avg 在参数较少的情况下取得了略好的性能。

由输入仿射变换的鲁棒性实验可得:

  • 与 ConvNet-FC 相比,CapsNet 在 AffNIST 上以较少的参数获得了更好的测试性能,研究者将差距归因于内核(kernel)大小;

  • 动态路由会损害 CapsNet 的转换鲁棒性。当路由被移除时,统一的平均投票(NoR)能更好地汇集全局信息;

  • 基准 ConvNet-Avg 显著优于 CapsNet。

识别重叠数字

文献 [24] 表明 CapsNet 通过分段能够识别重叠数字。为了检查这个属性,研究者使用 MultiMNIST 数据集进行测试,该数据集是通过将来自不同类的一个数字叠加在另一个数字之上生成的。具体来说,带有数字的 28×28 MNIST 图像,首先在每个方向上移动最多 4 个像素,从而得到 36×36 图像。生成的图像叠加到来自不同类别但相同集(训练数据集或测试数据集)的另一幅图像,具体示例如图 2c 所示。

下表 4 为识别重叠数字的性能结果,其中对 CapsNet 单个组件进行了消融实验。由结果可得,重构子网络有助于提高识别性能。然而,它不一定是类条件的。重构损失使训练过程规范化,使得关于两个数字的信息被编码在特征和高级胶囊中。边际损失可以直接应用于多目标分类任务,其性能优于标准的二值交叉熵损失。重构和边际损失都可以用于增强 ConvNet。

由识别重叠数字实验可以得到:

  • 所有组件有助于 CapsNet 识别重叠数字;

  • 非共享变换矩阵的变换过程和权重投票动态路由带来了较高的建模能力,这本质上有助于 CapsNet 在该任务上取得高性能;

  • 在这个基准测试中,具有相似参数的简单 ConvNetFC(LK)的性能优于 CapsNet,说明 CapsNet 在识别重叠数字方面并不比 ConvNet 更具有鲁棒性。

语义胶囊表征

在 CapsNet 中,当胶囊中的单个元素受到扰动时,重构的图像在视觉上发生相应的变化[24],见下图 4d。视觉上的变化往往对应于人类可以理解的语义对象的变化。在本实验中,研究者探索了哪个组件支持语义表征。由于这一特性主要通过重构子网络来实现,实验中介绍了 3 个模型:ConvNet-CR 、 ConvNet-R 和 ConvNet-CR-SF 。

训练之后,研究者在 160 种激活函数上执行了胶囊扰动实验。在 CapsNet 中,他们通过 0.05 的间隔(范围为[-0.2, 0.2])轻微调整了胶囊表征的一个维度。重建图像如图 4d 所示,可以观察到图像的语义变化,如旋转和笔画粗细。

研究者发现,当在相同的范围内扰动相应函数时,ConvNets 中的重建图像在视觉上几乎保持不变,这可能是单位激活函数的扰动范围太小导致的。所以,他们逐步地扩大范围,直到重建图像无法被识别,这时范围为[-8, 8]。重建图像如图 4a、4b 和 4c 所示。

在下图 5 中,研究者使用具有一个 2D 输入空间和 3 个输出类的示例来说明这些函数的特征。ConvNet-R 从稍微纠缠的特征中重建了输入,在 ConvNet-CR 中,不同类的特征由于自身的类条件性实现了完美的分割。ConvNet-CR-CF 通过进一步挤压向量对特征空间进行限制,这样向量可以留在流形中。

下表 5 展示了各个模型的紧密度得分。研究者推测,正是这些限制提升了表征的紧密度。具体来讲,类条件重建和挤压函数帮助 CapsNet 学习有意义的语义表征,而动态路由甚至造成了损害。这两个组件都可以集成到 ConvNets 中,其中相较于 CapsNets,ConvNet-CR-SF 学习到了更好的语义紧密表征。

由语义胶囊表征实验可得:

类条件重构和挤压函数都有助于 CapsNet 学习有意义的语义表征,而动态路由则会起到相反的效果。这两个组件可以集成到 ConvNet,其中 ConvNet-CR-SF 比 CapsNet 学习到更好的语义紧凑表征。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484508.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数量庞大!中国成长型AI企业研究报告

来源:德勤Deloitte编辑:蒲蒲日前,德勤、英特尔和深圳人工智能行业协会联合发布《中国成长型AI企业研究报告》。该报告通过对数千家成长型AI企业数据的分析研究,几百家企业的走访以及和近百家优秀企业的深度合作,就中国…

除了芯片,我们还应关注这六大核心技术!

来源:疯狂机械控企业想发展自己还是需要掌握核心技术。除了芯片以外,还有哪些核心技术是我们重点关注的呢?01 软件定义机器▼设备智能化的体现就是典型的软件定义机器,包括机器轻松连接至互联网;将APP和分析结果嵌入机…

中国科学院院士褚君浩:第四次工业革命和智能时代

来源:信息化时代第一次工业革命起源于英国,以机械化为特征。第二次工业革命,以电气化为特征。第三次工业革命,以信息化为特征。现阶段,正值第四次工业革命,此次工业革命具有以下三个特征:信息科…

数据的描述统计量

一、本文简介   一组样本数据分布的数值特诊可以从三个方面进行描述: 1、数据的水平:也称为集中趋势或位置度量,反应全部数据的数值大小。 2、数据的差异:反应数据间的离散程度。 3、分布的形状:反应数据分布的偏度和…

Science:细胞如何测量自身的大小?答案是:DNA含量

图片显示的是一个茎尖分生组织(在中间),在它的两侧出现了花蕾。绿色标记的细胞即将进入DNA复制。来源:生物通自从350多年前科学家在显微镜下发现细胞以来,他们就注意到每一种细胞都有其特有的大小。从微小的细菌到几英寸长的神经元&#xff0…

Windows 程序设计技巧

#include<iostream> #include<windows.h>using namespace std;int main() {int nSelect ::MessageBox(NULL,"windows 程序设计","测试",MB_OKCANCEL);if (nSelect IDOK){printf("OK!");}else{printf("Cancel!");}return…

兰德公司发布《美国5G时代》报告

来源&#xff1a;微信公众号科技咨询频道作者&#xff1a;谢黎、张志强&#xff0c;中国科学院成都文献情报中心兰德公司2021年5月24日发布《美国5G时代&#xff1a;在保障国家和人民的同时获得竞争优势》报告。报告援引美国国防创新委员会、联邦政府的观点&#xff0c;声称5G是…

40年诞生7位诺奖得主,美国贝尔实验室做对了什么?

贝尔实验室从1940年到1979年&#xff0c;共40年&#xff0c;历经4位总裁。这4位总裁在不同时期根据当时的形势&#xff0c;都提出了自己的管理方针&#xff0c;领导着该实验室近万名工作人员和几千名的科学家和工程师为世界和美国的科技发展作出了重要的贡献。来源&#xff1a;…

7-5 列车厢调度 (25 分)

7-5 列车厢调度 (25 分) 1 <--移动方向/ 3 \2 -->移动方向大家或许在某些数据结构教材上见到过“列车厢调度问题”&#xff08;当然没见过也不要紧&#xff09;。今天&#xff0c;我们就来实际操作一下列车厢的调度。对照上方的ASCII字符图&#xff0c…

64位系统下,一个32位的程序究竟可以申请到多少内存,4GB还是更多

前言&#xff1a; cpu的位是指一次性可处理的数据量是多少&#xff0c;1字节8位&#xff0c;32位处理器可以一次性处理4个字节的数据量&#xff0c;依次类推。32位操作系统针对的32位的CPU设计。64位操作系统针对的64位的CPU设计。操作系统只是硬件和应用软件中间的一个平台。我…

长二F发射神十二飞船圆满成功!三名航天员飞向空间站天和核心舱

来源&#xff1a;中国航天科技集团文&#xff1a;陈立 刘岩编辑&#xff1a;杨成 高一鸣校对&#xff1a;林佳昕监制&#xff1a;索阿娣6月17日9时22分长征二号F运载火箭点火起飞中国航天员聂海胜、刘伯明、汤洪波乘坐神舟十二号载人飞船在“神箭”长二F托举下从酒泉卫星发射中…

.net core中不支持GB2312编码的问题

今天在用core实现读取文件内容时出现了中文乱码的问题&#xff0c;特此记录下。代码如下&#xff1a;static void Main(string[] args){string path "F:\\1.txt";StreamReader sr new StreamReader(path, Encoding.Default);String line;while ((line sr.ReadLine…

脑机融合技术的哲学审思

来源&#xff1a;《科学技术哲学研究》2020年第6期作者&#xff1a;张学义&#xff08;东南大学哲学与科学系&#xff09;潘平平&#xff08;华为南京所&#xff09;庄桂山&#xff08;东南大学成贤学院&#xff09;国家社科基金重大项目“问题哲学理论前沿与理论创新研究”(18…

“哪里有人喜欢孤独,不过是害怕失望罢了”———村上春树《东尼泷谷》观后感...

每个人发自内心的感受&#xff0c;都是孤独的&#xff0c;哪怕表面多么欢快。 ——By 浪漫Chopin 配乐&#xff1a; http://music.163.com/song/498210/?userid539620943 东尼的一生都是孤独的&#xff0c;生下来父亲带他到处流浪&#xff0c;对他不管不问。 他自己做饭&…

“新一代城市大脑建设与发展“专家研讨会

2021年6月城市大脑全球标准研究组成员在国家级核心期刊发表论文&#xff08;6月末出版&#xff09;&#xff0c;阐述了关于城市大脑的最新进展&#xff0c;基于城市大脑全球标准研究&#xff0c;形成新一代城市大脑的“1N”模式建设方案和九个实施步骤&#xff1b;突出了直接应…

进程的控制——获取系统进程信息

获取系统进程 ToolHelp函数&#xff1b;CreateToolhelp32Snapshot函数获取当前系统内执行的进程拍快照&#xff08;Snapshot&#xff09;&#xff0c;即获得进程列表&#xff1b;Process32First函数和Process32Next函数遍历列表&#xff1b;快照头文件&#xff1a;#include<…

Science: 四万张大脑图像首次揭示人脑白质的基因基础

来源&#xff1a;青牛帮脑白质&#xff0c;是大脑内部神经纤维聚集的地方&#xff0c;由于其区域比细胞体聚集的大脑表层颜色浅&#xff0c;故名脑白质。人到了大约二十岁时&#xff0c;白质才会在不同脑区逐渐发育完全&#xff0c;而其生长的时机与成熟程度&#xff0c;会影响…

IMT-2030(6G)推进组发布《6G总体愿景与潜在关键技术》白皮书

来源&#xff1a;中国信通院CATCT编辑&#xff1a;蒲蒲当前&#xff0c;新一轮科技革命和产业变革突飞猛进&#xff0c;随着5G商用的大规模部署&#xff0c;全球业界已开启对下一代移动通信&#xff08;6G&#xff09;的探索研究。日前&#xff0c;IMT-2030(6G)推进组&#xff…

PHP中foreach遍历循环的使用(两种用法)

foreach在循环遍历数组时是很便利的&#xff0c;PHP提供了两种方法&#xff1a;1. 输出不显下标 2.输出显示下标 (注意&#xff1a; foreach不支持消除错误信息) 题目如图 输出不显下标&#xff1a; foreach($ students as $key) { echo " $key"."< br/>…