CapsNet日益火爆!Hinton大神横扫AI界的「胶囊网络」如何理解?


来源:雷克世界

编译:嗯~阿童木呀

概要:Geoff Hinton等人最近关于胶囊网络(Capsule networks)的论文在机器学习领域造成相当震撼的影响。



Geoff Hinton等人最近关于胶囊网络(Capsule networks)的论文在机器学习领域造成相当震撼的影响。它提出了理论上能更好地替代卷积神经网络的方案,是当前计算机视觉领域的最新技术。



首先,我想谈谈神经网络那些令人困惑的术语。机器学习中的许多想法来源于符号数字化的认知概念。为了演示,我们以神经元为例。在物质世界中,这是一组细胞,以信号作为输入,并发出一些信号作为输出,只要它足够兴奋。虽然这是一个简单直白的解释,但这最终是对“神经网络”机器学习概念的充分体现。在这里,神经元是一个数学单位,它接受一个输入,并使用一系列函数给出输入的输出。我们学习权重来确定在训练阶段哪个特定的输入可能比使用反向传播的输入更重要。我们可以堆叠这些神经元,使得一层神经元的输出成为另一层神经元的输入。所有类型的神经元都取自从这个基本概念,包括递归神经网络和卷积神经网络。


现在让我们来描述胶囊的概念。像基本的神经元一样,它们也代表了一个认知思想的符号数字化。大脑的高层做了更多的演绎、理解和高层次特征的计算,大脑的特定部分在他们处理的领域或主题上有明确的含义。我们并不是将所有维度的数据都放在整个大脑中,而是“喂食(feed in)”较低级别的特征,以供大脑的高层部分处理,从而将认知负荷从较高级别的处理中移除。如果较低级别的功能与大脑某些较高级别的部分不相关,则不应将其发送到那里。它的信号至少应该有所减弱。


这些胶囊被设想为用以处理识别姿势的问题。就是说,当一个模型原先是被训练来对一只狗进行识别时,但却变得依赖于视野内该狗所在的方向。如果将这只狗转个方向,并试图从不同的角度对其拍照,那么该模型在对狗进行识别时可能会遇到麻烦。为了解决这一问题,胶囊试图通过让“符号数学大脑(symbolic mathematical brain)”(即网络)的更高级别部分来处理复杂特征的识别和姿势认证,而较低级别部分用来处理“子”特征。一个较高级别的胶囊可以识别出一张脸部特征,而这是基于较低级别的胶囊是以一个相一致的方向来对嘴巴和鼻子进行识别的。


卷积神经网络目前并不是这样做的,相反,他它们依靠的是大量的数据,其中将该目标可能拥有的所有姿势都包含在内,当然,它们也具有其他的缺点。


对于初学者来说,这是一个上下文的问题。信息有时需要在上下文中才能有效。Geoff Hinton自己遇到过这样一个示例:一个四面体被切成两半之后,即使是麻省理工学院的教授也很难将其恢复成原形。其实,很难确切地去弄明白这是为什么,但它似乎与我们的参考框架有关:我们选择查看目标的方式可以决定我们对其进行操作和识别的方式。而胶囊网络可以潜在地通过将该信息嵌入特定胶囊中来解决这个问题,而该特定胶囊对所涉及的上下文进行学习,然后将该信息馈送到网络的更高部分。


其次,卷积神经网络通过池化的方式将多个特征检测器合并在一起。前层神经网络作为特征馈入到后层中。人们认为,这些早期网络充当的是特征检测器,因为早期网络识别的是非常基本的特征,而后续网络可以识别耳朵、眼睛等器官特征。通过将它们池化在一起,可以解决方差问题,即就模型而言,图片中左手边的耳朵可能与右手边的耳朵不是一样的。


尽管如此,池化的结果也是非常不稳定的,它使得信息分布在许多个而不是少数几个神经元中。因此,每个神经元必须更努力地运行。如果我们能够对神经元进行特定化以便处理特定的识别,那结果将会好很多。我们可以有一个专门用来寻找鼻子的胶囊,一个专门用来寻找嘴巴的胶囊。这样的话,这些胶囊可以很好地对那些非常特殊的目标进行识别,因为就整个网络而言,它们没有别的事情要做。


与之相关的是Geoff Hinton教授的理想目标,即拥有一个目标可以转化到其中的更高的空间域。每次,不管方向如何,在这个更高的域空间内目标都被转换成了相同的刚性形状。达到该目标的一种方法是使用特定的胶囊以帮助将目标转化到更高的域空间中。


为了建立一个胶囊网络,我们可以从1980年代的发明——霍夫变换(Hough Transforms)中获得灵感。其应用的基本思想是有一个两部分的结构,我将其称之为斑点(speck)。一般的speck预测坐标系为X的概率,另一半预测姿势。然后将这些child_speck_s馈送到父speck中。如果获得这些child_speck_s的足够多的同意后,那么父speck就会给出坐标系为Y的概率,这是一个比X更复杂的目标。例如,child_speck_s可以预测嘴巴、鼻子和眼睛及其所处的方向,然后将其馈送到能够预测到脸部及其姿势的父speck中。


现在,让我们用胶囊代替那些神经元。较低级别的胶囊通过识别该目标的较简单的子部分来做一个该目标可能是什么的“弱赌注”,然后一个更高级别的胶囊会采取这些低级别的赌注,并试图看看它们是否同意。如果它们中有足够多的同意,那么这个目标就是Y,这可能是非常巧合。而这就是这些胶囊网络运行方式的本质。


而问题在于:我们该如何路由这些较低级别的胶囊,以便将它们送到正确的、更高级别胶囊中?


这就是前些天Hinton等人又推出的创新性研究。(该论文于10月26日上传,11月7日又做了更新)


那么这个路由算法的运行原理是什么呢?为了搞明白这一点,我们需要定义一些关键的想法。为了简化,我们将假设一个两层的胶囊网络。将原始特征馈送到层LA中,并将来自层LA的输出馈送到层LB中,其中两个层都是由胶囊组成的。


首先,我们对来自层LA并会输入到层LB的称之为u的输出矩阵进行加权,然后这些权重将被存储为一个向量W,将这两者相乘将得到u'。


然后,路由算法决定一个称为耦合系数c的附加参数,这个系数将减少发送到不正确的胶囊的信息,这可以通过适当减少它们的权重实现。我们还通过使用特定函数来“压缩(squash)”整个输入,这将确保低幅值向量被压缩到几乎为零,而高幅值向量将得到一个只略小于1的长度。这是因为本文中的动态路由算法使用向量的幅度来表示目标在正确输入中出现的概率。因此,这些输入向量不必太过于专注幅度。


我将在这里简单描述路由算法。你可以在论文中看到更为具体的确切形式。需要记住的是,他们提到这个只是一种可以实现路由算法的方法,所以随着时间的推移,可能会有更多的猜测出现。


作为背景,b用来表示对数先验概率,并且耦合因子c被确定为b的softmax函数。


对于层LA和层LB层中的每个胶囊,我们将先验b设置为0。然后,对于r迭代,我们遍历每个胶囊并将耦合因子c设置为b的softmax函数。我们通过将c与u'相乘来计算s。产生的结果值将被称为s。进入层LB的每一个输入都用适当的函数进行“压缩”以得到v。然后对每个胶囊,我们通过将u和v的值加到b中以对其进行调整。


下面是一个更为精确、学术更为友好的算法显示:


# Dynamic Routing Algorithm

for all capsules _i_ in layer A and capsules _j_ in layer B, set _b_

to 0

for _r_ iterations:

for all capsules i in layer A: _c_ is the softmax of _b_

for all capsules j in layer B: _s_ is the multiplication of _c_ &

_u_

for all capsules j in layer B: _v_ is the squashed input of _s_

fir all capsules i in layer A and capsules j in layer B: _b_ is

set to _b_ + _u'_ * _v_


这篇论文包含的内容还有很多,我可能会在接下来的文章中阐述更多,主要是有关在MNIST数据集上的性能以及使用称为CapsNet的卷积神经网络进行的特定实现。


使用Keras实现CapsNet:https://github.com/XifengGuo/CapsNet-Keras

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498242.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html code box插件,VS Code常用插件

基础必备插件1、View In Browser在浏览器里预览网页必备。2、vscode-icons改变编辑器里面的文件图标,个人比较稀饭这个。其他的这里就不说了。在这里插入图片描述3、Bracket Pair Colorizer给嵌套的各种括号加上不同的颜色。在这里插入图片描述4、Highlight Matchin…

新研究旨在用“黑箱”算法解决人工智能偏差问题

来源:亿欧 概要:随着越来越多的自动化决策,能够理解AI如何思考对我们来说变得越来越重要。 随着越来越多的自动化决策,能够理解AI如何思考对我们来说变得越来越重要。从挑选股票到检查X射线,人工智能越来越多地被用来…

清华大学:刘洋——基于深度学习的机器翻译

来源:图灵人工智能 概要:机器翻译的目标是利用计算机实现自然语言之间的自动翻译。机器翻译经历了规则机器翻译、统计机器翻译、神经机器翻译。 刘洋,清华大学计算机科学与技术系副教授,博士生导师,国家优秀青年基金获…

CMU本科计算机科学,CMU计算机科学学院本科难录吗?

卡内基梅陇大学计算机科学学院难录吗?CMU各个学院最难录的一个!1、2020第一学年新生计算机科学学院本科录取率:APPLICATIONS:6,681ADMITTED:479ENROLLED:219录取率:7%2、2020年卡内基梅陇大学计算机科学学院本科录取分数要求&…

从神经科学到计算机视觉:人类与计算机视觉五十年回顾

来源:全球人工智能 概要:在过去某段时间里,研究者们可能从来没有想过创建类似人类大脑处理任务一样的系统。 如何像人类大脑一样完成一项视觉任务是复杂的,比如深度感知、目标跟踪、边缘检测等,而扫描环境和定位是大脑…

计算机维修队,浙江万里学院计算机维修队

浙江万里学院计算机维修队语音编辑锁定讨论上传视频浙江万里学院计算机维修队是在校团委、计算机与信息学院的直接关怀与支持下,于2001年成立的一个公益性学生社团。她集维修、咨询、开展活动于一体,拥有较强的技术实力。计算机维修队根本任务是在浙江万…

深度解读:美国自动驾驶技术及测试示范区现状

来源: 公安部交通管理科研所微发布 作者:袁建华、王敏、陆文杰、罗为明、郑羽强 ,道路交通集成优化与安全分析技术国家工程实验室自动驾驶测试技术研发部 当前,美、欧、日等发达国家及地区对智能网联技术的支持不仅是在政策研究、…

计算机一级考试题组成,计算机一级考试试题汇总

计算机一级考试试题汇总2017年9月计算机一级考试将于9月23日-26日进行,为帮助考生们复习备考,以下是百分网小编搜索整理的一份计算机一级考试试题汇总。A 第一部分:单选题(每小题1分共30分)注意:打开你考试文件夹中的EXCEL工作簿文…

AI吉尼斯:那些你不知道的人工智能之“最”

来源:百度AI 概要:今天我们在这里隆重召开第一届(可能也是最后一届)AI吉尼斯,为各路AI好汉颁发“世界之最”大奖杯。 《吉尼斯世界纪录大全》里的这些人类都这么拼了,服(i)务&#…

深度 | 谷歌的新CNN特征可视化方法,构造出一个华丽繁复的新世界

作者:晓凡 概要:近日,来自谷歌大脑和谷歌研究院的一篇技术文章又从一个新的角度拓展了人类对神经网络的理解,得到的可视化结果也非常亮眼、非常魔性。 深度神经网络解释性不好的问题一直是所有研究人员和商业应用方案上方悬着的一…

年增长率超50%,AI芯片竞争白热化

来源:华尔街日报 概要:随着智能手机和个人电脑销售数量减少,芯片厂商正在竞相开发人工智能产品,以推动业绩增长。 随着智能手机和个人电脑销售数量减少,芯片厂商正在竞相开发人工智能产品,以推动业绩增长。…

win7需要计算机管理员权限,Win7系统提示“需要管理员权限”如何解决?

最近有Win7系统用户反映,很经常在安装软件或者对文件进行操作的时候,系统提示“需要管理员权限”,这让用户感觉很厌烦。其实对于这个问题,可能是系统设置问题,也可能是文件本身设置了安全访问限制,只要进行…

IBM超越谷歌抵达量子计算里程碑:研制出50量子位计算机

来源:澎湃新闻 概要:当地时间11月10日,在美国电气和电子工程师协会(IEEE)的工业峰会上,IBM对外宣布,公司已经成功研发20位量子比特的量子计算机,可在年底向付费客户开放。更值得一提…

AI、区块链和机器人:技术会让未来的工作发生什变化?

来源:36氪 概要:随着人工智能、区块链和机器人等颠覆性新技术的不断发展,人们对其也流露出了一些担忧的情绪,担心未来的就业机会越来越少,担心自己的岗位会被“机器”取代。 随着人工智能、区块链和机器人等颠覆性新技…

亚马逊 Alexa 的理想未来,会是智能手机时代的终结吗?

来源:36氪 概要:亚马逊的做法是否与十年前的苹果有点像呢? 随着亚马逊 Echo Show 和 Echo Spot 的推出,我们可以发现亚马逊助理设备的交互途径已经开始从智能扬声器迁移到触摸屏,亚马逊的这一举措背后意义何在呢&…

中山大学计算机是A类学科吗,中山大学a类学科有哪些?附中大a类学科名单

选择科目测一测我能上哪些大学选择科目领取你的专属报告>选择省份关闭请选择科目确定v>中山大学是广东省一所知名高校,位于广东省广州市,是我国著名的“211大学”、“985工程”之一,现已入选“双一流”建设高校。本期,小编将…

究竟深度学习在干什么?

来源:人机与认知实验室 概要: 深度学习取得了巨大的成功,这是无容置疑的。对此,我们不必再多说什么。但是,其理论基础仍然有很大的空白。 深度学习取得了巨大的成功,这是无容置疑的。对此,我们不…

128位计算机 ps2,64位就最强?为啥没有128位电脑?

虽然CPU只有64位,但是我们在选择显卡的时候可以看到显存有128位甚至256位的,那么这里的位数指的意思一样吗?既然64位的操作系统相比32位有更大的优势,那么为什么没有128位的操作系统和CPU呢?64位性能优势明显我们先简单…

微信AI体验中心发布上线了!

来源:全球人工智能 概要:微信的所有用户都可以直接通过微信小程序进行搜索“AI体验中心”进行使用! 最新消息,微信发布了“AI体验中心”小程序!微信的所有用户都可以直接通过微信小程序进行搜索“AI体验中心”进行使用…

新技术:如何用VR训练机器人?

来源:亿欧 概要:然而,如果请一个机器人来抓取同样的东西,你只会看到一个发呆的机器人或得到一团皱巴巴的东西抓在机器人手里。 帮我个忙,抓住你周围的一件东西。随便你怎么做,即使你以前从来没有做过这种事…