谷歌大脑最新研究:不用「训练」!高斯过程「超越」随机梯度下降

来源:雷克世界

编译:嗯~阿童木呀、多啦A亮

概要:近年来,深度神经网络作为一种灵活的参数模型,以能够适应复杂的数据模式而著称。


可以这样说,一个具有独立同分布(independent identically distributed,i.i.d)先验参数的深度完全连接神经网络,就等同于在无限网络宽度限制下的高斯过程(GP)。这种对应关系使得仅通过简单的矩阵计算,便能够为回归任务上的神经网络提供精确的贝叶斯推理。而对于单隐层网络来说,这个GP的协方差函数早已为人所知。


最近,多层随机神经网络的核函数已经被开发出来,但只适用于贝叶斯框架之外。因此,以前的研究并没有明确使用这些内核作为一个GP的协方差函数和使用一个深度神经网络进行完全贝叶斯预测之间的对应关系。在本项研究中,我们推导出了这种对应关系,并开发出一个在计算上颇为高效的管道来计算协方差函数。然后,我们使用生成的GP对MNIST和CIFAR-10上的深度神经网络进行贝叶斯推理。我们发现基于GP的预测结果非常好,并且可以超越使用随机梯度下降(SGD)进行训练的神经网络。我们观察到,随着层宽度的增加,经过训练的神经网络的精确度接近于相应的基于GP的计算,并且GP的不确定性与预测误差密切相关。然后,我们就想到,将观察结果与随机神经网络中信号传播的最新发展联系起来。


近年来,深度神经网络作为一种灵活的参数模型,以能够适应复杂的数据模式而著称。作为一种对比,长期以来,高斯过程一直是传统的非参数化建模工具。实际上,Radford Neal提出的一个对应关系(于1994年提出)在无限宽度的限制条件下将这两个模型对等起来了。


Radford Neal


我们可以考虑使用具有独立同分布随机参数的深度完全连接神经网络,网络的每一个标量输出,即最终隐藏层的仿射变换(affine transformation),将是独立同分布的总和。在无限宽度的限制条件下,中心极限定理(Central Limit Theorem)意味着经由神经网络(NN)计算的函数即是一个从高斯过程(GP)提取的函数。而在单隐层网络的情况下,这个GP内核的形式是广为人知的(Neal于1994年、Williams于1997年提出)。


这个对应意味着,如果我们选择假设空间为无限宽的神经网络,那么,权重和偏差的独立同分布先验就可以被函数相对应的GP先验所代替。正如Williams(于1997年)所指出的那样,这种替代使得我们可以使用神经网络对回归任务进行精确的贝叶斯推理。该计算需要在训练和测试集上建立必要的协方差矩阵以及简单的线性代数计算。


鉴于神经网络的普及和发展,重新审视这一领域是很有必要的。我们描述了深度神经网络和GP之间的对应关系,并利用它对回归任务的神经网络进行贝叶斯训练。



相关研究


一般来说,我们的研究涉及GP、贝叶斯学习和组合内核的各个方面。无限神经网络与GP之间的这种对应关系,最初是由Radford Neal发现的。Williams(于1997年)计算出了这种用于具有误差函数或高斯非线性的单隐层神经网络的解析GP核函数,并强调在回归任务中使用GP先验以进行精确的贝叶斯推理。Duvenaud等人(于2014年)探讨了构建深度GP的几条路径,并观察了被组成了无限多次的内核的退化形式,但他们并没有像我们那样得到GP内核的形式。Hazan和Jaakkola(于2015年)所探讨的内核依赖于辅助GP。


我们在GP上下文之外也进行了相关的研究,但这是在组合内核结构进行的。Cho和Saul(于2009年)推导出了一个多项式级的非线性的组成核,其中包括Sign和ReLU非线性,并可用于GP中。可以说,尽管上下文是不同的,但我们的核心构成方式与他们的是相符的。Daniely等人(于2016年)将组合内核的构造扩展到了神经网络,其潜在的有向无环图(他们称之为“计算框架”)是通用的。他们还证明,利用双重激活形式化情况下,由完全连接的拓扑构成的具有相同非线性的组合内核在无限多次组合的情况下将变得退化。在与组成内核不同的背景下,Poole等人(于2016年)、 Schoenholz等人(于2017年)针对完全连接网络和有界非线性的具体情况研究了相同的潜在递归关系。它们区分了超参数空间中具有不同的固定点和收敛行为的区域。进行这些研究的重点是更好地理解深度网络的表达性和可训练性。


从一个递归的、确定性的内核函数计算方面考虑的话,我们首先指定一个GP的形式,它对应于一个深度的、无限宽度的神经网络——(以下称为神经网络GP(NNGP))。该方法对于通用的逐点非线性是非常有效的。我们开发了一个在计算上非常有效的方法,用以计算与具有固定超参数的深度神经网络相对应的协方差函数。


在这项研究中,作为我们NNGP构造概念的第一个证明,我们关注的是回归任务中的精确贝叶斯推理,并将分类视为类标签上的回归。虽然缺乏原则性,但最小二乘分类表现良好(Rifkin等人于2003年提出),使我们能够将通过GP得到的精确推理,与通过在复杂任务(MNIST和CIFAR-10分类)上得以训练的神经网络得到预测相比较。需要注意的是,我们有可能将GP扩展到具有交叉熵损失的softmax分类中(Williams和Barber于1998年、 Rasmussen和Williams于2006年提出),而这是我们打算在接下来的工作中着手研究的。我们在MNIST和CIFAR-10上进行了贝叶斯预测的实验,并与基于梯度的标准方法进行训练的神经网络进行比较。实验探讨了贝叶斯训练的不同的超参数设置,包括网络深度、非线性、训练集大小(包括由成千上万的图像组成的完整数据集),以及权重和偏差方差。我们的实验表明,NNGP的最佳性能始终优于用基于梯度的技术训练的神经网络的NNS,并且从超参数中选择的最佳NNGP设置也常常超过传统训练的结果。我们进一步观察随着网络宽度的增加,基于梯度训练的神经网络的性能接近于NNGP计算。此外,NNGP的性能取决于内核的结构,它可以与在具有随机参数网络中的信号传播的近期研究联系起来(Schoenholz等人于2017年提出)。


结论和未来的方向


通过利用无限宽度的限制,我们已经指定了深度神经网络的先验和高斯过程之间的对应关系,其核函数是组合的,但是以全确定和可微的方式构建。在函数使用GP先验可以实现对矩阵计算回归的精确贝叶斯推断,因此我们能够在没有基于随机梯度的训练的情况下从深度神经网络获得预测和不确定性估计。在类似的超参数设置下,性能与在同一回归任务上训练的最好的神经网络相当。虽然我们能够对有些较大的数据集(大小为50k)进行实验,但是我们打算利用最新的可扩展GP研究更大规模的学习任务的可扩展性。


在已经提到的那些方面,我们建议另外一些有趣的方向。在我们的实验中,我们观察到优化的神经网络的性能接近于宽度增加的GP计算。基于梯度的随机优化是否实现近似贝叶斯计算是一个有待进一步研究的有趣问题。最近的研究认为,SGD可以从贝叶斯后验近似采样,需要进一步的研究来确定SGD是否在实践中通常采用的条件下大致实现了贝叶斯推断。此外,神经网络GP(NNGP)提供了明确的不确定性评估。这对于预测深度学习的关键应用中的模型失效,或者用于主动学习任务(其可以用于识别手工标签的最佳数据点)可能是有用的。

 

论文下载:https://arxiv.org/pdf/1711.00165.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498303.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Facebook最新对抗学习研究:无需「平行语料库」完成「无监督」机器翻译

来源:雷克世界 编译:嗯~阿童木呀、多啦A亮 概要:得益于最近在深度学习方面取得的进展以及大规模平行语料库的可用性,现如今,机器翻译已经在多个语言对上取得了令人印象深刻的表现。 相信大家都知道,最近在机…

结合脑成像技术与人工智能,破除自杀的“诅咒”

来源:36氪 概要:近日发表的一项研究,介绍了一种通过人工智能与脑成像技术结合的方法来预测自杀倾向的方法。在初步的试验中,准确率达到了91%。 自杀已经成为了一个公共健康领域的“诅咒”,正在夺取越来越多的生命。在很…

Linux软件安装部署文档,MetaQ安装部署文档

一.MetaQ安装部署情况:地点IPBroker IDMaster/SlaveSlave ID:Group合肥192.168.52.231Slave1:meta-slave-group-hf北京192.168.51.331Master/广州192.168.70.1571Slave2:meta-slave-group-gz二.MetaQ安装1. 前提已有安装了ZooKeeper的机器&am…

美媒:中关村取代硅谷获评全球最大科技中心

来源:澎湃 概要:北京被评为2017年度全球最大科技城市第一名,中关村已取代硅谷成为全球最大的科技中心。 美媒称,一份最新报告显示,北京被评为2017年度全球最大科技城市第一名,中关村已取代硅谷成为全球最大…

linux 和服务通讯,Android 的Activity和Service之间的通信

在Android中Activity负责前台界面展示,service负责后台的需要长期运行的任务。Activity和Service之间的通信主要由IBinder负责。在需要和Service通信的Activity中实现ServiceConnection接口,并且实现其中的onServiceConnected和onServiceDisconnected方法…

【MLA首日报告摘要】周志华、马毅等教授分享机器学习最新进展

来源:专知 概要:第15届中国机器学习及其应用研讨会今天11月4日在北京交通大学举行,海内外从事机器学习及相关领域研究的10余位专家与会进行学术交流。 第15届中国机器学习及其应用研讨会今天11月4日在北京交通大学举行,海内外从事…

埃森哲5G智慧城市报告:美国GDP将狂增5千亿

来源:智东西 概要:第五代通信技术将不仅仅带来网速的提高(eMBB),更意味着可靠的低延时(uRLLC)海量物联网(mMTC)。 5G被认为是万物互联的开始。第五代通信技术将不仅仅带来…

星际旅行、返老还童…1.3万字看完今年的WE大会,简直就是一部科幻电影

来源:腾讯科技 概要:在第五届WE大会上,科学家们的“脑洞”更大了:星际旅行、返老还童等一个个过去科幻电影里的镜头出现了。 11月5日,WE大会在老时间、老地点如约而至。 时光飞速,WE大会如今已经是第五届了…

智能优化算法应用:基于战争策略算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于战争策略算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于战争策略算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.战争策略算法4.实验参数设定5.算法结果6.…

从芯片巨头沦落到收购对象 高通是怎样失去魔力的?

来源:凤凰科技 概要:过去5年,高通股价几乎是原地踏步,而其他科技公司的股价却一直在快速上涨。 据《福布斯》北京时间11月6日报道,在华尔街,高通已经失去昔日魔力。过去5年,高通股价几乎是原地踏…

2017年中国人工智能产业专题研究报告(完整版)

来源:数据观 概要:目前,中国的人工智能研究处于爆发期,行业巨头公司正逐渐完善自身在人工智能的产业链布局,而不断涌现出的创业公司将持续在垂直领域深耕深挖。 目前,中国的人工智能研究处于爆发期&#x…

周志华:最新实验表明gcForest已经是最好的非深度神经网络方法

北京时间 11月5 日到11月6日,西瓜书《机器学习》作者、南京大学机器学习与数据挖掘研究所(LAMDA)周志华教授日前在MLA 2017上的演讲:深度森林初探——讲述的关于他最新集成学习研究成果-深度森林,一种对深度神经网络可…

中国工程程院院士高文:从大数据科学到人工智能的迁移过程

概要:中国工程程院院士、北京大学教授高文应邀参加JDD京东金融全球数据探索者大会,并进行了以“探索大数据,迎接人工智能时代”为主题的演讲。 来源:亿欧 11月6日,京东举行JDD京东金融全球数据探索者大会,在…

2017全球硬科技创新大会今日开幕 科技大腕聚集共绘西安“硬科技”发展蓝图

概要:2017全球硬科技创新大会今天在西安开幕。 来源:中国科技网 科技大腕聚集共绘西安“硬科技”发展蓝图 2017全球硬科技创新大会今天在西安开幕。本次大会参会人数超过5000人,其中有诺贝尔奖获得者、国内外相关领域院士专家、科技企业领袖、…

c语言能实现帧动画吗,CSS3 animation属性中的steps实现GIF动图(逐帧动画)

相信 animation 大家都用过很多,知道是 CSS3做动画用的。而我自己就只会在 X/Y轴 上做位移旋转,使用 animation-timing-function 规定动画的速度曲线,常用到的 贝塞尔曲线。但是这些动画效果都是连续性的。今天发现个新功能 animation-timing…

Sorenson Capital:值得投资的 5 种 AI 技术

概要:身为投资者的你,如果看好AI和机器学习的前景,又该在AI公司遍地开花的市场中,选择什么样的公司进行投资? 来源:36Kr 值得投资的机器学习和人工智能的应用有哪些? 人工智能、神经网络、机器…

这个重量级产业,中国正在爆发!

来源:全球新论坛 概要:中国在汽车领域和先进国家差距很大,但是我们至少做了一件对的事情,在中国销售的车辆都是在中国制造。 集成电路产业是中国产业升级的重中之重,我们都知道汽车是人类第一大工业,中国在…

AI论文引用排行榜丨微软第一,清华第九;Alphabet董事长看AI:美国仅领先5年,大陆追赶速度快;

来源:集微网 概要:根据The Verge报导,Schmidt表示,美国在AI人工智慧领域落后的风险相当高,他预测未来5年美国还有领先的实力,但之后大陆追上来的速度会非常快。 1.AI论文引用排行榜:微软第一,清华第九; 日经…

MIT 的新型开源系统 Taco 将数据分析速度提升 100 倍 !(附论文)

来源:全球人工智能 概要:麻省理工学院(MIT)开发的一种新型计算机系统为涉及“稀疏张量”(sparse tensor)的计算加快了速度,稀疏张量是主要由0组成的多维数据数组。 麻省理工学院&#xff08…

android动态设置文本居中显示图片,Android DrawableTextView图片文字居中显示实例

在我们开发中,TextView设置Android:drawableLeft一定使用的非常多,但Drawable和Text同时居中显示可能不好控制,有没有好的办法解决呢?小编的方案是通过自定义TextView实现。实现的效果图:注:第一行为原生Te…