谷歌大脑最新研究:不用「训练」!高斯过程「超越」随机梯度下降

来源:雷克世界

编译:嗯~阿童木呀、多啦A亮

概要:近年来,深度神经网络作为一种灵活的参数模型,以能够适应复杂的数据模式而著称。


可以这样说,一个具有独立同分布(independent identically distributed,i.i.d)先验参数的深度完全连接神经网络,就等同于在无限网络宽度限制下的高斯过程(GP)。这种对应关系使得仅通过简单的矩阵计算,便能够为回归任务上的神经网络提供精确的贝叶斯推理。而对于单隐层网络来说,这个GP的协方差函数早已为人所知。


最近,多层随机神经网络的核函数已经被开发出来,但只适用于贝叶斯框架之外。因此,以前的研究并没有明确使用这些内核作为一个GP的协方差函数和使用一个深度神经网络进行完全贝叶斯预测之间的对应关系。在本项研究中,我们推导出了这种对应关系,并开发出一个在计算上颇为高效的管道来计算协方差函数。然后,我们使用生成的GP对MNIST和CIFAR-10上的深度神经网络进行贝叶斯推理。我们发现基于GP的预测结果非常好,并且可以超越使用随机梯度下降(SGD)进行训练的神经网络。我们观察到,随着层宽度的增加,经过训练的神经网络的精确度接近于相应的基于GP的计算,并且GP的不确定性与预测误差密切相关。然后,我们就想到,将观察结果与随机神经网络中信号传播的最新发展联系起来。


近年来,深度神经网络作为一种灵活的参数模型,以能够适应复杂的数据模式而著称。作为一种对比,长期以来,高斯过程一直是传统的非参数化建模工具。实际上,Radford Neal提出的一个对应关系(于1994年提出)在无限宽度的限制条件下将这两个模型对等起来了。


Radford Neal


我们可以考虑使用具有独立同分布随机参数的深度完全连接神经网络,网络的每一个标量输出,即最终隐藏层的仿射变换(affine transformation),将是独立同分布的总和。在无限宽度的限制条件下,中心极限定理(Central Limit Theorem)意味着经由神经网络(NN)计算的函数即是一个从高斯过程(GP)提取的函数。而在单隐层网络的情况下,这个GP内核的形式是广为人知的(Neal于1994年、Williams于1997年提出)。


这个对应意味着,如果我们选择假设空间为无限宽的神经网络,那么,权重和偏差的独立同分布先验就可以被函数相对应的GP先验所代替。正如Williams(于1997年)所指出的那样,这种替代使得我们可以使用神经网络对回归任务进行精确的贝叶斯推理。该计算需要在训练和测试集上建立必要的协方差矩阵以及简单的线性代数计算。


鉴于神经网络的普及和发展,重新审视这一领域是很有必要的。我们描述了深度神经网络和GP之间的对应关系,并利用它对回归任务的神经网络进行贝叶斯训练。



相关研究


一般来说,我们的研究涉及GP、贝叶斯学习和组合内核的各个方面。无限神经网络与GP之间的这种对应关系,最初是由Radford Neal发现的。Williams(于1997年)计算出了这种用于具有误差函数或高斯非线性的单隐层神经网络的解析GP核函数,并强调在回归任务中使用GP先验以进行精确的贝叶斯推理。Duvenaud等人(于2014年)探讨了构建深度GP的几条路径,并观察了被组成了无限多次的内核的退化形式,但他们并没有像我们那样得到GP内核的形式。Hazan和Jaakkola(于2015年)所探讨的内核依赖于辅助GP。


我们在GP上下文之外也进行了相关的研究,但这是在组合内核结构进行的。Cho和Saul(于2009年)推导出了一个多项式级的非线性的组成核,其中包括Sign和ReLU非线性,并可用于GP中。可以说,尽管上下文是不同的,但我们的核心构成方式与他们的是相符的。Daniely等人(于2016年)将组合内核的构造扩展到了神经网络,其潜在的有向无环图(他们称之为“计算框架”)是通用的。他们还证明,利用双重激活形式化情况下,由完全连接的拓扑构成的具有相同非线性的组合内核在无限多次组合的情况下将变得退化。在与组成内核不同的背景下,Poole等人(于2016年)、 Schoenholz等人(于2017年)针对完全连接网络和有界非线性的具体情况研究了相同的潜在递归关系。它们区分了超参数空间中具有不同的固定点和收敛行为的区域。进行这些研究的重点是更好地理解深度网络的表达性和可训练性。


从一个递归的、确定性的内核函数计算方面考虑的话,我们首先指定一个GP的形式,它对应于一个深度的、无限宽度的神经网络——(以下称为神经网络GP(NNGP))。该方法对于通用的逐点非线性是非常有效的。我们开发了一个在计算上非常有效的方法,用以计算与具有固定超参数的深度神经网络相对应的协方差函数。


在这项研究中,作为我们NNGP构造概念的第一个证明,我们关注的是回归任务中的精确贝叶斯推理,并将分类视为类标签上的回归。虽然缺乏原则性,但最小二乘分类表现良好(Rifkin等人于2003年提出),使我们能够将通过GP得到的精确推理,与通过在复杂任务(MNIST和CIFAR-10分类)上得以训练的神经网络得到预测相比较。需要注意的是,我们有可能将GP扩展到具有交叉熵损失的softmax分类中(Williams和Barber于1998年、 Rasmussen和Williams于2006年提出),而这是我们打算在接下来的工作中着手研究的。我们在MNIST和CIFAR-10上进行了贝叶斯预测的实验,并与基于梯度的标准方法进行训练的神经网络进行比较。实验探讨了贝叶斯训练的不同的超参数设置,包括网络深度、非线性、训练集大小(包括由成千上万的图像组成的完整数据集),以及权重和偏差方差。我们的实验表明,NNGP的最佳性能始终优于用基于梯度的技术训练的神经网络的NNS,并且从超参数中选择的最佳NNGP设置也常常超过传统训练的结果。我们进一步观察随着网络宽度的增加,基于梯度训练的神经网络的性能接近于NNGP计算。此外,NNGP的性能取决于内核的结构,它可以与在具有随机参数网络中的信号传播的近期研究联系起来(Schoenholz等人于2017年提出)。


结论和未来的方向


通过利用无限宽度的限制,我们已经指定了深度神经网络的先验和高斯过程之间的对应关系,其核函数是组合的,但是以全确定和可微的方式构建。在函数使用GP先验可以实现对矩阵计算回归的精确贝叶斯推断,因此我们能够在没有基于随机梯度的训练的情况下从深度神经网络获得预测和不确定性估计。在类似的超参数设置下,性能与在同一回归任务上训练的最好的神经网络相当。虽然我们能够对有些较大的数据集(大小为50k)进行实验,但是我们打算利用最新的可扩展GP研究更大规模的学习任务的可扩展性。


在已经提到的那些方面,我们建议另外一些有趣的方向。在我们的实验中,我们观察到优化的神经网络的性能接近于宽度增加的GP计算。基于梯度的随机优化是否实现近似贝叶斯计算是一个有待进一步研究的有趣问题。最近的研究认为,SGD可以从贝叶斯后验近似采样,需要进一步的研究来确定SGD是否在实践中通常采用的条件下大致实现了贝叶斯推断。此外,神经网络GP(NNGP)提供了明确的不确定性评估。这对于预测深度学习的关键应用中的模型失效,或者用于主动学习任务(其可以用于识别手工标签的最佳数据点)可能是有用的。

 

论文下载:https://arxiv.org/pdf/1711.00165.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498303.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux多进程优先级,Linux多线程之优先级

1、多线程的作用: 即什么情况考虑使用多线程?2、多线程的创建: 默认参数创建即可!pthread_create(&tid,NULL,(void *)thread_func,NULL);3、多线程的同步: 掌握互斥&#xff…

Facebook最新对抗学习研究:无需「平行语料库」完成「无监督」机器翻译

来源:雷克世界 编译:嗯~阿童木呀、多啦A亮 概要:得益于最近在深度学习方面取得的进展以及大规模平行语料库的可用性,现如今,机器翻译已经在多个语言对上取得了令人印象深刻的表现。 相信大家都知道,最近在机…

linux的软件很大,linux软件raid10,机器相同,结果差异很大

我在两台相同的机器上拥有完全不同的软件raid10性能和行为.我有两台硬件相同的机器,同时购买,具有相同的软件版本,硬件版本和固件版本.每个都有一个带有8 x 6 Gb / s通道的SAS控制器连接到SAS机箱,该机箱可容纳12个SAS磁盘.在机器1上,它是稳定的并且似乎工作正常,raid阵列中的每…

结合脑成像技术与人工智能,破除自杀的“诅咒”

来源:36氪 概要:近日发表的一项研究,介绍了一种通过人工智能与脑成像技术结合的方法来预测自杀倾向的方法。在初步的试验中,准确率达到了91%。 自杀已经成为了一个公共健康领域的“诅咒”,正在夺取越来越多的生命。在很…

Linux软件安装部署文档,MetaQ安装部署文档

一.MetaQ安装部署情况:地点IPBroker IDMaster/SlaveSlave ID:Group合肥192.168.52.231Slave1:meta-slave-group-hf北京192.168.51.331Master/广州192.168.70.1571Slave2:meta-slave-group-gz二.MetaQ安装1. 前提已有安装了ZooKeeper的机器&am…

美媒:中关村取代硅谷获评全球最大科技中心

来源:澎湃 概要:北京被评为2017年度全球最大科技城市第一名,中关村已取代硅谷成为全球最大的科技中心。 美媒称,一份最新报告显示,北京被评为2017年度全球最大科技城市第一名,中关村已取代硅谷成为全球最大…

linux 和服务通讯,Android 的Activity和Service之间的通信

在Android中Activity负责前台界面展示,service负责后台的需要长期运行的任务。Activity和Service之间的通信主要由IBinder负责。在需要和Service通信的Activity中实现ServiceConnection接口,并且实现其中的onServiceConnected和onServiceDisconnected方法…

【MLA首日报告摘要】周志华、马毅等教授分享机器学习最新进展

来源:专知 概要:第15届中国机器学习及其应用研讨会今天11月4日在北京交通大学举行,海内外从事机器学习及相关领域研究的10余位专家与会进行学术交流。 第15届中国机器学习及其应用研讨会今天11月4日在北京交通大学举行,海内外从事…

linux汇编字符长怎么看,linux – 在内联GNU汇编程序中获取字符串长...

使用GCC的内联asm来学习汇编的问题在于你花了一半的时间来学习gcc的内联汇编是如何工作的,而不是实际学习汇编.例如,这是我如何编写相同的代码:#include int getStringLength(const char *pStr){int len;__asm__ ("repne scasb""not %%ecx"&quo…

埃森哲5G智慧城市报告:美国GDP将狂增5千亿

来源:智东西 概要:第五代通信技术将不仅仅带来网速的提高(eMBB),更意味着可靠的低延时(uRLLC)海量物联网(mMTC)。 5G被认为是万物互联的开始。第五代通信技术将不仅仅带来…

linux 信号发生器,用STM32实现函数信号发生器

自己慢慢看,,,,[mw_shl_codec,true]#ifndef __BSP_WAVEMAKER_H#define __BSP_WAVEMAKER_H#include "stm32f10x.h"#define DAC_DHR12RD_Address 0x40007420#define DAC_DHR8R1_Address 0x40007410#define DAC_DHR12R1_Ad…

星际旅行、返老还童…1.3万字看完今年的WE大会,简直就是一部科幻电影

来源:腾讯科技 概要:在第五届WE大会上,科学家们的“脑洞”更大了:星际旅行、返老还童等一个个过去科幻电影里的镜头出现了。 11月5日,WE大会在老时间、老地点如约而至。 时光飞速,WE大会如今已经是第五届了…

gdp笔记本 linux,linux中如何使用微软鼠标的第4、5键

虽说使用的人大都对微软没什么好感,但不能否认微软确实也出了不少好东西呀,比如微软鼠标(IE系列) icon_smile.gif IE2.0和以上版本都有5个按钮,除了正常的左中右外,两侧还各有一个,在windows中可用来支持浏览器的前进/…

智能优化算法应用:基于战争策略算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于战争策略算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于战争策略算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.战争策略算法4.实验参数设定5.算法结果6.…

从芯片巨头沦落到收购对象 高通是怎样失去魔力的?

来源:凤凰科技 概要:过去5年,高通股价几乎是原地踏步,而其他科技公司的股价却一直在快速上涨。 据《福布斯》北京时间11月6日报道,在华尔街,高通已经失去昔日魔力。过去5年,高通股价几乎是原地踏…

zynq linux网口不通,已解决: ZYNQ 7035以太网口无法连通 - Community Forums

网口使用emio连接mii phy芯片,lwIP Echo Server测试例子可以运行,u-boot,linux无法连ping通,能识别到芯片;我该如何配置u-boot与内核?关键打印信息:U-Boot 2019.01 (May 20 2020 - 05:49:03 000…

2017年中国人工智能产业专题研究报告(完整版)

来源:数据观 概要:目前,中国的人工智能研究处于爆发期,行业巨头公司正逐渐完善自身在人工智能的产业链布局,而不断涌现出的创业公司将持续在垂直领域深耕深挖。 目前,中国的人工智能研究处于爆发期&#x…

C语言的广泛作用的论文,关于c语言论文模板

该频道包含关于c语言论文模板和c语言的范例,免费为你学习关于c语言的论文提供相关参考文献资料。摘要:在一套试卷中,重复题问题是影响考试质量的一个重要因素。该文针對C语言试卷中选择题间易出现重复题问题进行深入研究 通过对代码相似性检测以及文。摘…

周志华:最新实验表明gcForest已经是最好的非深度神经网络方法

北京时间 11月5 日到11月6日,西瓜书《机器学习》作者、南京大学机器学习与数据挖掘研究所(LAMDA)周志华教授日前在MLA 2017上的演讲:深度森林初探——讲述的关于他最新集成学习研究成果-深度森林,一种对深度神经网络可…

C语言答案写成科学记数法,c语言科学记数法_C语言中、科学计数法123456e+002具体代表什么意思、或者说怎么理解这个数_淘题吧...

『壹』 c语言用double写了一个表示科学计数法的程序,但是却读不出来30位以上的数,怎么办double 是抄64 位(8字节),52 位代表有袭效数位,11 位表示指数,一位表示符号,精度(有效数位)十进制的 16 位。int64 的…