MIT与FAIR提出「mixup」,利用数据和标签的随机线性插值提高神经网络的健壮性

来源: 雷克世界

摘要:麻省理工学院(MIT)与Facebook人工智能研究院(FAIR)提出了一种能够构建虚拟训练样本的方法——mixup,提高了神经网络的健壮性。


近日,麻省理工学院(MIT)与Facebook人工智能研究院(FAIR)联合发表了一篇题为《mixup:超越经验风险最小化》(mixup: BEYOND EMPIRICAL RISK MINIMIZATION)的论文,他们提出了一种能够构建虚拟训练样本的方法——mixup,提高了神经网络的健壮性。我们一起来看一看他们是如何做到的。



众所周知,大型深度神经网络是非常强大的,但在记忆和针对对抗样本的敏感性上却表现地不太理想。在这项研究中,我们提出了mixup,它是一个用以解决这些问题的简单学习原则。实质上,mixup是在样本对和其标签的凸组合(convex combinations)上训练神经网络的。通过这样做,mixup将神经网络正规化以支持训练样本之间的简单线性行为。我们分别在ImageNet-2012、CIFAR-10、CIFAR-100、Google命令和UCI数据集上进行试验,研究结果表明,mixup可以改进当前最先进的神经网络架构的泛化能力。我们还发现,mixup能够减少对错误标签的记忆,增加对抗样本的健壮性,并能够稳定对生成对抗网络的训练过程。


我们都知道,大型深度神经网络在计算机视觉(Krizhevsky 等人于2012年提出)、语音识别(Hinton 等人于2012年提出)和强化学习(Silver等人于2016年提出)等领域均实现了突破性发展。在大多数的成功应用中,这些神经网络有两个共同点:首先,它们进行训练以将其训练数据的平均误差最小化,这种学习规则也被称为经验风险最小化(Empirical Risk Minimization,ERM)原则(Vapnik于1998年提出);其次,这些当前最先进的神经网络的大小与训练样本的数量呈线性关系。例如,Springenberg等人(于2015年提出)的网络使用10^6个参数来对CIFAR-10数据集中的5×10^4个图像进行建模,Simonyan和Zisserman(于2015年提出)的网络使用10^8个参数来对ImageNet-2012数据集中的10^6个图像进行建模,Chelba等人(于2013年提出)的网络使用2×10^10个参数对十亿单词(One Billion Word)数据集中的10^9个单词进行建模。


引人注目的是,学习理论(Vapnik和Chervonenkis于1971年提出)的经典结果告诉我们,只要学习机器(如神经网络)的大小不随着训练数据数量的增加而增加,那么ERM的收敛性就是可以得到保证的。其中,学习机器的大小是根据其参数数量,或相关地,根据其VC复杂度(Harvey等人于2017年提出)来衡量的。


这一矛盾挑战了ERM训练当前神经网络模型的适应性,正如在最近的研究中所强调的那样。一方面,ERM允许大型神经网络记忆(而不是从中泛化)训练数据,即使是在强正则化,或是标签是随机分配的分类问题(Zhang等人于2017年提出)中。另一方面,在对训练分布之外的样本(也被称之为对抗样本)进行评估时,用ERM训练的神经网络会彻底地改变其预测结果(Szegedy等人于2014年提出)。这一证据表明,当测试分布与训练数据略有不同时,ERM便无法对其进行解释或为其提供泛化。那么,ERM的替代方案是什么呢?


选择在类似但不相同的样本上进行训练以增加到训练数据中的方法称为数据增强(data augmentation)(Simard等人于1998年提出),而后由邻域风险最小化原则(Vicinal Risk Minimization,VRM)形式化(Chapelle等人于2000年提出)。在VRM中,需要用人类知识来描述训练数据中每个样本周围的邻域区域。然后,可以从训练样本的附近分布中提取附加的虚拟样本,以扩大训练分布的支持。例如,当进行图像分类时,通常将一个图像的邻域定义为其水平反射、轻微旋转和轻微缩放的集合。虽然一直以来,数据增强都会促使改进泛化能力(Simard等人于1998年提出),但是该过程是依赖于数据集的,因此需要使用专家知识。除此之外,数据扩充假设邻域中的样本共享相同的类,并且不对不同类的样本之间的邻域关系进行建模。


受到这些问题的启发,我们引入了一个简单的、并且和数据无关的数据扩充例程,称为mixup。简而言之,mixup能够构建虚拟的训练样本:

 


其中(xi,yi)和(xj,yj)是从我们的训练数据中随机抽取的两个样本,且λ∈[0,1]。因此,mixup通过结合先验知识,即特征向量的线性插值应该导致相关目标的线性插值,来扩展训练分布。Mixup在很少的几行代码中就可以得以实施,并且引入了最少的计算开销。


尽管它很简单,但mixup在CIFAR-10、CIFAR-100和ImageNet-2012图像分类数据集中实现了当前最先进的性能。此外,当从错误数据中进行学习,或面对对抗样本时,mixup能够增强神经网络的健壮性。最后,mixup能够改善在语音和表格数据中的泛化能力,并可用于稳定GAN的训练过程。


在此研究中,我们提出了mixup,一个和数据无关的、简单的数据增强原则。研究结果表明,mixup是邻域风险最小化的一种形式,它在虚拟样本(即构建为训练集中的两个随机样本及其标签的线性插值)中进行训练。将mixup集成到现有的训练管道中仅需要几行代码,并且很少或几乎没有计算开销。在广泛的评估中,结果已经表明,mixup改进了当前最先进的模型在ImageNet、CIFAR、语音和表格数据集中的泛化误差。此外,mixup有助于有助于消除对错误标签的记忆、对对抗样本的敏感性以及对抗训练的不稳定性。


在我们的实验中,以下思维趋势是一致的:随着α越来越大,实际数据的训练误差就会增加,而泛化差距会缩小。这就支持了我们的假设,即mixup隐式地控制了模型的复杂性。然而,我们还没有一个很好的理论来理解这种偏差—方差平衡(bias-variance trade-off)的“最佳点”。例如,在CIFAR-10分类中,即使在α → ∞(即仅对真实样本的平均值进行训练)的情况下,我们仍然可以在真实数据中获得非常低的训练误差。而在ImageNet分类中,当α → ∞时,真实数据的训练误差会显著增加。考虑到我们的ImageNet和Google命令实验是用不同的模型架构进行的,我们推测,增加模型容量会降低训练误差对较大的α的敏感性,从而给予mixup一个更大的优势。


与此同时,mixup还为进行进一步探索开辟了几种可能性。首先,是否有可能让类似的想法在其他类型的监督学习问题上发挥作用,比如回归和结构化预测?虽然将mixup泛化到回归问题是很简单的,但要将其应用到诸如图像分割这样的结构化预测问题上效果就不那么明显了。第二,类似的方法能否在监督学习之外的问题上有所帮助?插补原理似乎是一种合理的归纳偏置(inductive bias),即也有可能在无监督、半监督和强化学习中有所帮助。我们是否可以将mixup扩展到特征标签外插,以确保远离训练数据的强大的模型行为?虽然我们对这些方向的讨论仍然是具有推测性的,但我们对mixup未来所能开辟的可能性抱有极大的期待,并希望我们的观察结果将有助于未来的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Face++印奇:从无人问津到融资4.6亿美金|纪录影片

来源: 创新工场 摘要:个人爱好和使命感,是创业最本质的一个动力。对于印奇来说,创业者的身份,只是实现这样一个大行业和使命的阶段性方式,如果有其他途径能够把人工智能做的更好,他也许会走上另…

周志华:深度学习理论探讨比应用滞后太多

来源: 网易科技 摘要:深度学习的理论探讨比应用滞后好几个数量级,一方面是做应用马上能见效,然后会有很多人尝试。另一个方面是做理论研究门槛相对比较高,像今天做深度学习很多企业应用的人,里面有很多现有…

李飞飞最新演讲全文:机器已能“看懂”图像和视频,但我们仍站在人工智能研究的起点

来源: 科研圈 摘要:AI 不仅仅能够精准辨认物体,还能够理解图片内容、甚至能根据一张图片写一小段文章,还能“看懂”视频...... 所以无论我们在讨论动物智能还是机器智能,视觉是非常重要的基石。世界上所存在的这些系统…

matlab控制realsense,RealSense开发学习--1.初识RealSense

RealSense3D实感技术是Intel研发的一项新的技术。这项技术利用摄像头,红外投影传感设备及红外捕捉设备获取外界的深度信息,彩色视频信息以及其它信息。并基于此完成获取深度图像,彩色图像,手势识别,面部识别&#xff0…

微软Azure Stack混合云进入中国

来源: 微软科技 摘要:Azure Stack是Azure的延伸,能够将Azure云计算的灵活性和快节奏的技术创新带到混合云环境,在满足混合云部署的多样化需求的同时,推进企业业务的数字化转型。 2017年11月1日,北京 —— …

中科院等发布《2017研究前沿》 中国25个前沿表现卓越 居全球第二

来源:科学网 概要:中科院作为国家战略科技力量,作为首批国家高端智库建设试点单位,服务国家科技发展的宏观决策,把握世界科技发展大势,研判科技发展的战略方向。 11月2日上午,中国科学院科技战…

python开学吧真假,开学第一课,课课有总结

记得大学毕业论文最后,我写了一首打油诗,里面有一句“晨光熹微亦堪盼”,而今天,便是晨光熹微之时。今天的学业笔记如下:1、python是一门语言,是人与计算机进行沟通的介质;2、编程就是程序员把自…

阿尔法元并未否定AI需要“人类师父”

来源:中国科学报 概要:阿尔法元无师自通、零基础“自学成才”,果真如此吗?答案显然是否定的。 10月19日,《自然》杂志刊登了谷歌DeepMind团队新成果,一个名为AlphaZero(阿尔法元)的机…

经济民族主义的前夜?普华永道思略特全球创新1000强解读

来源:亿欧 概要:普华永道旗下咨询机构思略特发布2017年度全球创新企业1000强榜单,研发支出超过160亿美元的亚马逊成为全球研发支出最多的企业。 上周,普华永道旗下咨询机构思略特发布2017年度全球创新企业1000强榜单,研…

oracle sha2,SHA2算法支持列表

按照国际标准,全球信任的CA在2016年1月1日起必须停止签发SHA1签名算法的各种证书,要求各个CA尽快升级PKI/CA系统,支持用户可选择申请SHA1证书还是SHA2证书。沃通CA为了响应谷歌浏览器的提前修改用户界面警告SHA1证书的出现的问题,…

芯片史上最大收购案!「博通」拟斥资1000亿美元收购「高通」

来源:海外创投 概要:高通今日美股开盘55美元,新闻被曝光后,高通股价在今日盘中最高涨幅一度达到19%,最终以以61.81美元的价格收盘,上涨13%。 高通今日美股开盘55美元,新闻被曝光后&a…

人工智能时代:互联网推动制造业升级的四大方向

来源: 腾讯研究院 概要:事实上制造业的问题,这几年已经成为全球性话题引起越来越多国家的重视。其中以美国和德国为代表,较早意识到这场由互联网点燃的数字化革命的意义,不仅在于消费市场,更应该为国家的经…

全球 35 大开源公司都在这里!

来源:全球人工智能 概要:如果你认为开源软件主要是业余爱好者和单枪匹马的开发人员的杰作,那你的看法完全落伍了。虽然独立开发人员仍是开源社区的重要组成部分,但如今开源项目的大部分工作由企业开发人员完成。 这些公司在开发和…

linux 进程 命令 cat,Linux cat命令详解

cat主要有三大功能:1.一次显示整个文件:cat filename2.从键盘创建一个文件:cat > filename 只能创建新文件,不能编辑已有文件.3.将几个文件合并为一个文件:cat file1 file2 > file常用的命令展示特殊用法:增加多行内容,EOF必须成对出现…

谷歌大脑最新研究:不用「训练」!高斯过程「超越」随机梯度下降

来源:雷克世界 编译:嗯~阿童木呀、多啦A亮 概要:近年来,深度神经网络作为一种灵活的参数模型,以能够适应复杂的数据模式而著称。 可以这样说,一个具有独立同分布(independent identically distr…

Facebook最新对抗学习研究:无需「平行语料库」完成「无监督」机器翻译

来源:雷克世界 编译:嗯~阿童木呀、多啦A亮 概要:得益于最近在深度学习方面取得的进展以及大规模平行语料库的可用性,现如今,机器翻译已经在多个语言对上取得了令人印象深刻的表现。 相信大家都知道,最近在机…

结合脑成像技术与人工智能,破除自杀的“诅咒”

来源:36氪 概要:近日发表的一项研究,介绍了一种通过人工智能与脑成像技术结合的方法来预测自杀倾向的方法。在初步的试验中,准确率达到了91%。 自杀已经成为了一个公共健康领域的“诅咒”,正在夺取越来越多的生命。在很…

Linux软件安装部署文档,MetaQ安装部署文档

一.MetaQ安装部署情况:地点IPBroker IDMaster/SlaveSlave ID:Group合肥192.168.52.231Slave1:meta-slave-group-hf北京192.168.51.331Master/广州192.168.70.1571Slave2:meta-slave-group-gz二.MetaQ安装1. 前提已有安装了ZooKeeper的机器&am…

美媒:中关村取代硅谷获评全球最大科技中心

来源:澎湃 概要:北京被评为2017年度全球最大科技城市第一名,中关村已取代硅谷成为全球最大的科技中心。 美媒称,一份最新报告显示,北京被评为2017年度全球最大科技城市第一名,中关村已取代硅谷成为全球最大…

linux 和服务通讯,Android 的Activity和Service之间的通信

在Android中Activity负责前台界面展示,service负责后台的需要长期运行的任务。Activity和Service之间的通信主要由IBinder负责。在需要和Service通信的Activity中实现ServiceConnection接口,并且实现其中的onServiceConnected和onServiceDisconnected方法…