nlp mrc的损失是什么_田渊栋从数学上证明ICLR最佳论文“彩票假设”,强化学习和NLP也适用...

abc7ea76-511b-eb11-8da9-e4434bdf6706.png

  新智元报道  

来源:Facebook AI

作者:Ari Morcos、田渊栋  编辑:肖琴

【新智元导读】ICLR 2019最佳论文提出的“彩票假设”能够将神经网络缩小10-100倍,而不损失性能。Facebook田渊栋团队的最新研究发现了第一个确定的证据,证明彩票假设在相关但截然不同的数据集中普遍存在,并可以扩展到强化学习和自然语言处理。你怎么看这一系列研究? 新智元AI朋友圈 和AI大咖们一起讨论吧。

最初由MIT的研究人员Jonathan Frankle 和Michael Carbin 提出的彩票假设(lottery ticket hypothesis)表明,通过从“幸运”初始化(lucky initialization,通常被称为“中奖彩票”)开始训练深度神经网络,可以以最小的性能损失(甚至获得收益)将网络缩小10-100倍。

这项工作的意义令人兴奋,它不仅可能找到用更少的资源进行训练的方法,而且还可以在更小的设备(例如智能手机和VR头盔)上更快地运行模型推理。

但彩票假设尚未被AI社区完全理解。特别是,我们尚不清楚中奖彩票是取决于特定的因素,还是代表了DNN的一种固有特性

Facebook AI的最新研究发现了第一个确定的证据,证明彩票假设在相关但截然不同的数据集中普遍存在,并可以扩展到强化学习(RL)和自然语言处理(NLP)

Facebook AI的Ari Morcos和田渊栋是这一系列相关研究的其中两位作者,他们在最新博文中介绍了使用中奖彩票的实验结果和细节,并提出有关彩票形成的一个新理论框架,以帮助研究人员更好地理解幸运初始化。

什么是“中奖彩票”?

训练和压缩深度神经网络的标准方法包括调整神经网络中的数百万个参数,然后删除或“修剪”不必要的权重,以将网络结构缩减到更易于管理的大小。减小模型尺寸有助于最大程度地减小其内存、推理和计算需求。许多研究发现,经过训练的神经网络中的许多权重有时可以被削减多达99%,从而产生更小、更稀疏的网络。

彩票假设颠覆了DNN的修剪,其核心动机是:与其训练大型网络并将其削减为较小的网络,不如从一开始就确定并训练最优的小网络?

b7c7ea76-511b-eb11-8da9-e4434bdf6706.gif

c2c7ea76-511b-eb11-8da9-e4434bdf6706.gif

为了找到中奖彩票,我们使用随机初始化来训练一个完整的网络,在保留其性能的同时修剪模型,然后在训练开始前将子网络重置(或倒回)到初始化。为了评估中奖彩票,我们将它们与随机彩票进行比较,并发现中奖彩票(或幸运初始化)表现得更好。

随着网络规模的增大,我们组合地增加了可能的子网络的数量,这意味着存在一个幸运的子网络初始化的概率更高。彩票假设表明,如果我们能找到这个幸运的子网络,我们就能将小的、稀疏的网络训练到高性能,即使删除了整个网络90%以上的参数。然而,找到中奖彩票需要大量的计算资源,因为模型必须经过多次训练和再训练,这使得跨问题设置的泛化成为改进深度神经网络的一个关键标准。

跨数据集和优化器进行泛化

到目前为止,研究人员只是在原始研究论文中用于寻找中奖彩票的完全相同问题上测试了这一假设,部分原因是在新设置下寻找中奖彩票所需的计算能力太大。

在我们今年在NeurIPS上发表的论文“One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers”中,我们评估了6个不同的自然图像数据集和优化器中彩票初始化的通用性。令人鼓舞的是,我们发现中奖彩票普遍适用于相关但不同的数据集。类似地,我们还发现中奖彩票在不同的优化器中都是通用的,这表明中奖彩票初始化在很大程度上是与优化器无关的。

ccc7ea76-511b-eb11-8da9-e4434bdf6706.png

论文地址:

https://arxiv.org/pdf/1906.02773.pdf

为了度量中奖彩票的通用性,我们在一个源训练配置中生成中奖彩票,并在不同的目标配置中评估性能。例如,我们可以使用CIFAR-10数据集(源配置)生成中奖彩票,并在ImageNet数据集(目标配置)上评估它的性能。通过一系列不同设置的严格实验,我们观察到中奖彩票在不同的图像数据集上可以泛化。有趣的是,我们还观察到,由大型数据集(如ImageNet和Places365)生成的中奖彩票的迁移效果始终比小数据集(如CIFAR-10)好得多。

d1c7ea76-511b-eb11-8da9-e4434bdf6706.jpeg

这些图显示了物体分类模型的中奖彩票是如何跨越大型数据集(ImageNet和Places365)和小型数据集(CIFAR-10/CIFAR-100)的。图中不同的线代表中奖彩票的不同源数据集。在ImageNet和Places365上生成的中奖彩票始终优于在较小数据集上生成的中奖彩票。

这些结果表明,与较小的数据集相比,较大的数据集会鼓励更多的通用中奖彩票。我们还发现,在相同数量的训练示例(但类别数量不同)的数据集上生成的中奖彩票的表现也有所不同。类别更多似乎就可以更好地泛化(例如,比较CIFAR-10和CIFAR-100中奖彩票的性能,它们分别有10个类和100个类)。

这项研究表明,无论确切的问题是什么,中奖彩票都包含有改善深度神经网络训练的一般属性。这样就有可能产生少量这样的中奖彩票,并在不同的任务和环境中使用它们进行更有效的训练。(要了解更多细节,请阅读论文:One ticket to win them all: Generalizing lottery ticket initializations across data sets and optimizers)。

推广到其他领域和其他学习方法:强化学习和NLP

到目前为止,彩票现象只在以视觉为中心的分类任务这样的监督学习环境中进行了测试,这留下了一个关键的开放性问题——它们是否只存在于监督学习方法中,或者仅是图像分类领域的一个巧合?如果彩票现象代表了DNN的基本属性,那么中奖彩票应该出现在各种不同的领域和学习环境中。

在最近的论文“Playing the lottery with rewards and multiple languages: lottery tickets in RL and NLP”中,我们研究了这些问题,发现彩票现象也存在于强化学习(RL)和自然语言处理(NLP)领域。对于RL,我们分析了一组经典的控制任务和Atari游戏;对于NLP,我们研究了经典的长短时记忆(LSTM)语言模型和最近的为机器翻译训练的Transformer模型。

我们关注的任务与最初用于图像分类和监督学习的范例和架构有很大的不同。例如,在RL中,数据分布会随着智能体从稀疏的奖励信号中学习而发生变化,这显著地修改了优化过程和生成的网络。在NLP任务中,DNN需要对时间动态进行建模,而这在有监督的图像分类中是不存在的。

ddc7ea76-511b-eb11-8da9-e4434bdf6706.png

论文地址:

https://arxiv.org/pdf/1906.02768.pdf

与之前的监督图像分类的工作一致,我们证实了在RL和NLP问题中,中奖彩票的表现也优于标准随机子网络初始化,即使在极端的剪枝率下也是如此。对于RL,我们发现在经典控制问题和许多(但不是全部) Atari游戏中,中奖彩票的表现远远好于随机彩票。

eac7ea76-511b-eb11-8da9-e4434bdf6706.jpeg

为机器翻译任务训练的Transformer 模型的中奖票初始化性能

对于NLP模型,我们发现在语言建模任务训练的LSTM和机器翻译任务训练的Transformer中都存在中奖彩票。令人惊讶的是,我们发现拥有超过2亿个参数的超大型Transformer模型可以从零开始训练到接近等效的性能,而只剩下三分之一的权重。这一结果表明,我们有可能从头开始构建和训练基于注意力的语言模型,这些模型被大大简化,足以适应小型设备。

总之,这些结果表明彩票现象并仅仅是图像分类的产物,而是代表了深度神经网络(DNN)这个广泛领域的一种现象。(关于这些实验的详细信息,请阅读论文:Playing the lottery with rewards and multiple languages: lottery tickets in RL and NLP。)

进一步加深对“中奖彩票”的理解

这些研究有助于证明彩票可以在原始研究论文的确切条件之外存在,这为我们加深对幸运初始化的理解提供了更多的激励。然而,还有很多关于神经网络的潜在属性和行为的开放性问题,比如这些中奖彩票是如何形成的,它们为什么存在,它们是如何工作的?

为了在深层ReLU网络的背景下开始分析这些问题,我们使用了一个“学生-教师”的设置,在这个设置中,一个较大的学生网络必须学会准确地模仿较小的教师网络正在做的事情。由于我们可以在此设置中定义具有固定参数的教师网络,因此我们可以定量地测量学生网络的学习进度,并且,对于我们的彩票研究来说,了解学生网络的初始化如何影响学习过程是至关重要的。

在“学生-教师”设置下的研究中,我们发现,经过训练后,被挑选出来的学生神经元的活动模式与教师神经元的活动模式之间的相关性比与其他学生神经元的活动之间的相关性更强——这一概念被称为“学生专业化”(student specialization)。这种更强的相关性表明,在训练期间,学生网络不仅学习教师的网络输出,而且可以通过模仿个别老师的神经元来学习教师网络的内部结构。

在论文“Luck Matters: Understanding Training Dynamics of Deep ReLU Networks”的分析中,我们发现这种现象发生在一个2层的ReLU网络中:如果一个学生神经元的初始权重碰巧与某些教师神经元的权重相似,那么就会出现专门化。神经网络的大小很重要,因为学生网络越大,越有可能存在一个学生神经元与教师神经元的距离很接近,从而在训练中模仿教师神经元的活动。更重要的是,如果一个学生神经元的初始激活区域与一个教师神经元有更多的重叠,那么这个学生神经元的就会更快地专业化。这一行为证实了彩票假设,该假设同样提出,在神经网络中存在一些幸运的初始化子集,“中奖彩票”就是幸运的学生神经元,它们恰好在训练开始时处于正确的位置。

f5c7ea76-511b-eb11-8da9-e4434bdf6706.png

论文地址:

https://arxiv.org/pdf/1905.13405.pdf

在我们的后续研究论文“Student Specialization in Deep ReLU Networks With Finite Width and Input Dimension”中,我们通过消除多种数学假设(包括独立激活和局部性)来强化我们的结果,并且仍然证明了学生专业化在经过训练后发生在深层ReLU网络的最底层。从我们的分析中,我们发现训练动态中的某些数学性质与彩票现象产生了共鸣:那些在初始化时具有轻微优势的权重,在训练收敛后成为中奖彩票的可能性更大。

fbc7ea76-511b-eb11-8da9-e4434bdf6706.png

论文地址:

https://arxiv.org/pdf/1909.13458.pdf

通过这个“教师-学生”范式,我们已经能够从数学上证明幸运初始化的彩票行为——超出了经验实验。

彩票假设的未来和开放性问题

彩票假设是一个令人兴奋且潜力巨大的视角,通过它我们可以更好地理解和改善DNN。

通过这一系列的研究和理论分析,我们证明了彩票效应可以发生在各种不同的领域,中奖彩票的初始化能够在相关但不同的数据集进行泛化,以及更一般的意义上,他们比先前研究人员所理解的更有潜力。如果我们能找到一种方法,从一开始就识别出中奖彩票,那么我们不仅可以用今天所使用的计算资源的一小部分来构建强大的深度学习系统,而且还可以使用这些技术来提高当前的大型网络的性能。

虽然我们的研究已经证明了彩票假设的普遍性,并且我们的理论框架有助于更具体地证实这一现象,但这是一个活跃的研究领域,有许多问题仍然没有得到解答。中奖彩票是依赖于标签还是仅仅依赖于数据分布?如何更有效地生成中奖彩票?是否有可能在不同的架构之间迁移中奖彩票?也许最有趣的是,是什么让中奖彩票如此特别?我们希望这些工作将推动我们的团队和其他人今后的研究,探讨这些悬而未决的问题。

原文链接:

https://ai.facebook.com/blog/understanding-the-generalization-of-lottery-tickets-in-neural-networks

04c8ea76-511b-eb11-8da9-e4434bdf6706.jpeg新智元AI朋友圈详细使用教程,8000名AI大玩家和实践者都在这里!

0dc8ea76-511b-eb11-8da9-e4434bdf6706.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507457.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux编程基础 3.2:exec函数族

2 exec函数族 使用fork()函数创建的子进程,其中包含的程序代码完全相同,只能根据fork()函数的返回值,执行不同的代码分支。 由exec函数族中的函数,则可以根据指定的文件名或路径,找到可执行文件。 fork:子…

corel产品注册样机安装代码_为你的产品创建一个高逼格的宣传片

大家好,我是独立开发者Larry~当我们的产品或功能发布的时候,一定想要一套高大上的宣传图或宣传视频,不幸的是,由于预算限制、时间排期以及技术门槛等一系列原因,我们不得不降低要求…今天就给大家推荐一个在…

zabbix监控pppoe线路_Zabbix 完整的监控流程

Zabbix完整的监控流程1.Zabbix的监控历程概念1.1 基本概念zabbix最重要的五个组成部分:Item、Trigger、Action、Media、User(其实应该还有个Event,不过这个表现的不直观),翻译一下就是监控元素、触发器、动作、报警介质、用户,接下…

Linux编程基础 3.3:进程同步

1 wait函数 #include <sys/wait.h> pid_t wait(int *status);功能&#xff1a;挂起进程&#xff0c;进程进入阻塞状态&#xff0c;直到子进程变为僵尸态&#xff0c;如果捕获到子进程的退出信息就会转为运行态&#xff0c;然后回收子进程资源并返回&#xff1b;若没有变…

单代号网络图计算例题_如何把横道图转化成双代号网络图?

横道图一般都是用Project或者表格做的&#xff0c;下面就用斑马进度计划软件介绍一下怎么将横道图转化为双代号网络图使用工具&#xff1a;广联达斑马进度计划&#xff0c;点击进入官网下载使用Excel表格绘制的横道图&#xff0c;如何快速转化成网络图打开斑马进度计划软件&…

satd残差_RDO、SAD、SATD、λ相关概念【转】

率失真优化概述&#xff1a;率失真优化(Rate D isto r t i on Op t i m ized)策略是在率失真理论[3 ]的基础上提出的一种代价函数方案,  RDO 的主要思想是, 在计算代价函数时, 同时考虑码率和失真度两方面因素的制约, 在保证低失真度的同时保证低码率, 这样更加有利于视频流的…

excel表格不够怎么添加_excel怎么添加筛选

常用的表格处理软件就是excel表格&#xff0c;有时候一些excel上面会有很多不同类型的东西需要筛选以便更能方便寻找&#xff0c;那么excel怎么添加筛选呢&#xff1f;小编跟大家详细介绍。excel怎么添加筛选步骤1&#xff1a;首先&#xff0c;打开一篇你需要选择的Excel步骤2&…

Linux编程基础 4.1:系统调用

1简介 信号&#xff1a;软中断信号&#xff0c;是软件层次上对中断的一种模拟&#xff0c;用于提醒进程事件的发生。 用户比较容易控制的信号发送方式有&#xff1a; 组合按键方式&#xff1b;Shell命令方式&#xff1b;系统调用&#xff1a;kill、raise、abort等。 本部分主…

createsemaphore 异常_浅析SPC之异常分析

未来能源的短缺及资源匮乏&#xff0c;导致各国都在寻求替代能源以避免发生无资源可用的情况。汽油替代能源—生质酒精由此得到了广泛的应用。生质酒精属于生质燃料(Biofuel)的一种&#xff0c;是由生物或化学转换成生物质(biomass)而取得的原料。它能够延长零件的使用寿命&…

Linux编程基础 4.2:软件条件

3 软件条件 当满足某种软件条件时&#xff0c;也可以驱使内核发送信号。 alarm setitimer 3.1 alarm函数 #include <unistd.h> unsigned int alarm(unsigned int seconds);函数功能&#xff1a; 相当于计时器&#xff0c;驱使内核在指定秒数后发送信号到调用该函数的…

layui 如何去dom_常用元素操作 - layui.element

元素功能的开启只需要加载element模块即会自动完成&#xff0c;譬如tab选项卡切换、导航菜单滑动切换效果、面包屑导航、进度条等&#xff0c;使用这些小交互功能的前提就是&#xff1a;拥有符合这些小功能的所需正确的HTML结构&#xff0c;以及加载element模块&#xff1b;如下…

苹果5越狱教程_unc0ver5.2.0安装方法 iOS13.5用Cydia Impactor或AltStore越狱教程

unc0ver5.2.0是最新更新出来的越狱手机系统&#xff0c;这次的更新不仅仅只是修复了系统的稳定性&#xff0c;大家在更新之后可以支持iOS13.5.5Beta/iOS13.6Beta的使用&#xff0c;所有使用苹果手机的用户想要使用的话可以看下面的详细安装教程&#xff0c;为大家介绍详细的操作…

Linux编程基础 4.3:信号阻塞

4 信号阻塞 在进程PCB中存在两个信号集&#xff1a;信号掩码&#xff08;signal mask&#xff09;、未决信号集&#xff08;signal pending&#xff09;。 两个信号集都是位图&#xff0c;每一位对应一个信号&#xff1a; 若mask中某个位被设置为1&#xff0c;则对应的信号将…

# 定义四边形_【四边形系列专题】 特殊平行四边形之矩形

点击上方蓝字关注我们【四边形系列专题】特殊平行四边形之矩形TSQ中学数学微信&#xff1a;TSQmaths一、知识网络二、重难突破知识点一 矩形的性质及应用1、定义&#xff1a;有一个角是直角的平行四边形叫做矩形&#xff0e;注意&#xff1a;1、对称性&#xff1a;矩形是轴对称…

xs资料网-产品设计图档下载_proe玩具车3D模型图档下载creo4.0汽车模型下载中磊教育...

现在设计产品的还是有相当一大部分人是用proe造型的&#xff0c;之前我们一直做的是UG的产品造型&#xff0c;今天给大家介绍一款玩具车的3d模型&#xff0c;喜欢的可以下载下载自己研究研究&#xff0c;中磊教育产品设计教程proe玩具车3D模型图档是通过曲面造型所绘制的零件&a…

Linux编程基础 4.4:信号捕获

5 信号捕获 信号的产生是异步事件&#xff0c;进程不知道信号何时会递送&#xff0c;也不会等待信号到来。 进程可以为信号注册信号处理函数来实现自定义动作。 进程的信号在内核态处理&#xff0c;内核为每个进程准备了一个信号向量表&#xff0c;记录每个信号所对应的处理机…

苹果7手机严重卡顿_分享苹果手机最实用的7个技巧,各个精心挑选,不知道真的太亏了...

使用苹果手机这么久了&#xff0c;你一定也发现了不少好用的功能&#xff0c;今天就来分享苹果手机最实用的7个技巧&#xff0c;每个都是精心挑选&#xff0c;不要错过&#xff0c;总有一个是你需要的。1、 三指操作在编辑文档的时候&#xff0c;三指左滑是撤销(上一步编辑撤销…

实验一:系统编程开发环境实验

一【实验目的】 1.熟悉Linux开发环境&#xff1b; 2.掌握Linux程序编译调试方法&#xff1b; 3.理解文件I/O通用操作&#xff0c;掌握内核函数的基本用法&#xff1b; 4.支撑网络空间安全专业的专业核心能力、综合创新能力。 二【实验要求】 以下每个实验均要求&#xff1a;…

如何获取大端中的数据_【软件】ProE中各种获取数据方式的区别

更多精彩&#xff0c;请点击上方蓝字关注我们&#xff01;软件ProE中各种获取数据方式的区别输入特征&#xff1a;输入特征是通过数据共享功能从外部文件输入几何的&#xff0c;文件输入以后&#xff0c;会转换成proe软件能够识别的几何&#xff0c;称为一个特征发布几何&#…

实验二:文件操作编程实验

一【实验目的】 1.掌握文件或目录属性信息的函数stat()函数的使用&#xff1b; 2.掌握目录操作的函数opendir 函数和readdir函数的使用&#xff1b; 3.编写程序mysearch.c递归实现打印输出任意目录下&#xff0c;指定类型的所有文件&#xff0c;如&#xff1a;./mysearch /hom…