Yann LeCun开怼谷歌研究:目标传播早就有了,你们创新在哪里?

2378ae92720c0b74c4889b04bd5c9ca9.jpeg

来源:机器之心

在昨日的学术圈,图灵奖得主Yann LeCun对谷歌的一项研究发起了质疑。

前段时间,谷歌 AI在其新研究《LocoProp: Enhancing BackProp via Local Loss Optimization》中提出了一种用于多层神经网络的通用层级损失构造框架LocoProp,该框架在仅使用一阶优化器的同时实现了接近二阶方法的性能。

更具体来讲,该框架将一个神经网络重新构想为多层的模块化组合,其中每个层都使用自己的权重正则化器、目标输出和损失函数,最终同时实现了性能和效率。谷歌在基准模型和数据集上实验验证了其方法的有效性,缩小了一阶和二阶优化器之间的差距。

此外,谷歌研究者表示他们的局部损失构造方法是首次将平方损失用作局部损失。

ff93a1be83a0b389e736b741cdc84fbf.jpeg图源:@Google AI

对于谷歌的这项研究,一些人的评价是棒极了、有趣。不过,也有一些人表达出了不同的看法,其中包括图灵奖得主Yann LeCun。

他认为,我们现在称为目标传播(target prop)的版本有很多,有些可以追溯至1986年。所以,谷歌的这个LocoProp与它们有什么区别呢?

5bcb4fe8eeb68c4381d7a1ec3c57371b.jpeg图源:@Yann LeCun

对于LeCun的这种疑问,即将成为UIUC助理教授的Haohan Wang表示赞同。他表示,有时真的惊讶为什么有些作者认为这么简单的想法是历史首创。或许他们做出了一些与众不同的事情,但宣传团队却迫不及待地出来声称一切……

306bdab27fe98848af2254a2001a8c9f.jpeg图源:@HaohanWang

不过,有人对 LeCun「不感冒」,认为他是出于竞争的考虑提出疑问,甚至「引战」。LeCun 对此进行了回复,声称自已的疑问无关竞争,并举例自己实验室的前成员Marc'Aurelio Ranzato、Karol Gregor、koray kavukcuoglu等都曾使用过一些版本的目标传播,如今他们都在谷歌DeepMind工作。

55f6c5ddecc965144c3863e44cccc68c.jpeg图源:@Gabriel Jimenez@Yann LeCun

更有人调侃起了Yann LeCun,「当无法击败Jürgen Schmidhuber,就成为他吧。」

e98d10aff80b17c158d05c688b283c7d.jpeg

Yann LeCun到底说的对不对呢?我们先来看谷歌这项研究到底讲了啥,有没有突出创新呢?

谷歌LocoProp:用局部损失优化增强反向传播

这项研究由来自谷歌的 Ehsan Amid 、 Rohan Anil、 Manfred K. Warmuth 三位研究者合作完成。

80726c66786a0871a8f6084fbc0ac609.jpeg

论文地址:https://proceedings.mlr.press/v151/amid22a/amid22a.pdf


本文认为,深度神经网络(DNN)成功的关键因素有两个:模型设计和训练数据,但很少有研究者讨论更新模型参数的优化方法。我们在训练训练DNN时涉及最小化损失函数,该函数用来预测真实值和模型预测值之间的差异,并用反向传播进行参数更新。

最简单的权值更新方法是随机梯度下降,即在每一个step中,权值相对于梯度负方向移动。此外,还有高级的优化方法,如动量优化器、AdaGrad等。这些优化器通常被称为一阶方法,因为它们通常只使用一阶导数的信息来修改更新方向。

还有更高级的优化方法如Shampoo 、K-FAC等已被证明可以提高收敛性,减少迭代次数,这些方法能够捕获梯度的变化。利用这些额外的信息,高阶优化器可以通过考虑不同参数组之间的相关性来发现训练模型更有效的更新方向。缺点是,计算高阶更新方向比一阶更新在计算上更昂贵。

谷歌在论文中引入了一个训练DNN模型的框架:LocoProp,其将神经网络构想为层的模块化组合。一般来说,神经网络的每一层对输入进行线性变换,然后是非线性的激活函数。在该研究中,网络每一层被分配了自己的权重正则化器、输出目标和损失函数。每一层的损失函数被设计成与该层的激活函数相匹配。使用这种形式,训练给定的小batch局部损失可以降到最低,在各层之间迭代并行地进行。

谷歌使用这种一阶优化器进行参数更新,从而避免了高阶优化器所需的计算成本。

研究表明 LocoProp 在深度自动编码器基准测试中优于一阶方法,并且在没有高内存和计算要求的情况下与高阶优化器(如 Shampoo 和 K-FAC)性能相当。

0a5cf1ef4e3627e1ae8aa8d80ec2b25c.jpeg LocoProp:通过局部损失优化增强反向传播


通常神经网络被视为复合函数,其将每一层的输入转换为输出表示。LocoProp 在将网络分解为层时采用了这种观点。特别是,LocoProp 不是更新层的权重以最小化输出的损失函数,而是应用特定于每一层的预定义局部损失函数。对于给定的层,选择损失函数以匹配激活函数,例如,将为具有 tanh 激活的层选择 tanh 损失。此外,正则化项确保更新后的权重不会偏离当前值太远。

6a37f68a7c947776ff93dbfe1716a907.gif

与反向传播类似,LocoProp应用前向传递来计算激活。在反向传递中,LocoProp为每一层的的神经元设置目标。最后,LocoProp将模型训练分解为跨层的独立问题,其中多个局部更新可以并行应用于每层的权值。

谷歌在深度自动编码器模型中进行了实验,这是评估优化算法性能的常用基准。他们对多个常用的一阶优化器进行广泛的优化,包括 SGD、具有动量的SGD 、AdaGrad、RMSProp、Adam,以及高阶优化器,包括Shampoo 、K-FAC,并将结果与LocoProp比较。研究结果表明,LocoProp方法的性能明显优于一阶优化器,与高阶优化器相当,同时在单个GPU上运行时速度明显更快。

a618249568a67617262231f71035a691.jpeg

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

e42a84a539d248fa38c620d1340ef507.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481758.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于深度学习的场景分割算法研究综述

基于深度学习的场景分割算法研究综述 人工智能技术与咨询 来自《计算机研究与发展》 ,作者张 蕊等 摘 要 场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对场景图像的分析和理解具有重要意义,…

DeepMind 首席科学家 Oriol Vinyals 最新访谈:通用 AI 的未来是强交互式元学习

整理:李梅编辑:陈彩娴自 2016 年 AlphaGo 在围棋中击败人类以来,DeepMind 的科学家一直致力于探索强大的通用人工智能算法,Oriol Vinyals 就是其中之一。Vinyals 于 2016 年加入 DeepMind,目前任首席科学家&#xff0c…

卷积神经网络结构优化综述

卷积神经网络结构优化综述 人工智能技术与咨询 来源:《自动化学报》 ,作者林景栋等 摘 要 近年来,卷积神经网络(Convolutional neural network,CNNs)在计算机视觉、自然语言处理、语音识别等领域取得了突飞猛进的发展,其强大的特征学习能力引起了国内…

梅勒妮·米切尔 | 复杂性科学将如何颠覆我们对世界的认知?

来源:哲学人作者:梅勒妮米切尔(Melanie Mitchell) 波特兰州立大学计算机科学教授,圣塔菲研究所(Santa Fe Institute)外聘教授和科学委员会成员1894年,物理学家、诺贝尔奖得主阿尔伯…

基于三维激光点云的目标识别与跟踪研究

基于三维激光点云的目标识别与跟踪研究 人工智能技术与咨询 来源:《汽车工程》 ,作者徐国艳等 [摘要] 针对无人车环境感知中的障碍物检测问题,设计了一套基于车载激光雷达的目标识别与跟踪方法。为降低计算量&#…

北大谭营教授:推动CICC城市大脑专委会的发展建议

2022年7月16日,中国指挥与控制学会(CICC)城市大脑专业委会在北京正式成立。在成立大会上也举办了城市大脑前沿学术研讨会,新当选的专委会顾问、主任委员、副主任委员发表了最新研究成果和观点,对城市大脑的未来发展进行…

战斗机嵌入式训练系统中的智能虚拟陪练

战斗机嵌入式训练系统中的智能虚拟陪练 人工智能技术与咨询 来源:《航空学报》 ,作者陈斌等 摘 要:智能化“实虚”对抗是现代先进战斗机嵌入式训练系统的重要功能需求。自主空战决策控制技术在未来空战装备发展中扮演关键角色。将当前的功…

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远...

来源:AI科技评论作者:Boaz Barak编译:黄楠编辑:陈彩娴上世纪九十年代,斯坦福大学的知名生物信息学教授 Rob Tibshirani 曾拟了一个词汇表,将机器学习与统计学中的不同概念作了简单而粗暴的对应关系&#xf…

基于并行附加特征提取网络的SSD地面小目标检测模型

人工智能技术与咨询 来源:《电子学报》 ,作者李宝奇等 摘 要: 针对SSD原始附加特征提取网络(Original Additional Feature Extraction Network,OAFEN)中stride操作造成图像小目标信息丢失和串联结构产生的多尺度特征之间冗余度较大的问题&a…

细胞分裂时染色体出现了什么令人惊讶的物理性质?Nature这篇新研究详细讲解...

来源:生物通来自奥地利科学院分子生物技术研究所Gerlich小组的研究人员发现了一种分子机制,该机制在人类细胞分裂时赋予染色体特殊的物理特性,使它们能够精确忠实地传递给后代。研究结果发表在《自然》杂志上。细胞分裂早期有丝分裂染色体(紫…

人人皆可免费造芯?谷歌开源芯片计划已释放90nm、130nm和180nm工艺设计套件

来源:AI前线整理:钰莹这是世界首个开源 PDK,目前已经提供 130nm、90nm 以及 180nm 的工艺设计套件,这些数字听起来没有 3nm 那么让人兴奋,但在物联网的众多硬件设计中被广泛应用。谷歌联手 GlobalFoundries&#xff0c…

面向关系数据库的智能索引调优方法

面向关系数据库的智能索引调优方法 人工智能技术与咨询 来源:《软件学报》 ,作者邱 涛等 摘 要:数据库索引是关系数据库系统实现快速查询的有效方式之一.智能索引调优技术可以有效地对数据库实例进行索引调节,从而保持数据库高效的查询性能.现有的方法…

中国电信张东:数据治理与城市感知网的建设与运营

2022年7月16日,中国指挥与控制学会(CICC)城市大脑专业委会在北京正式成立。在成立大会上也举办了城市大脑前沿学术研讨会,新当选的专委会顾问、主任委员、副主任委员发表了最新研究成果和观点,对城市大脑的未来发展进行…

【前沿技术】270多起车祸,特斯拉Autopilot和自动驾驶被诉虚假宣传

来源:智能研究院「虚假的自动驾驶」(fake self driving),一名网友这样评论道。在自动驾驶领域,特斯拉依靠其 Autopilot 成为业界追赶的标杆。但有时,特斯拉在产品和功能宣传时并不是那么地实事求是。近日&a…

面向区块链的高效物化视图维护和可信查询

面向区块链的高效物化视图维护和可信查询 人工智能技术与咨询 来源:《软件学报》 ,作者蔡 磊等 摘 要:区块链具有去中心化、不可篡改和可追溯等特性,可应用于金融、物流等诸多行业.由于所有交易数据按照交易时间顺序存储在各个区块,相同类型的交易数据…

合力远洋候国军:Web3.0的机遇与挑战

2022年8月6日, 中国指挥与控制学会CICC)“百名专家、百场讲座”第九讲邀请到合力远洋候国军做了主题为Web3.0的机遇与挑战“”的学术讲座。本次讲座也是CICC城市大脑专委会组织的第二期城市大脑系列学术报告。在报告中,候国军师深入解析了什么是Web3.0以…

时间约束的实体解析中记录对排序研究

时间约束的实体解析中记录对排序研究 人工智能技术与咨询 来源:《软件学报》 ,作者孙琛琛等 摘 要:实体解析是数据集成和数据清洗的重要组成部分,也是大数据分析与挖掘的必要预处理步骤.传统的批处理式实体解析的整体运行时间较长,无法满足当前(近似)…

中国自动驾驶政策全球领跑,两城率先开展全无人商业运营

来源:环球时报日前重庆、武汉两地政府部门率先发布自动驾驶全无人商业化试点政策,并向百度发放全国首批无人化示范运营资格,允许车内无安全员的自动驾驶车辆在社会道路上开展商业化服务。此次政策落地,标志着重庆、武汉两地居民将…

基于时空相关属性模型的公交到站时间预测算法

基于时空相关属性模型的公交到站时间预测算法 人工智能技术与咨询 来源:《软件学报》 ,作者赖永炫等 摘 要:公交车辆到站时间的预测是公交调度辅助决策系统的重要依据,可帮助调度员及时发现晚点车辆,并做出合理的调度决策.然而,公交到站时间受交通拥堵…

眼见不一定为实,你的大脑是怎么被骗的?

来源:中科院物理所作者:Meisa Salaita翻译:Nuor审校:zhenni编辑:藏痴原文链接:How Optical Illusions Work1870年,卢迪玛赫尔曼(Ludimar Hermann)首次发现了赫尔曼栅格错…