研究遭质疑,Jeff Dean回应:我们本就不是为得到新SOTA,成本计算也搞错了

ace488b6af57f4eacdc2396336343bde.png

来源:机器之心

编辑:杜伟、陈萍

对于 Jeff Dean 的回复,你认同吗?

昨日,整个社区最热门的话题无外乎是 reddit 上一名机器学习研究者对谷歌 AI 负责人 Jeff Dean 参与论文的质疑。这篇论文是《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》,于周四被提交到预印版论文平台 arXiv 上。

7577f8870c0d2d18a2fa409ed90fbcc2.png

在论文中,Jeff Dean 等人提出了一种进化算法,可以生成大规模的多任务模型,同时也支持新任务的动态和连续添加,生成的多任务模型是稀疏激活的,并集成了基于任务的路由。新方法在 69 个图像分类任务上取得有竞争力的结果,例如对仅在公共数据上训练的模型,在 CIFAR-10 上实现了新的业界最高识别准确度 99.43%。

5f8364bf5c61ce565d39a5fd3bd43c62.png

正是这个在 CIFAR-10 上实现的新 SOTA 遭到了质疑,此前的 SOTA 为 99.40。她表示,「产生这一结果需要总计 17,810 小时的 TPU 核心小时数,如果你不在谷歌工作,这意味着必须使用 3.22 美元 / 小时的按需付款,训练好的模型成本需 57,348 美元。」

因此,她发出灵魂一问,「Jeff Dean 花了足够养活一个四口之家五年的钱,获得了在 CIFAR-10 上 0.03% 的改进,创建了新的 SOTA,这一切值得吗?」

这一质疑得到了众多领域人士的附和。有研究人员甚至悲观地表示,「我几乎对深度学习失去了兴趣,作为小型实验室的从业者,在计算预算方面基本上不可能比得过科技巨头。即使你有一个很好的理论想法,主流环境可能也存在偏见,让它难以看到曙光。这酿成了一个不公平的竞争环境。」

随着该话题的继续发酵,Jeff Dean 亲自在 reddit 上进行了回应。他表示,「我们这项研究的目标不是为了得到一个更高质量的 cifar10 模型,而且原帖作者成本计算的方式也有问题。」

c876dacbf2f62c9714ca375595e3de85.png

Jeff Dean 回应全文

这篇论文是我和 Andrea Gesmundo 两人一起完成的,其中 Andrea Gesmundo 做了论文大部分工作。

240d05ed89b3c4108535103f06380e88.png

论文地址:https://arxiv.org/pdf/2205.12755.pdf

我想说的是,这项研究的目标不是得到一个高质量的 cifar10 模型。相反,这项研究是探索一种设置,可以动态地将新任务引入正在运行的系统中,并成功地为新任务获得一个高质量的模型,该模型将重用现有模型中的表示并稀疏地引入新参数,同时避免了灾难性遗忘或负迁移等多任务系统问题。

该研究的实验表明,我们可以从几个独立的可视化任务基准中动态地引入 69 个不同任务流,最终得到一个多任务系统,它可以为所有这些任务联合产生高质量的解决方案。所得到的模型对任何给定的任务都是稀疏激活的,系统为新任务引入的新参数越来越少(参见下图 2)。多任务系统在这个任务流的末尾只为增量任务引入了 1.4% 的新参数,每个任务平均激活模型总参数的 2.3%。任务之间有相当多的表示共享,演化过程有助于确定何时有意义以及何时应该为新任务引入新的可训练参数。

8086ccf30abe5902e626079a08b64a9f.png

我还认为原贴作者对成本的计算是错误的,实验是训练一个多任务模型来共同解决 69 个任务,而不是训练一个 cifar10 模型。从下表 7 中可以看出,所使用的计算是 TPUv3 核和 TPUv4 核的混合,因此不能简单地计算核小时数,因为它们的价格不同。

除非你有特别紧急的任务,需要快速训练 cifar10+68 个任务,其实这类研究可以很容易地使用可抢占价格的资源,即 0.97 美元 / 小时 TPUv4、0.60 美元 / 小时 TPUv3(不是他们所说的你必须按需定价 3.22 美元 / 小时)。在这些假设下,表 7 中描述的计算公共云成本大约是 13960 美元(使用 12861 TPUv4 芯片小时和 2474.5 TPUv3 芯片小时的可抢占价格),或者说是大约 202 美元 / 任务。

34cf6febd998ce094c6a9a8b9a258d65.png

我认为拥有稀疏激活的模型很重要,且能够动态地将新任务引入到现有系统中,该系统可以共享表示(在适当的情况下)并避免灾难性遗忘,这些研究至少值得探索。该系统还有一个优点,即新任务可以自动被纳入系统,而无需为此进行专门制定(这就是进化搜索过程所做的),这似乎是一个持续学习系统的有用属性。

这篇论文的代码是开源的,大家可以自行查看。

代码地址:

https://github.com/google-research/google-research/tree/master/muNet

原贴作者回复 Jeff Dean

ff953aabc934f58a3fc4238e60e8d5ad.png

在看到 Jeff Dean 的回复后,原贴作者表示:澄清一下,我认为 Jeff Dean 的这篇论文(在每个任务中用来产生模型扩充的进化模式)真的很有趣,这让我想起了另一篇论文,但我不记得标题了,论文大概是讲对于每个新任务,向整个体系架构添加新的模块,将其他模块的隐藏状态作为每层输入的一部分,但不更新现有组件的权重。

我还有一个想法,在每个任务的模型中构建模块。你知道小鹿是如何在出生后几分钟内就能走路的吗?相比之下,在那个时候,刚出生的小鹿基本上没有「训练数据」来学习感知运动或对世界进行建模,而是必须利用大脑中的特殊结构,而这些结构必须能够继承以让小鹿拥有基本技能。这些结构将是非常有用的,所以在某种意义上,它将迅速推广到一个新的但相关的控制任务。

因此,这篇论文让我想到了那些已经存在的可继承结构的发展,这些结构可以用来更有效地学习新任务。

另一家实验室的研究人员可能有相同的 idea,但得到的结果要差得多,因为他们负担不起从现有设置转移到大型云平台的费用。并且,由于现在社区过度关注 SOTA 结果,他们的研究也无法发表。即使费用「仅为」202 美元 / 每任务,但必须经过多次迭代才能将事情做好。

因此,对于我们这些无法获得足够计算预算的人来说,我们的选择基本上只有两种。一是祈祷并希望谷歌能够公开分发现有的模型,然后我们根据自身需求进行微调。但结果是,模型可能已经学习到我们无法消除的偏见或对抗性弱点。二是啥都不做,躺平。

所以,我的问题不仅仅在于这项研究。如果 OpenAI 想在 GPT-4 上花费上百万亿美元(打个比方),那就赋予它更多的权力。这是一种过度奖励浮华、大数目和奢侈的科学和出版文化,而无益于帮助人们更好地完成实际的工作。我最喜欢的论文是 van der Oord 在 2019 年发表的《Representation Learning with Contrastive Predictive Coding》,它使用无监督预训练任务,然后对一个小的标签子集进行监督训练,以实现复制标记所有数据的准确率结果,并从数据效率的角度讨论这种提升。我在工作中复现并使用了这些结果,节省了自己的时间和金钱。就凭这篇论文,我就愿意成为他的博士生。

但是,OpenAI 在论文《Language Models are Few-Shot Learners》中提出了更大的 transformer 模型 GPT-3,获得了近四千次引用以及 NeurIPS 2020 最佳论文奖,还获得整个媒体的关注。

参考链接:

https://twitter.com/JeffDean/status/1530676968974262279

https://www.reddit.com/r/MachineLearning/comments/uyratt/d_i_dont_really_trust_papers_out_of_top_labs/iacwmpb/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

b0499f9b22950c1a802d3e0d6559adb8.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482038.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全脑地图:单个记忆被拆分存储在多个相连的大脑区域

来源:神经生物学根据一项创新的脑域映射研究,单一的记忆被存储在许多连接的大脑区域。创新的脑成像研究表明,“记忆印记”,编码记忆的神经元集合,广泛分布,包括在以前没有意识到的区域。麻省理工学院皮考尔…

李德毅 | 新一代人工智能如何从传统人工智能中脱颖而出

来源:图灵人工智能 作者:李德毅 中国工程院院士、CAAI名誉理事长、主线科技首席科学家2021年4月10日,“吴文俊人工智能科学技术奖”十周年颁奖盛典在北京举办。颁奖典礼上,中国工程院院士、中国人工智能学会名誉理事长李德毅荣获…

【强基固本】现在的人工智能是否走上了数学的极端?

来源:知乎—谢凌曦地址:https://www.zhihu.com/question/519393525/answer/2430233113“强基固本,行稳致远”,科学研究离不开理论基础,人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑,为…

智源发布线虫生命模型,超级人脑有望在未来15-30年实现

出品:CSDN(ID:CSDNnews)作者:田玮靖 5月31日,作为国际性、权威性、专业性和前瞻性的“内行AI盛会”——智源大会开幕,会上,智源研究院发布了其最新研究成果线虫生命模型——天宝…

Aquarium华人CEO分享:机器学习在自动驾驶中落地,核心不是模型,是管道

来源:AI科技评论作者:Peter Gao编译:刘冰一编辑:陈彩娴作者 Peter Gao 是 Aquarium 公司的联合创始人和首席执行官(CEO),Aquarium 公司建立了寻找和修复深度学习数据集问题的工具。在 Aquarium …

数据科学中的 10 个重要概念和图表的含义

大数据文摘转载自数据派THU来源:DeepHub IMBA“当算法给你一条曲线时,一定要知道这个曲线的含义!”1、偏差-方差权衡这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所有算法(包括深度学习)都努力…

Java总结:Spring5框架(1)

Spring5框架(1) 一:什么是Spring? Spring框架是由于软件开发的复杂性而创建的。Spring使用的是基本的JavaBean来完成以前只可能由EJB完成的事情。然而,Spring的用途不仅仅限于服务器端的开发。从简单性、可测试性和松耦合性角度而…

专访|79岁图灵奖获得者迈克尔·斯通布雷克谈“数字经济”与“元宇宙”

迈克尔斯通布雷克(Michael Stonebraker)被誉为“世界上最重要的数据库专家之一”,是数据库领域的第4位图灵奖得主来源:数据观撰稿:黄玉叶编辑:蒲蒲如果说硅是未来的新型石油,那么数据就好比新型…

Windows下如何搭建Gradle环境?

QUESTION:Windows下如何搭建Gradle环境? 目录 QUESTION:Windows下如何搭建Gradle环境? ANSWER: 1.开发环境 2.安装步骤 (1)下载最新的Gradle压缩包 (2)解压下载的压缩包到指定位置,比如: (3)配置环境变量 3.测试配置是否成功 ANSWER: 1.开发环境…

2029年会实现通用人工智能吗?Gary Marcus「叫板」马斯克:赌十万美元如何?

来源:AI科技评论作者:王玥编辑:陈彩娴5月30日,世界级红人埃隆马斯克(Elon Musk)发了一条推文,称:2029年是关键的一年,如果那时候我们还没有实现通用人工智能(…

Java总结:SpringBoot的使用cmd命令进行Gradle构建

QUESTION:SpringBoot的使用cmd命令进行Gradle构建 ANWSER: 目录 QUESTION:SpringBoot的使用cmd命令进行Gradle构建 ANWSER: 一:下载SpringBoot工程 二:CMD命令构建gradle 一:下载SpringBoot工程 打开:https://spring.io/pr…

Python之父Guido Van Rossum:炒作之火或将“摧毁” Web 3

来源:Yin Long Ma译者:核子可乐策划:刘燕去中心化互联网压根没戏,Web 3 开发者都是小丑:关于 Web 3,我们到底该相信什么?去中心化互联网是怎么回事?互联网源自 Web 1.0 时代&#xf…

Python:使用matplotlib进行绘图时中文变成乱码的解决

QUESTION:Python:使用matplotlib进行绘图时中文变成乱码的解决? ANSWER: 在绘图前加上下面的代码: plt.rcParams[font.sans-serif][SimHei] #用来正常显示中文标签 plt.rcParams[axes.unicode_minus]False #用来正常显示负号例子: from matplotlib import pyplot as plt pl…

两篇Nature最新研究成果:令细胞衰老的基因突变作用机制的新理论

来源:生物通研究人员发现,基因突变在人的一生中是缓慢积累的,从而导致70岁后血液形成发生巨大变化,这为衰老提供了一种新的理论。一项新的研究揭示了贯穿一生、在血液干细胞中缓慢积累的基因变化可能是导致70岁后血液生产发生巨大…

美国陆军:2045年20项新兴科技趋势报告

来源:硅谷智库 这份报告是美国陆军公布的一份长达35页的《2016-2045年新兴科技趋势报告》。它是美国在过去几年由政府机构、咨询机构、智囊团、科研机构等发表的32份科技趋势相关研究调查报告的基础上提炼形成的。通过对近700项科技趋势的综合比对分析&#xff…

利用宇宙的能力来处理数据!「物理网络」远胜深度神经网络

来源:AI科技评论作者:Charlie Wood编译:王玥编辑:岑峰轮到物理学家来揭示神经网络的本质了:他们在尝试让宇宙为我们处理数据。在一个隔音的板条箱里有着一个世界上最糟糕的神经网络。在看到数字6的图像后,这…

银行家算法总结及实现

QUESTION:银行家算法总结及实现? 目录 QUESTION:银行家算法总结及实现? ANSWER: 一:银行家算法介绍 1.1什么是银行家算法 1.2背景 1.3数据结构 1.4算法分析 二:安全状态和不安全状态 2.1概念 2.2安全性检查 三:算法实现 3.1流…

用10000个电极窃听大脑

来源:大数据文摘作者:BARUN DUTTA原文标题:EAVESDROPPING ON THE BRAIN WITH 10,000 ELECTRODES让我们想象一台由 860 亿个交换机组成的计算机:其通用智能足以构建一个航天文明——但重量仅为1.2公斤,仅消耗20 瓦的功率…

四项研究,人工智能助力观测检测技术

来源:ScienceAI编辑:萝卜皮目录研究人员使用机器学习来加快微塑料的计数科学家利用人工智能增强 X 射线数据分析从显微镜图像中提取特征的弱监督机器学习模型两体微透镜系统中普遍存在的统一简并研究人员使用机器学习来加快微塑料的计数微塑料无处不在—…

电脑恢复删除文件及注册表实现

QUESTION:电脑恢复删除文件及注册表实现 目录 QUESTION:电脑恢复删除文件及注册表实现 ANWSER: 一:恢复文件 二:修复注册表 ANWSER: 一:恢复文件 在删除了一些C盘的文件后,导致电脑一些设置不能使用,出现文件的…