重磅!DeepMind新作Gato:一个模型、一套权重通吃600+视觉文本和决策任务!

20ab13b1e1a0ffe6ecb875734736dd08.png

来源:量子位(QbitAI)
作者:梦晨 鱼羊

通用人工智能,还得看DeepMind。

这回,只一个模型,使用相同的权重,不仅把看家本领雅达利游戏玩得飞起。

和人类聊聊天、看图写话也不在话下。

甚至还能在现实环境里控制机械臂,让其听从指令完成任务!

a1be91bdd948df218d52814544af771a.gif

模型名为Gato,西班牙语中的“猫”。

按照DeepMind的说法,这只猫猫可以使用具有相同权重的同一个神经网络,适应各种不同的环境。

具体而言,DeepMind让它在604个不同的任务上接受了训练,这些任务模式完全不同,需要观察的元素和行为规则也不同。

而Gato不仅在450个任务中都超过了专家水平的50%,在23个雅达利游戏上表现还超过人类平均分。

3e65a263447fc8a75c63ffd6493029cc.png

DeepMind CEO哈萨比斯直接说:

这是我们目前最通用的智能体。

c15f7162cdbc982ecbe7367fa08e220a.png

这一最新成果一发布,当即就在AI圈子里掀起热议。

14152656cad979ae8607439eb8402fb0.png

有AI研究者指出:

Gato令人印象深刻。只需要在云上花费5万美元,就能完成对它的训练。

这点钱只是PaLM训练费用1100万美元的一个零头。用PaLM的预算完全可以将Gato扩展100倍,而这很可能是行之有效的。

PaLM是谷歌发布的5400亿参数语言模型。

daae66617fa23acd0a7ed7805d4f49f4.png

有人直接祭出了AlphaStar架构和Gato架构的对比:

83806d6caa5820f47ef5a6cc64491454.png

Zoom AI杰出科学家Awni Hannun则直接感叹起过去5周以来,谷歌/DeepMind释出成果之密集。

35bdfaf101fc2c157ad49bea2dfe5ce3.png

所以这只来自DeepMind的“猫猫”,究竟怎么一回事?

一个Transformer搞定一切

对于研究方法,DeepMind只用一句话就解释明白了:

我们受到语言大模型的启发,用类似的方法把模型能力拓展到文本之外的领域。

没错,这次立功的又是语言大模型中常用的Transformer架构。

Transformer的本质就是把一个序列转换(transform)成另一个序列。

b4947e58b28437248e5d8fd615adad34.png

所以要想让它掌握各种不同任务,首先就需要把各类数据都编码成序列。

文本自不必说,天然就是序列信息,可用经典的SentencePiece编码。

图像,ViT已经打好样,先按16x16像素分割,再给每个像素编上号处理成序列。

5c8cf48ea048f1fdcfbbfb28de8a4570.gif

玩游戏时的按键输入同样是序列,属于离散值,比如懂得都懂的“上上下下左右左右BABA”。

2963e241f5484a5563649ccc19b15840.png

操纵机器人时的传感器信号和关节力矩属于连续值,也通过一系列采样和编码处理成离散序列。

最终,所有序列数据都交给同一个Transformer处理。

5e3e95759106d46bb13af86202d55fa8.png

整个Gato模型使用的训练数据总体上偏向游戏和机器人控制任务,596个任务占了85.3%。视觉和自然语言任务只占14.7%。

aab5dbb31a5b176a1bb5e8fdfaa68673.png

模型架构上,为了简洁和可扩展性,就在最经典的原版Transformer基础上小改,具体参数如下:

b67956ac72a8b92204c3bdc3439f8a54.png

24层11.8亿参数版的Gato,在谷歌16x16 Cloud TPUv3切片上训练了大约4天。

到了部署阶段,Gato对于视觉和语言任务就像传统Transformer和ViT那样运行。

对于游戏和机器人控制的行为模式则可以理解为“走一步看一步”。

首先给出一个任务提示,比如游戏操作或机器人动作,作为输出序列的开头。

接下来Gato会观察当前的环境,对动作向量进行一次自回归采样,执行动作后环境发生变化,再重复这个过程……

19e6ffe389751ae91b25ff9ceb514c90.png

那么这样训练出来的Gato,在各项任务中到底表现如何?

仅靠12亿参数成为多面手

玩游戏方面,Gato的表现可以用一张图来总结。

x轴是训练集之中专家水平的百分比,其中0代表一个随机参数模型的水平。

y轴是Gato超过或达到对应专家水平的任务数量。

最终结果,Gato在604个任务中,有450个超过了专家水平的50%。

f5bee07431c70e0b28eeaca7098e1e94.png

更详细的结果如下:

雅达利游戏测试中,Gato在23个游戏上表现超过人类平均分,11个游戏上比人类得分高一倍。

这些游戏包括经典的乒乓球、赛车,也包括射击、格斗等多种类型。

8fd5a5a409bcfa8e3eb31f271524033c.png

在Bengio团队推出的BabyAI测试上,Gato几乎在所有关卡达到了专家水平的80%,最难的几个Boss关达到75%。与之前BabyAI榜单上的两个模型水平相当(分别为77%和90%),但这两个模型都针对性的用了上百万个演示来训练。

1203cb7490eddcc3b007e4827b99cf90.png

△BabyAI关卡示例。

在Meta-World上(虚拟环境中操作机械臂),Gato在全部45个任务中,有44个超过专家水平的50%,35个超过80%,3个超过90%。

c200b9bc9ef4a4600295a178b2ae482f.png

△Meta-World任务示例

操纵真实机器人方面,与之前模型对比也不遑多让。

1457a6fe7eac362890ea6a0d3bb13aff.png

至于视觉和文本任务DeepMind这次至少为了验证通用模型的可行性,没有做跑分,而是给了一些示例。

7773786a8ec55ce31ed5a5dc41f40cb6.png

△描述图像

a196f39e8933af87f21ee2310ad55f2c.png

△聊天对话

最后,DeepMind还对Gato模型的可扩展性做了评估。

虽然当前Gato在每一个单独任务上都还比不上SOTA结果,但实验结果表明,随着参数、数据和硬件的增加,Gato模型的性能还有成比例上涨的空间。

9e7f517732e336814a6f6473950821d2.png

另外,Gato在少样本学习上也表现出一定潜力。

15013c29d66aa5f4d74e841e45076fd2.png

DeepMind认为,这样一个通用模型将来可通过提示或微调迅速学习新的任务,再也不用为每个任务都重头训练一个大模型了。

通用人工智能还有多远?

看完Gato如此表现,网友们的“大受震撼”也就不奇怪了。

甚至还有人认为,AGI(通用人工智能)近在眼前。

acca57c3a457a9a31e298e6d5ab9eac8.png

当然,反对/质疑的声音也不小。

比如始终冲在给人工智能泼冷水一线的马库斯,这次也第一时间开了炮:

仔细看看第10页。无论模型有多大,大型语言模型标志性的不靠谱和错误信息仍然存在。

cf34f94e28ccf0222e19d4c07086d069.png

但不管怎么说,DeepMind在通用人工智能方向上的努力都在不断涌现出新成果。

事实上,无论是2013年惊艳了谷歌的雅达利游戏AI,还是名满全球的AlphaGo、AlphaStar,DeepMind透过这些阶段性成果想要达成的终极目标,一直都通向通用人工智能这个关键词。

6c5c5971d4db222a44c123467d681b93.gif

去年,DeepMind首席研究科学家、伦敦大学学院教授David Silver还领衔发布了一篇同样引起不少讨论的文章:Reward is Enough。

论文认为,强化学习作为基于奖励最大化的人工智能分支,足以推动通用人工智能的发展。

而据Gato团队成员透露,这只“猫猫”已经在DeepMind内部孕育了2年时间。

971d1056aba665b3d5afc6b1b0855b6c.png

此次Gato是以有监督方式进行离线训练的,但论文也强调,原则上,同样可以采用离线或在线强化学习的方式对其进行训练。

而就在一周前,DeepMind发布了一个新视频,其中说到:

我们接下来要做一件大事(the next big thing),那意味着需要去尝试很多人们认为过于困难的事情。但我们一定要去尝试一下。

现在看来,这个next big thing就是指AGI了。

论文地址:
https://www.deepmind.com/publications/a-generalist-agent

参考链接:
[1]https://twitter.com/DeepMind/status/1524770016259887107

版权申明:内容来源网络,版权归原创者所有。除非无法确认,都会标明作者及出处,如有侵权,烦请告知,我们会立即删除并致歉!

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

25980dce27f26e6424d2d90d9f4fdee2.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482088.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WEB3.0是营销概念?能否代表科技未来趋势的主流

来源:刘锋科学网博客作者 :刘锋链接地址:https://blog.sciencenet.cn/blog-39263-1339334.html本文是根据微信交流的内容整理形成,算是一个随笔,反映了个人的一些观点,未必正确,仅供参考。根据目…

JDKjavac的配置

Path变量,一定要写绝对路径名,不要写相对路径名,写本地的jdk的bin目录和jdk中jre的bin目录,这个win10做的很好,直接写就可以,用不同的变量代替了一个变量,中间还要加分号的尴尬,中间…

Nature:类脑计算亟需宏大蓝图

来源:集智俱乐部作者:A. Mehonic & A. J. Kenyon翻译:任卡娜 审校:JawDrin 编辑:邓一雪 导语与日俱增的算力需求下,现代计算系统能耗也越来越高,很难作为可持续的平台支持人工智能技术的未来…

Sublime Text 3无法安装Package Control插件的解决

QUESTION:Sublime Text 3无法安装Package Control插件的解决? ANSWER: 为了更准确的定位问题,建议插件在安装前开启控制台(快捷键Ctrl~),同时在开启debug模式,这样可以在安装过程中了解哪一步出了问题,然后有针对性…

JAVA:线程总结及多线程实现的两种方法

JAVA:线程总结 目录 目录 JAVA:线程总结 JAVA:线程总结 01_多线程(多线程的引入)(了解) 02_多线程(多线程并行和并发的区别)(了解) 03_多线程(Java程序运行原理和JVM的启动是多线程的吗)(了解) 04_多线程(多线程程序实现的方式1)(掌握…

WEB3.0 能否代表科技未来趋势的主流

来源:刘锋科学网博客作者 :刘锋链接地址:https://blog.sciencenet.cn/blog-39263-1339334.html本文是根据微信交流的内容整理形成,算是一个随笔,反映了个人的一些观点,未必正确,仅供参考。根据目…

网线制作,集线器、交换机、路由器的介绍以及路由器的设置

目录 一. 网线制作 1.1 制作材料 1.2 网线标准 1.3 网线做法 二. 集线器、交换机、路由器介绍 前言 简介 简单来说 三. 路由器的设置 设置1 设置2 设置3 设置4 无线设置 一. 网线制作 1.1 制作材料 网线 …

谷歌AI提出双重策略强化学习框架,帮助机器人安全学习动作技能

来源:AI前线作者:Jimmy(Tsung-Yen) Yang译者:Sambodhi策划:凌敏深度强化学习在自主解决复杂、高维问题方面的前景,引起了 机器人、游戏 和 自动驾驶汽车 等领域的极大兴趣。但是,要想…

美国发布20项重大科技趋势,将在未来30年改变世界!

来源:DeepTech深科技(ID:mit-tr)编辑:net百晓生这份报告是美国陆军公布的一份长达35页的《2016-2045年新兴科技趋势报告》。它是美国在过去几年由政府机构、咨询机构、智囊团、科研机构等发表的32份科技趋势相关研究调…

对话式人工智能发展的真正限制是人类的耐心

来源:AI前线 作者:Jiang Chen,Moveworks 机器学习副总裁译者:王强策划:刘燕从 Siri 到 Alexa 再到谷歌助手,今天我们已经被各种人工智能系统包围了。它们的设计目标只有一个:理解我们。我们已经…

Nature子刊:科学家在类脑芯片上实现类似LSTM的功能,能效高1000倍

来源:机器学习研究组订阅格拉茨技术大学的计算机科学家在 Nature 子刊上发表的一篇论文表明,他们找到了一种在神经形态芯片上模拟 LSTM 的方案,可以让类脑神经形态芯片上的 AI 算法能效提高约 1000 倍。随着智能手机的普及,手机游…

重磅!0.2nm路线图来了!详细讲解技术实现!

来源:tomshardware编译:EETOP世界上最先进的半导体研究机构 Imec 最近在比利时安特卫普举行的未来峰会上分享了其亚1nm和晶体管路线图。该路线图让我们大致了解了到 2036 年Imec将在其实验室与台积电、英特尔、三星和 ASML 等行业巨头合作研发的下一个主…

问题即答案-解决棘手问题的突破性方法

来源:混沌巡洋舰 “问题”(question) 中包含一个非常美妙的词:“ 探索”(quest)。我太喜欢这个词了。——埃利威塞尔(Elie Wiesel)有些人常常感觉一些真相事关重大,自己应…

CSS:盒子模型和清除float浮动的三种常用方法

目录 一:浮动产生原因: 二:浮动产生副作用: 三:浮动解决方法: QUESTION:CSS盒子模型清除浮动? ANSWER: 一:浮动产生原因: 一般浮动是什么情况呢?一般是一个盒子里使用了CSS fl…

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型Imagen

来源:AI科技评论作者:李梅、王玥编辑:陈彩娴文本生成图像模型界又出新手笔!这次的主角是Google Brain推出的 Imagen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度&…

量子技术推动新的传感器热潮

IMPERIAL COLLEGE LONDON/M SQUARED来源:IEEE电气电子工程师想象一下,传感器可以探测思想的磁场、帮助月球车探测月球岩石中的氧气,或者接收来自暗物质的无线电波。正如量子计算机可以从理论上找到经典计算机无法解决的问题的答案一样&#x…

0.2nm路线图来了!详细讲解技术实现!

来源:tomshardware世界上最先进的半导体研究机构 Imec 最近在比利时安特卫普举行的未来峰会上分享了其亚1nm和晶体管路线图。该路线图让我们大致了解了到 2036 年Imec将在其实验室与台积电、英特尔、三星和 ASML 等行业巨头合作研发的下一个主要工艺节点和晶体管架构…

走向认知发展的理性建构理论

Towards a Rational Constructivist Theory of Cognitive Development Fei Xu University of California, Berkeley来源:CreateAMind本文对认知发展理论——理性建构主义进行了综述。这种观点的基本原则如下:(a)初始状态:人类婴儿以一组原型概念的原语开始生命。这些…

JavaWeb笔记:JDBC总结

JavaWeb笔记:JDBC总结 目录 JavaWeb笔记:JDBC总结 一、JDBC概述 二、开发一个JDBC程序(重要) 三、JDBC常用的类和接口详解 1、java.sql.Drivermanager类 : 创建连接 2、java.sql.Connection接口:一个连接 3、java.sql.Statement接口:…

谷歌街景15年乾坤大挪移!带你穿越法老的金字塔

来源:机器学习研究组订阅最近两年多,整个世界都被一个共同对手折腾得够呛。有人咬牙坚持、有人躺平摆烂,有人祈求上天,还有人离开了这个世界。更多的人们则逐渐意识到,原来所谓「Good Old Times」离我们竟然如此之近&a…