DeepMind推出分布式深度强化学习架构IMPALA,让一个Agent学会多种技能

维金 编译自 DeepMind Blog
量子位 出品 | 公众号 QbitAI


目前,深度增强学习(DeepRL)技术在多种任务中都大获成功,无论是机器人的持续控制问题,还是掌握围棋和雅达利的电子游戏。不过,这些方面的进展仅限于孤立任务。完成每一项任务都要单独调试、训练agent。


在最近的工作中,我们研究了如何训练单一agent去执行多种任务。


今天,我们发布了DMLab-30。这是一组新任务,包含了在统一视觉环境、通用动作空间(action space)中的多种类型挑战。训练agent去胜任多种任务意味着巨大的吞吐量,以及要高效地利用每个数据点。


为此,我们开发了全新的、扩展性强的agent架构,用于分布式训练。这就是IMPALA(重要性加权的操作者-学习者架构,Importances Weighted Actor-Learner Architectures),这种架构利用了新的离策略修正算法V-trace。


DMLab-30


DMLab-30用开源增强学习环境DeepMind Lab设计的新关卡的集合。这些环境让任何DeepRL研究者都能基于大量有趣的任务去测试不同系统,可能是单个任务也可能是多任务集合。



任务的设计则尽可能地多样化。这些任务有不同目标,从学习到记忆,再到探索。在视觉上这些任务也有所不同,从色彩鲜艳的现代风格材质,到黎明、正午和夜晚沙漠中表现出的棕色和绿色。这些任务也涉及多种物理环境,从开放的山地地形,到直角迷宫,再到开阔的圆形房间。


此外,有些环境中设置了“机器人”,这些机器人有属于自己的、以目标为导向的行为。同样重要的,不同关卡的目标和奖励有所不同,具体从跟踪语言命令、使用钥匙去开门、寻找蘑菇,到绘制和追踪复杂的不可逆路径。


然而在最基本的层面上,从动作空间和观察空间来看,环境都是相同。这使得单一agent可以通过训练,在不同环境中行动。


IMPALA:


重要性加权的操作者-学习者架构


DMLab-30的挑战性很强。为了利用这个工具,我们开发了全新的分布式agent,即IMPALA。这个agent能利用高效的分布式架构和TensorFlow,让数据吞吐量最大化。


IMPALA的灵感来自于热门的A3C架构,后者使用多个分布式actor来学习agent的参数。在类似这样的模型中,每个actor都使用策略参数的一个副本,在环境中操作。actor会周期性地暂停探索,将它们已经计算得出的梯度信息分享至中央参数服务器,而后者会对此进行更新。



与此不同,IMPALA中的actor不会被用来计算梯度信息。它们只是收集经验,并将这些经验传递至位于中心的learner。learner会计算梯度。因此在这样的模型中,actor和learner是完全独立的。为了利用当代计算系统的规模优势,IMPALA在配置中可支持单个learner机器,也可支持多个相互之间同步的learner机器。以这种方式将学习和操作分开也有利于提升整个系统的吞吐量,因为与批量A2C这类架构不同,actor不再需要等待学习步骤。这帮助我们在有趣的环境中训练IMPALA,同时不必面临由于帧渲染时间或任务重启耗时造成的差异。



不过操作和学习的解耦也导致,actor的策略落后于learner。为了弥补这样的差距,我们引入了离策略优势actor-评价者公式V-trace。它弥补了离策略actor获得的轨迹。你可以从我们的论文中了解算法及其分析细节。



凭借优化的模型,与传统agent相比,IMPALA可以处理多出一到两个数量级的经验,使得在挑战性环境中的学习成为可能。我们将IMPALA与多种热门的actor-评价者方法进行了比较,发现前者有明显的速度提升。此外,IMPALA的吞吐量上升与actor、learner的数量增长呈线性关系。这表明,分布式agent模型和V-trace算法都可以胜任超大规模的实验,即使机器数量达到数千台。


在利用DMLab-30关卡进行测试时,与分布式A3C相比,IMPALA的数据效率达到10倍,而最终得分达到两倍。此外,与单任务环境中的训练相比,IMPALA在多任务环境的训练中表现出正向转换。


论文


IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures


Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, Koray Kavukcuoglu


https://arxiv.org/abs/1802.01561


开源代码


https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30


博客原文


https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497206.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AAAI2018正式落幕 13个世界顶尖AI教授都讲了啥?

来源:智东西概要:2月8日消息,第32届AAAI大会在美国新奥尔良正式闭幕。2月8日消息,第32届AAAI大会在美国新奥尔良正式闭幕。本次大会不仅颁发了最佳论文奖、最佳学生论文奖、经典论文将等一系列奖项。作为顶级学术会议之一&#xf…

Linux 中 VIM 的使用

Vim 官网:http://www.vim.org/ VIM 实用技巧:https://wenku.baidu.com/view/21c5f387d4d8d15abe234ecb.html vim 的一些小技巧:https://www.douban.com/group/topic/1815089 vim 简单实用的技巧总结:http://www.tuicool.com/arti…

Pull Up Method(函数上移)

有些函数,在各个子类中产生完全相同的结果 重构:将该函数移至超类

重磅 | 中国工程院提出新一代智能制造【附下载】

来源:走向智能论坛近日,中国工程院院刊《Engineering》推出最新观点性文章“走向新一代智能制造”,作者周济、李培根、周艳红等,文章指出智能制造是一个不断演进发展的大概念,可归纳为三个基本范式:数字化制…

Python 装饰器 函数

Python装饰器学习(九步入门):http://www.cnblogs.com/rhcad/archive/2011/12/21/2295507.html 浅谈Python装饰器:https://blog.csdn.net/mdl13412/article/details/22608283 Python装饰器与面向切面编程:http://www.cn…

Homepod评测:一款音质超棒但低智商的音箱

来源:The Verge今天,让我们再近距离看看Homepod这款明星产品吧。Homepod拥有卓越的音质HomePod的电源线内置并包裹在面料中,顶部有LED背光音量按钮和一个“显示屏”。之所以打引号是因为它不是真正意义上的显示屏,而是一块LED。它…

Python 生成器 和 yield 关键字

Python 中 yield 的作用:http://youchen.me/2017/02/10/Python-What-does-yield-do/# Python 生成器详解:http://codingpy.com/article/python-generator-notes-by-kissg/#generator Python yield与实现:http://www.cnblogs.com/coder2012/p/…

Extract Subclass(提炼子类)

类中的某些特性只被某些实例用到 重构:新建一个子类,将一部分特性搬移到子类中

从上市公司数据读懂我国新兴产业发展态势

来源:新软件 ccidsaism在全球新一轮科技革命和产业变革中,大数据、物联网、区块链、量子通信、人工智能、机器人、可穿戴设备、新材料等新兴领域展现出巨大的发展潜力,极有可能对未来产业格局和市场产生决定性影响。这些领域的上市公司已成为…

JavaScript,等比例缩放图片的函数,很好用。

在Web上显示图片&#xff0c;通常都会有图片显示比例问题&#xff0c;如果不给<img />限制width和height&#xff0c;那么如果图片大了就会将整个页面挤乱&#xff0c;图片小了又会使图片失真。我的需求如下&#xff1a;1、预先定义好图片显示的标准宽度和高度。2、如果图…

深度学习综述:Hinton、Yann LeCun和Bengio经典重读

来源&#xff1a;人工智能头条翻译 | kevin&#xff0c;刘志远审校 | 李成华深度学习三巨头Geoffrey Hinton、Yann LeCun和Yoshua Bengio对AI领域的贡献无人不知、无人不晓。本文是《Nature》杂志为纪念人工智能60周年而专门推出的深度学习综述&#xff0c;也是Hinton、LeCun和…

Extract Superclass(提炼超类)

两个类有相识特性 重构&#xff1a;为这两个类建立一个超类&#xff0c;将相同特性搬移到超类

扩展控件--NumberTextBox

有些时候我们要限制TextBox的输入 &#xff0c;比如age telephone等字段&#xff0c;故我们要在其某些事件里处理&#xff0c;如果那样的话下次再遇到此类情况我们又的重复操作&#xff0c;在此我们对其进行扩展使其只可以接受 Number输入&#xff0c;这里我们override 其WndP…

AI战略投资全景图:11个行业200多家巨头最爱什么样的AI创业公司?

原作 Kyle Kling李杉 编译自 LinkedIn量子位 出品 | 公众号 QbitAI各行各业都在谈人工智能&#xff0c;各类企业都想运用这项技术来提升自己、捍卫行业地位。究竟哪些行业、哪些公司最积极&#xff1f;哪些AI细分方向最受重视&#xff1f;MDI Ventures美国投资总监Kyle Kling分…

使用javafx百行代码搞定多边形面积计算(可下载)

输出多边形面积 一、使用JavaFX Scene Builder 2.0制作界面&#xff0c;因为比较懒&#xff0c;直接偷工减料&#x1f601;&#x1f601;&#x1f601; 界面部分非常简陋 1.引入库 //main.java 部分 public class main extends Application {Overridepublic void start(Stage…

Extract Interface(提炼接口)

两个类的接口有部分相同 重构&#xff1a;将相同的子集提炼到一个独立接口中

Collapse Hierarchy(折叠继承体系)

超类和子类之间无太大区别 重构&#xff1a;将它们合为一体

65% 的钱被头部玩家拿走,人工智能要进入下半场?

来源&#xff1a;IT桔子概要&#xff1a;2017年&#xff0c;自动驾驶、医疗影像、AI教育成为焦点&#xff1b;一多半AI风险投资被第一梯队选手收入囊中&#xff0c;并快速成长为独角兽。2017年&#xff0c;自动驾驶、医疗影像、AI教育成为焦点&#xff1b;一多半AI风险投资被第…

Form Template Method(塑造模板函数)

有一些子类&#xff0c;其中相应的某些函数以相同顺序执行类似的操作&#xff0c;但各个操作的细节有不同 重构&#xff1a;将这些操作分别放进独立函数中&#xff0c;并保持它们都有相同的签名&#xff0c;然后将原函数上移至超类

自动驾驶第一案结果敲定,谷歌无人驾驶和Uber达成2.5亿美元和解协议

来源&#xff1a;36氪概要&#xff1a;Uber 与谷歌无人驾驶部门 Waymo 的法律纠纷以庭外和解的方式告一段落。Uber 与谷歌无人驾驶部门 Waymo 的法律纠纷以庭外和解的方式告一段落。上周五 &#xff0c;Uber 表示&#xff0c;公司已经和 AlphabetInc 旗下的无人驾驶汽车公司 Wa…