DeepMind最新论文提出「Rainbow」,将深度强化学习组合改进

来源:本文经公众号「雷克世界」授权转载(微信号:ROBO_AI)

作者:DeepMind   编译:嗯~阿童木呀、多啦A亮

概要:在将强化学习(RL)扩展到复杂序列决策问题(sequential decision-making problems)上,现如今的许多成功都是由Deep Q-Networks算法带来的(Mnih等人于2013年,2015年提出)。


相信那些时刻关注深度强化学习的人士都知道,深度强化学习社区已经对DQN算法进行了若干次独立的改进。但是,目前尚不清楚这些扩展中的哪些是互补的,同时可以有效地组合在一起。本文研究了DQN算法的六个扩展,并对其组合进行了实证研究。我们的实验表明,从数据效率和最终性能方面来说,该组合能够在Atari 2600基准上提供最为先进的性能。我们还提供详细的消融研究结果(ablation study),该研究结果显示了每个成分对整体性能的影响。

 

图1:在57 Atari游戏中,中等人类水平的表现。我们将我们的集成智能体(彩虹色)与DQN(灰色)以及六个已发布的基准进行比较。需要注意的是,在700万帧之后我们会得到与DQN的最佳性能匹配,超过4400万帧内的任何基线,并且显著地提高了最终性能。曲线平滑,且移动平均值超过5点。


介绍


在将强化学习(RL)扩展到复杂序列决策问题(sequential decision-making problems)上,现如今的许多成功都是由Deep Q-Networks算法带来的(Mnih等人于2013年,2015年提出)。它将具有卷积神经网络的Q-learning与经验回放(experience replay)组合在一起,使其能够从原始像素点中学习如何以人类水平的水平玩Atari游戏。从那时起,人们开始提出许多扩展版本,以提高其速度或稳定性。


双DQN(DDQN,van Hasselt,Guez和Silver于2016年提出)通过对bootstrap action的解耦选择和评估,解决了Q-learning的高估偏差(van Hasselt 等人于2010年提出)问题。优先化经验回放(Prioritized experience replay)(Schaul等人于2015年提出)通过更频繁地回放那些有更多值得学习的转换来提高数据效率。竞争网络(dueling network)架构(Wang等人于2016年提出)通过分别表示状态值和操作优势,以进行跨操作泛化。正如在A3C中使用那样,从多步bootstrap目标中学习,将改变“偏差—方差”的平衡,并有助于将新观察到的奖励更快地传播到早期的访问状态。分布式Q-learning学习了一种折扣回报的分类分布,而不是对平均值进行评估。噪声DQN(Noisy DQN)则使用随机网络层进行探索。而这个清单也理所当然不是详尽无遗的。


这些算法中的每一个都可以独立地实现显著的性能改进,由于它们是通过解决根本不同的问题来实现的,并且由于它们是建立在一个共享的框架上的,所以它们很有可能会被组合在一起。在某些情况下,这已经做到了这一点:优先化DDQN(Prioritized DDQN)和竞争DDQN(dueling DDQN)都使用双向Q-learning,而竞争DDQN也与优先化经验回放组合在一起。


在本文中,我们提出研究一种结合了上述所有成分的智能体。我们的研究结果展示了这些截然不同的想法是如何被组合在一起的,而且它们确实在很大程度上是互补的。实际上,从数据效率和最终性能方面来说,在Arcade学习环境(Bellemare等人于2013年提出)中,他们的组合使得57 个Atari 2600游戏中最先进的基准测试结果。在最后,我们展示了消融研究的结果,以帮助了解不同成分对整体性能的影响。


讨论

 

我们已经证明,DQN的几个改进可以被成功地整合到一个单一的学习算法中,以达到最先进的性能。此外,我们已经表明,在集成算法中,除了一个成分之外,所有成分都提供了明显的性能优势。还有更多的算法成分,我们无法都包含,这将是对一体化智能体进一步实验的有希望的候选成分。在许多可能的候选成分中,我们将在以下内容中讨论几个。

 

我们在这里重点关注Q-learning系列中基于值的方法。我们没有考虑到纯粹的基于策略的强化学习算法,例如置信域策略优化(trust-region policy optimisation ,Schulman等人于2015年提出),也没有考虑到actor-critic方法(Mnih等人于2016年提出; O'Donoghue等人于2016年提出)。

  

图4:所有57个Atari游戏的独立智能体(ablation agents)性能下降测试。性能是学习曲线下的面积,相对于Rainbow智能体和 DQN进行了规则化。其中,DQN超越Rainbow的两种游戏被剔除了。导致性能下降最严重的成分在每个游戏中都被高亮显示了。删除优先级和多步骤学习在大多数游戏中造成的性能影响最大,不过每个成分在不同游戏中的影响各有差异。

 

许多算法利用一系列数据来提高学习效率。优化收紧(Optimality tightening)(He等人于2016年提出)使用多步回归来构造额外的不等式边界,而不是使用它们代替Q-learning中使用的一步(1-step)目标。资格迹(Eligibility traces)允许在n-step回归上进行软性组合(Sutton等人于1988年提出)。然而,序贯法(sequential methods)比Rainbow中使用的多步目标更能计算每个梯度的计算量。此外,引入优先级序列重放提出了如何存储、重放和优先顺序的问题。

 

情景控制(Episodic control ,Blundell等人于2016年提出)也着重于数据效率,并被证明在某些领域是非常有效的。它通过使用情景记忆作为补充学习系统来改善早期学习,能够立即重新制定成功的动作序列。

 

除了噪声网络,许多其他的探索方法也可能是有用的算法要素:在这些自助式DQN(Bootstrapped DQN)(Osband等人于2016年提出)、内在动机(intrinsic motivation)(Stadie,Levine和Abbeel 等人于2015年提出)和基于数量的探索(Bellemare等人于2016年提出)中。这些替代成分的整合是进一步研究的成果。

 

在本文中,我们将重点放在核心的学习更新上,而无需探索其他计算架构。并行副本环境的一部学习,如在A3C(Mnih等人于2016年提出)、Gorila(Nair等人于2015年提出)或进化策略(Salimans等人于2017年提出)中可以有效加速学习,至少在执行时间方面。但是请注意,它们的数据效率较低。

 

分层强化学习(Hierarchical RL)也被成功应用于几个复杂的Atari游戏。在分层强化学习的成功应用中,我们强调了h-DQN(Kulkarni 等人于2016年提出)和Feudal网络(Vezhnevets等人于2017年提出)。

 

通过利用诸如像素控制或特征控制(Jaderberg等人于2016年提出)、监督预测(Dosovitskiy和Koltun于2016年提出)或后继特征(Kulkarni等人于2016提出)等辅助任务也可以使状态表现更加有效。

 

为了评估Rainbow相对于基准线的公平性,我们遵循了对剪裁奖励、固定动作重复和帧叠加的常规域修改,但是这些修改可能会被其他学习算法改进。波普艺术规范化(Pop-Art normalization)(van Hasselt等人于2016年提出)允许删除奖励剪裁,同时保持类似的性能水平。精细的动作重复(Fine-grained action repetition)(Sharma,Lakshminarayanan和Ravindran 等人于2017年提出)能够学习如何重复动作。一个循环状态网络(Hausknecht和Stone等人于2015年提出)可以学习时间状态表示,代替观察帧的固定堆叠。一般来说,我们认为将真实游戏暴露给智能体是未来研究具有前途的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498493.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2018年人工智能将赋能所有行业,未来市场将超过400亿美元

来源:机械鸡 计算分析大数据绝不是一时性的。随着数据量的不断增长,分析大数据的方式也将改善。涉及到预测性分析的应用时,我们只看到冰山一角。它通过数据挖掘、机器学习、AI技术帮助组织机构分析现有数据,比如预测销售额、优化营…

评论后的Ajax和刷新分页,Wordpress Ajax 评论分页/翻页 – Fatesinger

WordPress 升级到4.4版本后源代码分页函数失效。只需要给paginate_comments_links函数加上个total参数就可以了。代码已更新。如果某篇文章评论特别多的时候,我们可以启用分页,但是想查看其他分页的评论就要刷新页面,但是文章内容是相同的&am…

深度丨我们可以有多信任人工智能

来源: 人工智能爱好俱乐部 概要:AI中通常,但也并非一定,由软件主导控制,然而软件很容易出现漏洞。鉴于这点,我们该如何确定AI本身是否足够可靠以完成其任务,或简单来说,我们可以有多…

科学:螳螂虾大脑拥有记忆和学习中心

来源:科学网 www.sciencenet.cn 概要:研究人员发现,螳螂虾的大脑含有被称为蕈形体的记忆和学习中心。迄今为止,这一结构仅在昆虫中见到。 螳螂虾或许拥有比此前认为的更加复杂的大脑。这是对包括螃蟹、虾和龙虾在内的200多种甲壳类…

大牛激辩:AI 该像婴儿一样生来就懂事,还是该从零学习?

来源:36氪 概要:人工智能的学习是否需要内置人类与动物与生俱来的那种认知手段来实现类似水平的一般智能? 人工智能的学习是否需要内置人类与动物与生俱来的那种认知手段来实现类似水平的一般智能? 虽然现在人工智能炒作得很厉害…

矿井通风计算c语言_矿井主通风机的技术发展现状与未来发展趋势

矿井安全的重要性人人皆知,矿井主通风机是确保井下正常通风的重要设备,不仅影响矿井的生产能力,而且对矿业的安全是至关重要的。国内矿用主通风机在经历了早期的离心风机以及七、八十年代以2K60、2K58为代表的轴流风机之后,目前市…

全球AI报告:探索人工智能革命

来源:199IT互联网数据中心 概要:报告认为,到2030年,AI将为全球经济贡献高达15.7万亿美元,比中国和印度目前经济产值的总和还多。 最近发布了一份名为“探索AI革命”的全球AI报告,强调人工智能如何增强企业的…

datetimepicker 更新值无效_文献阅读之Voronoi图的生成与更新

通俗的说,在机器人导航方面,Voronoi图是一种将地图分区的方法,分区的界限即Voronoi图的边,常用作机器人远离障碍物避障的规划路径。本文主要参考了 Boris Lau 的论文和代码,对Voronoi图的生成和更新进行分析。相关的3篇…

马化腾:我创办腾讯的这些年

来源:全球创新论坛 概要:回顾腾讯的创业之路,我觉得机遇很重要,至少占了五成。我不觉得自己特别聪明,做的东西也都是很简单的判断。在这个过程中,时代的因素也是非常重要的,很多机遇是外界赋予的…

谷歌全方位自曝Waymo无人车技术方案 | 42页报告要点解读+下载

李杉 夏乙 编译整理 量子位 出品 | 公众号 QbitAI 谷歌今天发布了一份无人车重磅报告:《通往完全自动驾驶之路》。 这份42页的报告从技术层面详细展示了谷歌Waymo无人车的软件、硬件、测试流程,还讲了无人车行驶的限制条件,“失败”时如何安全…

Gartner公布:2018年十大战略科技发展趋势 研发战略演进研究榜单

来源:壹佰案例 全球领先的信息技术研究和顾问公司Gartner公布了将在2018年对大部分企业机构产生显著影响的首要战略科技发展趋势。 Gartner将战略科技发展趋势定义为具有巨大颠覆性潜力、脱离初期阶段且影响范围和用途正不断扩大的战略科技发展趋势;这些…

“芯”战争,人工智能芯片研发攻略

来源:半导体行业观察、安信证券 概要:深度学习作为新一代计算模式,近年来,其所取得的前所未有的突破掀起了人工智能新一轮发展热潮。 在全球科技领域,人工智能无疑是最热门的领域。这种并不算新的应用场景将会带动新一…

红米k30pro工程测试代码_3299起?红米K30Pro官宣3.24发 对比米10 追悼会来了?

声音 | 小白今天上午,官方正式宣布将于 3月24日 下周二 举行Redmi K30 Pro旗舰新品线上发布会。有些尴尬的是,官方宣布的K30Pro发布会最终日期和早前卢伟冰预热的完全不一样...似乎也间接说明卢总的话也不能全信(华为P40系列全球发布会是3月26日&#xf…

Facebook打算与Google的人工智能一较高下吗?

译者:彭婷 概要:每年,一些个人爱好者和大型团队会构建人工智能机器人,以争夺“星际争霸”。今年,Facebook在悄无声息中也加入了这场比赛。如此一来,他们的较量情形会是怎样的呢? 每年&#xff0…

微云存照片会变模糊吗_手机自带微云台防抖,VivoX50系列不一般

喜欢我的文章吗?请点上方蓝色字体关注吧VIVO X50系列共发布三个版本:标准版,pro版,pro版。其售价格分别为:3498,4298,4998元。X50标准版很一般,完全不建议购买。毕竟都卖…

四大科技巨头都如何利用AI来相互竞争?

来源:全球人工智能 概要:想想时下大型科技公司悉数追逐的最火爆、竞争最激烈的那些行业:家居自动化,无人驾驶汽车,增强现实。而贯穿所有这些商业机会的主题又是什么呢?人工智能。 据国外媒体Fast Company报…

log4j 禁止类输出日志_SpringBoot统一日志处理原理

阅读推荐程序员跳槽时机已到,闲聊中面试官无意泄题SpringBoot作为日常开发利器,开箱即用,大量的star等已经成为节省开发的重要框架之一,但是各个框架的star中引入的日志框架却不尽相同,有的是log4j,有的是s…

AI 三大教父齐聚深度学习峰会,讨论尖端研究进展

来源:36氪 概要:近日,深度学习峰会正在加拿大蒙特利尔举行,有史以来第一次3位AI教父:Yoshua Bengio、Yann LeCun以及 Geoffrey Hinton聚在了一起出席RE•WORK举办的一个专题讨论会。 近日,深度学习峰会正在…

人工智能预测之七宗罪

译者:李凌 概要:一些有关人工智能和机器人未来发展的事情疯狂地将我们包围——人们对未来人工智能和机器人会变得如何强大、发展的如何快以及对我们工作产生的影响充满担忧。 错误的推断,有限的想象力和其他一些常见错误,会影响我…

xd使用技巧_魔兽世界怀旧服老玩家才会的治疗技巧,这四个技能需要看时机选择...

游戏中我们是朋友,聊天侃地,在这里我们可以无拘无束的发言,不会有任何人阻挠,还有大家最喜欢吐槽的小编,请把口水收集好,随时准备和小编一起吐槽!魔兽世界怀旧服老玩家才会的治疗技巧&#xff0…