谷歌大脑提出对智能体进行「正向-反向」强化学习训练,加速训练过程

原文来源:arXiv

作者:Ashley D. Edwards、Laura Downs、James C. Davidson

「雷克世界」编译:嗯~是阿童木呀、KABUDA、EVA


在强化学习问题中,关于任务目标的制定,往往需要开发人员花费很多的精力,在本文中,谷歌大脑联合佐治亚理工学院提出了正向-反向强化学习(Forward-Backward Reinforcement Learning,FBRL),它既能从开始位置正向进行探索,也可以从目标开始进行反向探索,从而加速智能体的学习过程。


一般来说,强化学习问题的目标通常是通过手动指定的奖励来定义的。为了设计这些问题,学习算法的开发人员必须从本质上了解任务的目标是什么。然而我们却经常要求智能体在没有任何监督的情况下,在这些稀疏奖励之外,独自发现这些任务目标。虽然强化学习的很多力量来自于这样一种概念,即智能体可以在很少的指导下进行学习,但这一要求对训练过程造成了极大的负担。


如果我们放松这一限制,并赋予智能体关于奖励函数的知识,尤其是目标,那么我们就可以利用反向归纳法(backwards induction)来加速训练过程。为了达到这个目的,我们提出训练一个模型,学习从已知的目标状态中想象出反向步骤。


我们的方法不是专门训练一个智能体以决策该如何在前进的同时到达一个目标,而是反向而行,共同预测我们是如何到达目标的。我们在Gridworld和汉诺塔(Towers of Hanoi)中对我们的研究进行了评估,并通过经验证明了,它的性能比标准的深度双Q学习(Deep Double Q-Learning,DDQN)更好。


强化学习(Reinforcement Learning,RL)问题通常是由智能体在对环境的任务奖励盲然无知的情况下规划的。然而,对于许多稀疏奖励问题,包括点对点导航、拾取和放置操纵、装配等等目标导向的任务,赋予该智能体以奖励函数的知识,对于学习可泛化行为来说,既可行又实用。


通常,这些问题的开发人员通常知道任务目标是什么,但不一定知道如何解决这些问题。在本文中,我们将介绍我们如何利用对目标的知识,使我们甚至能够在智能体到达这些领域之前学习这些领域中的行为。相比于那些从一开始就将学习初始化的方法,这种规划性方案可能更容易解决。


例如,如果我们知道所需的位置、姿势或任务配置,那么我们就可以逆转那些将我们带到那里的操作,而不是迫使智能体独自通过随机发现来解决这些难题。


Gridworld和汉诺塔环境


本文中,我们介绍了正向-反向强化学习(Forward-Backward Reinforcement Learning,FBRL),它引入反向归纳,使我们的智能体能够及时进行逆向推理。通过一个迭代过程,我们既从开始位置正向进行了探索,也从目标开始进行了反向探索。


为了实现这一点,我们引入了一个已学习的反向动态模型,以从已知的的目标状态开始进行反向探索,并在这个局部领域中更新值。这就产生了“展开”稀疏奖励的效果,从而使它们更容易发现,并因此加速了学习过程。


标准的基于模型的方法旨在通过正向想象步骤并使用这些产生幻觉的事件来增加训练数据,从而减少学习优秀策略所必需的经验的数量。然而,并不能保证预期的状态会通向目标,所以这些转出结果可能是不充分的。


预测一个行为的结果的能力并不一定能提供指导,告诉我们哪些行为会通向目标。与此相反,FBRL采用了一种更有指导性的方法,它给定了一个精确的模型,我们相信,每一个处于反向步骤中的状态都有通向目标的路径。


Gridworld中的实验结果,其中n =5、10、15、20。我们分别使用50、100、150、200步的固定水平,结果是10次实验的平均值。


相关研究


当我们访问真正的动态模型时,可以使用纯粹基于模型的方法(如动态编程)来计算所有状态的值(Sutton和Barto于1998年提出),尽管当状态空间较大或连续时,难以在整个状态空间中进行迭代。Q-Learning是一种无模型方法,它通过直接访问状态以在线方式更新值,而函数逼近技术(如Deep Q-Learning)可以泛化到未见的数据中(Mnih等人于2015年提出)。


基于模型和无模型信息的混合方法也可以使用。例如,DYNA-Q(Sutton于1990年提出)是一种早期的方法,它使用想象的转出出来更新Q值,就如同在真实环境中经历过一样。最近出现了更多方法,例如NAF(Gu等人于2016年提出)和I2A(Weber等人于2017年提出)。但这些方法只使用正向的想象力。


与我们自己的方法相似的方法是反向的值迭代(Zang等人于2007年提出),但这是一种纯粹基于模型的方法,并且它不学习反向模型。一个相关的方法从一开始就实现双向搜索和目标(Baldassarre于2003年提出),但这项研究只是学习值,而我们的目标是学习行动和值。


另一项相似的研究是通过使用接近目标状态的反向课程来解决问题(Florensa等人于2017年提出)。但是,该方法假设智能体可以在目标附近得以初始化。我们不做这个假设,因为了解目标状态并不意味着我们知道该如何达到这一状态。

 

汉诺塔中的实验结果,其中n = 2、3。我们分别使用50、100步的固定水平。 结果是10次试验的平均值。


许多研究通过使用域知识来帮助加速学习,例如奖励塑造(Ng等人于1999年提出)。另一种方法是更有效地利用回放缓冲区中的经验。优先经验复现(Schaul等人于2015年提出)旨在回放具有高TD误差的样本。事后经验回放(Hindsight experience replay)将环境中的每个状态视为一个潜在目标,这样即使系统无法达到所需的目标,也可以进行学习。


使用反向动力学的概念类似于动力学逆过程(Agrawal等人于2016年,Pathak等人于2017年提出)。在这些方法中,系统预测在两个状态之间产生转换的动态。我们的方法是利用状态和动作来预测前一个状态。此函数的目的是进行反向操作,并使用此分解来学习靠近目标的值。


本文中,我们介绍了一种加速学习具有稀缺奖励问题的方法。我们介绍了FBRL,它从目标的反向过程中得到了想象步骤。我们证明了该方法在Gridworld和诺塔中的性能表现优于DDQN。这项研究有多个扩展方向。


我们对于评估一个反向计划方法很感兴趣,但我们也可以运用正向和反向的想象力进行训练。另一项进步是改善规划策略。我们使用了一种具有探索性和贪婪性的方法,但没有评估如何在两者之间进行权衡。我们可以使用优先扫描(Moore和Atkeson等人于1993年提出),它选择那些能够导致具有高TD误差状态的行为。


原文链接:https://arxiv.org/pdf/1803.10227.pdf


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496355.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux二进制实用工具Binutils工具集解析()

From:http://blog.csdn.net/zqixiao_09/article/details/50783007 GNU Binutils:http://www.gnu.org/software/binutils/ GNU Binutils详解:http://www.crifan.com/files/doc/docbook/binutils_intro/release/html/binutils_intro.html 交叉…

Spring Data JPA 从入门到精通~JpaSpecificationExecutor的使用方法

JpaSpecificationExecutor 源码和 API 我们也可以通过 idea 工具详细看其用法和实现类,JpaSpecificationExecutor 是 Repository 要继承的接口,而 SimpleJpaRepository 是其默认实现。而通过源码来看其提供的 API 比较简单、明了,有如下几个方…

谷歌人工智能野心:从“下围棋”开始走向商用赚钱

来源:腾讯科技作为人工智能研发的领先企业,谷歌已经开始从技术研发走向了产品商用,创造营收成为一个新目标。谷歌在人工智能领域进行研发的时间比较长,陆续收购了优秀的专业公司。鉴于此,谷歌获得了先发优势&#xff0…

Linux异步之信号(signal)机制分析

From:http://www.cnblogs.com/hoys/archive/2012/08/19/2646377.html From:http://kenby.iteye.com/blog/1173862 Linux下的信号详解及捕捉信号:http://www.jb51.net/article/90695.htm linux信号详解:http://blog.csdn.net/f…

DeepMind集成AI智能体架构「MERLIN」:基于目标导向智能体中的无监督预测记忆

来源:arXiv摘要:在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限。作者:Greg Wayne、 Chia-Chun Hung、David Amos、Mehdi Mirza、Arun Ahuja、Agnieszka Grabska-Barwinska、Jack Rae、Piotr Mi…

手机反编译java源码,Android反编译(一)之反编译JAVA源码

Android反编译(一)之反编译JAVA源码[目录]1、工具2、反编译步骤步骤1:把apk文件后缀名改为.zip步骤2:解压zip包得到classes.dex步骤3:将Dex反编译为Jar包(工具:dex2jar)命令: CMD>dex2jar.bat classes.dex步骤4:用j…

一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

作者 | 张皓(南京大学)来源:人工智能头条丨公众号引言深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用。然而,论文通…

Linux-进程、进程组、作业、会话、控制终端详解

From:http://www.cnblogs.com/JohnABC/p/4079669.html Linux进程优先级的处理--Linux进程的管理与调度(二十二):http://blog.csdn.net/gatieme/article/details/51719208 进程 、进程组、会话、控制终端之间的关系:http://blog.csdn.net/y…

浅谈项目开发现状(一)

在现在的软件开发中,一些大的软件公司有充分的资金,所以他的公司人员组织架构能组成:需求分析团队(为了更好的了解用户的完整需求)--->研发团队(通过计算机语言来实现用户需求),方…

波士顿咨询:2018最具创新力企业50强

来源:前瞻网在波士顿咨询公司评选的2018年最具创新力公司中,有11家公司——其中包括前10名中的7家——都是“数字原住民”,按定义也就是“数字创新者”。榜单上大多数公司已经将数字技术建立在他们的创新计划中。这一趋势在各个行业都很普遍&…

Linux 线程

Linux 的多线程编程的高效开发经验:https://www.ibm.com/developerworks/cn/linux/l-cn-mthreadps/ linux线程的实现:http://www.cnblogs.com/zhaoyl/p/3620204.html 线程概念经典解析:http://blog.chinaunix.net/uid-29613952-id-421477…

Spring Data JPA 从入门到精通~JpaSpecificationExecutor实现原理

JpaSpecificationExecutor 实现原理 我们还是先通过开发工具,把关键的类添加到Diagram上面进行分析,如图: 我们通过上图可以看一下,前面介绍的几个类之间的关联关系。 SimpleJpaRepository 实现类中的关键源码如下: …

微信发布首份《移动支付时代的无人零售报告》

来源:爱范儿 作者:Panda3 月 30 日,微信支付行业运营总监白振杰在 2018 智慧无人零售大会上发布了《移动支付时代的无人零售行业报告》,报告首次结合中国百货商业协会权威调研和微信支付的数据分析能力,揭示了移动支…

盘点《头号玩家》里的 VR 技术,现在就能造个 Oasis 出来

来源:沉浸感丨公众号 作者: 刘芳平由史蒂文斯皮尔伯格导演的科幻电影《头号玩家》(Ready One Player)于 3 月 30 日在中国大陆上映。首个周末便收获广泛好评,登上豆瓣电影本周口碑榜第一名,截止 31 日晚积…

find()matlab,Matlab 之 find()函数

当我第一次用matlab语言编写一个工程项目时,发现自己编写的脚本里循环特别多,导致编程效率很低,这让我特别苦恼。有一次导师让我阅读他编写的一个Matlab脚本,并按照新要求对其进行更改。我发现脚本里多次用到find()函数&#xff0…

一图看懂阿里云IoT战略

来源:云栖社区从万物互联到万物智联,离不开“无处不在的计算”。阿里云IoT在云边端部署了可协同的计算,基于物联网使能平台联合开发者、芯片模组厂商、行业合作伙伴等在城市、生活、汽车、制造四大领域已完成深度布局,即一朵云、两…

matlab机器人模型仿真,一知半解|MATLAB机器人建模与仿真控制(1)

各位机器人技术爱好者们,大家好!很荣幸受古月老师邀请,成为古月居的签约作者。希望在这里可以同大家相互交流与学习。始终觉得自己能力不足,但终于还是硬着头皮开始了在古月居的第一篇博客。由于我是机械专业出身,在接…

第四期《Summer Tree》 已经整理完毕

虽然已经整理完毕,但是却没有空间上传,由于太大了上传不了.下次再补充回来 如果地址下载不到,告诉我。呵呵 我上传在微软共享空间里面 在这里可以下载在这里转载于:https://www.cnblogs.com/hero82748274/archive/2009/06/06/1497771.html

研究报告:城市大脑的起源、现状与未来趋势

报告撰写人:刘锋 《互联网进化论》作者,计算机博士2009年1月,IBM公司首席执行官彭明盛首次提出“智慧地球”,建议政府投资新一代的智慧型基础设施。此后智慧城市建设在世界范围内展开,在中国有上百个地区提出建设“智慧…

Linux IO - 同步,异步,阻塞,非阻塞

From:http://blog.csdn.net/historyasamirror/article/details/5778378 同步/异步,阻塞/非阻塞概念深度解析:http://blog.csdn.net/lengxiao1993/article/details/78154467 知乎上关于 阻塞和非阻塞、同步和异步 之间区别的生动解释。 htt…