斯坦福联合DeepMind提出将「强化学习和模仿学习」相结合,可实现多样化机器人操作技能的学习

原文来源:arXiv

作者:Yuke Zhu、Ziyu Wang、Josh Merel、Andrei Rusu、Tom Erez、Serkan Cabi、Saran Tunyasuvunakool、Janos Kram ´ ar、Raia Hadsell、Nando de Freitas、Nicolas Heess

「雷克世界」编译:嗯~阿童木呀


我们提出了一种无模型的深度强化学习方法,利用少量演示数据以辅助一个强化学习智能体。


我们将这种方法应用于机器人操控任务中,并对能够直接从RGB摄像机输入映射到关节速度的端到端视觉运动策略进行训练。


我们的实验结果证明,我们的方法可以解决各种各样的视觉运动任务,对于这些视觉运动来说设计一个脚本控制器会很费力。


我们的实验结果表明,我们的强化和模仿智能体的性能表现要远远比单独使用强化学习或模仿学习进行训练的智能体好得多。


我们还举例说明,这些以大量视觉和动态变化进行训练的策略可以在零次学习模拟—真实(sim2real)的迁移方面取得初步成功。有关此研究的简短视觉描述可以点击链接查看。

 

我们提出了一个原则性的机器人学习管道。我们使用3D运动控制器来收集人类在一个任务上的演示。我们的强化和模仿学习模型利用这些演示以促进在模拟物理引擎中的学习。然后,我们执行sim2real迁移,将学习的视觉运动策略部署到真正的机器人上。


最近,在深度强化学习(RL)领域取得了很大的进展,在诸如视频游戏和围棋等若干个具有挑战性的领域表现非常出色。


对于机器人技术而言,强化学习与诸如神经网络等强大的函数近似相结合,为设计复杂的控制器提供了一个通用框架,否则将难以对其进行手工操作。


可以这样说,在机器人控制方面,基于强化学习的方法有着悠久的历史,但通常用于低维运动的表示中。


在过去的几年中,深度强化学习使用基于模型(例如Levine等人、Yahya等人、Levine等人所提出的)和无模型(例如Chebotar等人、Gu等人和Popov等人所提出的)技术,在机器人操控领域获得了日益增长的成功,在模拟和实际硬件中都是如此。


然而,使用无模型强化学习技术,让视觉运动控制器的端到端学习实现远程和多阶段操控任务仍然是一个具有挑战性的问题。


为机器人开发强化学习智能体需要克服几个重大挑战。


机器人技术策略必须能够将来自噪声传感器(例如摄像机)的多模式和局部观测转化为具有许多自由度的协调活动。


与此同时,实际的任务往往伴随着丰富的接触动态(contactrich dynamics),并沿着多个维度(视觉外观、位置、形状等)变化,从而构成了显著的泛化挑战。基于模型的方法可能在处理如此复杂的动态和大的变化方面难以着手。


由于样本复杂度非常高,直接在真实机器人硬件上对无模型方法进行训练可能令人望而生畏。实际上,真实强化学习训练的难度往往因为安全考虑,以及访问关于环境状态信息(例如一个目标的位置,定义一个奖励函数)的难度而加剧。


最后,即使在模拟中,完善的状态信息和大量的训练数据都可用时,探索可能仍然是一个重大挑战,尤其是对于on-policy方法来说更是如此。


这部分往往是由于频繁的高维和连续行动空间,但也是由于设计一个合适的奖励函数所存在的困难造成的。


模型的概述。我们模型的核心是深度视觉运动策略,它将摄像机观察和本体感受特性作为输入,并产生下一个关节速度。


在本文中,我们提出了一种无模型深度强化学习方法,可以直接从像素输入中解决各种机器人操控任务。我们的主要见解是:


(1)通过利用少量的人为演示来减少连续空间探索的难度。


(2)利用若干新技术,在训练期间利用特权和特定任务的信息,以加速和稳定多阶段任务中的视觉运动策略的学习。


(3)通过增加训练条件的多样性改进泛化能力。因此,这些策略在系统动力学、目标外观、任务长度等具有显著变化的情况下,运行良好。此外,我们展示了两个任务上非常有发展前景的初步结果,其中,在模拟中进行训练的策略能够实现零次学习迁移到一个真实机器人中。


我们对六种操作任务的方法进行了评估,包括提升、堆叠、浇注等。这组任务包括多阶段和长时间任务,并且它们需要直接从像素中进行完整的9-DoF关节速度控制。控制器需要能够处理显著的形状和外观变化。

 

在我们的实验中对六个操作任务的可视化


为了应对这些挑战,我们的方法将模仿学习与强化学习融合到一个统一的训练框架中。


我们的方法以两种方式对演示数据加以利用:首先,它使用一种混合奖励,将任务奖励与基于生成式对抗模仿学习的模仿奖励相结合。这有助于探索,同时仍然使得最终的控制器能够在任务上优于人类演示者。


其次,它使用演示轨迹来构建一个状态课程(a curriculum of states),以便在训练期间对事件进行初始化。这使得智能体能够在早期的训练阶段了解任务的后期阶段,从而有助于解决长期任务。


因此,我们的方法解决了所有六项任务,而对于这些任务而言,单独使用强化学习和模拟学习基线都不能得以解决。


为了避开实际硬件训练中所存在的局限性,我们采用了最近显示出非常有发展前景的sim2real模式。


通过使用物理引擎和高吞吐量的强化学习算法,我们可以仿真机器人手臂的并行副本,以在一个富含接触点的环境中执行数百万次复杂的物理交互,同时消除机器人的安全性和系统重置的实际问题。


此外,在训练期间,我们可以使用一些新技术以利用关于真实系统状态的特权和特定任的务信息,包括学习单一模式中策略和值、以目标为中心的GAIL鉴别器,以及视觉模块中的辅助任务。


这些技术可以稳定和加速策略学习,而不会在测试时对系统施加任何约束。


最后,我们将诸如视觉外观、目标几何形状和系统动力学等训练条件进行多样化。这改善了不同任务条件下的泛化能力以及从模拟到现实的迁移。


我们使用相同的模型和相同的算法,只对训练设置进行小规模的特定于任务的修改,以学习六个不同机器人手臂操作任务的视觉控制器。


如图1所示,从收集人类演示到在模拟中进行学习,并通过sim2real策略迁移返回到实际世界中的部署,这实例化了一个视觉运动学习管道。


我们的研究结果已经证明,将强化和模仿学习结合起来能够在相当大的程度上提高我们训练系统的能力,这些系统能够从像素上解决具有挑战性的灵活操控任务。


我们的方法实现了机器人技能学习的完整三个阶段:首先,我们收集了少量演示数据以简化勘探问题;


其次,我们依靠物理模拟来进行大规模的分布式机器人训练;


第三,我们执行了实际的部署的sim2real迁移。


在今后的研究工作中,我们将试图提高学习方法的样本效率,并利用现实际问题中的经验弥补策略转移的现实差距。


原文链接:https://arxiv.org/pdf/1802.09564.pdf


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496925.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大型传统企业如何向人工智能转型?

来源:FT中文网在新一波技术浪潮的冲击下,以AI、大数据、云计算、物联网、5G通信等一系列技术为代表的“技术簇”所引发的革命对人类社会的影响将是全面且深刻的。每一个商业单元都面对这样的机遇:能否通过对新技术的运用,为客户创…

linux 下载 命令 wget 和 curl

From:http://www.jb51.net/LINUXjishu/86326.html From :Linux curl 命令详解 - http://www.cnblogs.com/duhuo/p/5695256.html Linux curl 命令参数详解:http://www.aiezu.com/system/linux/linux_curl_syntax.html Linux下使用 curl &…

无人驾驶推进时间表及五大技术领域关键节点

来源:莫尼塔财新智库摘要:本文援引莫尼塔财新智库的一篇研究,系统梳理了无人驾驶各关键技术节点以及其成熟时间。”“汽车技术发展到如今,几乎没有人质疑无人驾驶会成为汽车行业变革的巨大浪潮,然而对于各项技术落地的…

背景和弹出 Panel 都带有动画效果的 modal 效果

微软Ajax control toolKit 中有 ModalPopup 控件。可以实现页面遮盖的效果。但是遮盖直接出现,十分突然。我想能不能加上渐变的效果?这样感觉会好一点,炫一点。于是又想如果弹出的对话框(Panel)也有动画效果就会更炫了。于是就有了 Animation…

2018年,这些信息通信技术将大红大紫

来源:人民邮电报、中国信息通信研究院当今,全球信息通信产业又一次面临重大技术突破、产业升级的发展机遇,人工智能、第五代移动通信、虚拟现实、增强现实等新一代技术日益成熟,产业化进程加速。通过对全球信息通信行业重点智库技…

DeepMind提出强化学习新算法,教智能体从零学控制

来源:人工智能和大数据摘要:3月2日,DeepMind发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的先验知识,从头开始学习复杂控制问题的挑战。这在真实环…

中国各地AI行业政策汇总及解读

来源:数据科学与人工智能随着人工智能的快速发展,国家相继出台一系列政策支持中国人工智能的发展,推动中国人工智能步入新阶段。2017年7月20日,国务院印发了《新一代人工智能发展规划》。规划中提到分三步走:第一步&am…

常州的照片

出差去常州照的几张照片,那边的天气很暖和了。 转载于:https://www.cnblogs.com/Duiker/archive/2008/03/17/1109665.html

从Big Dog到Spot Mini:波士顿动力「四足机器人」进化史概览

来源:雷克世界丨「raicworld」公众号导语:前不久,一段视频刷爆了朋友圈,视频中一个四足机器人不顾人类的阻拦,奋力打开一扇门,最终得以顺利通过。看过视频的人无一不被机器人的“执着”所震撼,一…

重磅《美国机器智能国家战略》

来源: 学术plus2018年3月1日,美国国际战略研究所发布报告《美国机器智能国家战略报告》,提出了机器智能对国防、经济、社会等方面的广泛差异,以及美国在战略制定方面的差距,并给出了具体的意见建议。现将部分内容选编如…

盘点国内最具实力的双足仿人机器人研发团队有哪些?

来源:工业机器人之家北京理工大学 黄强教授团队北京理工大学借鉴人类长期进化所具备自然、快速、协调运动机理和灵巧结构特征,创新地研究了仿人机器人的仿生运动规划、控制与系统集成等关键技术,取得了新突破。提出了仿人机器人运动规划新方法…

数据科学研究的现状与趋势

来源:数据科学DataScience大数据时代的到来催生了一门新的学科——数据科学。本文第1节探讨数据科学的内涵、发展简史、学科地位和知识体系等四个基本问题,并提出了数据科学的两个基本类型——专业数据科学和专业中的数据科学。第2节提出现阶段数据科学研…

DataGridView直接导出EXCEL

1.直接将DataGridView显示的内容导出Excel 1publicvoidDataToExcel(DataGridView m_DataView)2{ 3 SaveFileDialog kk new SaveFileDialog(); 4 kk.Title "保存EXECL文件"; 5 kk.Filter "EXECL文件(*.xls) |*.xls |所有文…

智能的源泉,大脑从何而来?

作者:谢平 中国科学院大学教授引言:人类的神奇常常归结于一个智慧的大脑以及贯穿于其中的无比复杂的神经网络,并认为这源自上帝之手,但其实它并不是无中生有的,而是自然演化的产物,虽然是一个无与伦比的杰作…

物联网技术在智能医疗领域的应用与发展

来源: 传感器技术应对人口结构高龄化所带来的长期照护需求,各国政府纷纷拟定政策,希望利用Wi-Fi、蓝牙、3G、GPS及RFID等物联网技术,架构起移动式医疗网络;且在远距照护等议题发酵下,也带动医疗产业结合物联网进入下一…

xmlHttpRequest无刷新验证用户名

现在好多网站上的注册都用了无刷新验证用户名,这种效果咋看感觉很复杂很难实现,其实它里面用到了Ajax中的核心xmlHttpRequest这个类,如果只是单单想实现这个效果,压根就不用引用Ajax.Net中的组件,因为感觉有点大材小用,下面是具体实现这种效果的方法,希望能给初学Ajax的朋友带来…

如何理解和评价机器学习中的表达能力、训练难度和泛化性能

来源: Eric Jang 的个人博客非常感谢王家兴 (Jiaxing Wang) 把这个博客文章翻译成中文。当我在阅读机器学习相关文献的时候, 我经常思考这项工作是否:提高了模型的表达能力;使模型更易于训练; 提高了模型的泛化性能。在…

谷歌公布72位量子比特处理器,吹响量子霸权冲锋号

作者:杨晓凡谷歌量子 AI 实验室今天发布了新的 72 位量子比特的量子处理器 Bristlecone。虽然目前还没有看到具体的实验结果,但这块芯片的未来有很大潜力,很有可能达成量子计算领域内的重要里程碑。谷歌量子 AI 实验室(Google Qua…

AI可以在游戏里称霸,但是解决现实问题太难了

来源:36氪据《大西洋月刊》报道,直到最近,那些能在各类游戏中击败人类冠军的机器,解决现实问题太难了。1997年,为了在国际象棋中击败象棋大师加里卡斯帕罗夫(Garry Kasparov),IBM的工…

大话设计模式-策略模式与简单工厂模式

来源:http://blog.csdn.net/wulingmin21/article/details/6712684 策略模式定义了一系列的算法,并将每一个算法封装起来,而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化。 例如: CashNormal、CashRebate…