斯坦福联合DeepMind提出将「强化学习和模仿学习」相结合,可实现多样化机器人操作技能的学习

原文来源:arXiv

作者:Yuke Zhu、Ziyu Wang、Josh Merel、Andrei Rusu、Tom Erez、Serkan Cabi、Saran Tunyasuvunakool、Janos Kram ´ ar、Raia Hadsell、Nando de Freitas、Nicolas Heess

「雷克世界」编译:嗯~阿童木呀


我们提出了一种无模型的深度强化学习方法,利用少量演示数据以辅助一个强化学习智能体。


我们将这种方法应用于机器人操控任务中,并对能够直接从RGB摄像机输入映射到关节速度的端到端视觉运动策略进行训练。


我们的实验结果证明,我们的方法可以解决各种各样的视觉运动任务,对于这些视觉运动来说设计一个脚本控制器会很费力。


我们的实验结果表明,我们的强化和模仿智能体的性能表现要远远比单独使用强化学习或模仿学习进行训练的智能体好得多。


我们还举例说明,这些以大量视觉和动态变化进行训练的策略可以在零次学习模拟—真实(sim2real)的迁移方面取得初步成功。有关此研究的简短视觉描述可以点击链接查看。

 

我们提出了一个原则性的机器人学习管道。我们使用3D运动控制器来收集人类在一个任务上的演示。我们的强化和模仿学习模型利用这些演示以促进在模拟物理引擎中的学习。然后,我们执行sim2real迁移,将学习的视觉运动策略部署到真正的机器人上。


最近,在深度强化学习(RL)领域取得了很大的进展,在诸如视频游戏和围棋等若干个具有挑战性的领域表现非常出色。


对于机器人技术而言,强化学习与诸如神经网络等强大的函数近似相结合,为设计复杂的控制器提供了一个通用框架,否则将难以对其进行手工操作。


可以这样说,在机器人控制方面,基于强化学习的方法有着悠久的历史,但通常用于低维运动的表示中。


在过去的几年中,深度强化学习使用基于模型(例如Levine等人、Yahya等人、Levine等人所提出的)和无模型(例如Chebotar等人、Gu等人和Popov等人所提出的)技术,在机器人操控领域获得了日益增长的成功,在模拟和实际硬件中都是如此。


然而,使用无模型强化学习技术,让视觉运动控制器的端到端学习实现远程和多阶段操控任务仍然是一个具有挑战性的问题。


为机器人开发强化学习智能体需要克服几个重大挑战。


机器人技术策略必须能够将来自噪声传感器(例如摄像机)的多模式和局部观测转化为具有许多自由度的协调活动。


与此同时,实际的任务往往伴随着丰富的接触动态(contactrich dynamics),并沿着多个维度(视觉外观、位置、形状等)变化,从而构成了显著的泛化挑战。基于模型的方法可能在处理如此复杂的动态和大的变化方面难以着手。


由于样本复杂度非常高,直接在真实机器人硬件上对无模型方法进行训练可能令人望而生畏。实际上,真实强化学习训练的难度往往因为安全考虑,以及访问关于环境状态信息(例如一个目标的位置,定义一个奖励函数)的难度而加剧。


最后,即使在模拟中,完善的状态信息和大量的训练数据都可用时,探索可能仍然是一个重大挑战,尤其是对于on-policy方法来说更是如此。


这部分往往是由于频繁的高维和连续行动空间,但也是由于设计一个合适的奖励函数所存在的困难造成的。


模型的概述。我们模型的核心是深度视觉运动策略,它将摄像机观察和本体感受特性作为输入,并产生下一个关节速度。


在本文中,我们提出了一种无模型深度强化学习方法,可以直接从像素输入中解决各种机器人操控任务。我们的主要见解是:


(1)通过利用少量的人为演示来减少连续空间探索的难度。


(2)利用若干新技术,在训练期间利用特权和特定任务的信息,以加速和稳定多阶段任务中的视觉运动策略的学习。


(3)通过增加训练条件的多样性改进泛化能力。因此,这些策略在系统动力学、目标外观、任务长度等具有显著变化的情况下,运行良好。此外,我们展示了两个任务上非常有发展前景的初步结果,其中,在模拟中进行训练的策略能够实现零次学习迁移到一个真实机器人中。


我们对六种操作任务的方法进行了评估,包括提升、堆叠、浇注等。这组任务包括多阶段和长时间任务,并且它们需要直接从像素中进行完整的9-DoF关节速度控制。控制器需要能够处理显著的形状和外观变化。

 

在我们的实验中对六个操作任务的可视化


为了应对这些挑战,我们的方法将模仿学习与强化学习融合到一个统一的训练框架中。


我们的方法以两种方式对演示数据加以利用:首先,它使用一种混合奖励,将任务奖励与基于生成式对抗模仿学习的模仿奖励相结合。这有助于探索,同时仍然使得最终的控制器能够在任务上优于人类演示者。


其次,它使用演示轨迹来构建一个状态课程(a curriculum of states),以便在训练期间对事件进行初始化。这使得智能体能够在早期的训练阶段了解任务的后期阶段,从而有助于解决长期任务。


因此,我们的方法解决了所有六项任务,而对于这些任务而言,单独使用强化学习和模拟学习基线都不能得以解决。


为了避开实际硬件训练中所存在的局限性,我们采用了最近显示出非常有发展前景的sim2real模式。


通过使用物理引擎和高吞吐量的强化学习算法,我们可以仿真机器人手臂的并行副本,以在一个富含接触点的环境中执行数百万次复杂的物理交互,同时消除机器人的安全性和系统重置的实际问题。


此外,在训练期间,我们可以使用一些新技术以利用关于真实系统状态的特权和特定任的务信息,包括学习单一模式中策略和值、以目标为中心的GAIL鉴别器,以及视觉模块中的辅助任务。


这些技术可以稳定和加速策略学习,而不会在测试时对系统施加任何约束。


最后,我们将诸如视觉外观、目标几何形状和系统动力学等训练条件进行多样化。这改善了不同任务条件下的泛化能力以及从模拟到现实的迁移。


我们使用相同的模型和相同的算法,只对训练设置进行小规模的特定于任务的修改,以学习六个不同机器人手臂操作任务的视觉控制器。


如图1所示,从收集人类演示到在模拟中进行学习,并通过sim2real策略迁移返回到实际世界中的部署,这实例化了一个视觉运动学习管道。


我们的研究结果已经证明,将强化和模仿学习结合起来能够在相当大的程度上提高我们训练系统的能力,这些系统能够从像素上解决具有挑战性的灵活操控任务。


我们的方法实现了机器人技能学习的完整三个阶段:首先,我们收集了少量演示数据以简化勘探问题;


其次,我们依靠物理模拟来进行大规模的分布式机器人训练;


第三,我们执行了实际的部署的sim2real迁移。


在今后的研究工作中,我们将试图提高学习方法的样本效率,并利用现实际问题中的经验弥补策略转移的现实差距。


原文链接:https://arxiv.org/pdf/1802.09564.pdf


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496925.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++学习之路 | PTA乙级—— 1024 科学计数法 (20 分)(精简)

1024 科学计数法 (20 分) 科学计数法是科学家用来表示很大或很小的数字的一种方便的方法,其满足正则表达式 [][1-9].[0-9]E[][0-9],即数字的整数部分只有 1 位,小数部分至少有 1 位,该数字及其指数部分的正负号即使对正数也必定明…

Guava入门~CharMatcher

import org.hamcrest.CoreMatchers; import org.junit.Assert; import com.google.common.base.CharMatcher;/*** TODO 在此写上类的相关说明.<br>* author gqltt<br>* version 1.0.0 2021年11月11日<br>* see * since JDK 1.5.0*/ public class CharMatcher…

用人不疑,疑人不用

用人不疑&#xff0c;疑人不用&#xff0c;这句古训是否正确呢&#xff1f;现在的社会也许有很多人认为已经不在适用了&#xff0c;不过我们看待问题还是一分为二&#xff0c;我觉得有不适用的理由&#xff0c;也有适用的理由。不适用的理由&#xff0c;搜索一下太多了&#xf…

大型传统企业如何向人工智能转型?

来源&#xff1a;FT中文网在新一波技术浪潮的冲击下&#xff0c;以AI、大数据、云计算、物联网、5G通信等一系列技术为代表的“技术簇”所引发的革命对人类社会的影响将是全面且深刻的。每一个商业单元都面对这样的机遇&#xff1a;能否通过对新技术的运用&#xff0c;为客户创…

C++学习之路 | PTA乙级—— 1034 有理数四则运算 (20 分)(精简)

1034 有理数四则运算 (20 分) 本题要求编写程序&#xff0c;计算 2 个有理数的和、差、积、商。 输入格式&#xff1a; 输入在一行中按照 a1/b1 a2/b2 的格式给出两个分数形式的有理数&#xff0c;其中分子和分母全是整型范围内的整数&#xff0c;负号只可能出现在分子前&…

linux 下载 命令 wget 和 curl

From&#xff1a;http://www.jb51.net/LINUXjishu/86326.html From &#xff1a;Linux curl 命令详解 - http://www.cnblogs.com/duhuo/p/5695256.html Linux curl 命令参数详解&#xff1a;http://www.aiezu.com/system/linux/linux_curl_syntax.html Linux下使用 curl &…

sql server存储过程中解决单引号的问题

一&#xff1a;目的想在sql中插入号&#xff0c;例如&#xff1a;select count&#xff08;*&#xff09;from user where nametoma)使用转义字符&#xff1a;select char(39)或select char(39)查询的结果是&#xff1a;例如&#xff1a;select char(39) 44555 char(39)查询的…

Guava入门~Charsets

import java.io.UnsupportedEncodingException; import org.hamcrest.CoreMatchers; import org.junit.Assert; import com.google.common.base.Charsets;/*** TODO 在此写上类的相关说明.<br>* author gqltt<br>* version 1.0.0 2021年11月11日<br>* see * …

无人驾驶推进时间表及五大技术领域关键节点

来源&#xff1a;莫尼塔财新智库摘要&#xff1a;本文援引莫尼塔财新智库的一篇研究&#xff0c;系统梳理了无人驾驶各关键技术节点以及其成熟时间。”“汽车技术发展到如今&#xff0c;几乎没有人质疑无人驾驶会成为汽车行业变革的巨大浪潮&#xff0c;然而对于各项技术落地的…

C++学习之路 | PTA乙级—— 1040 有几个PAT (25 分)(精简)

1040 有几个PAT (25 分) 字符串 APPAPT 中包含了两个单词 PAT&#xff0c;其中第一个 PAT 是第 2 位&#xff0c;第 4 位(A)&#xff0c;第 6 位(T)&#xff1b;第二个 PAT 是第 3 位&#xff0c;第 4 位(A)&#xff0c;第 6 位(T)。 现给定字符串&#xff0c;问一共可以形成多…

linux sed 命令详解

参考&#xff1a;http://www.cnblogs.com/ctaixw/p/5860221.html sed 常用选项 和 常用命令 sed 是一个很好的文件处理工具&#xff0c;本身是一个管道命令&#xff0c;主要是 以行为单位 进行处理&#xff0c;可以将数据行进行替换、删除、新增、选取等特定工作。 sed 的用法 …

背景和弹出 Panel 都带有动画效果的 modal 效果

微软Ajax control toolKit 中有 ModalPopup 控件。可以实现页面遮盖的效果。但是遮盖直接出现&#xff0c;十分突然。我想能不能加上渐变的效果&#xff1f;这样感觉会好一点&#xff0c;炫一点。于是又想如果弹出的对话框(Panel)也有动画效果就会更炫了。于是就有了 Animation…

Guava入门~Objects

import java.util.Date; import org.hamcrest.CoreMatchers; import org.junit.Assert; import com.google.common.base.Objects;/*** TODO 在此写上类的相关说明.<br>* author gqltt<br>* version 1.0.0 2021年11月11日<br>* see * since JDK 1.5.0*/ publi…

2018年,这些信息通信技术将大红大紫

来源&#xff1a;人民邮电报、中国信息通信研究院当今&#xff0c;全球信息通信产业又一次面临重大技术突破、产业升级的发展机遇&#xff0c;人工智能、第五代移动通信、虚拟现实、增强现实等新一代技术日益成熟&#xff0c;产业化进程加速。通过对全球信息通信行业重点智库技…

C++学习之路 | PTA乙级—— 1041 考试座位号 (15 分)(精简)

1041 考试座位号 (15 分) 每个 PAT 考生在参加考试时都会被分配两个座位号&#xff0c;一个是试机座位&#xff0c;一个是考试座位。正常情况下&#xff0c;考生在入场时先得到试机座位号码&#xff0c;入座进入试机状态后&#xff0c;系统会显示该考生的考试座位号码&#xff…

实例探究Python以并发方式编写高性能端口扫描器的方法

来源&#xff1a;http://www.jb51.net/article/86615.htm 关于端口扫描器 端口扫描工具&#xff08;Port Scanner&#xff09;指用于探测服务器或主机开放端口情况的工具。常被计算机管理员用于确认安全策略&#xff0c;同时被攻击者用于识别目标主机上的可运作的网络服务。 端…

雅虎中国,奇虎全面杀入威客领域

中国互联网进入2008年&#xff0c;一个巨大的变化在不知不觉之中悄悄的走到人们的视野之中。 2008年3月&#xff0c;雅虎中国(cn.yahoo.com)推出了有奖建站和能人自荐栏目&#xff0c;通过悬赏万元鼓励互联网用户在雅虎中国开设个人网站&#xff0c;公布个人才能和智力作品。然…

DeepMind提出强化学习新算法,教智能体从零学控制

来源&#xff1a;人工智能和大数据摘要&#xff1a;3月2日&#xff0c;DeepMind发表博客文章&#xff0c;提出一种称为SAC-X&#xff08;计划辅助控制&#xff09;的新学习范式&#xff0c;旨在解决让AI以最少的先验知识&#xff0c;从头开始学习复杂控制问题的挑战。这在真实环…

Guava入门~MoreObjects

import java.math.BigDecimal; import org.hamcrest.CoreMatchers; import org.junit.Assert; import com.google.common.base.MoreObjects;/*** TODO 在此写上类的相关说明.<br>* author gqltt <br>* version 1.0.0 2021年11月11日<br>* see * since JDK 1.…

C++学习之路 | PTA乙级—— 1042 字符统计 (20 分)(精简)

1042 字符统计 (20 分) 请编写程序&#xff0c;找出一段给定文字中出现最频繁的那个英文字母。 输入格式&#xff1a; 输入在一行中给出一个长度不超过 1000 的字符串。字符串由 ASCII 码表中任意可见字符及空格组成&#xff0c;至少包含 1 个英文字母&#xff0c;以回车结束&…