真的超越了波士顿动力!深度强化学习打造的 ANYmal 登上 Science 子刊

640?wx_fmt=jpeg

编译:机器之心

深度强化学习开发出的机器人模型通常很难应用到真实环境中,因此机器人开发中鲜少使用该技术。然而这已经板上钉钉了吗?在两天前引发人工智能界关注的 ANYmal 机器人中,其机动性和适应性看起来丝毫不逊色于波士顿动力。其相关论文近期登上了 Science 子刊《Science Robotics》,并且明确指出使用了深度强化学习技术。基于 AI 技术的成功应用,ANYmal 在数据驱动的开发上或许会更有优势。


  • 论文:Learning agile and dynamic motor skills for legged robots

  • 论文地址:http://robotics.sciencemag.org/content/4/26/eaau5872


摘要:足式机器人是机器人学中最具挑战性的主题之一。动物动态、敏捷的动作是无法用现有人为方法模仿的。一种引人注目的方法是强化学习,它只需要极少的手工设计,能够促进控制策略的自然演化。然而,截至目前,足式机器人领域的强化学习研究还主要局限于模仿,只有少数相对简单的例子被部署到真实环境系统中。主要原因在于,使用真实的机器人(尤其是使用带有动态平衡系统的真实机器人)进行训练既复杂又昂贵。本文介绍了一种可以在模拟中训练神经网络策略并将其迁移到当前最先进足式机器人系统中的方法,因此利用了快速、自动化、成本合算的数据生成方案。该方法被应用到 ANYmal 机器人中,这是一款中型犬大小的四足复杂机器人系统。利用在模拟中训练的策略,ANYmal 获得了之前方法无法实现的运动技能:它能精确、高效地服从高水平身体速度指令,奔跑速度比之前的机器人更快,甚至在复杂的环境中还能跌倒后爬起来。


640?wx_fmt=png

图 1:创建一个控制策略。第一步是确定机器人的物理参数并估计其中的不确定性。第二步是训练一个致动器网络,建模复杂的致动器/软件动力机制。第三步是利用前两步中得到的模型训练一个控制策略。第四步是直接在物理系统中部署训练好的策略。


结果


该视频展示了结果和方法。


基于命令的运动

 

640?wx_fmt=png

图 2:习得运动控制器的量化评估结果。A. 发现的步态模式按速度指令以 1.0 m/s 的速度运行。LF 表示左前腿,RF 表示右前腿,LH 表示左后腿,RH 表示右后腿。B. 使用本文方法得到的基础速度的准确率。C-E. 本文习得控制器与现有最佳控制器在能耗、速度误差、扭矩大小方面的对比,给定的前进速度指令为 0.25、0.5、0.75 和 1.0 m/s。


高速运动

 

640?wx_fmt=png

图 3:对高速运动训练策略的评估结果。A. ANYmal 的前进速度。B. 关节速度。C. 关节扭矩。D. 步态模式。


跌倒后的恢复

 

640?wx_fmt=png

图 4:在真实机器人上部署的恢复控制器。该研究学到的策略成功使机器人在 3 秒内从随机初始配置中恢复。


材料和方法


这一部分会详细描述模拟环境、训练过程和在物理环境中的部署。图 5 是训练方法概览。训练过程如下:刚体模拟器会根据关节扭矩和当前状态输出机器人的下一个状态。关节速度和位置误差会被缓存在有限时间窗口的关节状态历史中。由带两个隐藏层的 MLP 实现的控制策略会将当前状态和关节状态历史的观察结果映射为关节位置目标。最后,致动器网络会将关节状态历史和关节位置目标映射为 12 个关节扭矩值,然后进入下一个训练循环。


640?wx_fmt=png

图 5:模拟过程中的训练控制策略。


建模刚体动力机制


为了在合理时间内有效训练复杂的策略,并将其迁移到现实世界,我们需要一种又快又准确的模拟平台。开发行走机器人的最大挑战之一是非连续接触的动力机制建模。为此,研究者使用了之前工作中开发出的刚体接触求解器 [41]。这个接触求解器使用了一个完全遵循库伦摩擦锥约束的硬接触模型。这种建模技术可以准确地捕获一系列刚体和环境进行硬接触时的真实动力机制。该求解器能准确而快速地在台式计算机上每秒生成模拟四足动物的 90 万个时间步。


连接的惯性是从 CAD 模型估计出来的。研究者预期估计会达到 20% 的误差因为没有建模布线和电子器件。为了考虑这些建模不确定性,研究者通过随机采样惯性训练了 30 种不同的 ANYmal 模型来使得策略更加稳健。质心位置、连接的质量和关节位置分别通过添加从 U(−2, 2) cm、U(−15, 15)%、 U(−2, 2) cm 中采样的噪声进行随机化。


建模致动器

 

640?wx_fmt=png

图 6:学得致动器模型的验证结果。


强化学习


研究者展示了离散时间中的控制问题。在每个时间步 t,智能体获取观测结果 o_t ∈O,执行动作 a_t ∈A,获取标量奖励 r_t ∈ ℛ。研究者所指奖励和成本是可以互换的,因为成本就是负的奖励。研究者用 O_t = 〈o_t, o_t − 1, …, o_t − h〉表示近期观测结果的元组。智能体根据随机策略 π(a_t|O_t) 选择动作,该随机策略是基于近期观测结果的动作分布。其目的在于找到在无穷水平中使折扣奖励总和最大化的策略:


640?wx_fmt=png


 其中 γ ∈ (0, 1) 是折扣因子,τ(π) 是在策略 π 下的轨迹分布(该策略和环境动态下的分布)。在研究设置中,观测结果是评估机器人状态的指标(向控制器提供),动作是向致动器传达的位置命令,奖励是指定的(以诱导感兴趣的行为)。


多种强化学习算法可应用于这个指定策略优化问题。研究者选择了置信域策略优化(TRPO),该算法可在模拟中学习运动策略。它几乎不需要调参,论文中所有学习会话都仅使用默认参数([22, 54] 提供的参数)。研究者使用了该算法的快速自定义实现 [55]。这一高效实现和快速刚体模拟 [41] 可在约 4 小时内生成和处理 2.5 亿状态转换。当该策略的平均性能在 300 个 TRPO 迭代中的改进没有超过任务特定阈值时,学习会话终止。


在物理系统上部署


研究者用 ANYmal 机器人来展示其方法在真实环境中的适用性,如图 1 中步骤 4 所示。ANYmal 是一种体型与狗差不多的四足机器人,重 32kg。每只足约 55 厘米长,且有三个驱动自由度,即髋部外展/内收、髋关节屈/伸、膝关节屈/伸。


ANYmal 有 12 个 SEA。一个 SEA 由一个电动机、一个高传动比传动装置、一个弹性元件和两个旋转编码器组成。它可以测量弹簧偏移和输出位置。在本文中,研究者在 ANYmal 机器人的关节级促动器模块上使用了具有低反馈收益的关节级 PD 控制器。促动器的动态包含多个连续的组件,如下所示。首先,使用 PD 控制器将位置指令转换成期望的扭矩。接着,使用来自期望扭矩的 PID 控制器计算期望电流。然后,用磁场定向控制器将期望电流转换成相电压,该控制器在变速器的输入端产生扭矩。变速器的输出端与弹性元件相连,弹性元件的偏移最终在关节处生成扭矩。这些高度复杂的动态引入了很多隐藏的内部状态,研究者无法直接访问这些内部状态并复杂化其控制问题。


从混合模拟中为训练策略获得参数集后,在真实系统上的部署变得简单多了。定制的 MLP 实现和训练好的参数集被导到机器人的机载 PC 上。当这个网络在 200Hz 时,其状态被评估为基于命令/高速的运动,在 100Hz 时被评估为从坠落中恢复。研究者发现,其性能出人意料地对控制率不敏感。例如,在 20 Hz 时训练恢复运动与在 100 Hz 时性能一致。这可能是因为翻转行为涉及低关节速度(大部分低于 6 弧度/秒)。更动态的行为(如运动)通常需要更高的控制率才能获得足够的性能。实验中使用了更高的频率(100 Hz),因为这样噪音更少。甚至在 100 Hz 时,对网络的评估仅使用了单个 CPU 核上可用计算的 0.25 %。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492845.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实例化Model的三种方式

转载于:https://www.cnblogs.com/toward-the-sun/p/4030010.html

人形机器人,穷途末路还是光明未来?

来源:任赜宇的知乎专栏摘要:今年 11 月初在北京召开的 IEEE/RAS Humanoids 会议中,作者去听了这样一个 Workshop: Humanoid Robotics: Dead-end or Bright Future? (人形机器人,末路还是光明的未来?) 再结合当前的形势…

全球自动驾驶政策概况及特征研究

来源:《中国信息通信研究院CAICT》近年来,美、欧、日等发达国家和地区将自动驾驶技术作为交通未来发展的重要方向,在技术研发、道路测试、标准法规、政策等方面为自动驾驶及其载体——智能网联汽车的发展提供政策支持,加快自动驾驶…

中心化,去中心化?关乎互联网未来命运的重要选

作者:刘锋 计算机博士 《互联网进化论》作者前言:不知不觉互联网的未来发展出现了分歧,当Facebook、谷歌等互联网巨头越来越强大的时候,反弹的声音也越来越大,人类社会的有识之士希望解决这个问题,由此导致…

Arcgis for javascript不同的状态下自定义鼠标样式

俗话说:爱美之心,人皆有之。是的,没错,即使我只是一个做地图的,我也希望自己的地图看起来好看一点。在本文,给大家讲讲在Arcgis for javascript下如何自定义鼠标样式。 首先,说几个状态。1、鼠标…

Facebook :AI 年度总结来啦

来源:AI 科技评论摘要:最近,Facebook 做了一份 AI 年度总结,详述了他们过去一年在 AI 上所做的代表性工作。在 Facebook,我们认为,人工智能以更有效的新方式学习,就像人类一样,可以在…

一文读懂可穿戴技术

来源:传感器技术可穿戴技术(wearable technology),最早是20世纪60年代由麻省理工学院媒体实验室提出的创新技术。利用该技术,可以把多媒体、传感器和无线通信等技术嵌入人们的衣物中,可支持手势和眼动操作等多种交互方式&#xff…

2019与下一个十年:我们将要放弃的和将要拥抱的

来源:资本实验室2019年,是连接21世纪前两个十年的过渡一年。在金融支付和商业领域中,2019年也有望成为激动人心的一年。在这一年中,每家企业、每个人都需要对过去十年中所追求的创新进行反思,并决定下一个十年前进的方…

麦肯锡发布调研,揭开“那些引入人工智能的企业都怎么了 ”

来源:亿欧智库摘要:根据麦肯锡的最新调研显示,人工智能技术普遍上得到企业接纳,但仍有不少企业在入门时就面临“不知道咋开门”的状况。新技术带来新问题,企业该如何应对?根据麦肯锡在全球范围内的调研&…

重磅!我国建成首个自动驾驶封闭高速公路测试环境

来源:智车科技摘要:根据工业和信息化部、公安部、江苏省人民政府共建“国家智能交通综合测试基地”的总体规划和建设要求,公安部交通管理科学研究所坚持“自动驾驶汽车产业发展与安全行驶并重”的指导思想,依据《中华人民共和国公…

单反相机内部光线反射原理

单反相机是照相机的一种,以独特的取景方式而命名。 它的全称是(可换)单镜头反光式取景照相机,(Single Lens Reflex Camera,缩写为SLR camera)一般简称为单反相机。它的含义是拍摄和取景共用用一…

面部识别技术走到十字路口?

来源:雷锋网摘要:向左走,还是向右走?近日,面部识别技术又遭遇“突发事件”。本周二,由90个倡议团体组成的小组给三巨头AAM(亚马逊、谷歌、微软)写信,要求三家公司承诺不向…

我与ARM的那些事儿2JINLK烧录nor flash

前言 最近在研究mini2440的友善之臂,但是我拿着的是实验室早期买的开发板,在做裸机开发的过程中老是不能很好地使用最新版的minitools进行烧录,因而各种不爽,因为生成了bin文件不能很好地传到mini2440中,作为一个对开…

基于opencv的gpu与cpu对比程序,代码来自opencv的文档中

原文链接: http://www.opencv.org.cn/opencvdoc/2.3.2/html/doc/tutorials/gpu/gpu-basics-similarity/gpu-basics-similarity.html 代码中有错误,关于GpuMat OpenCV代码中没有对其进行操作符运算的重载,所有编译的时候有错误。对于GpuMat的运…

不只是华为/阿里/百度/小米/京东,AIoT已然成为资本与新兴企业都认可的赚钱方向...

来源:物联网智库整理发布摘要:当互联网的上半场结束之后,所有的互联网下半场都是重生意。随着AIoT越来越热门,这一概念已然成为巨头、资本以及新兴企业竞相角逐的热点。2019年注定是AIoT具有重要发展的一年,仅仅在刚过…

机会与挑战:2019人工智能应用趋势预测

来源:资本实验室摘要:最近几天,印度人工智能数据分析公司Fractal Analytics宣布获得私募投资机构Apax Partners的2亿美元投资,估值达到了5亿美元。也是在近期,该公司的几位人工智能专家分别对2019年的人工智能应用趋势…

边缘检测中非极大值抑制简单解释

首先要明白的是: (a.) canny算子中非最大抑制(Non-maximum suppression)是回答这样一个问题: “当前的梯度值在梯度方向上是一个局部最大值吗?” 所以,要把当前位置的梯度值与梯度方向上两侧的梯度值进行比较. (b.) 梯度方向垂直于边缘方向, 这一点不要误解. - Q1: 插值…

哥德尔不完备定理”到底说了些什么?

来源:人机与认知实验室(一)【中文网上深入介绍哥德尔不完备定理的文章很少,我这篇文章写得很长,花了不少时间打磨它,希望能帮助到爱好数学与逻辑的人。文章把理解哥德尔不完备定理分为了五重,建…

关于相机标定的简单介绍

关于Opencv实现的代码,参考: https://blog.csdn.net/dcrmg/article/details/52939318 - 相机从生产出厂时,存在一些难以避免的畸变。这种镜头畸变可以通过矫正来达到最佳的拍摄效果。标定板要拍摄不同角度的20张照片,是因为镜头…

谷歌Waymo自建车厂,L4级无人车量产指日可待

来源:AI科技大本营摘要:现在,Waymo 宣称世界上第一家 100% 致力于大规模生产 L4 自动驾驶汽车的工厂,即将诞生。美国当地时间 1 月 22 日,Google 旗下无人驾驶公司 Waymo 宣布,在未来五年内&…