谷歌AI提出双重策略强化学习框架,帮助机器人安全学习动作技能

094c468c02890b2601961dfb18c64b5d.png

来源:AI前线

作者:Jimmy(Tsung-Yen) Yang

译者:Sambodhi

策划:凌敏

深度强化学习在自主解决复杂、高维问题方面的前景,引起了 机器人、游戏 和 自动驾驶汽车 等领域的极大兴趣。但是,要想有效地进行强化学习策略的训练,需要对大量的机器人状态和行为进行研究。这其中存在一定的安全风险,比如,在训练一个有腿机器人时,由于这类机器人自身不稳定,机器人在学习时很容易发生跌倒,这可能会造成机器人的损害。

通过 在计算机模拟中学习控制策略,然后将其部署在现实世界中,可以在一定程度上降低机器人发生损害的风险。但是,该方法往往要求解决模拟到现实的差距,即在模拟中训练的策略由于各种原因不能随时部署在现实世界中,比如部署中的传感器噪音或模拟器在训练中不够真实。解决这个问题的另一种方法,就是在现实世界中直接学习或微调控制策略。当然,最主要的挑战还是如何在学习过程中确保安全。

在《腿部运动的安全强化学习《Safe Reinforcement Learning for Legged Locomotion》的论文中,我们提出了一个安全的强化学习框架,用于学习腿部运动,同时满足训练期间的安全约束。

我们的目标是让机器人在现实世界中自主学习动作技巧,并且在学习过程中不会跌倒。我们的学习架构使用了一种双重策略的强化学习框架:一种将机器人从近乎不安全的状态中恢复过来的“安全恢复策略”,以及一种为执行所需控制任务而优化的“学习者策略”。安全学习框架在安全恢复策略和学习者策略之间进行切换,使机器人能够安全地获得新的、敏捷的动作能力。

双重策略的强化学习框架

我们的目标是确保在整个学习过程中,无论使用何种学习者策略,机器人都不会跌倒。

与儿童学骑车一样,我们的做法是,在使用“训练轮”的同时,教会智能体一种策略,即安全恢复策略。我们首先定义了一组状态,我们称之为“安全触发集”,在这些状态下,机器人在接近于违反安全约束的情况下,但能通过安全恢复策略来挽救。

例如,安全触发集可以被定义为:机器人的高度低于某个阈值,并且滚动、俯仰、偏航角度过大的一组状态,这是一个跌倒的迹象。当学习者策略的结果是机器人处于安全触发集内(即有可能跌倒的地方),我们就切换到安全恢复策略,驱动机器人回到安全状态。

我们通过利用机器人的近似动力学模型来预测未来的机器人轨迹,从而确定何时切换回学习者策略。例如,基于机器人腿部的位置和基于滚动、俯仰和偏航传感器的机器人的当前角度,它在未来是否有可能跌倒?如果所预测的未来状态都是安全的,我们就把控制权交还给学习者策略,否则,我们就继续使用安全恢复策略。

191132dd09c26bf01a1a05266f28ccbb.png

上图是我们所提方法的状态图

  1. 如果学习者策略违反了安全约束,我们就切换到安全恢复策略。

  2. 如果切换到安全恢复策略后,短期内无法保证学习者策略的安全时,我们将继续使用安全恢复策略。这样,机器人就能更好地进行探索,而又能保证安全。

这种方法确保了复杂系统的安全,而不需要借助于不透明的神经网络,这些神经网络可能对应用中的分布改变很敏感。此外,学习者策略能够探索接近安全违规的状态,这对于学习一个稳健的策略很有用。

由于我们使用“近似”动力学来预测未来的运动轨迹,所以我们也在探讨,在机器人的动力学方面,采用更精确的模型时,会有多大的安全性。我们对这个问题进行了 理论分析 强化学习 leggedlocomotion/),显示出我们的方法与对系统动力学有充分了解的方法相比,可以实现最小的安全性能损失。

腿部运动任务

为验证该算法的有效性,我们考虑学习三种不同的腿部动作能力:

  1. 高效步态:机器人学习如何以低能耗的方式行走,并因消耗较少的能量而得到奖励。

  2. 猫步:机器人学习一种猫步的步态,在这种步态中,左、右两只脚相互靠近。这很有挑战性,因为通过缩小支撑多边形,机器人会变得不太稳定。

  3. 两腿平衡:机器人学习两腿平衡策略,在这个策略中,右前脚和左后脚处于站立状态,另外两只脚被抬起。如果没有精确的平衡控制,由于接触多边形会“退化”成一条线段,所以机器人很可能会跌倒。

84e9351707427f03ee61d711620b1db0.png

本文所讨论的运动任务。上图:高效步态。中间:猫步。下图:两腿平衡。

实施细节

我们使用一个分层策略框架,将强化学习和传统控制方法相结合,用于学习者和安全恢复策略。

这个框架包括一个高级的强化学习策略,它产生步态参数(例如,踏步频率)和脚的位置,并将其与一个称为 模型预测控制(model predictive control,MPC)的低级过程控制器配对,该控制器接收这些参数并计算出机器人中每个电机的理想扭矩。

由于我们不直接控制电机的角度,这种方法提供了更稳定的操作,由于较小的行动空间而简化了策略训练,并产生了更强大的策略。强化学习策略网络的输入包括先前的步态参数、机器人的高度、基座方向、线性、角速度和反馈,这些信息可以显示机器人是否已经接近设定的安全触发器。对于每个任务,我们都会采用同样的设定。

我们训练一个安全恢复策略,对尽快达到稳定状态给予奖励。此外,在设计安全触发集时,我们也从 可捕捉性理论 中得到了灵感。

尤其是,最初的安全触发器集被定义为,确保机器人的脚不会踩在能够利用安全恢复策略进行安全恢复的位置之外。我们使用了一个随机策略,在一个真实的机器人上对安全触发集进行了微调,以防止机器人跌倒。

现实世界的实验结果

我们报告了现实世界的实验结果,显示了奖励学习曲线和高效步态、猫步和两腿平衡任务中安全恢复策略激活的百分比。为了确保机器人能够学会安全,我们在触发安全恢复策略时增加了一个惩罚。这里,所有的策略都是从头开始训练的,除了两腿平衡任务,由于需要更多的训练步骤,所以在模拟中进行了预训练。

总的来说,我们发现,在这些任务中,奖励增加了,而当策略更新时,安全恢复策略的适用百分比也会下降。

比如,在高效步态任务中,安全恢复策略的使用比例从 20% 下降到接近 0%。对于两腿平衡任务,百分比从接近 82.5% 下降到 67.5%,这表明两腿平衡比前两个任务要难得多。

尽管如此,该策略确实提高了奖励。研究结果显示,在不触发安全恢复策略的情况下,学习者可以可以逐步学习任务。另外,这说明在不影响性能的情况下,可以设计一套安全触发器集和安全恢复策略。

29f48e209599fcc15d12490b013a0922.png

在现实世界中使用我们的安全强化学习算法的奖励学习曲线(蓝色)和安全恢复策略激活的百分比(红色)。

此外,下面的动图显示了两腿平衡任务的学习过程,包括学习者策略和安全恢复策略之间的相互作用,以及当一个情节结束时重置到初始位置。

我们可以看到,当机器人跌倒时,它会试着抬起腿并伸出去(左前腿和右后腿),把自己拉起来,从而形成一个支撑多变形。在学习一段时间后,机器人会自动走回重置的位置。这使得我们自主、安全地进行无人监督的策略训练。

bd467707aad93af552c846f101ffdaa4.gif

 早期训练阶段

d0213fb830d5bb4de2e4612c1a29e376.gif

 后期训练阶段

680bbed0603a15f0eca922bff6ca415a.gif

 没有安全的恢复策略

最后,我们将学习到的一些策略进行演示。首先,在猫步任务中,两边腿的距离为 0.09 米,比额定距离小 40.9%。第二,在两腿平衡任务中,机器人可以通过两腿跳动来保持平衡,而从模拟中预先训练的策略只跳了一次。

6d57a8930dc07c93406c78dd9effd64d.gif

最终,机器人学会了两腿平衡。

结  语

我们提出了一种安全的强化学习框架,并展示了在学过程中,不会跌倒或手动复位的情况下,如何训练机器人的策略进行高效步态和猫步任务。这种方法甚至能够在只有四次跌倒的情况下训练两腿平衡任务。只有当需要时,才会触发安全恢复策略,使得机器人可以更好地进行环境的探索。

我们的研究结果显示,在现实世界中,能够自主、安全地掌握腿部动作的技巧是有可能的,这将为我们提供一个新的机遇,其中包括离线收集机器人学习的数据集。

没有任何模型是没有限制的。我们目前在理论分析中,忽略了来自环境和非线性动态的模型不确定性。把这些纳入其中,可以使我们的方法更加通用。

另外,当前,切换标准中的某些超参数也以启发式方法进行调整。若能根据学习的进度,自动地决定切换的时间,则更会有效。如果把这种安全的强化学习框架扩展到其他的机器人应用,如机器人操纵,将会很有意思。

最后,在考虑到安全恢复策略时,设计一个适当的奖励,将会影响学习性能。我们使用了一种基于惩罚的方法,在这些实验中获得了合理的结果,但我们计划在未来的工作中对此进行研究,以进一步提高性能。

原文链接:

https://ai.googleblog.com/2022/05/learning-locomotion-skills-safely-in.html

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

b0410757dc17ee90740a8949477f1485.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482080.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美国发布20项重大科技趋势,将在未来30年改变世界!

来源:DeepTech深科技(ID:mit-tr)编辑:net百晓生这份报告是美国陆军公布的一份长达35页的《2016-2045年新兴科技趋势报告》。它是美国在过去几年由政府机构、咨询机构、智囊团、科研机构等发表的32份科技趋势相关研究调…

对话式人工智能发展的真正限制是人类的耐心

来源:AI前线 作者:Jiang Chen,Moveworks 机器学习副总裁译者:王强策划:刘燕从 Siri 到 Alexa 再到谷歌助手,今天我们已经被各种人工智能系统包围了。它们的设计目标只有一个:理解我们。我们已经…

Nature子刊:科学家在类脑芯片上实现类似LSTM的功能,能效高1000倍

来源:机器学习研究组订阅格拉茨技术大学的计算机科学家在 Nature 子刊上发表的一篇论文表明,他们找到了一种在神经形态芯片上模拟 LSTM 的方案,可以让类脑神经形态芯片上的 AI 算法能效提高约 1000 倍。随着智能手机的普及,手机游…

重磅!0.2nm路线图来了!详细讲解技术实现!

来源:tomshardware编译:EETOP世界上最先进的半导体研究机构 Imec 最近在比利时安特卫普举行的未来峰会上分享了其亚1nm和晶体管路线图。该路线图让我们大致了解了到 2036 年Imec将在其实验室与台积电、英特尔、三星和 ASML 等行业巨头合作研发的下一个主…

问题即答案-解决棘手问题的突破性方法

来源:混沌巡洋舰 “问题”(question) 中包含一个非常美妙的词:“ 探索”(quest)。我太喜欢这个词了。——埃利威塞尔(Elie Wiesel)有些人常常感觉一些真相事关重大,自己应…

CSS:盒子模型和清除float浮动的三种常用方法

目录 一:浮动产生原因: 二:浮动产生副作用: 三:浮动解决方法: QUESTION:CSS盒子模型清除浮动? ANSWER: 一:浮动产生原因: 一般浮动是什么情况呢?一般是一个盒子里使用了CSS fl…

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型Imagen

来源:AI科技评论作者:李梅、王玥编辑:陈彩娴文本生成图像模型界又出新手笔!这次的主角是Google Brain推出的 Imagen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度&…

量子技术推动新的传感器热潮

IMPERIAL COLLEGE LONDON/M SQUARED来源:IEEE电气电子工程师想象一下,传感器可以探测思想的磁场、帮助月球车探测月球岩石中的氧气,或者接收来自暗物质的无线电波。正如量子计算机可以从理论上找到经典计算机无法解决的问题的答案一样&#x…

0.2nm路线图来了!详细讲解技术实现!

来源:tomshardware世界上最先进的半导体研究机构 Imec 最近在比利时安特卫普举行的未来峰会上分享了其亚1nm和晶体管路线图。该路线图让我们大致了解了到 2036 年Imec将在其实验室与台积电、英特尔、三星和 ASML 等行业巨头合作研发的下一个主要工艺节点和晶体管架构…

走向认知发展的理性建构理论

Towards a Rational Constructivist Theory of Cognitive Development Fei Xu University of California, Berkeley来源:CreateAMind本文对认知发展理论——理性建构主义进行了综述。这种观点的基本原则如下:(a)初始状态:人类婴儿以一组原型概念的原语开始生命。这些…

JavaWeb笔记:JDBC总结

JavaWeb笔记:JDBC总结 目录 JavaWeb笔记:JDBC总结 一、JDBC概述 二、开发一个JDBC程序(重要) 三、JDBC常用的类和接口详解 1、java.sql.Drivermanager类 : 创建连接 2、java.sql.Connection接口:一个连接 3、java.sql.Statement接口:…

谷歌街景15年乾坤大挪移!带你穿越法老的金字塔

来源:机器学习研究组订阅最近两年多,整个世界都被一个共同对手折腾得够呛。有人咬牙坚持、有人躺平摆烂,有人祈求上天,还有人离开了这个世界。更多的人们则逐渐意识到,原来所谓「Good Old Times」离我们竟然如此之近&a…

如何构建可信GNN?最新综述来了!可信图神经网络:维度,方法,趋势

来源:Monash University作者:He Zhang,Bang Wu前言在过去的几年里,以神经网络为首的人工智能技术通过对不同类型数据的深入挖掘已经深刻地改变了人类的生活并极大地推动了社会发展的进程 [1]。作为人工智能领域最活跃的研究方向之…

JavaWeb:XML总结

JavaWeb:XML总结 目录 JavaWeb:XML总结 一:什么是XML? 二:xml语法: 三: xml约束: 四:XML解析思想: 一:什么是XML? XML:eXtensible Markup La…

JavaWeb:tomcat服务器安装总结及Http协议

JavaWeb:tomcat服务器安装总结 目录 JavaWeb:tomcat服务器安装总结 一:服务器端概述: 二:Tomcat下载: 三:安装: 四:HTTP问题: 五:深入了解tomcat服务器&#xff1…

深度知识的6个维度:如何让人工智能真正理解世界?

智能的真正标志不是知识,而是想象力。来源:AI科技评论作者:Gadi Singer编译:王玥编辑:陈彩娴什么知识让我们变得聪明?我们用来理解世界、解释新体验和做出深思熟虑的选择的认知结构是什么?定义一…

2013年图灵奖得主Leslie Lamport:如何写出数学上完美的算法

来源:新智元图灵奖得主、分布式系统先驱、LaTeX之父Leslie Lamport认为,对于程序员而言,对数学思维的强调永远不会过分,要写出好代码,不能惧怕数学。Leslie Lamport可能不是一个家喻户晓的名字,但一提到和他…

Python绘制图形之Matplotllib绘图

Python绘制图形之Matplotllib绘图 目录 Python绘制图形之Matplotllib绘图 一、绘制二维函数图 1.1 绘制 f(x)sin2(x−2)e−x2 1.2 、绘制 sigmoid函数图: f(x)11e−x 1.3、绘制正态分布图 二、绘制三维图 2.1 绘制三维螺旋图 2.2 绘制三维线性点图 2.3 绘制三维柱状图 2…

新发现罕见生命密码:基因读取的另一套代码

来源:生物通令人震惊但让人困惑的是,我们所知的生命密码使用了61个不同的三字母密码子,只产生了20个氨基酸,这意味着许多密码子被用来描述同一件事。新的研究表明,大脑和睾丸似乎非常适应使用多种不同种类的遗传密码来…

《自然-机器智能》:神经形态技术可使大型深度学习网络节能16倍

来源: 学术头条受生物大脑机制的启发,研究人员一直在提高人工神经网络的性能效率和计算要求。一项新的研究表明,对于大型深度学习网络,神经形态技术的能源效率有望达到其他人工智能系统的 16 倍。格拉茨技术大学(TU Gr…