Deep Imitation Learning for Humanoid Loco-manipulation through Human Teleoperation解析
- 摘要
- 1.简介
- 2. Related work
- 2.1 人形机器人的局部操纵
- 2.2 远程操作示范中的模仿学习
- 3. 方法
论文链接:https://arxiv.org/abs/2309.01952
论文项目:https://ut-austin-rpl.github.io/TRILL/
论文出处:2023 IEEE-RAS International Conference on Humanoid Robots (Humanoids)
论文单位:The University of Texas at Austin
摘要
- 我们用深度模仿学习解决了开发**人形机器人局部操作(humanoid loco-manipulation)**技能的问题。
- 为具有高度自由度的类人机器人收集任务演示和训练策略的困难提出了实质性的挑战。
- 我们介绍了TRILL,这是一个数据高效的框架,用于从人类演示中训练类人机器人局部操作策略。
- 在这个框架中,我们通过一个直观的虚拟现实(VR)界面收集人类演示数据。
- 我们采用全身控制方式(whole-body control formulation),将人类操作员的任务空间指令转换为机器人的关节-扭矩驱动,同时稳定其动力学。
- 通过采用针对类人肢体操作的高级动作抽象,我们的方法可以有效地学习复杂的感觉运动技能。
- 我们演示了TRILL在仿真和现实世界机器人上执行各种局部操作任务的有效性。
图1. TRILL概况图。TRILL解决了学习人体局部操作的挑战。我们介绍了一个学习框架,该框架通过人类演示者提供的任务空间命令促进远程操作演示。经过训练的策略利用人在决策中的复杂性和适应性来生成这些命令。机器人控制界面在符合机器人动力学的情况下,通过关节-扭矩驱动来执行这些目标命令。这种模仿学习和全身控制的协同结合使方法在模拟和现实环境中都能成功实施。
1.简介
-
近年来,针对人形机器人的硬件设计和控制算法取得了重大进展。由于它们的人形结构,这些机器人具有巨大的多功能性,可以在以人为中心的环境中执行各种日常任务。
-
然而,缺乏自主性是在现实世界中广泛部署类人机器人的主要障碍。
-
迄今为止,这些机器人的大多数操作方法严重依赖于特定任务的手动编程或人工远程操作。
-
模仿学习最近成为一种灵活的、数据驱动的方法,用于从人类演示中构建机器人控制器。
-
特别是,利用大型神经网络实现的深度模仿学习算法已经成功地应用于更简单的机器人形态,包括桌面臂和轮式平台。
-
然而,将这些算法应用于人形机器人会带来两个额外的挑战。
(1)第一个挑战源于这样一个事实: 人形机器人是漂浮的基础系统,需要在与环境进行物理交互时保持平衡。在多接触任务中,机器人的物理相互作用影响其动力学特性,增加了机器人控制的不确定性和复杂性。在标准遥操作界面中,触觉和本体感觉感知模式的缺失进一步加剧了这个问题。
(2)第二个挑战是类人机器人的高度自由度,导致大的动作空间,这提高了对策略学习的数据需求和计算需求。 -
我们克服这些挑战的关键思路是将全身控制模式(whole-body control formulation)纳入我们的数据收集系统和策略学习方法中。
-
全身控制是一种综合的控制框架,它采用了一套最小的简单、低维规则来充分利用基于漂浮的机器人的能力,使其与环境进行兼容的多接触交互。利用该控制器简化了人类操作员通过直观的虚拟现实(VR)界面提供任务演示的过程。
-
此外,它使我们的策略能够预测任务空间中的高级操作。这些动作随后可以转换为关节级扭矩命令进行驱动。
-
为此,我们介绍了TRILL (Teleoperation and Imitation Learning for local -manipulation),这是一个深度模仿学习框架,用于从人类演示中学习人形机器人的感觉运动策略。
-
TRILL由三个主要部分组成。
(1)第一个是基于VR的远程操作界面,为人类提供直观的任务演示方式。
(2)第二个是一个全身控制器,它可靠地将人体演示的任务空间轨迹转换为关节扭矩动作。使用全身控制优先考虑机器人的稳定性和跟踪肢体轨迹,以产生动态可行的运动。
(3)最后一个组件是用于训练本地操作策略的数据高效模仿学习算法。我们的策略预测机器人手部的目标设定值,并发送指令规定步态序列命令,从而实现具有高水平动作抽象的样本高效训练。 -
这些组件一起使TRILL能够执行复杂的局部操作任务,同时熟练地稳定不确定的机器人动力学。
-
我们在模拟和真实硬件设置中评估了我们的方法。在两个模拟环境中,TRILL在自由空间运动任务中达到96%的成功率,在操纵任务中达到80%的成功率,在局部操纵任务中达到92%的成功率。在所有任务中,我们的方法的成功率比最先进的模仿学习基线高出28%。
-
我们还将我们的方法部署到现实世界的人形机器人DRACO 3中,在两个富含接触的操作任务中实现了85%的平均成功率。
-
在我们的知识中,这项工作是第一个成功地实现了深度模仿学习,以学习在现实世界的人形系统中学习复杂操作任务的视觉运动策略。
2. Related work
2.1 人形机器人的局部操纵
- 人形机器人由于其不连续的运动和在执行任务时需要保持平衡而面临着独特的挑战。
- 这与轮式移动机械手形成对比,轮式移动机械手具有连续的运动和操作流形,使可行的运动变得简单明了。
- 为了解决控制类人机器人的挑战,最近的研究探索了动态全身解决方案。
- 这些方法虽然很有前途,但只提供特定于任务的解决方案,缺乏通用性,并且需要大量的计算能力。
- 人体远程操作是全身控制的另一种解决方案,旨在降低控制复杂性并改善机器人与环境的相互作用。
- 开创性的工作已经开发了远程操作机器人,并将简单的人类操作员动作转移到全身水平的类人机器人上。
- 然而,在远程操作高动态运动时,在保持机器人平衡的同时确保平稳、稳定、实时的运动仍然是一个重大挑战。
2.2 远程操作示范中的模仿学习
- 从演示中学习是在人类监督下构建复杂灵巧操作任务机器人行为的有效方法。
- 远程操作的人类演示已被证明在减少训练数据和部署设置之间的领域差距方面特别有用。此外,数据收集可以相对容易地扩大规模。
- 大多数现有的方法都局限于桌面操作或轮式平台。与这些平台不同,收集人形机器人的演示更具挑战性,因为人类操作员的动作命令不能轻易映射到机器人上。这主要是由于人形机器人复杂的浮基动力学,加上稳定性问题和状态估计的不确定性。
- 作为这项工作的一部分,我们开发了一个实用的系统,可以大规模收集人形局部操纵的人类演示。
3. 方法
- 我们介绍了TRILL,一个用于人形局部操作的深度模仿学习框架。
- 我们方法的关键是将局部操作pipeline分解为两层层次结构,由高级视觉运动策略和低级全身控制器组成。
- 策略的高级动作抽象促进了数据高效的学习。
- 低级控制器补充高级策略,在实现策略预期动作的同时稳定机器人动力学。
- TRILL利用了这种分层结构,如图2所示。高级策略π_H生成任务空间命令。我们通过VR远程操作系统收集的人类演示,通过模仿学习来训练π_H。低级控制策略π_L计算电机转矩,以完成π_H设定的命令。为了保证机器人运动的鲁棒性,我们采用了全身控制公式来实现控制器π_L。
图2. TRILL的模型架构。经过训练的策略根据机载立体摄像机的观测结果和机器人的本体感觉反馈产生20 Hz的目标任务空间指令。机器人控制界面实现任务空间指令,计算出在100hz下所需的关节力矩,并将其发送给机器人驱动。