探索 HumanoidBench：类人机器人学习的新平台

在科技飞速发展的当下，类人机器人逐渐走进我们的视野，它们有着和人类相似的外形，看起来能像人类一样在各种环境里完成复杂任务，潜力巨大。但实际上，让类人机器人真正发挥出实力，还面临着重重挑战。

这篇文章，将给大家带来一个Benchmark的工作：HumanoidBench。

它是一个新的模拟基准平台。工作链接：https://arxiv.org/pdf/2403.10506

如下图所示：

1、研究背景：类人机器人发展的困境

一直以来，类人机器人都被寄予厚望，大家期待它们能在日常生活中无缝协助人类。像波士顿动力的 Atlas、特斯拉的 Optimus、宇树的 H1 等，这些类人机器人在硬件方面取得了很大进展。可它们的控制器大多是针对特定任务专门设计的，每次遇到新任务或新环境，都得花费大量精力重新设计，而且整体的全身控制能力也很有限。

近年来，机器人学习在操作和移动方面都有了一定进展。但要把这些学习算法应用到类人机器人上，却困难重重。主要原因是在现实世界中对类人机器人进行实验，成本太高，还存在安全风险。比如，类人机器人的硬件设备价格昂贵，一旦在实验中损坏，维修成本很高；而且如果机器人在实验过程中失控，还可能对周围环境和人员造成伤害。

为了推动类人机器人研究的快速发展，就需要一个合适的测试平台。以往的模拟环境和基准测试，要么只关注简单的操作任务，像抓取和放置；要么只侧重于移动，忽略了全身控制和复杂任务的挑战。就算有些引入了复杂任务，但在任务多样性、模型准确性等方面还是有所欠缺。所以，开发一个全面的、能涵盖各种复杂任务的类人机器人基准测试平台就显得尤为重要，这就是 HumanoidBench 诞生的背景。

2、方法——打造类人机器人的试炼场

2.1 模拟环境搭建

HumanoidBench 的模拟环境基于 MuJoCo 物理引擎构建，这个引擎以运行速度快、物理模拟准确著称，为类人机器人的模拟提供了可靠的基础。在这个环境中，主要使用宇树 H1 类人机器人，它相对成本较低，并且有精确的模拟模型。H1 机器人配备了两只灵巧的 Shadow Hands，这让机器人具备了很强的操作能力。同时，环境中还提供了其他机器人模型，像宇树 G1、敏捷机器人 Digit，以及不同的末端执行器，比如 Robotiq 2F - 85 平行夹爪和宇树的 13 自由度手，满足不同研究的需求。

如下图：

从机器人的身体和手部设置来看，研究人员对不同机器人模型进行了细致的调整。比如，为了让模拟机器人更接近人类形态，去掉了 Shadow Hands 原本笨重的前臂，使机器人的手部更符合未来类人机器人的发展趋势。在观察和动作空间方面，也有明确的设定。观察空间包含机器人的本体感受状态（关节角度和速度）、任务相关的环境观察（物体的姿态和速度），还有从机器人头部两个摄像头获取的视觉观察以及全身的触觉感知。动作空间则通过位置控制来实现，控制频率为 50Hz，这样的设置能让机器人在模拟环境中做出各种动作。

2.2 任务设计

HumanoidBench 包含了丰富多样的任务，总共 27 个，分为 12 个移动任务和 15 个全身操作任务。这些任务从简单到复杂，涵盖了各种不同的场景和技能要求。

如下图：

移动任务像是走路、站立、跑步等，看似简单，但对于类人机器人来说却并不轻松。以走路任务为例，机器人要保持向前的速度接近 1m/s，同时还不能摔倒，这就需要它精确控制身体的平衡和各个关节的运动。跑步任务则要求机器人以 5m/s 的速度前进，对其运动能力和协调性提出了更高的要求。还有像跨越障碍、在迷宫中导航这样的任务，不仅考验机器人的移动能力，还需要它具备一定的感知和决策能力。

全身操作任务就更复杂了，涉及到与物体的各种交互。比如，从卡车卸货这个任务，机器人要先走到卡车旁，然后拿起货物，再搬运到指定位置，这一过程需要它协调手部的抓取动作和身体的移动，还要根据货物的重量和形状调整力度。再比如打开不同类型的橱柜门，像铰链门、滑动门和抽屉，每种门的打开方式都不同，机器人需要学习不同的操作技巧。还有像打篮球这样的任务，机器人要先接住从不同方向飞来的球，然后再投篮，这对它的反应速度、空间感知能力和手部操作能力都是极大的挑战。

2.3 分层强化学习策略

针对类人机器人学习的复杂性，研究人员引入了分层强化学习（HRL）策略。在传统的端到端强化学习中，算法很难处理高维度的动作空间和复杂的长期规划任务，而 HRL 则将学习问题分层，把低层次的技能策略和高层次的规划策略分开。

具体来说，在执行操作任务时，会先预训练一个低层次的到达策略。比如在推箱子任务中，低层次策略就是让机器人的手能够准确地到达指定的 3D 点。这个策略就像是搭建高楼的基石，需要非常稳健。为了训练出这样的策略，研究人员利用了 MuJoCo MJX 提供的硬件加速功能，在大量并行环境中进行训练。训练完成后，低层次策略就被固定下来，高层次策略则利用这个预训练的低层次策略，根据不同的任务需求，指挥低层次策略执行相应的动作，从而实现整个任务的完成。

3、实验——检验 HumanoidBench 的有效性

3.1 实验设置

在实验中，研究人员选择了四种强化学习算法作为基线进行测试，分别是 DreamerV3、TD - MPC2、SAC 和 PPO。这些算法在机器人学习领域都有一定的代表性，但在面对类人机器人的复杂任务时，表现却各有不同。

为了确保实验的准确性和可靠性，研究人员对每个算法都进行了约 48 小时的训练，不同算法的训练步数有所差异，比如 TD - MPC2 训练 200 万步，DreamerV3 训练 1000 万步。在训练过程中，每个环境都设置了密集奖励和稀疏子任务完成奖励，通过这些奖励机制来引导机器人学习正确的行为。同时，还对每个任务设置了成功的定性指标，方便评估算法的性能。