摘要
制造具有与人类相似外形的机器人的关键论点之一是,我们可以利用大量人类数据进行训练。然而,由于人形机器人感知和控制的复杂性、人形机器人与人类在形态和驱动方面仍然存在的物理差距,以及人形机器人缺乏从自我中心视觉学习自主技能的数据管道,因此在实践中这样做仍然具有挑战性。
在本文中,我们介绍了一个全栈系统,供人形机器人从人类数据中学习运动和自主技能。我们首先使用现有的40小时人体运动数据集通过强化学习在模拟中训练低级策略。该策略转移到现实世界,并允许人形机器人仅使用RGB摄像头(即阴影)实时跟踪人体和手部运动。通过阴影,人类操作员可以遥控人形机器人来收集全身数据,以学习现实世界中的不同任务。然后,我们使用收集到的数据进行监督行为克隆,以使用自我中心视觉训练技能策略,使人形机器人能够通过模仿人类技能自主完成不同的任务。我们在定制的33自由度180厘米人形机器人上演示了该系统,通过最多40次演示,机器人可以自主完成穿鞋站立和行走、从仓库货架上卸下物品、折叠运动衫、重新摆放物品、打字和问候其他机器人等任务,成功率为60-100%。
图1:斯坦福HumanPlus机器人。我们为人形机器人提供了一个全栈系统,可以从人类数据中学习动作和自主技能。我们的系统使机器人能够模仿人类操作员的快速、多样动作,包括拳击和打乒乓球,并学习穿鞋、折叠衣服和跳高等自主技能。
一、简介
人形机器人因其与人类相似的外形而一直受到机器人界的关注。由于我们周围的环境、任务和工具都是根据人体形态构建和设计的,因此人形机器人是通用机器人的天然硬件平台,可以解决人类可以完成的所有任务。人形机器人的类人形态也为利用大量可用于训练的人类运动和技能数据提供了独特的机会,从而绕过了机器人数据稀缺的难题。通过模仿人类,人形机器人可以挖掘人类所展现的丰富的技能和动作,为实现通用机器人智能提供了一条有希望的途径。
然而,在实践中,人形机器人从人类数据中学习仍然具有挑战性。人形机器人复杂的动态和高维状态和动作空间给感知和控制都带来了困难。传统方法,例如将问题解耦为感知、规划和跟踪,以及分别模块化手臂和腿部的控制[10,10, 23,40],设计起来可能非常耗时,而且范围有限,因此很难扩展到人形机器人预计将要执行的各种任务和环境。此外,尽管人形机器人与其他形式的机器人相比与人类非常相似,但人形机器人与人类在形态和驱动方面仍然存在物理差异,包括自由度数、连杆长度、身高、体重、视觉参数和机制,以及驱动强度和响应能力,这给人形机器人有效使用和学习人类数据带来了障碍。缺乏现成的集成硬件平台进一步加剧了这一问题。此外,我们缺乏用于人形机器人全身遥控操作的可访问数据管道,使得研究人员无法利用模仿学习作为工具来教授人形机器人任意技能。多家公司开发的人形机器人已经展示了这种数据管道和随后从收集的数据中进行模仿学习的潜力,但细节尚未公开,其系统的自主演示仅限于几个任务。先前的研究使用动作捕捉系统、第一人称视角(FPV)虚拟现实(VR)耳机和外骨骼来遥控人形机器人[17,20,38,59],这些系统价格昂贵且操作位置受限。
在本文中,我们提出了一个全栈系统,供人形机器人从人类数据中学习运动和自主技能。为了解决人形机器人的控制复杂性,我们效仿最近在腿部机器人方面取得的成功,在模拟中使用大规模强化学习和模拟到现实的迁移[41, 51]来训练用于全身控制的低级策略。通常,由于奖励工程耗时[19, 68],基于学习的低级策略被设计为特定于任务的,使人形硬件一次只能演示一项技能,例如行走。这一限制限制了人形平台能够执行的各种任务。同时,我们有一个40小时的人体运动数据集AMASS[49],涵盖了广泛的技能。我们利用这个数据集,首先将人体姿势重新定位为人形姿势,然后训练一个与任务无关的低级策略,称为 Humanoid Shadowing Transformer,以重新定位的人形姿势为条件。我们的姿势条件低级策略迁移到现实世界的零样本。
在部署了根据目标姿势控制人形机器人的低级策略后,我们可以使用单个 RGB摄像头实时将人体运动投射到我们定制的33自由度180厘米人形机器人上。使用最先进的人体和手部姿势估计算法[58, 81],我们可以估计实时人体运动并将其重新定位到人形机器人运动,并将其作为输入传递给低级策略。这个过程传统上是通过使用动作捕捉系统来完成的,但这种系统价格昂贵,操作位置也受到限制。使用视线,站在附近的人类操作员可以远程操作人形机器人,以收集现实世界中各种任务的全身数据,例如拳击、弹钢琴、打乒乓球和打开橱柜存放沉重的锅。在远程操作时,人形机器人通过双目RGB摄像头收集自我中心视觉数据。阴影为各种现实世界任务提供了高效的数据收集管道,绕过了RGB感知的模拟与现实差距。使用通过跟踪收集的数据,我们执行监督行为克隆以训练基于视觉的技能策略。技能策略将人形双目自我中心RGB视觉作为输入,并预测所需的人形身体和手势。我们以最近从人类提供的演示中进行模仿学习的成功经验为基础 [11,104],并引入了一种基于Transformer的架构,该架构融合了动作预测和前向动态预测。使用图像特征的前向动态预测,我们的方法通过对图像特征空间进行正则化并防止基于视觉的技能策略忽略图像特征和过度拟合本体感受,从而显示出更好的性能。使用多达40个演示,我们的人形机器人可以自主完成任务,例如穿鞋站起来走路、从仓库货架上卸下物品、折叠运动衫、重新摆放物品、打字和与另一个机器人打招呼,成功率为60-100%。
本文的主要贡献是一个全栈人形机器人系统,用于从人类数据中学习复杂的自主技能,名为HumanPlus。该系统的核心是(1)实时跟踪系统,允许人类操作员使用单个RGB摄像头和人形跟踪变换器(一种在模拟中对大量人体运动数据进行训练的低级策略)对人形机器人进行全身控制;以及(2)人形模仿变换器(一种模仿学习算法,可以从40个演示中高效学习双目感知和高自由度控制)。我们的跟踪系统和模仿学习算法之间的协同作用允许直接在现实世界中学习全身操纵和运动技能,例如穿着鞋站立和行走,仅使用最多40个演示,成功率为60-100%。
图2:硬件详细信息。我们的HumanPlus机器人头部安装有两个以自我为中心的 RGB摄像头,两只6-DoF灵巧手,总共有33个自由度。
二、相关工作
人形机器人的强化学习
人形机器人的强化学习主要侧重于运动。虽然基于模型的控制[16,36,40, 55,69,92,98]在各种人形机器人[13,32,37,54,65,89]上取得了巨大进展,但基于学习的方法可以实现人形机器人[39,67,68,85,91,94,103]和双足机器人 [4,42,44,45,83,84,93,100] 的稳健运动性能,因为它们在模拟中对高度随机的环境进行了训练,并且具有适应能力。尽管人形机器人的定位和移动操控大多是通过模型预测控制来实现的[1,24,29,30,73,77],但最近在将强化学习和模拟到现实应用于人形机器人方面取得了一些成功,通过明确建模模拟中的场景和任务来实现盒子重新定位[19],并用于生成不同的上半身运动[9]。相比之下,我们使用强化学习来训练与任务无关的全身控制的低级策略,而无需在模拟中明确建模现实世界的场景和任务。
人形机器人的远程操作。
先前的研究利用人体动作捕捉服[14,17,20,21]、外骨骼[35,35,63,70,75]、触觉反馈设备[6,61,71]和VR设备进行视觉反馈[7,38,59,90] 和末端执行器控制[2,46,62,86],开发人形机器人和灵巧机器人的遥操作。例如,Purushottam 等人使用连接到力板上的外骨骼服来记录人体运动,开发了轮式人形机器人的全身遥操作。在控制空间方面,先前的研究已经在操作空间[17,76]、上身遥操作[7,22]和全身遥操作[31,33,34,52,56,60,90]中完成了遥操作。例如,何等人。使用RGB相机捕捉人体运动,对人形机器人进行全身遥控。Seo等人使用VR控制器遥控双手末端执行器,并对收集的数据进行模仿学习,以学习静态操作技能。相比之下,我们的工作提供了一个全栈系统,该系统由一个低成本的全身遥控系统组成,该系统使用单个RGB相机控制人形机器人的每个关节,实现操纵、下蹲和行走,以及一个高效的模仿管道,用于学习自主操纵和运动技能,实现穿鞋站立和行走等复杂技能。机器人从人类数据中学习。人体数据已广泛应用于机器人学习,包括利用互联网规模数据[18,26,27]对视觉或中间表征或任务进行预训练[8,28,50,53,66,79,86,99],以及基于领域内人体数据进行模仿学习 [3,12,43,47,64,78,80,82,87,88,95–97,101,102]。例如,秦等人使用领域内人手数据让灵巧的机器手进行模仿。最近,人体数据也被用于训练人形机器人[9,31]。程等人使用离线人体数据训练人形机器人产生多样化的上半身运动,何等人使用离线人体数据训练全身遥操作界面。相比之下,我们既使用离线人类数据来学习低级全身策略以进行实时跟踪,也使用在线人类数据通过跟踪让类人机器人模仿人类技能,从而实现自主的类人机器人技能。
图3:阴影和重新定位。我们的系统使用一个RGB摄像头进行身体和手部姿势估计。
三、HumanPlus硬件
我们的人形机器人具有33个自由度,包括两个6-DoF手、两个1-DoF手腕和一个19-DoF身体(两个4-DoF手臂、两个5-DoF腿和一个1-DoF腰部),如图 2 左侧所示。该系统基于Unitree H1机器人构建。每条手臂都集成了一个 Inspire-Robots RH56DFX手,通过定制的手腕连接。每个手腕都有一个 Dynamixel伺服器和两个推力轴承。手和手腕均通过串行通信控制。我们的机器人头部安装有两个RGB网络摄像头(Razer Kiyo Pro),向下倾斜50度,瞳孔距离为160毫米。手指可以施加高达10N的力,而手臂可以承受高达7.5公斤的物品。腿部的电机在运行时可以产生高达360Nm的瞬时扭矩。我们的机器人的其他技术规格在图2的右侧提供。
四、人体和手部数据离线人体数据。
我们使用基于公共光学标记的人体运动数据集AMASS[49]来训练我们的低级人形阴影变换器。AMASS数据集汇总了来自多个人体运动数据集的数据,包含40 小时的各种任务的人体运动数据,并由11,000多个独特的运动序列组成。为确保运动数据的质量,我们应用了基于[48]中概述的方法的过滤过程。使用 SMPL-X[57]模型对人体和手部运动进行参数化,该模型包括22个身体和30个手部 3-DoF 球形关节、三维全局平移变换和三维全局旋转变换。重新定位。我们的人形身体具有SMPL-X身体自由度的子集,仅由19个旋转关节组成。为了重新定位身体姿势,我们将相应的欧拉角从SMPL-X复制到我们的人形模型中,即臀部、膝盖、脚踝、躯干、肩膀和肘部。每个人形臀部和肩关节都由3个正交旋转关节组成,因此可以看作一个球形关节。我们的人形手有6个自由度:食指、中指、无名指和小指各有1个自由度,拇指有2个自由度。为了重新定位手部姿势,我们使用中间关节的旋转来映射每个手指相应的欧拉角。为了计算1-DoF腕角,我们使用前臂和手部全局方向之间的相对旋转。实时身体姿势估计和重新定位。为了估计现实世界中的人体运动以进行阴影处理,我们使用具有精确运动的世界地面人类 (WHAM)[81]使用单个RGB摄像头实时联合估计人体姿势和全局变换。WHAM使用SMPLX进行人体姿势参数化。如图3所示,我们使用上述方法执行实时人对人形身体重定向。身体姿势估计和重定向在NVIDIA RTX4090 GPU上以25fps的速度运行。
实时手势估计和重定向
我们使用HaMeR [58],这是一种基于Transformer的手势估计器,使用单个RGB摄像头,用于实时手势估计。HaMeR使用MANO[72]手部模型预测手势、摄像头参数和形状参数。我们使用上述方法执行实时人对人手部重定向。我们的手势估计和重定向在NVIDIA RTX4090 GPU上以10fps的速度运行。
五、人体运动阴影
我们将低级策略Humanoid Shadowing Transformer制定为仅解码器的 Transformer,如图4左侧所示。在每个时间步骤中,策略的输入是人形本体感觉和人形目标姿势。人形本体感觉包含根状态(行、俯仰和基准角速度)、关节位置、关节速度和最后动作。人形目标姿势由目标前向和横向速度、目标滚转和俯仰、目标偏航速度和目标关节角度组成,并从第4节中提到的处理后的 AMASS 数据集中采样的人体姿势重新定位。该策略的输出是人形身体关节的19维关节位置设定点,随后使用1000Hz PD控制器将其转换为扭矩。目标手部关节角度直接传递给PD控制器。我们的低级策略以50Hz运行,上下文长度为8,因此它可以根据观察历史适应不同的环境[67]。我们使用PPO[74]在模拟中训练我们的 Humanoid Shadowing Transformer,方法是最大化折扣预期回报EhPT−1t=0 γtrti,其中rt是时间步t的奖励,T是最大情节长度,γ是折扣因子。奖励r是鼓励匹配目标姿势同时节省能源和避免脚滑的项的总和。我们在表1中列出了所有奖励项。我们将模拟环境和人形机器人的物理参数随机化,详细信息见表2。在模拟中训练Humanoid Shadowing Transformer后,我们将其零样本部署到现实世界中的人形机器人身上进行实时跟踪。本体感受观测仅使用包括IMU和关节编码器在内的机载传感器进行测量。按照第4节并如图3所示,我们使用单个RGB 摄像头实时估计人体和手部姿势,并将人体姿势重新定位到人形机器人目标姿势。如图1所示,人类操作员站在人形机器人附近,将他们的实时全身运动投射到人形机器人身上,并使用视线观察人形机器人的环境和行为,确保远程操作系统响应迅速。当人形机器人坐下时,我们直接将目标姿势发送给PD控制器,因为我们不需要策略来补偿重力,而且模拟具有丰富接触的坐姿具有挑战性。在远程操作时,人形机器人通过双目RGB摄像头收集自我中心视觉数据。通过阴影,我们为各种现实世界任务提供了高效的数据收集管道,从而解决了逼真的RGB渲染、准确的软物体模拟和模拟中多样化任务规范的挑战。
六、模仿人类技能
通过在各种任务上的演示,模仿学习在学习自主机器人技能方面表现出了巨大的成功[5,11,15,25,104]。给定通过跟踪收集的真实世界数据,我们将相同的方法应用于人形机器人以训练技能策略。我们进行了一些修改,以使用有限的板载计算实现更快的推理,并在双目感知和高自由度控制下实现高效的模仿学习。在这项工作中,我们修改了Action Chunking Transformer[104],删除了它的编码器-解码器架构,以开发仅限解码器的人形模仿变压器(HIT)用于技能策略,如图4右侧所示。HIT将来自两个自我中心RGB摄像头的当前图像特征、本体感觉和固定位置嵌入作为输入进行处理。这些图像特征使用预训练的ResNet编码器进行编码。由于其仅使用解码器的设计,HIT通过基于输入处的固定位置嵌入预测50个目标姿势块来运行,并且可以预测与各自输入位置处的图像特征相对应的标记。我们在这些预测的图像特征上加入了L2特征损失,迫使Transformer 在执行地面真实目标姿势序列后预测未来状态的相应图像特征标记。这种方法使HIT能够有效地将目标姿势预测与前向动力学预测相结合。通过对图像特征使用前向动力学预测,我们的方法通过正则化图像特征空间来提高性能,防止基于视觉的技能策略忽略图像特征和过度拟合本体感受。在部署期间,HIT以25Hz的频率在机上运行,将预测的目标位置异步发送到低级人形阴影 Transformer,同时丢弃预测的未来图像特征标记。
七、任务
我们选择了六个模仿任务和五个需要双手灵活性和全身控制的跟踪任务。如图5所示,这些任务涵盖了与实际应用相关的各种能力和对象。
在穿鞋行走任务
中,机器人(1)翻转鞋子,(2)拿起鞋子,(3)穿上鞋子,(4)向下按压以确保左脚合脚,(5)用双手缠绕鞋带,(6)抓住右脚,(7)抓住左脚,(8)系鞋带,(9)站起来,(10)向前走。这项任务展示了机器人用灵巧的双手进行复杂的双手操作的能力,以及穿鞋站立和行走等敏捷运动的能力。鞋子均匀地随机放置在桌子上,沿着机器人正面的2厘米线。每次演示有1250步或50秒。
在仓库任务中,机器人(1)用右手接近仓库货架上的喷漆,(2)抓住喷涂机,(3)缩回右手,(4)下蹲,(5)坐在四足动物背上接近推车,(6)释放喷雾,(7)站起来。此任务测试机器人的全身操控和协调能力。机器人的站立位置沿着10厘米线随机分布。每次演示有500步或20秒。
在折叠衣服任务中,机器人在保持平衡的同时,(1)折叠左袖,(2)折叠右袖,(3)折叠运动衫的下摆,这需要机器人既要灵活地操纵具有复杂动态的布料,又要保持直立姿势。机器人从站立姿势开始,均匀随机采样的根偏航偏差从+10度到-10度。汗布均匀随机地放置在桌子上,偏差为10cmx10cm,旋转-30度至30度。每次演示有500步或20秒。
在“重新排列物体”任务中,机器人在保持平衡的同时,(1)接近物体,(2)拿起物体,(3)将物体放入篮子中。复杂性源于物体的形状、颜色和方向各不相同,需要机器人根据物体的位置选择合适的手并相应地规划其动作。总的来说,我们从4个软物体中均匀采样,包括毛绒玩具和冰袋,物体沿着篮子左侧或右侧的10厘米线均匀随机地放置。每次演示有250步或10秒。
在“AI”类型任务中,机器人(1)输入字母“A”,(2)松开按键,(3)输入字母“I”,(4) 松开按键。尽管机器人是坐着的,但操作时需要很高的精度。每次演示有200步或8秒。
在双机器人问候任务中,机器人(1)在观察到另一个双手机器人开始伸出一只手/手臂后,用正确的手接近另一个机器人,(2)用另一个机器人触摸手,(3)松开手。另一个机器人均匀地采样伸出哪只手并停在5cmx5cmx5cm的末端执行器区域内。机器人需要快速准确地识别使用哪只手,并在保持平衡的同时用正确的手接近另一个机器人。每次演示有125步或5秒。
对于跟踪任务,我们演示了五个任务:拳击、打开双门柜子存放锅、投掷、弹钢琴、打乒乓球和输入“Hello World”,展示了在跟踪快速、多样的运动和操纵重物时的机动性和稳定性。
定性阴影结果的视频可以在项目网站上找到:https://humanoid-ai.github.io
八、跟踪实验
8.1与其他遥操作方法的比较
我们将我们的遥操作系统与三个基线进行了比较:动觉教学、ALOHA [104] 和 Meta Quest,如图6所示。对于动觉教学,两个手臂都处于被动模式并手动定位。对于ALOHA,我们用两个WidowX 250机器人构建了一对双手手臂用于操纵木偶,其运动结构与我们的人形手臂相似。对于Meta Quest,我们利用控制器的位置通过带重力补偿的逆运动学进行操作空间控制。如表3所示,所有基线都不支持全身控制,需要至少两名操作员进行手部姿势估计。相比之下,我们的跟踪系统可以同时控制人形身体和手,只需要一名操作员。此外,ALOHA 和 Meta Quest 都更昂贵。相比之下,我们的系统和动觉教学只需要一个RGB摄像头。如表3所示,我们对6名参与者进行了用户研究,以比较我们的跟踪系统与三个基线在远程操作效率方面的差异。两名参与者之前没有远程操作经验,其余四名参与者的专业水平各不相同。没有一位参与者之前使用过我们的跟踪系统。参与者的任务是执行“重新排列物体”任务及其变体“重新排列较低物体”,其中一个物体被放置在高度为 0.55 米的较低桌子上,需要机器人蹲下,因此需要全身控制。我们记录了六名参与者的平均任务完成时间,每人进行三次试验和三轮未记录的练习。我们还使用我们的低级策略记录了远程操作期间稳定站立的平均成功率。虽然 ALOHA 能够精确控制机器人的关节角度,但其固定的硬件设置使其更难适应不同身高和体形的人,并且默认情况下它不支持对人形机器人的全身控制。由于人形机器人的每只手臂和手腕的自由度有限,只有5个,因此Meta Quest经常导致笛卡尔空间中的目标和实际姿势之间出现奇点和不匹配,导致完成时间最长,并且在手臂奇点处站立不稳定。虽然动觉教学直观且完成时间短,但它需要多名操作员,有时教学过程中手臂上的外力会导致人形机器人跌倒。相比之下,我们的系统完成时间最短,稳定站立的成功率最高,并且是唯一可用于全身远程操作的方法,解决了重新排列下部物体的任务。
8.2. 稳健性评估
如表4所示,我们通过将我们的低级策略与制造商默认控制器(H1 Default)进行比较来评估它。机器人在操纵物体时必须保持平衡,因此我们通过向骨盆施加力并记录导致不稳定的最小力来评估稳健性。如图7所示,我们的策略可以承受明显更大的力,并且恢复时间更短。当机器人失去平衡时,制造商默认控制器需要几个步骤,最多需要20秒才能稳定机器人,而我们的控制器通常只需一两步,3秒内即可恢复。更多的恢复步骤会导致行为不稳定,并影响操控性能。我们还表明,我们的策略可以实现默认控制器无法实现的更多全身技能,例如下蹲、跳高、从椅子上站起来。
九、模仿实验
如表5所示,我们将模仿学习方法人形模仿Transformer与三种基线方法进行了比较:具有单目输入(单目)的HIT策略、ACT[104]和开环轨迹重放,涵盖所有任务:折叠衣服、重新排列物体、类型“AI”、双机器人问候、仓库以及穿鞋走路,详见第7节和图5。虽然每项技能策略都会连续自主地解决其任务而不会停止,但为了更好地分析,我们记录了每个任务中连续子任务的成功率。我们对每个任务进行10次试验。我们通过将成功尝试次数除以总尝试次数来计算子任务的成功率。例如,在穿鞋子任务的情况下,总尝试次数等于前一个子任务拿起鞋的成功次数,因为机器人可能会在任何子任务上失败并停止。我们的HIT在所有任务中的成功率高于其他基线。具体来说,我们的方法是唯一解决穿鞋走路任务的方法,在40次演示中成功率为60%,而其他所有方法都失败了。这是因为我们的方法使用双目感知,避免了对本体感受的过度拟合。ACT在穿鞋走路和打字“AI”任务中失败,因为它对本体感受过度拟合,机器人在成功完成拿起鞋子和留下“A”后反复尝试并卡在它们上,避免使用视觉反馈。由于缺乏来自单个RGB相机的深度信息,单目显示的成功率较低,导致与折叠衣服中的桌子的交互粗糙。它完全无法完成穿鞋走路任务,而深度感知至关重要。然而,由于其视野较窄,它比其他方法更成功地完成了打字“AI”任务中的一些子任务。开环仅在没有随机化的打字“AI”中有效,并且在所有其他需要反应控制的任务中失败。
十、结论、局限性和未来方向
在这项工作中,我们介绍了HumanPlus,这是一个全栈系统,可供人形机器人从人类数据中学习动作和自主技能。在我们系统的整个开发过程中,我们遇到了几个限制。首先,与人体解剖学相比,我们的硬件平台提供的自由度较少。例如,它使用具有1-DoF 脚踝的脚,这限制了人形机器人执行敏捷动作的能力,例如抬起和摇动一条腿而另一条腿保持静止。每只手臂只有5个自由度,包括一个手腕,这限制了6-DoF操作空间控制的应用,并可能导致在阴影期间无法到达区域。此外,以自我为中心的摄像头固定在人形机器人的头部并且不活动,导致手和交互始终存在视野之外的风险。此外,我们目前使用从人类姿势到人形机器人姿势的固定重定向映射,省略了我们的人形机器人硬件上不存在的许多人类关节。这可能会限制人形机器人从一小部分不同的人类动作中学习。目前,由于存在大面积遮挡,姿势估计方法效果不佳,限制了人类操作员的操作区域。最后,我们在这项工作中专注于一些运动任务(如蹲下、站起来和行走)的操纵任务,因为处理长距离导航需要更大规模的人类演示和现实世界中的精确速度跟踪。我们希望在未来解决这些限制,并实现可应用于各种现实世界任务的更自主、更强大的人形技能。
致谢
我们感谢斯坦福机器人中心的Steve Cousins 和Oussama Khatib为我们的实验提供设施支持。我们还感谢Inspire-Robots和Unitree Robotics在硬件和底层固件方面提供的广泛支持。我们感谢Huy Ha、Yihuai Gao、Chong Zhang、Ziwen Zhuang、Jiaman Li、Yifeng Jiang、Yuxiang Zhang、Xingxing Wang、Tony Yang、Walter Wen、Yunguo Cui、Rosy Wang、Zhiqiang Ma、Wei Yu、Xi Chen、Mengda Xu、Peizhuo Li、Tony Z. Zhao
、Lucy X. Shi 和 Bartie在实验上的帮助、宝贵的讨论和支持。该项目得到了人工智能研究所和ONR拨款 N00014-21-1-2685 的支持。Zipeng Fu得到了Pierre 和Christine Lamond奖学金的支持。