探索 HumanoidBench:类人机器人学习的新平台

在科技飞速发展的当下,类人机器人逐渐走进我们的视野,它们有着和人类相似的外形,看起来能像人类一样在各种环境里完成复杂任务,潜力巨大。但实际上,让类人机器人真正发挥出实力,还面临着重重挑战。

这篇文章,将给大家带来一个Benchmark的工作:HumanoidBench。

它是一个新的模拟基准平台。工作链接:https://arxiv.org/pdf/2403.10506

如下图所示:

image.png

1、研究背景:类人机器人发展的困境

一直以来,类人机器人都被寄予厚望,大家期待它们能在日常生活中无缝协助人类。像波士顿动力的 Atlas、特斯拉的 Optimus、宇树的 H1 等,这些类人机器人在硬件方面取得了很大进展。可它们的控制器大多是针对特定任务专门设计的,每次遇到新任务或新环境,都得花费大量精力重新设计,而且整体的全身控制能力也很有限。

近年来,机器人学习在操作和移动方面都有了一定进展。但要把这些学习算法应用到类人机器人上,却困难重重。主要原因是在现实世界中对类人机器人进行实验,成本太高,还存在安全风险。比如,类人机器人的硬件设备价格昂贵,一旦在实验中损坏,维修成本很高;而且如果机器人在实验过程中失控,还可能对周围环境和人员造成伤害。

image.png

为了推动类人机器人研究的快速发展,就需要一个合适的测试平台。以往的模拟环境和基准测试,要么只关注简单的操作任务,像抓取和放置;要么只侧重于移动,忽略了全身控制和复杂任务的挑战。就算有些引入了复杂任务,但在任务多样性、模型准确性等方面还是有所欠缺。所以,开发一个全面的、能涵盖各种复杂任务的类人机器人基准测试平台就显得尤为重要,这就是 HumanoidBench 诞生的背景。

2、方法——打造类人机器人的试炼场

2.1 模拟环境搭建

HumanoidBench 的模拟环境基于 MuJoCo 物理引擎构建,这个引擎以运行速度快、物理模拟准确著称,为类人机器人的模拟提供了可靠的基础。在这个环境中,主要使用宇树 H1 类人机器人,它相对成本较低,并且有精确的模拟模型。H1 机器人配备了两只灵巧的 Shadow Hands,这让机器人具备了很强的操作能力。同时,环境中还提供了其他机器人模型,像宇树 G1、敏捷机器人 Digit,以及不同的末端执行器,比如 Robotiq 2F - 85 平行夹爪和宇树的 13 自由度手,满足不同研究的需求。

如下图:

image.png

从机器人的身体和手部设置来看,研究人员对不同机器人模型进行了细致的调整。比如,为了让模拟机器人更接近人类形态,去掉了 Shadow Hands 原本笨重的前臂,使机器人的手部更符合未来类人机器人的发展趋势。在观察和动作空间方面,也有明确的设定。观察空间包含机器人的本体感受状态(关节角度和速度)、任务相关的环境观察(物体的姿态和速度),还有从机器人头部两个摄像头获取的视觉观察以及全身的触觉感知。动作空间则通过位置控制来实现,控制频率为 50Hz,这样的设置能让机器人在模拟环境中做出各种动作。

2.2 任务设计

HumanoidBench 包含了丰富多样的任务,总共 27 个,分为 12 个移动任务和 15 个全身操作任务。这些任务从简单到复杂,涵盖了各种不同的场景和技能要求。

如下图:

image.png

移动任务像是走路、站立、跑步等,看似简单,但对于类人机器人来说却并不轻松。以走路任务为例,机器人要保持向前的速度接近 1m/s,同时还不能摔倒,这就需要它精确控制身体的平衡和各个关节的运动。跑步任务则要求机器人以 5m/s 的速度前进,对其运动能力和协调性提出了更高的要求。还有像跨越障碍、在迷宫中导航这样的任务,不仅考验机器人的移动能力,还需要它具备一定的感知和决策能力。

全身操作任务就更复杂了,涉及到与物体的各种交互。比如,从卡车卸货这个任务,机器人要先走到卡车旁,然后拿起货物,再搬运到指定位置,这一过程需要它协调手部的抓取动作和身体的移动,还要根据货物的重量和形状调整力度。再比如打开不同类型的橱柜门,像铰链门、滑动门和抽屉,每种门的打开方式都不同,机器人需要学习不同的操作技巧。还有像打篮球这样的任务,机器人要先接住从不同方向飞来的球,然后再投篮,这对它的反应速度、空间感知能力和手部操作能力都是极大的挑战。

2.3 分层强化学习策略

针对类人机器人学习的复杂性,研究人员引入了分层强化学习(HRL)策略。在传统的端到端强化学习中,算法很难处理高维度的动作空间和复杂的长期规划任务,而 HRL 则将学习问题分层,把低层次的技能策略和高层次的规划策略分开。

具体来说,在执行操作任务时,会先预训练一个低层次的到达策略。比如在推箱子任务中,低层次策略就是让机器人的手能够准确地到达指定的 3D 点。这个策略就像是搭建高楼的基石,需要非常稳健。为了训练出这样的策略,研究人员利用了 MuJoCo MJX 提供的硬件加速功能,在大量并行环境中进行训练。训练完成后,低层次策略就被固定下来,高层次策略则利用这个预训练的低层次策略,根据不同的任务需求,指挥低层次策略执行相应的动作,从而实现整个任务的完成。

3、实验——检验 HumanoidBench 的有效性

3.1 实验设置

image.png

在实验中,研究人员选择了四种强化学习算法作为基线进行测试,分别是 DreamerV3、TD - MPC2、SAC 和 PPO。这些算法在机器人学习领域都有一定的代表性,但在面对类人机器人的复杂任务时,表现却各有不同。

为了确保实验的准确性和可靠性,研究人员对每个算法都进行了约 48 小时的训练,不同算法的训练步数有所差异,比如 TD - MPC2 训练 200 万步,DreamerV3 训练 1000 万步。在训练过程中,每个环境都设置了密集奖励和稀疏子任务完成奖励,通过这些奖励机制来引导机器人学习正确的行为。同时,还对每个任务设置了成功的定性指标,方便评估算法的性能。

3.2 实验结果

image.png

从实验结果来看,这些基线算法在大多数任务上的表现都不太理想。在移动任务中,即使是像走路这样看似简单的任务,算法也需要大量的训练步数才能学会,而且成功率也不高。这主要是因为类人机器人的状态和动作空间维度很高,即使在移动任务中手部动作使用较少,但算法还是难以忽略手部的信息,导致策略学习变得困难。

点击探索 HumanoidBench:类人机器人学习的新平台查看全文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/901997.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构中的宝藏秘籍之广义表

广义表,也被称作列表(Lists),是一种递归的数据结构。它就像一个神秘的盒子,既可以装着单个元素(原子),也可以嵌套着其他的盒子(子列表)。比如广义表 (a (b c)…

【jenkins】首次配置jenkins

第一步,输入管理员密码 cat /var/jenkins_home/secrets/initialAdminPassword第二步,点击安装推荐的插件 第三步,创建管理员用户 第四步,返回实例 第五步, 升级jenkins 第六步, 修复提示 第七步&#xff0c…

Android studio—socketIO库return与emit的使用

文章目录 一、Socket.IO库简单使用说明1. 后端 Flask Flask-SocketIO2. Android 客户端集成 Socket.IO3. 布局文件注意事项 二、接受服务器消息的二种方法1. 客户端接收通过 emit 发送的消息功能使用场景后端代码(Flask-SocketIO)客户端代码&#xff08…

用Prompt 技术【提示词】打造自己的大语言智能体

机器如何按照人类的指令执行任务的探索 机器需具备理解任务叙述的能力,以便能够按照人类的指令执行任务,为机器提供一些范例作为参考,使其能够理解该执行的任务类型。这样的学习方式称为“Instruction learning”,透过精心设计的…

Node.js 数据库 事务 项目示例

1、参考:JavaScript语言的事务管理_js 函数 事务性-CSDN博客 或者百度搜索:Nodejs控制事务, 2、实践 2.1、对于MySQL或MariaDB,你可以使用mysql或mysql2库,并结合Promise或async/await语法来控制事务。 使用 mysql2…

【Mamba】MambaVision论文阅读

文章目录 MambaVision一、研究背景(一)Transformer vs Mamba​(二)Mamba in CV​ 二、相关工作​(一)Transformer 在计算机视觉领域的进展​(二)Mamba 在计算机视觉领域的探索​ 三、…

前端面试宝典---原型链

引言----感谢大佬的讲解 大佬链接 原型链示意图 原型链问题中需要记住一句话:一切变量和函数都可以并且只能通过__proto__去找它所在原型链上的属性与方法 原型链需要注意的点 看上图可以发现 函数(构造函数)也可以通过__proto__去找到原…

C语言---FILE结构体

一、FILE 结构体的本质与定义 基本概念 FILE 是 C 语言标准库中用于封装文件操作的结构体类型&#xff0c;定义于 <stdio.h> 中。它代表一个“文件流”&#xff0c;可以是磁盘文件、标准输入输出&#xff08;stdin/stdout/stderr&#xff09;或其他输入输出设备。 实现特…

基于大模型的直肠息肉诊疗全流程风险预测与方案优化研究报告

目录 一、引言 1.1 研究背景与意义 1.2 研究目的与创新点 二、大模型技术概述 2.1 大模型原理简介 2.2 大模型在医疗领域应用现状 三、直肠息肉术前预测与准备 3.1 基于大模型的术前风险预测 3.1.1 息肉性质预测 3.1.2 手术难度预测 3.2 基于预测结果的术前准备 3.…

华为OD机试真题——MELON的难题(2025A卷:200分)Java/python/JavaScript/C++/C语言/GO六种最佳实现

2025 A卷 200分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析&#xff1b; 并提供Java、python、JavaScript、C、C语言、GO六种语言的最佳实现方式&#xff01; 2025华为OD真题目录全流程解析/备考攻略/经验分享 华为OD机试真题《MELON的…

AI数据分析与BI可视化结合:解锁企业决策新境界

大家好&#xff0c;今天我们来聊聊一个前沿而热门的话题——AI数据分析与BI可视化结合&#xff0c;如何携手推动企业决策迈向新高度。在数据爆炸的时代&#xff0c;企业如何高效利用这些数据&#xff0c;成为制胜的关键。AI数据分析与BI可视化的结合&#xff0c;正是解锁这一潜…

克服储能领域的数据处理瓶颈及AI拓展

对于储能研究人员来说&#xff0c;日常工作中经常围绕着一项核心但有时令人沮丧的任务&#xff1a;处理实验数据。从电池循环仪的嗡嗡声到包含电压和电流读数的大量电子表格&#xff0c;研究人员的大量时间都花在了提取有意义的见解上。长期以来&#xff0c;该领域一直受到对专…

【SpringBoot+Vue自学笔记】002 SpringBoot快速上手

跟着这位老师学习的&#xff1a;https://www.bilibili.com/video/BV1nV4y1s7ZN?vd_sourceaf46ae3e8740f44ad87ced5536fc1a45 最好和老师的idea版本完全一致&#xff01;截至本文写的当日最新的idea好像默认jdk17&#xff0c;配置时遇到很多bug。 &#x1f33f; Spring Boot&a…

SpringAI+DeepSeek大模型应用开发——2 大模型应用开发架构

目录 2.大模型开发 2.1 模型部署 2.1.1 云服务-开放大模型API 2.1.2 本地部署 搜索模型 运行大模型 2.2 调用大模型 接口说明 提示词角色 ​编辑 会话记忆问题 2.3 大模型应用开发架构 2.3.1 技术架构 纯Prompt模式 FunctionCalling RAG检索增强 Fine-tuning …

蓝桥杯12. 日期问题

日期问题 原题目链接 题目描述 小明正在整理一批历史文献。这些历史文献中出现了很多日期。 小明知道这些日期都在 1960 年 1 月 1 日 至 2059 年 12 月 31 日 之间。 令小明头疼的是&#xff0c;这些日期采用的格式非常不统一&#xff1a; 有的采用 年/月/日有的采用 月…

STM32使用rand()生成随机数并显示波形

一、随机数生成 1、加入头文件&#xff1a;#include "stdlib.h" 2、定义一个用作生成随机数种子的变量并加入到滴答定时器中不断自增&#xff1a;uint32_t run_times 0; 3、设置种子&#xff1a;srand(run_times);//每次生成随机数前调用一次为佳 4、生成一个随…

『前端样式分享』联系我们卡片式布局 自适应屏幕 hover动效 在wikijs中使用 (代码拿来即用)

目录 预览效果分析要点响应式网格布局卡片样式&#xff1a;阴影和过渡效果 代码优化希望 长短不一的邮箱地址在左右居中的同时,做到左侧文字对齐(wikijs可用)总结 欢迎关注 『前端布局样式』 专栏&#xff0c;持续更新中 欢迎关注 『前端布局样式』 专栏&#xff0c;持续更新中…

【ubuntu】在Linux Yocto的基础上去适配Ubuntu的wifi模块

一、修改wifi的节点名 1.找到wifi模块的PID和VID ifconfig查看wifi模块网络节点的名字&#xff0c;发现是wlx44876393bb3a&#xff08;wlxmac地址&#xff09; 通过udevadm info -a /sys/class/net/wlx44876393bba路径的命令去查看wlx44876393bba的总线号&#xff0c;端口号…

健康养生:开启活力生活新篇章

在当代社会&#xff0c;熬夜加班、久坐不动、外卖快餐成为许多人的生活常态&#xff0c;随之而来的是各种亚健康问题。想要摆脱身体的疲惫与不适&#xff0c;健康养生迫在眉睫&#xff0c;它是重获活力、拥抱美好生活的关键。​ 应对不良饮食习惯带来的健康隐患&#xff0c;饮…

【verilog】多个 if 控制同一个变量(后面会覆盖前面)非阻塞赋值真的并行吗?

非阻塞赋值 (<) 是“并行”的&#xff0c;但是代码顺序会影响结果&#xff1f;”这正是 Verilog 的硬件描述本质 vs 行为语义之间的微妙之处。 &#x1f4a1;1. 非阻塞赋值真的并行吗&#xff1f; 是的&#xff01;非阻塞赋值 < 从行为上是并行的&#xff0c;也就是说&a…