珠海响应式网站建设推广公司/深圳百度seo整站

珠海响应式网站建设推广公司,深圳百度seo整站,小程序下单,vs网站开发实例编辑:陈萍萍的公主一点人工一点智能 HOVER:人形机器人的多功能神经网络全身控制器HOVER通过策略蒸馏和统一命令空间设计,为人形机器人提供了通用、高效的全身控制框架。https://mp.weixin.qq.com/s/R1cw47I4BOi2UfF_m-KzWg 01 介绍 1.1 摘…

编辑:陈萍萍的公主@一点人工一点智能

HOVER:人形机器人的多功能神经网络全身控制器HOVER通过策略蒸馏和统一命令空间设计,为人形机器人提供了通用、高效的全身控制框架。https://mp.weixin.qq.com/s/R1cw47I4BOi2UfF_m-KzWg

01  介绍

1.1 摘要概述

论文《HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots》提出了一种新型的多模态神经网络控制器HOVER,旨在解决人形机器人全身控制中不同任务模式(如导航、操作、桌面操控等)的兼容性问题。现有方法通常为每个控制模式单独训练策略,导致控制器缺乏通用性。HOVER通过引入运动模仿和策略蒸馏技术,将多个控制模式整合到一个统一策略中,实现了跨模式的技能共享与无缝切换。实验表明,HOVER不仅在单一模式上超越专家策略,还能在仿真和真实硬件中实现鲁棒的多模态控制。

1.2 核心贡献

· 统一控制框架:HOVER首次将超过15种控制模式(如关节角度跟踪、根节点跟踪、关键点位置跟踪等)整合到一个策略中,覆盖了现有文献中的主流设计。

· 策略蒸馏优化:通过从“Oracle策略”(基于大规模人类运动数据训练的模仿策略)中蒸馏知识,HOVER在多个控制模式上的性能均优于独立训练的专家策略。

· 实际验证:在Unitree H1等真实人形机器人平台上,HOVER展示了动态模式切换能力和高精度运动跟踪性能。

02  引言

Humanoid机器人因其在多种任务和应用中的潜在用途而备受关注,包括双臂操作、两足行走以及敏捷的全身控制。然而,现有的方法通常为特定的任务需求设计了不同的全身体控制器,例如基于根速度跟踪以支持移动或关节角度跟踪以实现表达性动作。

尽管这些方法在最终目标上都是为了追踪运动轨迹,但它们需要针对具体任务设计特定的控制器接口和奖励机制。这种方法不仅使得开发过程重复且耗时,还限制了全身体控制器的多功能性。举例来说,一个使用根速度跟踪进行不平地形两足行走的机器人难以无缝切换到需要精确双臂操作的任务中,这时可能需要关节角度或末端效应器跟踪。

图片

HOVER(Humanoid Versatile Controller)提出了一种多模式策略蒸馏框架,将多样化的控制模式整合成统一的策略,从而实现了不同控制模式之间的无缝过渡,同时保留了每种模式的独特优势。

通过这种方式,HOVER提供了一个强大且可扩展的人形机器人控制解决方案,覆盖了广泛的应用场景。该系统不仅消除了为每个控制模式重新训练策略的需求,提高了未来人形机器人应用的效率和灵活性,而且还展示了如何利用共享的身体知识来增强跨模式的泛化能力。

此外,HOVER通过对大规模人类运动数据的学习,建立了稳健的基础运动技能库,这些技能可以在多个控制模式间复用,进一步增强了其适应性和通用性。

论文的贡献主要体现在三个方面:

首先,提出了一个支持多种控制模式的人形机器人的统一神经控制器——HOVER;

其次,通过策略蒸馏技术,证明了HOVER能够有效地在不同模式之间分享运动技能,并优于单独训练的策略;

最后,实验结果显示,在模拟环境和真实人形机器人上的测试均表明,与其它基准相比,HOVER能够在不同模式间实现无缝转换,并提供卓越的多模式控制性能。

03  方法详析

在HOVER的方法部分,研究者们采取了一个目标条件强化学习(Goal-Conditioned Reinforcement Learning, RL)的方式为人形机器人制定控制策略。这个方法的核心在于让策略π学习实时追踪人类动作的能力。状态st由代理的本体感受s^{\text{p}}_t和目标状态s^{\text{g}}_t组成,其中s^{\text{g}}_t提供了目标动作的一个统一表示。根据代理的本体感受和目标状态,定义了用于策略优化的奖励r_t=\mathcal{R}(s^{\text{p}}_t,s^{\text{g}}_t )。在这个设定中,动作\pmb{a}_t\in \mathbb{R}^{19}代表目标关节位置,这些位置被馈送到PD控制器以激活机器人的自由度。研究团队采用了近端策略优化(PPO)算法来最大化累积折扣奖励\mathbb{E}[\sum^T_{t=1}\gamma^{t-1}r_t]。此设置被视为一项命令跟踪任务,其中人形机器人学习跟随每个时间步长的目标命令。

为了确保所提出的HOVER策略能够在多样化控制模式之间灵活转换并保持高精度的动作再现,研究者们还精心设计了命令空间。传统的腿部运动控制通常采用根速度或位置跟踪作为命令空间,但仅关注根部跟踪会限制人形机器人的全部潜力,特别是在需要全身协调的情况下。因此,HOVER引入了一个全面的控制框架,该框架不仅涵盖了现有配置,而且允许任意组合控制选项以支持各种模式。

具体来说,它包括三个不同的控制模式:动力学位置跟踪、局部关节角度跟踪以及根跟踪。通过这种方式,HOVER能够处理从上身到下身的不同控制需求,并通过一种称为“命令掩码”的机制动态调整哪些控制元素处于活动状态,从而实现对复杂任务的高效管理。

3.1 状态空间与目标条件强化学习

HOVER基于目标条件强化学习(Goal-Conditioned RL)设计,其状态空间和奖励函数如下:

3.1.1 状态空间设计

本体感知状态s^{\text{p}}_t:

包括关节位置q、速度\dot{q}、基座角速度\omega ^{base}、重力向量g,以及历史动作a(堆叠25帧以捕捉动态特性)。

目标状态s^{\text{g}}_t

由掩码机制选择的目标参数,例如手部关键点的3D坐标或根节点的目标速度。

图片

3.1.2 奖励函数设计

奖励函数

图片

分为三类(权重见表II):

· 惩罚项:关节力矩超限(权重-2)、动作速率超限(权重-6.28e⁻¹)。

· 正则项:关节加速度平滑性(权重-1.0e⁻⁸)。

· 任务项:关节位置跟踪(权重32)、全局身体位置误差(权重80)。

任务项的权重显著高于其他项,确保跟踪精度优先。

3.1.3 动作空间与训练算法

动作\pmb{a}_t\in\mathbb{R}^{19}表示目标关节位置,通过PD控制器转换为电机指令。采用PPO算法最大化累积折扣奖励\mathbb{E}[\sum^T_{t=1}\gamma^{t-1}r_t],折扣因子γ设为0.99以平衡短期与长期奖励。

3.2 命令空间设计

图片

3.2.1 HOVER的命令空间设计

遵循两大原则:

1)原子性(Atomicity):将控制模式分解为独立维度,例如:

· 关键点位置跟踪:手部、头部等3D坐标。

· 关节角度跟踪:各关节的目标角度。

· 根节点跟踪:速度、高度、姿态角(滚转、俯仰、偏航)。

2)通用性(Generality):支持与多种输入设备(如VR手柄、运动捕捉系统)对接。

3.2.2 掩码机制

通过模式掩码(Mode Mask)和稀疏掩码(Sparsity Mask)动态激活命令子集:

· 模式掩码:选择控制模式(如上半身关键点跟踪,下半身关节角度跟踪)。

· 稀疏掩码:在选定模式下进一步筛选目标(如仅跟踪左手关键点)。

掩码在每回合开始时随机采样(伯努利分布B(0.5)),迫使策略学习跨模式的鲁棒性。

3.3 运动重定向与Oracle策略训练

HOVER中另一个重要组成部分是动作重定向过程,这是将大规模人体动作数据集转化为适合人形机器人的动作数据集的关键步骤。动作重定向流程分为三步:

首先,计算人形机器人的关键点位置,使用前向运动学将其关节配置映射到工作空间坐标;

其次,通过优化SMPL模型参数以匹配前向运动学计算出的关键点,使人形机器人的运动学特性与人体模型相吻合;

最后,采用梯度下降法将AMASS数据集中对应的关节点匹配到拟合后的SMPL模型和人形机器人之间,完成动作数据集的重定向。

这一过程确保了HOVER可以从大量人体运动数据中学习稳健的全身控制策略,为后续的策略蒸馏提供了高质量的数据基础。

图片

Oracle策略的训练是HOVER方法中的核心环节之一,它旨在从大规模人体动作数据集中提炼出优质的运动模仿能力。为了实现这一点,研究者们定义了一个名为Oracle的运动模仿器\pi^\text{oracle}(a_t|s^{\text{p-oracle}}_t,s^{\text{g-oracle}}_t),其中包含了代理的本体感觉信息s^{\text{p-oracle}}_t\triangleq [\pmb{p}_t,\pmb{\theta}_t,\pmb{\dot{p}{}_t},\pmb{\omega} _t,\pmb{a}_{t-1}],涉及人形机器人的刚体位置、方向、线速度、角速度以及之前的动作。目标状态sg-oracle t则包含了参考姿势及其与当前状态之间的差异,用于指导策略的学习。

在训练过程中,研究团队使用了一个三层MLP网络结构,层维度分别为[512, 256, 128],并通过奖励函数rt的优化来驱动策略的学习。该奖励函数由惩罚项、正则化项和任务奖励项构成,涵盖了关节限位、姿态误差、身体位置和旋转等多个方面,确保策略能在模拟环境中有效学习并迁移到真实世界中。

3.4 多模态策略蒸馏

在HOVER的方法论中,策略蒸馏是一个至关重要的步骤,它将从Oracle教师策略πoracle中学到的丰富运动技能转移到学生策略\pi^{\text{student}}中,形成一个能够处理多种控制模式的多模式全能策略。对于学生策略而言,其本体感觉输入s^{\text{p-student}}_t被定义为过去25个时间步长内的关节位置q、关节速度\dot{q}、基座角速度\omega ^{base}、重力矢量g以及动作历史a的集合。这样做的目的是为了更好地捕捉环境动态变化的信息,从而提高学生策略对复杂环境的适应能力。

学生策略πstudent的输入为掩码后的命令和本体感知,其训练目标是最小化与Oracle动作的均方误差:

图片

其中\hat{\pmb{\text{a}}}_t由Oracle策略生成,{\pmb{\text{a}}}_t为学生策略的输出。

接下来,通过引入模式掩码Mmode和稀疏性掩码Msparsity来定义学生的任务命令输入s^{\text{g-student}}_t。模式掩码用于选择具体的任务命令模式,而稀疏性掩码则允许在特定场景下只激活部分控制选项,比如上身仅追踪手部的动力学位置,而下身则专注于关节角度追踪。这种灵活的命令输入方式不仅增强了HOVER的多功能性,还促进了其在不同控制模式间的平滑过渡。在整个蒸馏过程中,研究者们利用DAgger框架不断更新学生策略,使其逐步逼近Oracle教师策略的行为表现,从而实现高效的策略学习和迁移。

04  实验与结果分析

在实验部分,HOVER展示了其在IsaacGym仿真环境和Unitree H1真实机器人上的卓越性能。

4.1 实验设置

· 仿真环境:IsaacGym,使用重定向后的AMASS数据集\hat{Q}

· 真实平台:Unitree H1(19自由度,1.8米高,51.5千克)。

· 基线方法:包括ExBody(关节角度+根节点跟踪)、H2O(关键点跟踪)等专家策略,以及从头训练的多模态RL策略。

图片

4.2 性能评估

Q1:HOVER是否优于专家策略?

表III显示,在ExBody模式(上半身关节角度+下半身根节点跟踪)下,HOVER的全局位置误差(185mm vs. 275mm)和关节角度误差(0.148rad vs. 0.166rad)均优于专家策略。类似趋势在其他模式(如H2O、OmniH2O)中一致存在,表明蒸馏过程有效共享了跨模式技能(如平衡维持)。

图片

研究团队对比了HOVER与ExBody、HumanPlus、H2O和OmniH2O等多种专家策略在不同控制模式下的表现。结果显示,HOVER在所有评估指标上均表现出色,尤其在全局身体位置误差Eg-mpjpe、关节角度误差Empjpe等方面领先于其他专家策略。这些发现表明,即便是在专注于单一控制模式的情境下,HOVER依旧能够凭借从Oracle策略中提炼出的技能超越专门为此模式训练的策略。此外,HOVER还证明了其在左/右手模式、双手模式及头部模式等额外控制模式下的优越性,持续显示出比特定任务训练的专家策略更好的追踪精度。

Q2:HOVER是否优于其他多模态训练方法?

图4的雷达图显示,HOVER在32/32的指标上优于多模态RL基线。例如,根节点姿态误差降低20%,关键点位置误差降低15%。这表明直接训练多模态策略容易陷入局部最优,而蒸馏通过模仿Oracle策略的动作分布避免了这一问题。

图片

文中比较了HOVER与另一种采用相同命令掩码但完全从零开始训练的多模式RL基准策略。实验结果揭示,在多个关键指标如根部旋转误差Eroot-rpy、上身关节角度误差Eupper-j等方面,HOVER再次展现出明显的优势。这表明,通过策略蒸馏而非从头开始的强化学习训练,HOVER能够更加高效地掌握复杂的多模式控制任务。

图片

Q3:HOVER能否迁移到真实机器人?

表V显示,在20组站立动作中,HOVER的全局位置误差(48.9mm vs. 51.3mm)和关节角度误差(0.126rad vs. 0.131rad)优于ExBody专家策略。图6展示了动态模式切换能力:从行走中的ExBody模式切换到H2O模式(手部跟踪),机器人能平滑过渡而无明显抖动。

图片

研究人员在Unitree H1平台上进行了测试,结果证实了HOVER不仅能在仿真环境中取得优异成绩,也能在实际操作中稳定运行,顺利完成站立序列、定量追踪及定性多模式控制任务。综合来看,HOVER通过一系列严谨的实验验证了其在多功能性、性能优化及实际应用方面的巨大潜力。

4.3 鲁棒性验证

· 遮挡测试(图6c):在头部跟踪模式下,策略忽略手部动作,仅响应头部参考,模拟了传感器部分失效的场景。

· 物理真实性:HOVER的关节加速度误差(2.31mm/frame²)接近Oracle策略(2.63mm/frame²),表明动作平滑性接近人类运动。

05  相关工作与创新点

5.1 现有研究对比

· 经典方法:如Atlas的模型预测控制(MPC)依赖精确动力学模型,难以适应多任务。

· 学习型方法:ExBody、H2O等专注于单一模式,缺乏通用性。

· 图形学领域:MaskedMimic等支持灵活运动约束,但未考虑真实机器人动力学。

图片

5.2 HOVER的创新性

· 统一命令空间:首次将关键点、关节角度、根节点跟踪整合,支持任意子集激活。

· 蒸馏驱动的多模态学习:通过模仿Oracle策略,避免多任务RL的探索-利用困境。

· 实际部署验证:在复杂硬件(Unitree H1)上实现低延迟(<10ms)控制。

06  结论与展望

HOVER通过策略蒸馏和统一命令空间设计,为人形机器人提供了通用、高效的全身控制框架。其核心优势在于:

· 性能提升:跨模式技能共享使单一策略在多个任务上超越专家。

· 部署便捷性:无需为每个任务重新训练策略,降低开发成本。

未来方向包括:

· 自动化模式切换:根据任务上下文动态调整掩码。

· 扩展控制模式:纳入力控、触觉反馈等维度。

· 长期运动规划:结合高层任务规划器,实现复杂行为链。

HOVER的提出标志着人形机器人控制从“专精化”向“通用化”迈出了关键一步,为未来家庭服务、工业协作等场景提供了技术基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/72769.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mybatis_plus的乐观锁

乐观锁&#xff1a;总是假设最好的情况&#xff0c;每次读取数据时认为数据不会被修改&#xff08;即不加锁&#xff09;&#xff0c;当进行更新操作时&#xff0c;会判断这条数据是否被修改&#xff0c;未被修改&#xff0c;则进行更新操作。若被修改&#xff0c;则数据更新失…

AT指令集-NBIOT

是什么&#xff1f; 窄带物联网&#xff08;Narrow Band Internet of Things, NB-IoT&#xff09;成为万物互联网络的一个重要分支支持低功耗设备在广域网的蜂窝数据连接&#xff0c;也被叫作低功耗广域网(LPWAN)NB-IoT支持待机时间长、对网络连接要求较高设备的高效连接NB-Io…

CBNet:一种用于目标检测的复合骨干网架构之论文阅读

摘要 现代顶级性能的目标检测器在很大程度上依赖于骨干网络&#xff0c;而骨干网络的进步通过探索更高效的网络结构带来了持续的性能提升。本文提出了一种新颖且灵活的骨干框架——CBNet&#xff0c;该框架利用现有的开源预训练骨干网络&#xff0c;在预训练-微调范式下构建高…

《保险科技》

自己在保险行业工作很多年&#xff0c;只是接触了一些数据的内容&#xff0c;对于保险业务的知识了解的很少&#xff0c;想通过这本书补充一下&#xff0c;但是发现这本书就是一些知识的拼接。 先将保险的历史&#xff0c;后讲保险的定义&#xff0c;然后就是吹嘘保险行业和互联…

蓝桥杯第13届真题2

由硬件框图可以知道我们要配置LED 和按键 一.LED 先配置LED的八个引脚为GPIO_OutPut&#xff0c;锁存器PD2也是&#xff0c;然后都设置为起始高电平&#xff0c;生成代码时还要去解决引脚冲突问题 二.按键 按键配置&#xff0c;由原理图按键所对引脚要GPIO_Input 生成代码&a…

双曲空间学习记录

文章目录 前期学习内容双曲空间中的图卷积神经网络 前期学习内容 双曲空间中的图卷积神经网络 250318&#xff1a;这个博客的产生原因是我去看了B站上的一个视频&#xff0c;up说ppt上传到github上了&#xff0c;但是我去找了一圈也没有找到&#xff0c;然后想给他留言&#x…

【大模型基础_毛玉仁】2.4 基于 Encoder-Decoder 架构的大语言模型

更多内容&#xff1a;XiaoJ的知识星球 目录 2.4 基于 Encoder-Decoder 架构的大语言模型2.4.1 Encoder-Decoder 架构2.4.2 T5 语言模型1&#xff09;T5 模型结构2&#xff09;T5 预训练方式3&#xff09;T5 下游任务 2.4.3 BART 语言模型1&#xff09;BART 模型结构2&#xff0…

browser-use WebUI + DeepSeek 基于AI的UI自动化解决方案

browser-use WebUI 一、browser-use是什么Browser-use采用的技术栈为&#xff1a; 二、browser-use webui 主要功能使用场景 三、使用教程1.python 安装2、把项目clone下来3、安装依赖4、配置环境5、启动6、配置1.配置 Agent2.配置要用的大模型3.关于浏览器的一些设置 四、Deep…

Windows安装Apache Maven 3.9.9

第一步下载资源 官网&#xff1a;下载 Apache Maven – Maven 环境变量配置 M2_HOME 指向bin目录 MAVEN_HOME 指向根目录 M2_HOME 不确定是否必须要 Path配置 &#xff0c;需要注意MAVEN顺序应当在java之前 验证是否安装成功&#xff0c;在cmd中以管理员方式打开&#xff0c…

【spring-boot-starter-data-neo4j】创建结点和查找结点操作

配置连接neo4j # application.properties spring.neo4j.uribolt://localhost:7687 spring.neo4j.authentication.usernameneo4j spring.neo4j.authentication.password你的密码定义实体类 package com.anmory.platform.GraphService.Dao;import org.springframework.data.neo…

Excel导出工具类--复杂的excel功能导出(使用自定义注解导出)

Excel导出工具类 前言: 简单的excel导出,可以用easy-excel, fast-excel, auto-poi,在导出实体类上加上对应的注解,用封装好的工具类直接导出,但对于复杂的场景, 封装的工具类解决不了,要用原生的excel导出(easy-excel, fast-excel, auto-poi都支持原生的) 业务场景: 根据…

Excel处理控件Aspose.Cells教程:如何自动将 HTML 转换为 Excel

在处理 HTML 表中呈现的结构化数据时&#xff0c;将 HTML 转换为 Excel 是一种常见需求。无论您是从网站、报告还是任何其他来源提取数据&#xff0c;将其转换为 Excel 都可以更好地进行分析、操作和共享。 开发人员通常更喜欢使用编程方法将 HTML 转换为 Excel&#xff0c;因…

基于springbo校园安全管理系统(源码+lw+部署文档+讲解),源码可白嫖!

摘要 随着信息时代的来临&#xff0c;过去信息校园安全管理方式的缺点逐渐暴露&#xff0c;本次对过去的校园安全管理方式的缺点进行分析&#xff0c;采取计算机方式构建校园安全管理系统。本文通过阅读相关文献&#xff0c;研究国内外相关技术&#xff0c;提出了一种集进出校…

Git 实战指南:本地客户端连接 Gitee 全流程

本文将以 Gitee(码云)、系统Windows 11 为例,详细介绍从本地仓库初始化到远程协作的全流程操作 目录 1. 前期准备1.1 注册与配置 Gitee1.2 下载、安装、配置客户端1.3 配置公钥到 Gitee2. 本地仓库操作(PowerShell/Git Bash)2.1 初始化本地仓库2.2 关联 Gitee 远程仓库3. …

Pytest项目_day01(HTTP接口)

HTTP HTTP是一个协议&#xff08;服务器传输超文本到浏览器的传送协议&#xff09;&#xff0c;是基于TCP/IP通信协议来传输数据&#xff08;HTML文件&#xff0c;图片文件&#xff0c;查询结果等&#xff09;。 访问域名 例如www.baidu.com就是百度的域名&#xff0c;我们想…

MySQL超详细介绍(近2万字)

1. 简单概述 MySQL安装后默认有4个库不可以删除&#xff0c;存储的是服务运行时加载的不同功能的程序和数据 information_schema&#xff1a;是MySQL数据库提供的一个虚拟的数据库&#xff0c;存储了MySQL数据库中的相关信息&#xff0c;比如数据库、表、列、索引、权限、角色等…

SQLMesh宏操作符深度解析:掌握@star与@GENERATE_SURROGATE_KEY实战技巧

引言&#xff1a;解锁SQLMesh的动态查询能力 在复杂的数据处理场景中&#xff0c;手动编写重复性SQL代码不仅效率低下&#xff0c;还难以维护。SQLMesh作为新一代数据库中间件&#xff0c;通过其强大的宏系统赋予开发者编程式构建查询的能力。本文将重点解析两个核心操作符——…

超详细kubernetes部署k8s----一台master和两台node

一、部署说明 1、主机操作系统说明 2、主机硬件配置说明 二、主机准备&#xff08;没有特别说明都是三台都要配置&#xff09; 1、配置主机名和IP 2、配置hosts解析 3、防火墙和SELinux 4、时间同步配置 5、配置内核转发及网桥过滤 6、关闭swap 7、启用ipvs 8、句柄…

高光谱相机在水果分类与品质检测中的应用

一、核心应用领域 ‌外部品质检测‌ ‌表面缺陷识别&#xff1a;通过400-1000nm波段的高光谱成像&#xff0c;可检测苹果表皮损伤、碰伤等细微缺陷&#xff0c;结合图像分割技术实现快速分类‌。 ‌损伤程度评估&#xff1a;例如青香蕉的碰撞损伤会导致光谱反射率变化&#…

【蓝桥杯每日一题】3.17

&#x1f3dd;️专栏&#xff1a; 【蓝桥杯备篇】 &#x1f305;主页&#xff1a; f狐o狸x 他们说内存泄漏是bug&#xff0c;我说这是系统在逼我进化成SSR级程序员 OK来吧&#xff0c;不多废话&#xff0c;今天来点有难度的&#xff1a;二进制枚举 二进制枚举&#xff0c;就是…