RoboGrasp:一种用于稳健机器人控制的通用抓取策略

25年1月来自北京大学和哈佛大学的论文“RoboGrasp: A Universal Grasping Policy for Robust Robotic Control”。

模仿学习和世界模型在推进通用机器人学习方面显示出巨大的潜力,而机器人抓取仍然是实现精确操控的关键挑战。现有方法通常严重依赖机械臂状态数据和 RGB 图像,导致过拟合特定目标形状或位置。为了解决这些限制,Robo-Grasp,一个通用的抓取策略框架,将预训练的抓取检测模型与机器人学习相结合。利用来自目标检测和分割任务的强大视觉引导,RoboGrasp 显著提高抓取精度、稳定性和通用性,在小样本学习和抓取盒子提示任务中实现高达 34% 的成功率提升。RoboGrasp 基于基于扩散的方法构建,可适应各种机器人学习范式,从而能够在各种复杂场景中实现精确可靠的操控。该框架代表一种可规模化且多功能的解决方案,可用于应对机器人抓取中的现实挑战。

当婴儿第一次遇到一个目标,通常可以本能地抓住它。然而,对于机器人来说,这项任务要复杂得多。针对一个目标训练的策略往往无法推广到其他目标。行为克隆的最新进展,特别是基于扩散的策略,已经成为一种有前途的解决方案,在处理复杂的多模态动作空间方面提供灵活性和表现力(Pearce,2023;Chi,2023)。

然而,行为克隆在训练环境之外的泛化方面仍然面临挑战,特别是在动态、混乱的环境中,有未见过的或干扰性的目标。一个关键的限制,在于它们在训练和推理过程中依赖原始传感器数据作为条件输入(Chi,2023;Ze,2024)。如果没有明确的任务指导,这些策略依赖于从数据中学习的隐式模式,从而限制它们的鲁棒性(Selvaraju,2019)。

机器人策略规划方面的最新进展,促进了行为克隆 (BC) 的民主化,使其范围超出专业研究实验室 (Zhao,2023;Team,2024;Chi,2024)。这些方法通常涉及将传感器观测映射到未来机器人姿势轨迹的模型。在这种背景下,扩散模型已成为解决行为克隆关键限制的有力工具,例如协变量漂移 (Pomerleau,1989),其中机器人无法在其训练数据之外进行推广 (Zhou,2022)。以扩散策略 (DP) (Chi,2023) 为例的基于扩散策略,通过生成多样化和多模态动作轨迹来克服这些挑战,从而显着提高动态和不可预测环境中的鲁棒性。

最近的大型机器人专家演示数据集 (Collaboration,2024) 推动了扩展 BC 架构的努力。机器人扩散Transformer (RDT) (Liu,2024b)、Octo (Octo Model Team,2024) 和 π0 (Black,2024) 等工作表明,从不同数据集中学习到的技能可以迁移到新任务中,一些模型实现零样本泛化以抓取新目标。然而,训练大型模型仍然需要大量计算,这限制了资源受限环境中的可访问性。

最近的努力研究基于点的 affordance 表示 (Liu,2024a;Tang,2024;Huang,2024),其中关键点用于识别与任务相关的目标并使用结构化信息指导策略,通常利用预训练的视觉模型。虽然这些方法可扩展,但它们主要传达目标位置,而缺乏关于如何有效抓取或操纵它们的可操作信息。

基于抓取的 affordance 表示,通过编码可行的抓取策略(Kleeberger,2020)提供更全面的解决方案,提供空间和可操作信息。像 Grasp Anything(Vuong,2023)这样的数据集凸显该领域可扩展数据收集的潜力。然而,将抓取affordance与基于扩散的策略相结合仍未得到充分探索。现有的研究如 GQCNN(Mahler,2017)提供初步步骤,但需要进一步研究才能充分发挥 affordance 驱动规划的潜力。
本文提出的 RoboGrasp 是扩散策略 (DP) 的增强变型,旨在整合特定于抓取的信息以改进机器人操作。关键增强功能包括集成抓取检测模块和修整观察编码器。超参(例如历史时间步数 (2) 和预测动作 (16))与原始 DP 框架保持一致。RoboGrasp 架构概览如图所示:(a)用于训练和推理的数据流和数据集;(b)硬件设置,包括工业级机械臂、RealSense 摄像头和用于数据收集的 Quest VR 耳机;(c)抓取 affordance 的演示注释;(d)实验任务设计;(e)RoboGrasp 策略架构。

请添加图片描述

如图所示,抓取框信息包括抓取框中心点的 x 和 y 坐标以及框的高度和宽度。通常还包括相对于相机方向的旋转角度,但是由于本实验中使用的机械臂无法旋转,因此这些参数在实验中被视为多余的,并且所有物体都保持在未旋转的位置。

请添加图片描述

抓握检测模块利用 YOLOv11-m (Redmon,2016) 的速度、简单性和通用性。YOLOv11-m 在自定义标记的数据集上进行微调,以预测类别目标、抓握框中心的 2D 空间坐标以及框的宽度和高度。在策略训练期间,直接使用抓握检测模块生成的标签,而在推理时,YOLOv11-m 会动态预测观察数据的抓握框。为了简化抓握选择,模块每次运行仅输出置信度得分最高的框,因为该任务涉及每次实验抓取一个目标。如图所示抓取的盒子示意图:

请添加图片描述

观察编码器将视觉和低维数据组合成统一的潜表示。每个摄像机视图都采用基于 ResNet34 的特征金字塔编码器,在连接之前分别处理多视图 RGB 数据。低维输入(例如机械臂的末端姿势和夹持器传感器数据)遵循原始 DP 设计进行整合。一种增强功能将抓取框特征(类标签和空间信息)引入到连接的观察数据中。

此连接数据被投影到固定维度的潜空间中,作为每个时间步的单个token。为了捕获时间依赖性,未经训练的轻量级 Transformer 在指定的历史时间步中应用自注意。

扩散动作头使用与 DP 中相同的轻量级扩散 Transformer 来预测 16 个时间步内的动作。具有余弦 Beta 噪声调度的 DDIM 调度器(Nichol & Dhariwal,2021)用于去噪,确保高效和平滑的采样。

交叉注意机制,根据观察 tokens 来调节噪声动作,使策略能够有效地整合视觉和空间背景。动作被线性投影到潜空间中以便在 Transformer 内进行处理,然后通过专用的线性层重投影到其原始维度。

如图所示:PickBig 任务的放置位置泛化实验设置。(a)和(b)显示八个放置位置中的两个。PickBig 的目标是区分两个形状相似的积木,并成功沿其直径抓住较大的积木。

请添加图片描述

如图所示:PickCup 任务的少样本实验设置。(a) 中的绿色杯子代表只有 5 次演示的抓握手柄少样本任务。(b) 中的蓝色塑料杯代表有 10 次演示的抓握直径少样本任务。

请添加图片描述

如图所示为“PickGoods”饼干的抓取盒。在 (a) 中,提供了巧克力棒的抓取盒,而在 (b) 中,提供了饼干的抓取盒。目标是按照抓取盒提示成功挑选指定商品。
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/69557.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

接口测试Day12-持续集成、git简介和安装、Gitee远程仓库、jenkins集成

持续集成 概念: 团队成员将自己的工作成果,持续集成到一个公共平台的过程。成员可以每天集成一次,也可以一天集成多 次。 相关工具: 本地代码管理:git远程代码管理:gitee(国内)、github(国外)、gitlib(公司…

C语言基础11:分支结构以及if的使用

C语言基础 内容提要 分支结构 条件判断用if语句实现分支结构 分支结构 问题抛出 我们在程序设计往往会遇到如下问题,比如下面的函数的计算: y { 1 / x 当 x ≠ 0 时 10000 当 x 0 时 y \begin{cases} 1/x \quad当x\neq0时\\ \\ 10000 \quad当x0…

81页精品PPT | 华为流程与信息化实践与架构规划分享

华为流程与信息化实践与架构规划分享主要围绕华为在业务流程与信息化建设方面的经验、企业架构规划方法以及企业数字化转型路径展开。华为通过持续的业务变革和信息化建设,从本土企业逐步发展为国际化、全球化企业,其管理体系以持续创新和世界级管理体系…

【最大开支——优先队列,计算增量】

题目 代码 #include <bits/stdc.h> using namespace std; using ll long long; using pll pair<ll, int>; #define x first #define y second const int N 1e5 10; int n, m; int k[N], b[N], cnt[N]; priority_queue<pll, vector<pll>> pq; // d…

174款复古Y2K酸性镀铬银色金属多样化锁链链条铁链几何抽象PNG免扣元素设计套装 Studio 2AM - Chains

Chains 是以链条纹理为主题的设计元素的集合。以 PNG 格式以高分辨率创建&#xff0c;但文件大小较小&#xff0c;因此不会占用硬盘空间。“Chains” 是以 PNG 格式提供的以链条为主题的设计元素的高分辨率集合。该套装包括 174 个银色、生锈和彩虹色材料的链条纹理&#xff0c…

将 AMD Zynq™ RFSoC 扩展到毫米波领域

目录 将 AMD Zynq™ RFSoC 扩展到毫米波领域Avnet XRF RFSoC 系统级模块适用于 MATLAB 的 Avnet RFSoC Explorer 工具箱5G mmWave PAAM 开发平台突破性的宽带毫米波波束成形特征&#xff1a;OTBF103 Mathworks Simulink 模型优化毫米波应用中的射频信号路径 用于宽带毫米波上/下…

IDEA中打包maven项目,提示Compilation failure

使用IDEA打包maven项目&#xff0c;报错如下&#xff1a; 解决方法&#xff1a;在pom文件中指定JDK版本即可 <properties><maven.compiler.source>17</maven.compiler.source><maven.compiler.target>17</maven.compiler.target> </propertie…

Idea集成deepseek生成代码

今天我带大家在idea上安装CodeGpt插件&#xff0c;这个插件可以根据我们的提示词生产代码&#xff0c;我们一起试试。 1、安装插件 打开idea&#xff0c;再点击setting菜单&#xff0c;按以下步骤操作。 安装完成后&#xff0c;一定要点击第四步“ok”。再次点击菜单setting…

C++STL(六)——list模拟

目录 本次所需实现的三个类一、结点类的模拟实现构造函数 二、迭代器类的模拟实现为什么有迭代器类迭代器类的模板参数说明构造函数运算符的重载- -运算符的重载和!运算符的重载*运算符的重载->运算符的重载引入模板第二个和第三个参数 三、list的模拟实现3.1 默认成员函数构…

Ubuntu安装PgSQL17

参考官网教程&#xff0c;Ubuntu24 apt在线安装Postgres 17 1. 要手动配置 Apt 存储库 # 导入存储库签名密钥&#xff1a; sudo apt install curl ca-certificates sudo install -d /usr/share/postgresql-common/pgdg sudo curl -o /usr/share/postgresql-common/pgdg/apt…

【iOS自动化】Xcode配置WebDriverAgent

WebDriverAgent 是 iOS 端自动化测试的工具&#xff0c;这里记录下 MacOS 环境 Xcode 如何配置 WebDriverAgent。 【重要】环境准备 ‼️ 注意&#xff1a;Xcode 版本需要支持对应的 iOS 版本&#xff0c;而 Xcode 版本又依赖 MacOS 版本&#xff1b;在开始部署前&#xff0c…

Golang:精通sync/atomic 包的Atomic 操作

在本指南中&#xff0c;我们将探索sync/atomic包的细节&#xff0c;展示如何编写更安全、更高效的并发代码。无论你是经验丰富的Gopher还是刚刚起步&#xff0c;你都会发现有价值的见解来提升Go编程技能。让我们一起开启原子运算的力量吧&#xff01; 理解Go中的原子操作 在快…

Mp4视频播放机无法播放视频-批量修改视频分辨率(帧宽、帧高)

背景 家人有一台夏新多功能 视频播放器(夏新多功能 视频播放器),用来播放广场舞。下载了一些广场舞视频, 只有部分视频可以播放,其他视频均无法播放,判断应该不是帧速率和数据速率的限制, 分析可能是播放器不支持帧高度大于720的视频。由于视频文件较多,需要借助视频编…

【Python】字典

个人主页&#xff1a;GUIQU. 归属专栏&#xff1a;Python 文章目录 1. 字典概述2. 字典的创建与初始化2.1 直接使用花括号创建2.2 使用 dict() 构造函数创建2.3 字典推导式创建 3. 字典的基本操作3.1 访问字典中的值3.2 修改和添加键值对3.3 删除键值对 4. 字典的遍历4.1 遍历键…

STM32系统架构介绍

STM32系统架构 1. CM3/4系统架构2. CM3/4系统架构-----存储器组织结构2.1 寄存器地址映射&#xff08;特殊的存储器&#xff09;2.2 寄存器地址计算2.3 寄存器的封装 3. CM3/4系统架构-----时钟系统 STM32 和 ARM 以及 ARM7是什么关系? ARM 是一个做芯片标准的公司&#xff0c…

鸿蒙NEXT开发-发布三方库

开发一个三方库 如需发布一个 har 包&#xff0c;必须包含 oh-package.json5、README.md&#xff0c;CHANGELOG.md 和 LICENSE 四个文件&#xff0c;若文件缺失&#xff0c;会导致上架至中心仓失败。 HAR&#xff08;Harmony Archive&#xff09;是静态共享包&#xff0c;可以…

CSS 实现下拉菜单效果实例解析

1. 引言 在 Web 开发过程中&#xff0c;下拉菜单是一种常见且十分实用的交互组件。很多前端教程都提供过简单的下拉菜单示例&#xff0c;本文将以一个简洁的实例为出发点&#xff0c;从 HTML 结构、CSS 样式以及整体交互逻辑三个层面进行详细解析&#xff0c;帮助大家理解纯 C…

半导体制造工艺讲解

目录 一、半导体制造工艺的概述 二、单晶硅片的制造 1.单晶硅的制造 2.晶棒的切割、研磨 3.晶棒的切片、倒角和打磨 4.晶圆的检测和清洗 三、晶圆制造 1.氧化与涂胶 2.光刻与显影 3.刻蚀与脱胶 4.掺杂与退火 5.薄膜沉积、金属化和晶圆减薄 6.MOSFET在晶圆表面的形…

微信小程序如何使用decimal计算金额

第三方库地址&#xff1a;GitHub - MikeMcl/decimal.js: An arbitrary-precision Decimal type for JavaScript 之前都是api接口走后端计算&#xff0c;偶尔发现这个库也不错&#xff0c;计算简单&#xff0c;目前发现比较准确 上代码 导入js import Decimal from ../../uti…

安卓开发,底部导航栏

1、创建导航栏图标 使用系统自带的矢量图库文件&#xff0c;鼠标右键点击res->New->Vector Asset 修改 Name , Clip art 和 Color 再创建一个 同样的方法再创建四个按钮 2、添加百分比布局依赖 app\build.gradle.kts 中添加百分比布局依赖&#xff0c;并点击Sync Now …