【论文】:ALOHA双手远程操作手臂

对于机器人来说,诸如穿扎带或插入电池等精细操作任务是众所周知的困难,因为它们需要精确度、接触力的仔细协调以及闭环视觉反馈。执行这些任务通常需要高端机器人、精确的传感器或仔细的校准,这些可能既昂贵又难以设置。学习能否使用低成本且不精确的硬件来执行这些精细的操作任务?
在这里插入图片描述

我们提出了一种低成本系统,可以直接从通过自定义远程操作界面收集的真实演示中执行端到端模仿学习。然而,模仿学习也面临着自身的挑战,特别是在高精度领域:策略中的错误可能会随着时间的推移而复合,而人类的演示可能是不稳定的。
为了应对这些挑战,我们开发了一种简单而新颖的算法,即 Action Chunking with Transformers (ACT),它学习动作序列的生成模型。 ACT 使机器人能够在现实世界中学习 6 项困难任务,例如仅需要10分钟的演示打开半透明调味品杯和插入电池,成功率高达 80-90%。
论文原文地址

1.介绍

精细操作任务涉及精确的闭环反馈,需要高度的手眼协调能力来调整和重新计划以响应环境的变化。此类操作任务的示例包括打开调味品杯的盖子或插入电池,这些操作涉及捏、撬和撕裂等精细操作,而不是拾取和放置等大范围动作。 以打开图中调味品杯的盖子为例,其中杯子被初始化为直立在桌子上:右侧夹具需要首先将其翻转,然后将其推入打开的左侧夹具中。然后左夹具轻轻关闭并举起杯子离开桌子。接下来,右手的一根手指从下方接近杯子并撬开盖子。每一个步骤都需要高精度、细腻的手眼配合、丰富的接触。毫米级的误差就会导致任务失败。
在这里插入图片描述
现有的精细操纵系统使用昂贵的机器人和高端传感器来进行精确的状态估计。在这项工作中,我们寻求开发一种用于精细操作的低成本系统,相比之下,该系统易于访问且可重复。
然而,低成本硬件不可避免地不如高端平台精确,这使得传感和规划挑战更加明显。解决这个问题的一个有希望的方向是将学习纳入系统中。
人类也不具备工业级本体感觉,但我们能够通过学习闭环视觉反馈并主动补偿错误来执行精细的任务。因此,在我们的系统中,我们训练了一种端到端策略,将来自商用网络摄像头的 RGB 图像直接映射到动作。
这种像素到动作的公式特别适合精细操纵,因为精细操纵通常涉及具有复杂物理属性的对象,因此学习操纵策略比对整个环境进行建模要简单得多。
以调味品杯为例:对轻推杯子时的接触以及撬开盖子时的变形进行建模涉及大量自由度的复杂物理过程。
在这里插入图片描述
设计一个足够准确的模型来进行规划需要大量的研究和特定于任务的工程工作。相比之下,轻推和打开杯子的策略要简单得多,因为闭环策略可以对杯子和盖子的不同位置做出反应,而不是提前精确预测它会如何移动。

然而,训练端到端策略也存在其自身的挑战。策略的性能在很大程度上取决于训练数据的分布,在精细操作的情况下,高质量的人类演示可以通过允许系统学习人类的灵活性来提供巨大的价值。因此,我们构建了一个低成本但灵巧的远程操作系统来收集数据,以及一种可以从演示中有效学习的新颖的模仿学习算法。我们在以下两段中概述了每个组件。

远程操作系统

我们设计了一种远程操作装置,配有两组低成本、现成的机器人手臂。它们是彼此的近似缩放版本,我们使用联合空间映射进行远程操作。
我们使用3D 打印组件增强了这一设置,以便更轻松地进行反向驱动,从而在 2 万美元的预算内打造出功能强大的远程操作系统。我们在图 1 中展示了它的功能,包括精确任务(例如穿扎带)的远程操作、动态任务(例如杂耍乒乓球)以及接触丰富的任务(例如在 NIST板 #2[4]中组装链条)。

特点

低成本
多功能
用户友好
可修复
易于搭建

模仿学习算法

即使有高质量的演示,需要精确度和视觉反馈的任务对模仿学习提出了重大挑战。预测动作中的小错误可能会导致状态的巨大差异,从而加剧模仿学习的“复合错误”问题 。
为了解决这个问题,我们从动作分块中汲取灵感,动作分块是心理学中的一个概念,描述了如何将一系列动作组合在一起作为一个块,并作为一个单元执行。 在我们的例子中,策略预测接下来k 个时间步的目标关节位置,而不是一次只预测一个步骤。这将任务的有效范围缩短了k 倍,从而减少了复合错误。
预测动作序列还有助于解决时间相关的混杂因素,例如很难用马尔可夫单步策略建模的演示暂停。为了进一步提高策略的平滑度,我们提出了时间集成,它更频繁地查询策略并对重叠的动作块进行平均。我们使用 Transformers (一种专为序列建模而设计的架构)实施动作分块策略,并将其训练为条件 VAE (CVAE)以捕获人类数据的可变性。我们将我们的方法命名为 Action Chunking with Transformers(ACT),并发现它在一系列模拟和现实世界的精细操作任务上显着优于以前的模仿学习算法。

本项目的主要贡献是一种用于学习精细操作的低成本系统,包括远程操作系统和新颖的模仿学习算法。远程操作系统尽管成本低廉,但可以实现高精度和丰富联系的任务。模仿学习算法,Action Chunking with Transformers (ACT),能够学习精确的闭环行为,并且大大优于以前的方法。这两个部分之间的协同作用使得可以直接在现实世界中学习 6 种精细操作技能,例如打开半透明调味品杯和插入电池,只需 10 分钟或 50 个演示轨迹,成功率为 80-90 % 。

相关工作

机器人操作的模仿学习

模仿学习允许机器人直接向专家学习。行为克隆(BC)是最简单的模仿学习算法之一,将模仿视为从观察到行动的监督学习。随后,许多工作都试图改进BC,例如将历史与各种架构结合起来,使用不同的训练目标,并包括正则化。其他作品强调模仿学习的多任务或少样本方面,利用语言,或利用特定的任务结构 。用更多数据扩展这些模仿学习算法已经产生了令人印象深刻的系统,可以泛化到新的对象、指令或场景。在这项工作中,我们专注于构建一个低成本但能够执行精细、精细操作任务的模仿学习系统。我们通过构建高性能远程操作系统和新颖的模仿学习算法,从硬件和软件两个方面解决了这个问题,该算法极大地改进了以前精细操作任务的方法。

解决复合错误

BC 的一个主要缺点是复合错误,先前时间步的错误累积并导致机器人偏离其训练分布,导致难以恢复的状态。这个问题在精细操纵设置中尤为突出。减少复合错误的一种方法是允许额外的策略交互和专家修正,例如DAgger及其变体。 然而,使用远程操作界面进行专家注释可能非常耗时且不自然。人们还可以在演示收集时注入噪声以获得具有纠正行为的数据集,但对于精细操作来说,这种噪声注入会直接导致任务失败,降低遥操作系统的灵活性。
为了规避这些问题,以前的工作以离线方式生成综合校正数据。虽然它们仅限于低维状态可用的设置,或特定类型的任务(例如抓取)。由于这些限制,我们需要从不同的角度解决复合误差问题,与高维视觉观察兼容。我们建议通过动作分块来减少任务的有效范围,即预测动作序列而不是单个动作,然后跨重叠的动作块进行集成以产生既准确又平滑的轨迹。

双手操纵

双手操纵在机器人技术中有着悠久的历史,并且随着硬件成本的降低而受到欢迎。早期的工作从经典控制的角度出发,利用已知的环境动力学来解决双手操纵问题,但设计此类模型可能非常耗时,而且对于具有复杂物理属性的对象可能不准确。最近,学习已被纳入双手系统中,例如强化学习,模仿人类演示,或学习预测链接在一起的关键点运动原语。有些作品还专注于细粒度的操作任务,例如解开结、压平布料,甚至穿针,同时使用价格昂贵得多的机器人,例如达芬奇手术机器人或ABB于弥YuMi。我们的工作转向低成本硬件,例如每只成本约为 5,000美元的手臂,并寻求使它们能够执行高精度、闭环任务。我们的远程操作设置与 Kim 等人最相似。,它还使用领导者和跟随者机器人之间的关节空间映射。与之前的系统不同,我们不使用特殊的编码器、传感器或机械部件。我们仅使用现成的机器人和少量 3D打印零件构建我们的系统,允许非专家在不到2 小时的时间内完成组装。
在这里插入图片描述

三、ALOHA:用于双手遥控操作的低成本开源硬件系统

我们寻求开发一种易于使用且高性能的远程操作系统,以进行精细操作。
我们将设计考虑总结为以下 5 条原则。
1)低成本:整个系统应该在大多数机器人实验室的预算范围内,与单个工业手臂相当。
2)多功能:可以应用于对现实世界物体的各种精细操作任务。
3)用户友好:系统应该直观、可靠、易于使用。
4)可修复:当装置不可避免地损坏时,研究人员可以轻松修复。
5)易于搭建:研究人员可以快速组装,使用易于获取的材料。
在选择要使用的机器人时,原则1、4 和 5 引导我们构建一个带有两个ViperX 6-DoF 机器人臂的双手平行爪夹具设置。出于价格和维护方面的考虑,我们不使用灵巧的双手。
所使用的ViperX手臂的工作负载为750g,跨度为1.5m,精度为5-8mm。该机器人采用模块化设计,易于维修:在电机出现故障的情况下,可以轻松更换低成本的 Dynamixel电机。该机器人可以现成购买,价格约为 5600 美元。然而,OEM (原始设备制作商)手指的通用性不足以处理精细的操作任务。因此,我们设计了自己的 3D 打印的“极薄的”手指,并用胶带固定它(如图)。
在这里插入图片描述
这样可以提供良好的能见度,执行精细操作时,即使使用薄塑料薄膜也能保持牢固的抓握力。
然后,我们寻求围绕 ViperX 机器人设计一个最大程度用户友好的远程操作系统。我们没有将 VR 控制器或相机捕获的手部姿势映射到机器人的末端执行器姿势(即任务空间映射),而是使用来自同一家公司制造的较小机器人 WidowX (3300美元)的直接关节空间映射。用户通过反向驱动较小的WidowX(“领导者”)进行远程操作,其关节与较大的 ViperX(“跟随者”)同步。 在开发设置时,我们注意到与任务空间相比使用关节空间映射有一些好处。精细操纵通常需要在机器人的奇点附近进行操作,在我们的例子中具有 6 个自由度且无冗余。现成的反向运动学(IK) 在此设置中经常失败。另一方面,联合空间映射保证了联合限制内的高带宽控制,同时还需要更少的计算并减少延迟。
引导机器人的重量可以防止用户移动得太快,同时也可以抑制微小的振动。我们注意到,与持有 VR 控制器相比,使用关节空间映射在精确任务上的性能更好。为了进一步改善远程操作体验,我们设计了一种3D打印的“手柄和剪刀”机构,可以改装到领导机器人上(如图)。
在这里插入图片描述
它减少了操作员反向驱动电机所需的力,并允许连续控制夹具,而不是二进制打开或关闭。
我们还设计了一个橡皮筋负载平衡机制,可以部分抵消引导侧的重力。它减少了操作员所需的工作量,并使更长的远程操作会话(例如 >30 分钟)成为可能。
该装置的其余部分包括一个带有20×20mm铝型材的机器人笼,并通过交叉钢缆加固。
共有四个Logitech C922x网络摄像头,每个摄像头传输480×640 RGB 图像。其中两个网络摄像头安装在跟随机器人的手腕上,可以近距离观察夹具。其余两个摄像头分别安装在正面和顶部(如图)。遥控操作和数据记录均以50Hz 进行。
在这里插入图片描述
考虑到上述设计考虑,我们在 2 万美元的预算内构建了双手遥控装置ALOHA,与Franka Emika Panda等单一机械臂研究机构价格相当。
ALOHA 可实现以下远程操作:
精确的任务:例如穿拉链扎带、从钱包中取出信用卡以及打开或关闭拉链袋。
接触丰富的任务:例如将288 针 RAM 插入计算机主板、翻书页以及在 NIST 板 #2 中组装链条和皮带 。
动态的任务:例如用乒乓球玩杂耍真正的乒乓球拍,平衡球而不掉落,并在空中摆动打开塑料袋。
据我们所知,诸如穿扎带、插入RAM线路板和玩乒乓球等技能对于预算 5-10 倍的现有远程操作系统来说是没有的。我们在附录 A 中提供了更详细的价格和功能比较,以及图 9 中 ALOHA 具备的更多技能。
为了让 ALOHA 更容易使用,我们开源了所有软件和硬件,并提供了涵盖 3D 打印、框架组装到软件安装的详细教程。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/613182.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机组成原理之计算机硬件发展和计算机系统的组成

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

算法第4版 第2章排序

综述:5个小节,四种排序应用,初级排序、归并排序、快速排序、优先队列 2.1.初级排序 排序算法模板,less(), exch(), 排序代码在sort()方法中; 选择排序:如升序排列,1.找到数组中最小的元素&am…

llama_index 创始人为我们展示召回提升策略(提升15%)

用句子向量替换为句子向量 句子检索,将句子转化为向量。在检索的过程中,假如句子命中,则将句子周围的内容也当做检索内容。 对比句子检索和之前的按块去做切分的检索。可以看到,内容的相关性提升了8%, 构建数据的时候…

如何利用ChatGPT快速生成月报?

随着每个月的结束,个人和团队经常需要编写月报来回顾和总结。这项任务通常消耗大量时间和精力。幸运的是,借助ChatGPT,这个过程可以变得更加简单和高效。接下来,我将详细介绍如何利用ChatGPT快速生成月报,从而帮助你节…

NSSCTF Interesting_include

开启环境: 通过审计,我们可知: flag在flag.php中,可以利用php中伪协议 payload:?filterphp://filter/readconvert.base64-encode/resourceflag.php 将其base64解码就是flag. NSSCTF{3dc54721-be9e-444c-8228-7133fba76ad4}

大数据系列之:腾讯云服务器性能和价格比较

大数据系列之:腾讯云服务器性能和价格比较 一、磁盘性能和价格比较二、高性能云硬盘三、ssd云硬盘四、极速型ssd云硬盘五、增强型ssd云硬盘六、查看腾讯云服务器价格 一、磁盘性能和价格比较 磁盘名称高性能ssd云硬盘极速型ssd云硬盘增强型ssd云硬盘规格500g 5800 …

Navicat 技术干货 | 为 MySQL 表选择合适的存储引擎

MySQL 是最受欢迎的关系型数据库管理系统之一,提供了不同的存储引擎,每种存储引擎都旨在满足特定的需求和用例。在优化数据库和确保数据完整性方面,选择合适的存储引擎是至关重要的。今天,我们将探讨为 MySQL 表选择合适的存储引擎…

【BetterBench】2024年都有哪些数学建模竞赛和大数据竞赛?

2024年每个月有哪些竞赛? 2024年32个数学建模和数据挖掘竞赛重磅来袭!!! 2024年数学建模和数学挖掘竞赛时间目录汇总 一月 (1)2024年第二届“华数杯”国际大学生数学建模竞赛 报名时间:即日起…

使用组合框QComboBox模拟购物车

1.组合框: QComboBox 组合框:QComboBox 用于存放一些列表项 实例化 //实例化QComboBox* comboBox new QComboBox(this);1.1 代码实现 1.1.1 组合框的基本函数 QComboBox dialog.cpp #include "dialog.h" #include "ui_dialog.h"Dialog::Dialog…

AC/DC控制电路选型分析

AC/DC控制电路选型,输出功率5W~20W,工作频率50KHz~100KHz UVL0/OVP/SCP/OCP/OLP等多种保护功能可选

C++ OpenGL 3D Game Tutorial 2: Making OpenGL 3D Engine学习笔记

视频地址https://www.youtube.com/watch?vPH5kH8h82L8&listPLv8DnRaQOs5-MR-zbP1QUdq5FL0FWqVzg&index3 一、main类 接上一篇内容&#xff0c;main.cpp的内容增加了一些代码&#xff0c;显得严谨一些&#xff1a; #include<OGL3D/Game/OGame.h> #include<i…

重新认识Elasticsearch-一体化矢量搜索引擎

前言 2023 哪个网络词最热&#xff1f;我投“生成式人工智能”一票。过去一年大家都在拥抱大模型&#xff0c;所有的行业都在做自己的大模型。就像冬日里不来件美拉德色系的服饰就会跟不上时代一样。这不前段时间接入JES&#xff0c;用上好久为碰的RestHighLevelClient包。心血…

模拟超市商品结算系统

要求:全程一个角色(管理员即用户) (1)需要管理员注册与登录 (2)管理员登录之后&#xff0c;可以进行上架新的商品(商品名称和单价) (3)管理员登录之后&#xff0c;也可以下架商品 (4)在节假日有优惠活动,可以对其中的一些商品修改相应的单价(价格提高和价格降低都可以) (5)用户…

如何使用CentOS系统中的Apache服务器提供静态HTTP服务

在CentOS系统中&#xff0c;Apache服务器是一个常用的Web服务器软件&#xff0c;它可以高效地提供静态HTTP服务。以下是在CentOS中使用Apache提供静态HTTP服务的步骤&#xff1a; 1. 安装Apache服务器 首先&#xff0c;您需要确保已安装Apache服务器。可以使用以下命令安装Ap…

关于burpsuite设置HTTP或者SOCKS代理

使用burpsuite给自己的浏览器做代理&#xff0c;抓包重发这些想必大家都清除 流量请求过程&#xff1a; 本机浏览器 -> burpsuite -> 目标服务器 实质还是本机发出的流量 如果我们想让流量由其他代理服务器发出 实现&#xff1a; 本机浏览器 -> burpsuite -> 某…

Blazor中使用impress.js

impress.js是什么&#xff1f; 你想在浏览器中做PPT吗&#xff1f;比如在做某些类似于PPT自动翻页&#xff0c;局部放大之类&#xff0c;炫酷无比。 在Blazor中&#xff0c;几经尝试&#xff0c;用以下方法可以实现。写文不易&#xff0c;请点赞、收藏、关注&#xff0c;并在转…

Python基础知识:整理9 文件的相关操作

1 文件的打开 # open() 函数打开文件 # open(name, mode, encoding) """name: 文件名&#xff08;可以包含文件所在的具体路径&#xff09;mode: 文件打开模式encoding: 可选参数&#xff0c;表示读取文件的编码格式 """ 2 文件的读取 文…

web缓存代理

缓存代理的概述 wed代理的工作机制 缓存网页对象&#xff0c;减少重复请求 web缓存代理作用 1.存储一些之前被访问的&#xff0c;且可能将要被再次访问的静态网络资源对象&#xff0c;使用户可以直接从缓存代理服务器获取资源&#xff0c;从而减少上游原始服务器的负载压力…

分享7款前端CSS动画特效源码(附在线演示)

精选7款前端CSS动画特效源码 下面我会给出特效样式图或演示效果图 但你也可以点击在线预览查看源码的最终展示效果及下载源码资源 CSS飞行的荷包蛋 CSS荷包蛋动画 荷包蛋会向右前方加速飞行 期间还能看到周围的气流匆匆飞过 以下图片只是简单的模型没有具体的动画效果最终动画…

IPv6路由协议---IPv6动态路由(OSPFv3-5)

OSPFv3各链路状态通告类型 4.Inter-Area-Router-LSA区域间路由器(4类LSA) 边界路由器(ABR)产生的第4类LSA,在Area 范围内泛洪,描述了到本AS内其他区域的ASBR路由器信息; 每各Inter-Area-Router-LSA包含一个ASBR路由器信息,LSA中的能力选项(Options)与所描述的ASBR …