CyberDemo解读

CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation解读

  • 摘要
  • 1. 简介
  • 2. Related Work
    • 2.1 Data for Learning Robot Manipulation
    • 2.2 机器人的预训练视觉表征
    • 2.3 Sim2Real Transfer
  • 3. CyberDemo
    • 3.1 收集人体遥操作数据
    • 3.2 在模拟器中增强人类演示
    • 3.3 学习Sim2Real策略

论文链接:https://arxiv.org/abs/2402.14795
论文代码:https://cyber-demo.github.io/
论文单位:加州大学圣迭戈分校,南加州大学
论文出处:2024 arxiv

摘要

  • 我们介绍了CyberDemo,这是一种机器人模仿学习的新方法,利用模拟人类演示来完成现实世界的任务。
  • 通过在模拟环境中整合广泛的数据增强,CyberDemo在转移到现实世界时,处理各种物理和视觉条件,优于传统的域内真实世界演示。
  • 尽管在数据收集方面价格低廉且方便,但就各种任务的成功率而言,CyberDemo优于基准方法,并且在以前未见过的对象上表现出通用性。
  • 例如,它可以旋转新的tetra-valve和penta-valve,尽管人类只演示了tri-valves。
  • 我们的研究证明了模拟人类演示在现实世界灵巧操作任务中的巨大潜力。

1. 简介

  • 模仿学习是一种很有前途的机器人操作方法,它有助于从人类示范中获得复杂的技能。
  • 然而,这种方法的有效性严重依赖于高质量示范数据的可用性,这通常需要大量的人力来收集数据。
  • 在使用多指灵巧手进行操作的情况下,这一挑战进一步扩大,因为任务的复杂性需要非常详细和精确的演示。
  • 在模仿学习中,域内演示(In-domain demonstration) 是指直接从部署环境中收集数据,通常用于机器人操作任务。
  • 一般认为,解决特定任务的最有效方法是直接从真实的机器人那里收集该任务的演示。这种信念一直被奉为 gold standard,但我们希望挑战它。
  • 我们认为,在模拟中收集对于现实世界的人类示范任务,它可以产生更好的结果,不仅因为它不需要真实的硬件,可以远程并行执行,而且还因为它有可能通过仅使用模拟器的数据增强来提高最终任务的性能。这允许生成比初始演示集大数百倍的数据集。
  • 然而,虽然现有的研究使用生成的数据集在模拟中训练域内策略,但将策略转移到现实世界的sim2real挑战仍然是一个未解决的问题
  • 在本文中,我们研究了如何利用模拟的人类演示来完成现实世界的机器人操作任务
  • 我们介绍了CyberDemo,这是一个新颖的框架,旨在利用模拟的人类演示,从视觉观察中学习机器人模仿。
  • 我们首先通过在模拟环境中使用低成本设备的远程操作收集适量的人类演示数据
  • 然后,CyberDemo将广泛的数据增强纳入原始的人类演示。增强集涵盖了数据收集过程中未遇到的广泛的视觉和物理条件,从而增强了训练策略对这些变化的鲁棒性。这些增强技术在设计时也考虑了下游sim2real传输。
  • 我们采用独特的curriculum learning strategy在增强数据集上训练策略,然后使用一些现实世界的演示(3分钟的轨迹)对其进行微调,促进有效地转移到现实世界的条件。
  • 虽然仅在真实世界演示中训练的策略可能会受到光照条件、物体几何形状和物体初始姿态的变化的影响,但我们的策略能够在不需要额外人力的情况下处理这些问题。
  • 我们的系统利用低成本的运动捕捉设备进行远程操作(即RealSense相机),并且需要最少的人力(即30分钟的演示轨迹),可以学习强大的模仿学习策略。
  • 尽管CyberDemo价格低廉,而且需要的人力也很少,但它仍然可以在真实的机器人上取得更好的性能。
  • 与预先训练的策略相比,例如R3M在现实世界的演示中进行了微调,CyberDemo在准静态拾取和放置任务上的成功率高出35%,在非准静态旋转任务上的成功率高出20%。
  • 在泛化测试中,虽然基线方法在测试过程中难以处理看不见的物体,但我们的方法可以旋转新的四阀和五阀,成功率为42.5%,即使人类演示仅覆盖三阀(图1第二行)。我们的方法还可以处理明显的光干扰(图1的最后一列)。
    在这里插入图片描述
    图1. 我们提出了CyberDemo,这是一种新颖的管道,通过使用仿真数据来学习现实世界的灵巧操作。首先,我们在模拟环境(蓝色区域)中收集人类样本,然后在模拟器(黄色区域)中进行大量数据增强。然后,在增强数据上进行训练并在少量真实数据上进行微调的模仿学习模型可以部署在真实机器人上。
  • 在我们的消融研究中,我们观察到数据增强的使用,加上模拟器中演示次数的增加,与实际演示中的等效增加相比,可以获得更好的性能。

2. Related Work

2.1 Data for Learning Robot Manipulation

  • 模仿学习已被证明是一种有效的机器人操作方法,可以通过一系列演示进行策略训练。
  • 许多工作都集中在使用预编程策略,替代数据源如语言和人类视频或广泛的现实世界机器人远程操作构建大型数据集。然而,这些工作主要针对平行夹持器。收集高自由度灵巧手的大规模演示数据集仍然是一个重大挑战
  • 同时,数据扩充通过增加数据分布的多样性,为提高策略泛化提供了可行的策略。
  • 先前的研究将增强应用于低层次视觉空间,如颜色抖动模糊裁剪,而最近的研究则提出使用生成模型进行语义感知的数据增强
  • 然而,这些增强操作在图像层面,而不是基于物理现实。
  • CyberDemo使用物理模拟器将数据扩展到轨迹级别,考虑到视觉和物理变化。
  • 我们利用模拟器的便利性来收集机器人演示,并采用sim2real方法将这些演示转移到配备多指人形手的灵巧机器人上。
  • 我们的研究强调了一个通用框架,利用模拟演示来进行现实世界的机器人操作。

2.2 机器人的预训练视觉表征

  • 大规模自监督学习的最新进展使得视觉表征的发展对下游机器人任务有利。
  • 一些研究集中在非机器人数据集上进行预训练,如ImageNet和Ego4D,并利用静态表示进行下游机器人控制。
  • 其他研究集中在机器人数据集上的预训练视觉表示,使用依赖于动作的动作监督自学习目标,或利用视频的时间一致性作为学习目标。这些研究主要是为了学习有效训练基于视觉的机器人操作的特征。
  • 除了在离线数据集上训练视觉表示,一些研究人员还探索了用于强化学习的奖励函数的学习
  • 与之前的研究不同,我们的工作使用模拟数据进行预训练而不是使用自监督学习进行表征学习。这不仅增强了图像表征的学习,而且通过使用动作信息将任务先验纳入神经网络。
  • 通过在模拟环境中进行预训练,操作策略可以更好地推广到具有新几何形状和接触模式的新对象。

2.3 Sim2Real Transfer

  • 将技能从模拟场景转移到现实场景的挑战,即sim2real迁移,一直是机器人学习的关键焦点。
  • 有些方法利用系统辨识来建立真实系统的数学模型,并辨识物理参数。
  • 领域随机化不是校准现实世界的动态,而是生成具有随机属性的模拟环境,并在所有这些环境中训练模型函数。随后的研究表明,随机化参数的选择可以自动化。然而,由于学习鲁棒策略需要大量的样本,领域随机化通常用于涉及数百万交互样本的强化学习
  • 领域自适应(DA) 是一套迁移学习策略,旨在调整模拟与真实之间的数据分布。常见的技术包括领域对抗训练和使用生成模型使模拟图像与真实图像相似。这些数据分析方法大多侧重于弥合视觉差距。然而,解决dynamics gap的挑战仍然很大。
  • 对于具有高自由度驱动和复杂交互模式的灵巧机器人手来说,sim2real差距变得更加明显。
  • 在这项工作中,我们将领域随机化的概念扩展到模拟器中收集的人类演示,并专注于数据增强技术,该技术可以有效地利用模拟转移到真实的机器人上。
  • 我们证明,尽管sim2real存在差距,但在模拟器中收集人类演示可能有显着的好处,而不是仅仅依赖于真实数据。

3. CyberDemo

  • 在CyberDemo中,我们首先通过远程操作在模拟器中收集相同任务的人类演示。
  • 利用模拟器的采样功能和oracle状态信息,我们以各种方式增强模拟演示,增加它的视觉、运动学、几何多样性,从而丰富了模拟数据集。
  • 利用这个增强的数据集,我们训练了一个具有自动课程学习和动作聚合的操作策略。

3.1 收集人体遥操作数据

  • 对于本工作中的每个灵巧操作任务,我们在模拟和现实环境中收集了使用远程操作的人类演示。
  • 对于真实世界的数据,我们使用Anyteleop中引用的低成本远程操作系统。这种基于视觉的远程操作系统只需要一个摄像头来捕捉人类的手部动作作为输入,然后将其转换为机器人手臂和灵巧手的实时运动命令。我们以30Hz的速率记录每帧的观察(RGB图像、机器人本体感觉)和动作(机器人末端执行器的6D笛卡尔速度、手指关节位置控制目标)。在这项工作中,我们只收集了真实机器人上每个任务三分钟的机器人轨迹
  • 对于模拟中的数据,我们在SAPIEN模拟器中构建真实世界的任务环境,以复制真实场景中使用的表和对象。值得注意的是,对于远距操作,不像强化学习设置那样需要奖励设计和观察空间,使得在模拟器中设置新任务的过程相对简单。我们采用相同的远程操作系统Anyteleop来收集模拟器中的人类演示

3.2 在模拟器中增强人类演示

  • 与现实世界的数据收集不同,我们仅限于记录物理传感器的观察结果,如相机RGB图像和机器人本体感觉,模拟系统使我们能够记录虚拟环境中的真实状态和联系信息
  • 与现实世界的数据相比,模拟的这种独特优势为模拟演示提供了更全面的数据格式。
  • 因此,我们可以利用这些模拟演示的演示重播技术,这在真实世界的数据中是不可行的。
  • 在模拟器中开发数据增强技术时,必须记住,最终目标是将训练好的策略部署到真实的机器人中。因此,增强功能应侧重于在现实世界中可能遇到的视觉和动态变化
  • 此外,我们的目标是将操作策略推广到数据收集过程中没有遇到的新对象。例如,在图3中仅收集有关三阀的数据时操作四阀。
  • 具体来说,我们选择增加照明条件相机视图物体纹理,以增强策略对视觉变化的鲁棒性。
  • 此外,我们修改了物体的几何形状以及机器人和物体的初始姿态,以提高策略对动态变化的鲁棒性。
    (1)随机化摄像机视图。在演示收集和最终评估之间精确地对齐摄像机视图,更不用说在模拟和现实之间了,这构成了重大挑战。为了解决这个问题,我们在训练过程中随机化相机姿势,并重播模拟器的内部状态,以从新的相机视图呈现图像序列。与标准的图像增强技术(如裁剪和移动)不同,我们的方法以物理逼真的方式尊重透视投影。
    (2)随机光和纹理。为了促进sim2real传输并提高策略对视觉变化的鲁棒性,我们随机化了灯光和物体的视觉属性(图3,右下)。光属性包括方向、颜色、阴影特性和环境光照。物体属性包括镜面、粗糙度、金属量和纹理。与相机视图随机化类似,我们可以简单地重放模拟状态以呈现新的图像序列。
    (3)添加不同的对象。在这种方法中,我们用新对象替换了原始演示中被操纵的对象(图3右上)。然而,直接重放相同的轨迹是行不通的,因为物体的形状不同。相反,我们用高斯噪声扰动原始演示的动作序列以产生新的轨迹。这些轨迹提供了合理的操纵策略,但与最初的略有不同。通过在模拟器中进行高性价比的采样,我们可以枚举摄动直到成功。需要注意的是,这种技术在现实世界的演示中是可行的。
    (4)随机化目标姿态。强化学习中提高泛化能力的一种常见方法是在重置过程中随机化对象姿态。然而,通过增强模仿学习数据来实现类似的结果就不那么直观了。我们提出了灵敏度感知的运动学增强(Sensitivity-Aware Kinematics Augmentation) 来随机化人体演示的物体姿态。这种方法不是在原始轨迹之前添加新的轨迹,而是修改原始演示中每一步的动作,以适应对象姿态的变化。该方法包括两个步骤:(i)将整个轨迹划分为若干段,计算每个段的灵敏度;(ii)根据灵敏度修改末端执行器位姿轨迹,计算新动作。

3.3 学习Sim2Real策略

  • 给定一个增强模拟数据集,我们训练了一个视觉操作策略,该策略以图像和机器人本体感觉作为输入来预测机器人的动作
  • 在人类远程操作演示中,机器人的动作既不是摩拉维亚式的,也不是时间相关的。
  • 为了解决这个问题,我们的策略被训练为预测动作块而不是每一步的动作,使用ACT (action Chunking with Transformers)。这种方法产生了更平滑的轨迹,减少了复合误差。
  • 尽管我们的数据增强功能能够适应不同的视觉和动态条件,但机器人控制器仍然存在类似的差距。这种差距在我们的任务中变得更具挑战性,其中末端执行器是高自由度多手指灵巧的手。这种控制器间隙会严重影响非准静态任务,如旋转阀门,如图1第二行所示。
  • 为了缩小这个差距,我们使用一小组真实世界的演示(3分钟的轨迹)来微调我们的网络。然而,由于人类样本的数据收集模式在模拟和现实之间存在差异,对真实数据进行直接微调有过拟合的风险。
  • 为了确保更平滑的sim2real传输,我们采用了几种技术,这些技术分别为:
    (1)自动课程学习(Automatic Curriculum Learning)。课程学习和数据增强技术经常一起使用,以提供更顺畅的训练过程。遵循先前强化学习工作中的课程设计思想,我们设计了一种适用于我们的模仿学习情境的课程学习策略。在训练之前,我们将第3.2节中的增强分为四个级别,以增加复杂性,如图2所示。
    在这里插入图片描述
    图2. CyberDemo Pipeline. (1)首先,我们通过基于视觉的远程操作收集模拟和真实演示。(2)在此之后,我们在模拟数据上训练策略,并结合提出的数据增强技术。(3)在训练过程中,我们应用automatic curriculum learning,根据任务表现逐步增强随机性尺度。(4)最后,在将策略部署到现实世界之前,使用一些实际演示对其进行微调。

(2)小运动的动作聚合(Action Aggregation for Small Motion)。人类的演示通常包括噪音,特别是在灵巧的手操作时。例如,在演示轨迹中可能发生轻微的震动和无意的停止,潜在地破坏了训练过程。为了解决这个问题,我们将以小动作为特征的步骤聚合在一起,将这些动作合并为单个动作。在实践中,我们为末端执行器和手指运动设置阈值,以辨别给定的运动是否符合小的条件。通过聚合过程,我们可以消除人类动作中的小操作噪声,使模仿学习策略能够从状态-动作轨迹中提取有意义的信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/7842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

工程绘图神器:Origin 2021软件安装与图像demo水印问题解决

目录 引言 正文 01-Origin软件简介 02-Origin软件安装 03-Origin软件复制图像带有水印问题解决 引言 注:本篇软件安装内容引用了微信公众号“软件管家”里的Origin 2021安装教程和…

张大哥笔记:自媒体人10种赚钱方法

很多人都在做自媒体,比如平台广告分成、广告收入、公关宣传、品牌植入、演讲、会员制、出书、线下活动。那么本文介绍了自媒体人10种赚钱方法,供大家参考: 1、打造个人IP 什么是个人IP?在百度百科上是这样解释的:指个…

京东生产环境十万并发秒杀系统三高架构

文章目录 三高——高并发、高可用、高可扩展用数据库乐观锁解决超卖阿里巴巴:为了提升数据库性能,对数据库的源码级别做了改造——在DB内部实现内存队列,一次性接收很多的请求,一次性更新。京东:redis,mq&a…

无线通信基础

这里写目录标题 通信概述什么是无线通信无线通信电磁波 通信概述 什么是无线通信 无线通信 : 是指利用电磁波信号可以在自由空间中传播的特性进行信息交换的一种通信方式 无线通信的关键技术包括调制技术、解调技术、信道编码技术、信号处理技术、天线技术等。这些技术的不断…

医药垃圾分类管理系统|基于SSM医药垃圾分类管理系统的系统设计与实现(源码+数据库+文档)

医药垃圾分类管理系统 目录 基于SSM医药垃圾分类管理系统设计与实现 一、前言 二、系统设计 三、系统功能设计 1系统登录模块 2管理员模块实现 3用户模块实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博…

《十九》Qt Http协议及实战

前言 本篇文章来给大家讲解QT中的Http协议,Http协议主要用于网络中数据的请求和响应,那么这篇文章将给大家讲解一下这个协议。 一、HTTP概述 HTTP(超文本传输协议)是互联网上应用最为广泛的协议之一,它定义了客户端…

LM4562NA 直插DIP8双运放 音频hifi运算放大器

LM4562NA是一款高性能音频运算放大器,其应用领域主要集中在音频和声音处理方面,包括但不限于: 1. 专业录音设备:在录音棚、广播电台和电视台等专业环境中,用于信号放大和处理,确保高质量的声音录制和传输…

北邮22级信通院DSP:实验三(1):FFT变换、IFFT变换(附每步8点变换蝶形图)保姆级讲解+用C++程序实现复数域的FFT变换和IFFT变换

北邮22信通一枚~ 跟随课程进度更新北邮信通院DSP的笔记、代码和文章,欢迎关注~ 获取更多文章,请访问专栏: 北邮22级信通院DSP_青山入墨雨如画的博客-CSDN博客 目录 一、预备知识 1.1 FFT算法 1.2.1由DFT到FFT 1.2.2 基2时域抽选算法 …

并发编程之阻塞队列BlockingQueue实战及其原理分析

1. 阻塞队列介绍 1.1 队列 是限定在一端进行插入,另一端进行删除的特殊线性表。 先进先出(FIFO)线性表。 允许出队的一端称为队头,允许入队的一端称为队尾。

使用开放式用户通信连接两台西门子S71200plc

步骤1.在项目中创建两台PLC。 步骤2.分别设置两个PLC的参数。 plc1 plc2 步骤3.对两个plc进行组态 步骤4.在plc1和plc2中各自创建DB块,用于通信。 须在块的属性中取消优化块的访问选项。 plc1 plc2 步骤5.往plc1的main块中编写代码。 步骤6.往plc2的main块中编写…

Markdown 精简教程(胎教级教程)

文章目录 一、关于 Markdown1. 什么是 Markdown?2. 为什么要用 Markdown?3. 怎么用 Markdown?(编辑软件) 二、标题1. 常用标题写法2. 可选标题写法3. 自定义标题 ID4. 注意事项 三、段落四、换行五、字体选项1. 粗体2.…

15.计算机网络

1.物理层的互联设备 中继器 和 集线器 2.集线器可以看做特殊的多路中继器 集线器 不可以做到自动寻址的功能 3.数据链路层 网桥 和 交换机 4.交换机是多端口网桥 5.网络层 路由器 6.应用层 网关 7.广播域 网络层 可以形成多个广播域 冲突域 网络层数据链路层 可以形成多个冲突域…

网络安全--红队资源大合集

目录 相关资源列表 攻防测试手册 内网安全文档 学习靶场 工具包集合 内网安全文档 学习手册相关资源 产品设计文档 版本管理平台漏洞收集 相关工具拓展插件 Kali 环境下拓展插件 Nessus 相关工具拓展插件 Awvs 相关工具拓展插件 红队攻击的生命周期,…

第三节课,前端

一、参考链接; 总 知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具 分 2022-03-18 星球直播笔记-用户中心(下) 语雀 二、登录 2.1登录网址 2.2前端页面修改 2.1 页面修改 2.2 页脚的超链接 网址&am…

Linux初识

1.操作系统的那点事 (1)结论:操作系统是作软硬件管理的软件; (2)计算机是操作系统,设备驱动,硬件三个相互结合发挥作用的,操作系统是用来管理硬件的,常见的…

简易录制视频做3D高斯

系统环境 ubuntu20 ,cuda11.8,anaconda配置好了3D高斯的环境。 具体参考3D高斯环境配置:https://blog.csdn.net/Son_of_the_Bronx/article/details/138527329?spm1001.2014.3001.5501 colmap安装:https://blog.csdn.net/Son_of…

嵌入式linux学习第三天汇编语言点灯

嵌入式linux学习第三天汇编语言点灯 今天学习如何在linux板子上点灯。 I.MX6U GPIO 详解 我们发现I.MX6U GPIO是分为两类的,:SNVS 域的和通用的。在讨论i.MX6U或类似的复杂微处理器时,了解其GPIO(通用输入输出)引脚…

八.吊打面试官系列-Tomcat优化-深入源码剖析Tomcat如何打破双亲委派

前言 上篇文章《Tomcat优化-深入Tomcat底层原理》我们从宏观上分析了一下Tomcat的顶层架构以及核心组件的执行流程。本篇文章我们从源码角度来分析Tomcat的类加载机制,且看它是如何打破JVM的ClassLoader双亲委派的 Tomcat ClassLoader 初始化 Tomcat的启动类是在…

华为eNSP小型园区网络配置(下)

→跟着大佬学习的b站直通车,感谢大佬← →华为eNSP小型园区网络配置(上)← 目标1:telnet配置 R1 # interface GigabitEthernet0/0/2ip address 100.1.1.2 255.255.255.0 # user-interface vty 0 4authentication-mode aaa # aaa…

英语新概念2-回译法-lesson12

第一次翻译 (稀巴烂) Our neiborhood,Capitain Charles Alison,will sail from P. We will ______ in the _. He will sit in his small boat, Topsail,Topsail is a famous boat. It has been across the A many times. Alison will sail at 8 o’cloc…