基于3D感知的端到端具身操作论文导读

DexIL:面向双臂灵巧手柔性操作的端到端具身执行模型

模型架构

输入:
  观测Ot: RGB点云,使用PointNet进行编码;
  状态St: 双臂末端7x2Dof位姿+16x2灵巧手关节位置,只进行归一化,无编码;
融合方式: 直接和点云特征进行concatenate组合。
输出: 未来d个时刻的动作(物理量与状态一样)
噪声预测网络: Unet
训练方式: Diffusion DDIM
DexIL
pipeline

演示demo

dexil

实验

exp1
exp2

3D Diffuser Actor:基于3D感知引导的多任务具身执行大模型

摘要

我们把扩散策略和 3D 场景表示用在了机器人操作上。扩散策略通过条件扩散模型来学习基于机器人以及环境状态的动作分布。最近,它们被证明表现比确定性的还有其他基于状态条件的动作分布学习方法都要好。3D 机器人策略利用从单个或者多个摄像头视图通过感知深度聚合而来的 3D 场景特征表示。已经表明,在不同摄像头视角下,它们比 2D 的同类策略泛化能力更强。我们把这两方面的工作整合到一起,推出了 3D 扩散器执行者,这是一种神经策略架构,给它一个语言指令,它就能构建出视觉场景的 3D 表示,然后以此为条件,不断对机器人末端执行器的 3D 旋转和平移进行去噪。每次去噪迭代的时候,我们的模型把末端执行器的姿态估计表示成 3D 场景标记,并且通过用 3D 相对注意力对其他 3D 视觉和语言标记进行特征提取,来预测每个标记的 3D 平移和旋转误差。3D 扩散器执行者在 RLBench 上达到了新的顶尖水平,在多视图设置下比当前最顶尖水平的绝对性能提高了 16.3%,在单视图设置下提高了 13.1%。在 CALVIN 基准测试中,在零样本未见场景泛化的设置里,它和当前最顶尖水平相当。它在现实世界中,从少量的演示里也能发挥作用。我们对模型的架构设计选择做了消融研究,像 3D 场景特征化和 3D 相对注意力,结果表明这些都有助于泛化。我们的结果显示,3D 场景表示和强大的生成模型是从演示中让机器人高效学习的关键。
3d diffuser actor
3d diffuser actor pipeline

模型架构

输入:
   图像编码器: CLIP ResNet50 2D image encoder
   文本编码器: CLIP language encoder
   自 身 信 息: 机械臂末端位姿
输 出 动 作: 末端位姿(6D旋转+3D位置)+1D夹爪闭合,可预测全部轨迹点,或者关键位姿。
关键位姿: 重要的中间末端位姿,可以表征轨迹,可以使用一些简单的启发来提取,比如夹爪开闭或者局部速度、加速度极值处。
3d diffuser actor model

实验(在RLBench和Calvin Benchmark上达到SOTA)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3D Diffusion Policy:通过简单的3D表示进行通用的视觉运动策略学习

摘要

解决的问题: 如何使得模仿学习可以仅使用少量数据来学习鲁棒泛化的技能?
3DP相较2DP的优点:

  1. 高效与有效性。DP3不仅具有更高的精度,而且在示例数量和训练步骤上显著减少。
  2. 泛化能力。DP3的3D特性使其在多个方面具有泛化能力:空间、视角、实例和外观。
  3. 安全部署。我们在现实世界实验中观察到的一个有趣的现象是,DP3在实际任务中很少给出不稳定的命令,而基准2D方法却经常这样做,并表现出意想不到的行为,可能对机器人硬件造成潜在的损坏。

主要贡献:

  1. 我们提出了一种名为3D扩散策略(DP3)的有效视觉运动策略,可以在很少的示例下泛化到各种不同的方面。
  2. 为了减少基准和任务带来的方差,我们在广泛的模拟和真实世界任务中评估DP3,展示了DP3的通用性。
  3. 我们对DP3的视觉表征表示进行了全面分析,并发现一个简单的点云表示优于其他复杂的3D表示,更适合扩散策略而不是其他政策基线。
  4. 仅使用40个示例,DP3就能使用灵巧的手对具有可变形物体进行现实世界操作,这表明只需少量的人类数据就可以处理复杂的高维任务。
    在这里插入图片描述

模型架构

输入:
   点云编码器: MLP
   自 身 信 息: 机械臂末端位姿,无编码
输 出 动 作: 末端位姿(3D旋转+3D位置)+1D夹爪闭合
在这里插入图片描述

演示demos

实验

实验1:在现实实验中,我们惊讶地发现基于图像和深度的扩散策略在现实实验中往往会表现出不可预测的行为,这需要人类干预来确保机器人的安全。这种情况被称为安全违规。有趣的是,在我们的实验中,DP3很少违反安全规定,这表明DP3是一种适用于真实机器人学习的实用且硬件友好的方法。

在这里插入图片描述

实验2: DP3可以更好地在3D空间中进行插值泛化。实际测试发现基线不能推广到所有的测试位置,而DP3在5次试验中有4次成功。
实验3:DP3设计用于处理没有颜色信息的点云,固有地使其能够有效地泛化各种外观。如下所示,DP3始终显示出对不同颜色的立方体的成功泛化,而基线方法无法实现。值得注意的是,基于深度的扩散策略也没有将颜色作为输入。然而,由于其对训练对象的精度较低,泛化能力也受到限制

在这里插入图片描述

实验4:在不同的实例之间实现泛化,这些实例在形状、大小和外观上都不同,与单纯的外观泛化相比,提出了更大的挑战。如下所示,DP3可以有效地操作各种日常对象。这一成功主要归因于点云的固有特性,具体地说,点云的使用使得policy更鲁棒,特别是当这些点云被下采样时。

在这里插入图片描述

实验5:将基于图像的方法推广到不同视角是一个具有挑战性的问题,从多个视角获取训练数据可能耗时且成本高昂。我们证明,当摄像头视角稍有变化时,DP3可以有效地解决这一泛化问题。

在这里插入图片描述

实验6:定量对比实验

在这里插入图片描述
在这里插入图片描述

实验7:消融实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论分析

  1. 3D相较2D,能直接提供空间信息,由此带来了对形状、视角等泛化性;
  2. 3D相较2D对光照颜色的泛化性更好;
  3. 通过模型设计,3D可以获得位置方向和尺度的泛化性;
  4. 3D相较2D,学习效率更高: 20 vs 100 ;
  5. 将3D信息转换到机器人坐标系,有望解决跨本体差异的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/45958.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux Win 10 Windows上安装Ollama部署大模型qwen2 7b/15配置启动 LangChain-ChatChat 0.2.10进行对话

Win 10 Window安装Ollama部署qwen2 7b LangChain-ChatChat 环境说明 Win 10 Python 3.11.9 LangChain-ChatChat 0.20 Ollama 0.2.10 Qwen2 1.5b/7b Windows 安装Ollama 下载并安装Windows版Ollama https://ollama.com/download#/ 下载大模型qwen2:1.5b或者qwen2:7b 在命令…

从实时监控到风险智能预警:EasyCVR视频AI智能监控技术在工业制造中的应用

随着科技的不断进步和工业制造领域的持续发展,传统的生产管理方式正逐渐转型,迈向更加智能、高效和安全的新阶段。在这个变革过程中,视频智能监控技术凭借其独特的优势,成为工业制造领域的管理新引擎,推动着从“制造”…

【YOLOv8系列】(三)YOLOv8应用实践:从识别到分类再到分割的全方位视觉解决方案

随着深度学习技术的不断演进,目标检测领域的明星模型——YOLO系列,已经发展到了第八代,即YOLOv8。这一版本不仅继承了前辈们快速与准确的特点,还实现了功能上的巨大飞跃,成为了一个全能型的视觉AI工具箱,支…

maven的settings.xml无法正确配置本地仓库路径

因为以前使用过新版的maven,现在要换个版本使用。 在配置新的本地仓库路径的时候突然发现居然idea居然识别不了我settings.xml里面配置的路径。 我很是震惊,明明之前一直都是这样子配置的。怎么突然间不行了。当我冥思苦想,在网上搜寻资料无果…

WPF学习(5) -- WPF绑定

一、双向绑定 1.代码示例 <Window x:Class"学习.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d"http://schemas.microsoft.com/expres…

[论文阅读]MaIL: Improving Imitation Learning with Mamba

Abstract 这项工作介绍了mamba模仿学习&#xff08;mail&#xff09;&#xff0c;这是一种新颖的模仿学习&#xff08;il&#xff09;架构&#xff0c;为最先进的&#xff08;sota&#xff09;变换器策略提供了一种计算高效的替代方案。基于变压器的策略由于能够处理具有固有非…

阿里云产品流转

本文主要记述如何使用阿里云对数据进行流转&#xff0c;这里只是以topic流转&#xff08;再发布&#xff09;为例进行说明&#xff0c;可能还会有其他类型的流转&#xff0c;不同服务器的流转也可能会不一样&#xff0c;但应该大致相同。 1 创建设备 具体细节可看&#xff1a;…

Spring源码中的模板方法模式

1. 什么是模板方法模式 模板方法模式&#xff08;Template Method Pattern&#xff09;是一种行为设计模式&#xff0c;它在操作中定义算法的框架&#xff0c;将一些步骤推迟到子类中。模板方法让子类在不改变算法结构的情况下重新定义算法的某些步骤。 模板方法模式的定义&…

驱动LSM6DS3TR-C实现高效运动检测与数据采集(8)----中断获取FIFO数据并应用MotionFX库解析空间坐标

驱动LSM6DS3TR-C实现高效运动检测与数据采集.8--中断获取FIFO数据并应用MotionFX库解析空间坐标 概述视频教学样品申请源码下载开启LED开启INT中断参考驱动程序中断读取传感器数据主程序演示 概述 本文将探讨如何使用中断机制获取FIFO数据并应用MotionFX库解析空间坐标。Motio…

在 PostgreSQL 里如何处理数据的索引碎片整理的自动化?

&#x1f345;关注博主&#x1f397;️ 带你畅游技术世界&#xff0c;不错过每一次成长机会&#xff01;&#x1f4da;领书&#xff1a;PostgreSQL 入门到精通.pdf 文章目录 PostgreSQL 中数据索引碎片整理的自动化处理 PostgreSQL 中数据索引碎片整理的自动化处理 在数据库管…

接口基础知识2:http通信的组成

课程大纲 一、http协议 HTTP&#xff08;Hypertext Transfer Protocol&#xff0c;超文本传输协议&#xff09;是互联网中被使用最广的一种网络协议&#xff0c;用于客户端与服务器之间的通信。 HTTP协议定义了一系列的请求方法&#xff0c;例如 GET、POST、PUT、DELETE 等&…

特惠电影票api安全性如何评测

评测特惠电影票API的安全性是确保用户数据安全和系统稳定运行的关键步骤。以下是评测特惠电影票API安全性的一些方法和步骤&#xff1a; ### 1. **认证和授权** - **JWT认证**&#xff1a;使用JSON Web Token (JWT) 进行用户身份验证和授权&#xff0c;确保只有合法用户可以访…

Ubuntu搭建Android架构so库交叉编译环境

目录 前言一、下载NDK并安装二、安装NDK三、配置交叉编译工具链四、编写交叉编译脚本 前言 需要将一些源码编译成Android可用的架构的so库 一、下载NDK并安装 https://developer.android.google.cn/ndk/downloads/ 二、安装NDK 将下载下来的android-ndk-r23b-linux.zip解压…

uniapp内置组件scroll-view案例解析

参考资料 文档地址&#xff1a;https://uniapp.dcloud.net.cn/component/scroll-view.html 官方给的完整代码 <script>export default {data() {return {scrollTop: 0,old: {scrollTop: 0}}},methods: {upper: function(e) {console.log(e)},lower: function(e) {cons…

【SVPWM】空间矢量调制

SVPWM仿真模型 扇区315462 切换时间马鞍波 三角载波和马鞍波比较 三相电压 FFT分析 参考文献&#xff1a; 现代永磁同步电机控制原理及MATLAB仿真.袁雷.

WPF学习(3) -- 控件模板

一、操作过程 二、代码 <Window x:Class"学习.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d"http://schemas.microsoft.com/expressio…

树莓派pico入坑笔记,esp01/01s使用

目录 关于树莓派pico和circuitpython的更多玩法&#xff0c;请看树莓派pico专栏 说明 关于at指令 WiFi的at指令 UDP的at指令 样例程序 调试助手端输入指令 sta端程序 效果 进阶使用 库函数说明 样例代码 关于树莓派pico和circuitpython的更多玩法&#xff0c;请看树…

秋招突击——7/12——复习{每日温度、完全平方数、无重复最长子串}——新作{字节面试——控制多线程按照顺序输出}

文章目录 引言复习每日温度复习实现参考学习 完全平方数复习实现参考学习 无重复字符的最长子串复习实现参考学习 新作控制多线程输出Java实现线程——不使用锁实现使用synchronized关键实现——使用锁实现使用synchronized、wait和notify关键字实现 总结 引言 今天又要面试字…

安全防御,防火墙配置NAT转换智能选举综合实验

一、实验拓扑图 二、实验需求 1、办公区设备可以通过电信链路和移动链路上网(多对多的NAT&#xff0c;并且需要保留一个公网IP不能用来转换) 2、分公司设备可以通过总公司的移动链路和电信链路访问到Dmz区的http服务器 3、多出口环境基于带宽比例进行选路&#xff0c;但是&…

DP(3) | 0-1背包 | Java | LeetCode 1049, 494, 474 做题总结(474未完)

1049. 最后一块石头的重量 II 和 LC 416.分割等和子集 类似 思路&#xff08;我没有思路&#xff09;&#xff1a; 两块石头相撞&#xff0c;这里没有想到的一个点是&#xff0c;相撞的两个石头要几乎相似 以示例1为例&#xff0c;stones [2,7,4,1,8,1]&#xff0c;如果从左到…