论文阅读笔记——Reactive Diffusion Policy

RDP 论文

  • 通过 AR 提供实时触觉/力反馈;
  • 慢速扩散策略,用于预测低频潜在空间中的高层动作分块;快速非对称分词器实现闭环反馈控制。

ACT、 π 0 \pi_0 π0 采取了动作分块,在动作分块执行期间处于开环状态,无法及时响应环境变化,缺乏触觉输入,无法适应高精度(力控制)任务和及时响应。现有的触觉输入是侧重于观察方面,利用触觉输入提供视觉遮挡或接触状态判断等信息。在数据上,MTDP(Mixed-Teleoperation Demonstration Policy)通过增强现实(AR)技术实现了两大突破性改进:1)异构机器人兼容性 - 克服了传统ALOHA双边控制系统必须使用同构机器人的限制;2)成本优化 - 相比基于专业力/扭矩传感器的触觉反馈方案,显著降低了硬件成本。并且现有的触觉输入的方案均排除了视觉输入。

  • 力/扭矩传感器——直接测量末端或关节的力/扭矩数值,高速运动时噪声明显且成本高。
  • 触觉传感器
    • 电学式触觉传感器——通过电容、电阻等原理感知,空间分辨率较低,且少数型号能直接输出法向力与切向力,且需依赖力/扭矩传感器标定;
    • 光学式触觉传感器——通过相机捕捉凝胶变形的高分率图像,追踪凝胶表面的法向/剪切变形场,力/扭矩信息需通过剪切长间接表征
      MTDP 采取 GelSight Mini 和 MCTrac 两种光学式触觉传感器和机器臂关节扭矩传感器。将法向力、剪切力、视觉 RGB 输入输入为统一的 visual-tactile policy
      数据集为利用 GelSIght Mini 收集的 30min 的随机交互视频和使用 MCTrac 为剥皮任务收集的 60 次演示,为擦拭任务收集的 80 次演示,为双手抬举任务收集的 50 次演示。

TactAR

在这里插入图片描述

25 Hz 是因为限制于 GelSight 帧速率限制。

从二维光流推算力数据依赖传感器的标定,采用可视化三维变形场

  • 标记点提取:通过 OpenCV 从触觉图像 I t I_t It 中提取归一化标记点位置 D t D_t Dt
  • 光流计算:基于得分追踪算法(Gelsight SDK)计算初始帧 D 0 D_0 D0 与当前帧 D t D_t Dt 的二维光流 F t = [ d x , d y ] = F l o w ( D 0 , D t ) F_t=[d_x,d_y]=Flow(D_0,D_t) Ft=[dx,dy]=Flow(D0,Dt)
  • 三维变形场:将光流扩展为含 z 轴偏移 o z o_z oz 的三维变形场 V t = [ f x , f y , f z ] V_t=[f_x,f_y,f_z] Vt=[fx,fy,fz]
    通过 OpenCV 和轻量级追踪算法,规避传统光学传感器的依赖,直接力矢量渲染。

构建流程:使用 Meta Quest3 的 color passthrough 在 Unity 中创建 AR 场景 -> SLAM 实时跟踪头显和控制器位姿 -> 力矢量渲染 -> 根据机器人末端执行器(TCP)实时位姿,通过 ROS2 同步触觉数据、机器人状态和相机流

跟踪算法延迟 10ms,Quest3 渲染延迟 10ms,网络延迟 1-6ms,光学触觉传感器 10-60ms,力传感器延迟 1ms

RDP

在这里插入图片描述
VISK 通过聚合同一时间步的多次迭代的预测结果实现实时反馈,但削弱了策略对多模态分布和非马儿可夫动作的建模能力,且对平滑系数相当敏感。
AT 由一个 1D-CNN(建模时序性) 和 GRU decoder 组成。通过触觉序列 F r e d u c e d F^{reduced} Freduced (经过 PCA 降维后——光学触觉传感器的变形场可以被分解为几个高度可解释的独立成分)重建动作 A ^ = D ( c o n c a t ( [ Z , F r e d u c e d ] ) ) \hat{A}=\mathcal{D}\left(concat([\boldsymbol{Z},\boldsymbol{F}^{reduced}])\right) A^=D(concat([Z,Freduced])) ,采用 L1 重建损失和 Kullback-Leibler(KL)惩罚损失:(1ms)(通过插值的方式调整)
L A T = E A , F r e d u c e d ∈ D p o l i c y [ ∣ ∣ A − A ^ ∣ ∣ 1 + λ K L L K L ] L_{AT}=\mathbb{E}_{\boldsymbol{A},\boldsymbol{F}^{reduced}\in\mathcal{D}_{policy}}\left[||A-\hat{A}||_1+\lambda_{KL}L_{KL}\right] LAT=EA,FreducedDpolicy[∣∣AA^1+λKLLKL]
LDP 利用学习到的梯度场 ∇ E ( A ) \nabla E(A) E(A),通过随机 Langevin 动力学,以较低的频率预测动作。 (100ms)(DP 120ms)
L L D P = E ( O , A 0 ) ∈ D p o l i c y , k , ϵ k ∥ ϵ k − ϵ θ ( O , Z 0 + ϵ k , k ) ∥ 2 L_{LDP}=\mathbb{E}_{(\mathbf{O},\mathbf{A}^0)\in\mathcal{D}_{policy},k,\epsilon^k}\|\epsilon^k-\epsilon_\theta(\mathbf{O},\mathbf{Z}^0+\epsilon^k,k)\|_2 LLDP=E(O,A0)Dpolicy,k,ϵkϵkϵθ(O,Z0+ϵk,k)2
在这里插入图片描述
使用相对末端执行器轨迹进行动作表示,基准帧是动作块的最后一个观察帧,计算相对于基准帧的相对变换,将绝对轨迹转化为相对轨迹。

实验结果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/76784.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

swagger 注释说明

一、接口注释核心字段 在 Go 的路由处理函数(Handler)上方添加注释,支持以下常用注解: 注解名称用途说明示例格式Summary接口简要描述Summary 创建用户Description接口详细说明Description 通过用户名和邮箱创建新用户Tags接口分…

STM32 HAL库 OLED驱动实现

一、概述 1.1 OLED 显示屏简介 OLED(Organic Light - Emitting Diode)即有机发光二极管,与传统的 LCD 显示屏相比,OLED 具有自发光、视角广、响应速度快、对比度高、功耗低等优点。在嵌入式系统中,OLED 显示屏常被用…

Web开发-JavaEE应用动态接口代理原生反序列化危险Invoke重写方法利用链

知识点: 1、安全开发-JavaEE-动态代理&序列化&反序列化 2、安全开发-JavaEE-readObject&toString方法 一、演示案例-WEB开发-JavaEE-动态代理 动态代理 代理模式Java当中最常用的设计模式之一。其特征是代理类与委托类有同样的接口,代理类…

K8s是常用命令和解释

K8s高频命令 获取资源信息,如获取 Pod、Service、Deployment等资源状态信息 kubectl get创建资源如创建Pod、Service、Deployment等资源 kubectl create删除资源,如删除Pod、Service、Deployment等资源 kubectl delete 应用配置文件,如引用D…

【模态分解】EMD-经验模态分解

算法配置页面,也可以一键导出结果数据 报表自定义绘制 获取和下载【PHM学习软件PHM源码】的方式 获取方式:Docshttps://jcn362s9p4t8.feishu.cn/wiki/A0NXwPxY3ie1cGkOy08cru6vnvc

TDengine 语言连接器(Go)

简介 driver-go 是 TDengine 的官方 Go 语言连接器,实现了 Go 语言 database/sql 包的接口。Go 开发人员可以通过它开发存取 TDengine 集群数据的应用软件。 Go 版本兼容性 支持 Go 1.14 及以上版本。 支持的平台 原生连接支持的平台和 TDengine 客户端驱动支持…

链接世界:计算机网络的核心与前沿

计算机网络引言 在数字化时代,计算机网络已经成为我们日常生活和工作中不可或缺的基础设施。从简单的局域网(LAN)到全球互联网,计算机网络将数以亿计的设备连接在一起,推动了信息交换、资源共享以及全球化的进程。 什…

AI agents系列之全面介绍

随着大型语言模型(LLMs)的出现,人工智能(AI)取得了巨大的飞跃。这些强大的系统彻底改变了自然语言处理,但当它们与代理能力结合时,才真正释放出潜力——能够自主地推理、规划和行动。这就是LLM代理大显身手的地方,它们代表了我们与AI交互以及利用AI的方式的范式转变。 …

如何使用AI辅助开发CSS3 - 通义灵码功能全解析

一、引言 CSS3 作为最新的 CSS 标准,引入了众多新特性,如弹性布局、网格布局等,极大地丰富了网页样式的设计能力。然而,CSS3 的样式规则繁多,记忆所有规则对于开发者来说几乎是不可能的任务。在实际开发中&#xff0c…

复刻系列-星穹铁道 3.2 版本先行展示页

复刻星穹铁道 3.2 版本先行展示页 0. 视频 手搓~星穹铁道~展示页~~~ 1. 基本信息 作者: 啊是特嗷桃系列: 复刻系列官方的网站: 《崩坏:星穹铁道》3.2版本「走过安眠地的花丛」专题展示页现已上线复刻的网…

爬虫:IP代理

什么是代理 代理服务器 代理服务器的作用 就是用来转发请求和响应 在爬虫中为何需要使用代理? 有些时候,需要对网站服务器发起高频的请求,网站的服务器会检测到这样的异常现象,则会讲请求对应机器的ip地址加入黑名单&#xff…

协程的原生挂起与恢复机制

目录 🔍 一、从开发者视角看协程挂起与恢复 🧠 二、协程挂起和恢复的机制原理:核心关键词 ✅ suspend 函数 ≠ 普通函数 ✅ Continuation(协程的控制器) 🔧 三、编译器做了什么?&#xff0…

c++11--std::forwaord--完美转发

std::forword的作用 完美转发的核心目的是保持参数的原始类型(包括const/volatile限定符和左值/右值性质)不变地传递给其他函数。 为什么需要完美转发 在没有完美转发之前,我们面临以下问题: 模板参数传递中的值类别丢失 当参数…

Linux安装开源版MQTT Broker——EMQX服务器环境从零到一的详细搭建教程

零、EMQX各个版本的区别 EMQX各个版本的功能对比详情https://docs.emqx.com/zh/emqx/latest/getting-started/feature-comparison.html

计算机组成原理-存储器

1. 存储器的定义与作用 存储器是计算机系统中用于存储程序、数据和中间结果的硬件设备,是计算机五大核心部件之一。 核心功能: 提供数据的 临时或永久存储 能力。支持CPU按需快速存取指令和数据,是程序运行的物理基础。 2. 存储器的分类 …

单片机领域中哈希表

以下是单片机领域中哈希表的实际应用及编程实例: 1.哈希表在单片机中的实际应用场景 • 命令解析:在单片机通信中,经常需要解析接收到的命令。使用哈希表可以快速地将命令字符串映射到对应的处理函数,提高命令解析的效率。 • 数…

算法思想之位运算(一)

欢迎拜访:雾里看山-CSDN博客 本篇主题:算法思想之位运算(一) 发布时间:2025.4.12 隶属专栏:算法 目录 滑动窗口算法介绍六大基础位运算符常用模板总结 例题位1的个数题目链接题目描述算法思路代码实现 比特位计数题目链接题目描述…

封装Tcp Socket

封装Tcp Socket 0. 前言1. Socket.hpp2. 简单的使用介绍 0. 前言 本文中用到的Log.hpp在笔者的历史文章中都有涉及,这里就不再粘贴源码了,学习地址如下:https://blog.csdn.net/weixin_73870552/article/details/145434855?spm1001.2014.3001…

全星APQP软件:为用户提供高效、合规、便捷的研发管理体验

全星APQP软件:为用户提供高效、合规、便捷的研发管理体验 为什么选择全星APQP软件系统? 在汽车及高端制造行业,研发项目管理涉及APQP(先期产品质量策划)、FMEA(失效模式与影响分析)、CP&#x…

CTF--网站被黑

一、原题: (1)提示:网站被黑了 黑客会不会留下后门 (2)原网页: 二、步骤: 1.在终端扫描网址: 2.扫描后发现:shell.php 3.输入网址:http://117.…