ICRA 2024:基于视觉触觉传感器的物体表⾯分类的Sim2Real双层适应⽅法

⼈们通常通过视觉来感知物体表⾯的性质,但有时需要通过触觉信息来补充或替代视觉信息。在机器⼈感知物体属性⽅⾯,基于视觉的触觉传感器是⽬前的最新技术,因为它们可以产⽣与表⾯接触的⾼分辨率 RGB 触觉图像。然⽽,这些图像需要⼤量的数据进⾏训练,⽽在现实世界中收集这些数据可能很困难。虽然已经提出了模拟器来解决这个问题,但它们很难以⾼保真度重现机械特性和光分布效果。因此,本⽂旨在通过使⽤从DIGIT传感器收集的少量真实未标记图像训练扩散模型(Diffusion Model)来填补模拟和真实图像之间的差距。

论⽂地址: https://arxiv.org/abs/2311.01380

作者提出了⼀个可以区分平⾯、曲线、边缘和⻆落四种类别的表⾯分类器,并使⽤从 YCB 模型集中的对象表⾯均匀采样的模拟图像进⾏训练。为了标记这些图像,作者在对象⽹格上采样点云,并使⽤⾃动过程评估每个点的局部曲率来提取标签。作者在⼗个 3D 打印的 YCB 对象上测试了分类器,并与仅使⽤模拟图像训练的分类器进⾏了⽐较。实验结果表明,作者的⽅法在分类任务中取得了更好的准确性。

1.相关⼯作

作者对⽐了其他基于视觉触觉传感器的物体表⾯分类的相关⼯作。

在 Sim2Real ⽅⾯,⼀些⼯作通过模拟真实传感器的⾏为来减⼩ Sim2Real 差距。还有⼀些⽅法试图减⼩模拟和真实图像之间的领域差异。与之不同,作者的⼯作是利⽤来⾃ TACTO 的模拟图像,通过在真实图像上训练的 DM 进⾏转换,以模拟凝㬵的真实变形和传感器的光传输。

Learning to Read
Braille: Bridging the Tactile Reality
Gap with Diffusion Models
https://arxiv.org/abs/2304.01182
这份⼯作中也采取了类似的⽅法,但是其使⽤的 DM 是使⽤附加深度的图⽚中训练出来的,⽽这些图⽚来⾃于
MidasTouch: Monte-Carlo
inference over distributions across sliding touch
https://arxiv.org/abs/2210.14210
训练的⽹络。在作者的例⼦中,并不需要这个⽹络,只依赖于 RGB 的图像。
在基于视觉触觉传感器的物体感知⽅⾯,没有直接使⽤基于视觉触觉传感器对物体表⾯进⾏分类的⼯作。作者参考了其它推断物体的类似属性的⼯作,如形状估计或识别表⾯上可能的接触点等。

2.⽅法

本⽂的⽅法主要包括两个层次的适应,以减⼩模拟和真实数据之间的差距,并提⾼分类性能。⾸先,本⽂采⽤概率 DM(Diffusion Model)来翻译模拟图像,以减⼩模拟和真实图像之间的领域差异。其次,本⽂使⽤领域对抗训练(Domain-Adversarial Training of Neural Networks,DANN)⽅法来进⼀步调整模型特征,以提⾼分类性能。
在这里插入图片描述

2.1模拟数据的获取和标记

⾸先,使⽤ Poisson disk sampling ⽅法从物体⽹格中提取均匀分布的点云,并考虑传感器在法线⽅向上的旋转和穿透深度,模拟 DIGIT 传感器产⽣的图像。然后,使⽤⼀个简单⽽有效的算法对点云中的每个点进⾏分类,将其标记为平⾯、曲线、边缘或⻆点。通过这种⽅式,⾃动化地获取和标记了模拟数据。整个过程确保了数据的多样性和标记的准确性。
在这里插入图片描述

2.2图像级适应
在这里插入图片描述

由于 DIGIT 传感器获得的模拟图像和真实图像表现出的显著差异,作者提出了⼀种⽆监督的转换⽅法来解决这两个域之间的域转移问题。具体来说,作者通过训练⼀个 DM 模型来根据模拟图像⽣成对应真实世界域的图像,在训练之后,可以在模拟图像中引⼊随机噪声,再通过 DM 反向降噪,最终⽣成对应真实⻛格的图像。
2.3特征级适应

虽然经过 DM 处理,图像的域移已经显著减少,但还存在⼀些残余的差异,为了解决这个问题,作者利⽤⼀种称为神经⽹络的对抗性域⾃适应训练(DANN)的经典对抗性⽅法来学习域不变表⽰。作者使⽤ Dinov2 的⽅法,使⽤预训练 ViT 作为特征提取器,并训练瓶颈层和分类器将特征映射到域不变空间和⽬标类别,并且使⽤判别器来区分真实和模拟图像,⽽瓶颈层则被优化为使两个域的特征⽆法区分。
在这里插入图片描述

2.4训练和测试数据集

作者⼀共使⽤三个数据集,第⼀个数据集Trainreal包含 5000 个从⽇常物品获取的真实图像。第⼆个数据集Trainsim包括从 10 个YCB 物体⽣成的 50000 个模拟图像。第三个数据集Testreal包含 792 个从3D 打印的YCB物体获取的真实图像,⽤于评估⽬的。这些数据集⽤于训练扩散⽅法(DM)和使⽤领域对抗训练神经⽹络(DANN)的分类器,并在Testreal上进⾏测试。

3.实验结果

作者通过评估分类器在每个对象上的准确性和每个类别的 F1 分数,来评估分类器的性能。并进⾏了⼏项消融研究,以调查 DM 和 DANN 程序的作⽤。除了分类任务外,作者还将此⽅法应⽤于估计 6D 物体姿态的流⽔线(Pipeline)中,以展⽰其在实际任务中的有效性。

3.1表⾯分类实验

作者通过对⽐

None:未经过翻译的模拟图像

Tactile Diffusion: 上⽂提到的扩散模型图像翻译

Ours:论⽂中提出的⽅法并且对于每个对⽐项内,分别对⽐是否使⽤ DANN,结论如下
在这里插入图片描述

在这里插入图片描述

Accuracy
F1-Score根据实验结果,作者的⽅法在表⾯类型分类任务中表现出⾊,特别是在⻆部类别(corner)上取得不错的性能表现。实验结果表明,作者提出的分类器和⾃动标注程序的结合对于提供传感器在物体表⾯接触位置的假设是有⽤的。
3.2 6D 物体姿态估计实验

作者通过使⽤

Collision-aware In-hand
6D Object Pose Estimation using Multiple Vision-based Tactile Sensors
https://arxiv.org/abs/2301.13667
提到的算法来估计与 N 个触觉传感器接触的物体的 6D 姿态。通过输⼊触觉图像和机器⼈本体感知的传感器姿态来估计物体的 6D 姿态,并且替换了⽂中的假设提取部分,⽤本⽂提出的表⾯分类器来⽣成假设,之后在每个对象上使⽤了 3 个传感器进⾏实验,并结合了从分类实验中收集的多种传感器姿态。
实验通过⽐较输出姿态和基准姿态,评估位置误差和 ADI-AUC 指标,具体结果如下

本⽂⽅法相对于⼏何基准⽅法,在位置误差上减少了⼀半,旋转指标提⾼了超过⼗个百分点。实验结果表明了使⽤触觉反馈(表⾯分类器)显著降低了位置误差,并提⾼了旋转精度。由此验证了本⽂⽅法在实际应⽤中的有效性。
4.局限性与结论
在这里插入图片描述

虽然本⽂的⽅法在减少 Sim2Real 的域差异和提⾼物体表⾯分类与 6D 物体姿态估计的准确性⽅⾯表现出了显著优势,作者认为仍然存在 2 个⽅⾯的不⾜DIGIT传感器的弹性体需要适度的⼒才能突出表⾯差异。如果接触⼒不⾜,可能会影响⽅法的效果。扩散模型的训练和图像翻译时间较⻓,尽管模型在不同设备上⽆需重新训练,但时间消耗仍不可忽视。未来将探索本⽂⽅法在其他机器⼈任务中的应⽤,并研究新的适应机制以进⼀步提⾼分类精度,同时处理多表⾯同时接触的情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/26428.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何通过亚马逊测评提升产品竞争力的关键策略

在亚马逊这个全球领先的跨境电商平台上,随着卖家数量的激增,产品间的竞争愈发激烈,为了在市场中脱颖而出,提高产品的竞争力成为了每位卖家必须面对的问题,而在这其中,亚马逊测评作为一种有效的市场策略&…

STM32项目分享:车牌号识别系统

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 1.PCB图 2.PCB板打样焊接图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片: 哔哩哔哩视频链接: https://www.bilibili.…

python数据分析-房价数据集聚类分析

一、研究背景和意义 随着房地产市场的快速发展,房价数据成为了人们关注的焦点。了解房价的分布特征、影响因素以及不同区域之间的差异对于购房者、房地产开发商、政府部门等都具有重要的意义。通过对房价数据的聚类分析,可以深入了解房价的内在结构和规…

Flutter 简化线程Isolate的使用

文章目录 前言一、完整代码二、使用示例1、通过lambda启动线程2、获取线程返回值3、线程通信4、结束isolate 总结 前言 flutter的线程是数据独立的,每个线程一般通过sendport来传输数据,这样使得线程调用没那么方便,本文将提供一种支持lambd…

音频处理1_基本概念

AI变声和音乐创作的基础 声音本质上是人类可察觉范围内的气压周期性波动, 即声波 声波是一种连续信号,在任意时间内的声音信号有无数个取值。对于只能读取有限长数组计算机来说,我们需要将连续的声音信号转换为一个离散的序列,即数字化表示。…

法考报名必看,99%高过审率证件照片电子版制作技巧

在2024年,法考备战已经如火如荼进行中,作为进入法律行业的第一步,参加法考的重要性不言而喻。而作为报名过程中必不可少的一环,报名照片要求以及证件照制作技巧更是需要我们特别重视的部分。想要在这个过程中顺利通过审核&#xf…

【全开源】图书借阅管理系统源码(ThinkPHP+FastAdmin)

📚图书借阅管理系统:打造你的私人图书馆 一款基于ThinkPHPFastAdmin开发的简易图书借阅管理系统,一款轻量级的图书借阅管理系统,具有会员管理,图书管理,借阅及归还管理,会员充值等基本功能&…

使用 PNPM 从 0 搭建 monorepo,测试并发布

1 目标 通过 PNPM 创建一个 monorepo(多个项目在一个代码仓库)项目,形成一个通用的仓库模板。 这个仓库既可以用于公司存放和管理所有的项目,也可以用于将个人班余的所有积累整合其中。 这里以在 monorepo 项目中搭建 web compon…

x64-linux下在vscode使用vcpkg

1.使用vscode远程连接上对应的linux ,或者直接在图形化界面上使用。 2.安装vcpkg 插件,然后打开插件设置。 注意:defalut和host的主机一定和你自己的主机一致,且必须符合vcpkg三元组格式,其中你可以选择工作台的设置&a…

揭秘!5大策略让广告变现长久有效

在数字化时代的浪潮下,广告变现作为自媒体和APP开发者重要的收入来源,越来越受到重视。 但如何让这种变现方式长久持续,成为许多内容创作者与平台运营者思考的问题。 本文旨在探讨广告变现的持久之道,通过分析前端展示、合规性、…

OpenCV特征匹配

1、OpenCV Brute-Force匹配器 Brute-Force匹配器的匹配方法非常简单,输入两张图像所分别对应的特征(特征点坐标与特征点域对应的描述子),循环遍历两幅图像中的特征,计算第一幅图像与第二幅图像之间每个特征点之间的距…

【日记】第一次养植物,没什么经验……(781 字)

正文 前两天梦见灵送的几盆植物全都死掉了。梦里好伤心。醒来与她说这件事,她宽慰我说,梦都是反着的,肯定能活得很好的。于是忽然记起昨天给植物换水时,文竹的根居然从花盆底部伸吊了出来,以前都没有这种情况来着&…

ArcGIS Pro 3.0加载在线高德地图

1、打开ArcGIS Online官网,登录自己的账号,登录后效果如下图所示 官网地址:https://www.arcgis.com/home/webmap/viewer.html 2、点击Add,选择Add Layer from Web,如下图所示 3、在显示的Add Layer from Web页面内&am…

RabbitMQ-Stream(高级详解)

文章目录 什么是流何时使用 RabbitMQ Stream?在 RabbitMQ 中使用流的其他方式基本使用Offset参数chunk Stream 插件服务端消息偏移量追踪示例 示例应用程序RabbitMQ 流 Java API概述环境创建具有所有默认值的环境使用 URI 创建环境创建具有多个 URI 的环境 启用 TLS…

c#调用c++dll方法

添加dll文件到debug目录,c#生成的exe的相同目录 就可以直接使用了,放在构造函数里面测试

手机流畅运行470亿参数大模型,上交大发布PowerInfer-2推理框架,性能提升29倍

苹果一出手,在手机等移动设备上部署大模型迅速成为行业焦点。 目前,移动设备上运行的模型相对较小(苹果的是3B,谷歌的是2B),并且消耗大量内存,这在很大程度上限制了其应用场景。 即使是苹果&…

linux中: IDEA 由于JVM 设置内存过小,导致打开项目闪退问题

1. 找到idea安装目录 由于无法打开idea,只能找到idea安装目录 在linux(debian/ubuntu)中idea的插件默认安装位置和配置文件在哪里? 默认路径: /home/当前用户名/.config/JetBrains/IntelliJIdea2020.具体版本号/options2. 找到jvm配置文件 IDEA安装…

MNIST手写字符分类-卷积

MNIST手写字符分类-卷积 文章目录 MNIST手写字符分类-卷积1 模型构造2 训练3 推理4 导出5 onnx测试6 opencv部署7 总结 在上一篇中,我们介绍了如何在pytorch中使用线性层ReLU非线性层堆叠的网络进行手写字符识别的网络构建、训练、模型保存、导出和推理测试。本篇文…

Redis高性能原理:Redis为什么这么快?

目录 前言: 一、Redis知识系统观 二、Redis为什么这么快? 三、Redis 唯快不破的原理总结 四、Redis6.x的多线程 前言: Redis 为了高性能,从各方各面都进行了优化。学习一门技术,通常只接触了零散的技术点&#xff…