6-DOF GraspNet: Variational Grasp Generation for Object Manipulation

总结:

使用变分自动编码器(VAE)对抓取进行采样,并使用基于点网的抓取评估器模型对采样的抓取进行评估和细化

摘要:

我们将抓取生成问题表述为 使用变分自编码器对一组抓取进行采样,并使用抓取评 估器模型对采样的抓取进行评估和重新精细。Grasp Sampler和Grasp refine网络都将深度相机观测到的3D点 云作为输入。

1.简介

抓取选择是机器人操作中最重要的问题之一。在这 里,机器人观察一个物体,需要决定在哪里移动它的抓 手(3D位置和3D方向)来拾取物体(见图1)。抓手的选择是 复杂的,因为抓手的稳定性取决于物体和抓手的几何形 状、物体质量分布和表面摩擦。物体周围的几何形状对 抓取点的可达性提出了额外的约束,而不会导致机器人 机械手与场景中的其他物体发生碰撞(见图2)。

通常,这 个问题是通过几何启发的启发式方法来解决的,以选择 物体周围有希望的抓取点,可能随后会对采样抓取[31] 的稳定性和可达性进行更深入的几何分析。

这些方法中 的许多都依赖于物体的完整3D模型的可用性,这在现实 场景中是一个严重的限制,例如,机器人只能用嘈杂的 深度相机观察场景。为了克服这一限制,人们可以移动 相机来生成完整的物体模型或执行形状补全,然后进行 基于几何的抓取分析。然而,在受限的空间中移动相机并且对于抓取生成和评估进行形状补是不可能的。

最近,几个小组引入了深度学习技术来评估原始点 云数据的抓取质量[21,19,31,15]。

虽然这些方法提供了很 好的抓取评估,但它们仍然使用手动设计的启发式方法 对样本抓取进行评估,或者依赖于黑盒优化技术,如 CEM[19,35]。此外,它们并没有提供有效的方法来改善 采样抓取。

在本文中,我们引入了第一个基于学习的框 架,用于有效地为未知对象生成各种稳定抓取集。
我们 的方法引入了两种网络架构,用于采样、评估和改进抓 取。本文的主要贡献是:

  1. 可训练的变分自编码器(VAE),可将观察对象的部 分点云映射到该对象的不同抓取集。重要的是,我 们的VAE提供了所有可能的、有效的抓点的高覆盖 率,同时只产生少量的失败抓点。
  2. 为了提高VAE样本的精度,我们引入了一个抓取 评估器网络,该网络将观察对象和机器人抓取器 的点云映射到6D抓取器姿势的质量评估。至关重 要的是,我们证明了该网络的梯度可用于改进抓 取样本,例如移动抓取器以避免碰撞或确保抓取 器与物体良好对齐。
  3. 我们证明,我们的方法优于以前的方法,使机器 人能够拾取17个物体,成功率为88%。生成不同的 抓取是非常重要的,因为不是所有的抓取都是机 器人执行的运动学上可行的。我们进一步表明, 我们的方法在保持高成功率的同时生成了不同的 抓取样本集

本文组织如下。我们首先对比了使用深度学习的 抓取相关方法,然后解释了我们方法的不同组成部分: 抓取采样、评估和细化。最后,我们在一个真实的机 器人平台上评估了我们的方法,并展示了不同超参数 在各种消融研究中的影响。

2.相关工作

目前解决机器人抓取问题的主要方法是数据驱动抓取。 虽然早期的方法是基于手工制作的特征向量[27,1,7], 但最近的方法利用卷积架构来操作原始视觉测量[13,25, 21,19,14]。

这些抓取合成方法中的大多数都是通过将抓 取表示为图像[8]中的定向矩形来实现的。这种3-DOF 表示将夹持器姿态限制为与图像平面平行。这种表示 的缺点是多方面的:由于它限制了抓取的多样性,考虑 到手臂或任务施加的额外约束,拾取物体可能是不可 能的。在静态图像传感器的情况下,它还会导致严重 限制的工作空间[19]。Yan等人[35]通过包含 重建目标物体几何形状的辅助任务来规避这个问题。Zhou等人 [37]学习了一个抓握评分函数,他们也使用该函数进行 抓握细化。这两种方法[35,37]都 只在模拟中进行评估。

我们的方法解决了预测完整的6-DOF预抓姿势的 问题。

很少有方法将问题表述为对单个最佳抓取姿势的 回归[28,16]。它们本质上缺乏预测可能抓取的不同分 布的能力。Choi et al.[4]对24个预定义方向进行分类, 选择一个6-DOF预抓姿势。如此粗糙的SO(3)分辨率必 然会导致预测抓取的多样性有限。

相比之下,抓点检 测方法(GPD)[31,15]对候选抓点进行更密集的采样:对 观测到的点云中的一个点进行随机采样,并构建一个 与估计的表面法线和主曲率的局部方向对齐的达布框 架。尽管这种启发式方法创建了一组相当多样化的候 选抓点,但它无法沿着薄结构(如马克杯、盘子或碗的 边缘)生成抓点,因为从噪声测量中估计这些表面法线 是具有挑战性的。

我们学习的抓握采样器不会受到这 种偏差的影响。因此,我们提出的方法可以找到GPD 无法找到的抓手(参见第4.2节)。

除了使用监督学习之外,抓取也被表述为一个强 化学习问题[9,36]或它的近似[14]。学习到的抓取策略 比只描述最终的抓取姿势更具表现力。尽管如此,这 些方法的动作空间通常是se(2),将多样性限制在自上 而下的抓取。

Deep Neural Networks for Learning from 3D Data深度学习在3D点云数据上的成功要比它在RGB图像上 的巨大成功晚得多。在早期,三维数据被表示为三维体素 [20] 或从 2.5 深度图像中提取特征[6],并使用卷积神经网络对其进行类似于 RGB 图像的处理。Qi 等人[23, 24]引入了一种新的架构,称为PointNet 和 PointNet++,能够表示三维数据并高效地提取表示。PointNet的成功引入了代表3D数 据的不同网络架构[33,30],在3D物体姿态估计、语 义分割和零件分割方面有了显著改进[30,24,22,34]。 为了估计一个成功的喘息,抓取的6-DOF姿势需要是 准确的。在单个RGB图像上操作不能提供所需的精度, 因为输入和输出不在同一域中。因此,我们在SE(3) 中使用3D点云和point - net ++[24]来生成和评估抓地 率。

Variational Autoencoders 变分自编码器[10](VAE)是深度生成模 型的主要类别之一。vae可以以无监督的方式进行训 练,以最大化训练数据的似然性。它们已被应用于各 种任务,如未来预测[12,32],生成新颖的观点[11]和 目标分割[29]。在这项工作中,我们使用VAE对SE(3) 中的一组不同的把握进行采样。

我们模型的整体架构类似于GANs[5]。生成器模 块是一个基于潜在空间和观测点云x的不同样本的 VAE,它生成不同的抓取建议,评估网络(鉴别器)根 据它们成功的可能性接受或拒绝它们。生成器和鉴别 器都将对象的3D点云X作为输入的一部分。

3. 6DOF抓取姿势生成

我们将抓取姿势生成表述为生成机器人抓取姿势 集的过程,这样在这些姿势中的任何一个位置关闭抓 取器都会导致对物体的稳定抓取。此外,该过程应该 生成不同的姿势集,最终覆盖物体可能被抓住的所 有可能方式。在SE(3)中给出了机器人夹持器的姿态, 指定了夹持器的三维平移和三维方向。

在这里,我们 专注于生成单个对象的抓取姿势,由于机械手的到达 和由于场景中的其他对象而产生的额外约束超出了本 工作的范围,可以通过轨迹优化技术来处理。由于在 所有可能抓取的空间中成功抓取的子空间很窄,抓取 姿势生成是具有挑战性的。抓取姿势中的微小扰动可 以将成功的抓取转变为失败的抓取。为了生成不同的 稳定抓握集,我们的方法使用变分自编码器网络进行 采样抓握姿势,然后进行迭代评估和细化过程。

具体而言,我们旨在学习后分布p(g ∗ | x),其中g ∗表示所有成功的grasps和x的空间是相机观察到的对象的部分点云。每个Graspg∈G∗由(r,t)∈Se(3)表示,其中r∈SO(3)和T∈R3是grasp g的旋转和翻译。 grasps在对象参考框架中定义,其原点是x,是观察到的点云的质量中心。它的轴与相机框架的轴平行(见图3-A)。成功的grasps g ∗的分布可能是复杂的,脱节的。例如,杯子的G ∗分布沿边缘,手柄和底部具有多个模式。在每种模式中,成功的掌握空间是连续的,但可以将不同模式的掌握彼此分开。每个对象类别的单独模式的总数根据对象的形状和比例而变化。

由于G ∗的模式的数量未知,因此我们建议学习一个最大化成功graspsg∈G∗可能性的发生器模块。由于发电机仅在训练过程中观察到成功的抓取,因此它也可能会产生失败的graspsg∈G-。为了检测和完善这些负grasps,对评估模块进行了训练,以预测p(s | g,x),即,grasp g和观察到的点云X的成功概率。应用于采样的掌握,评估模式可以预测成功的掌握,并通过网络逐步传播成功,以产生改善的抓地力。可以重复此过程。丢弃所有保持阈值以下的抓地力,提供了最终的高质量掌握。我们方法的概述如图3-B所示。

3.1 Variational Grasp Sampler 变分抓取采样器

3.2 抓取姿势评价

抓取采样器只使用正抓取训练连续后验分布P(G | X, z)。因此,它可能包含分布模式之间的失败抓取。 这些过渡性的把握和其他误报需要被识别和修剪掉。 为此,我们需要一个把握评估网络,为每个把握分配 一个成功概率P(S|g, X)。这个网络需要相对于观察到的 点云X来推理抓取,但它也必须能够外推到物体未观 察到的部分。其他方法学习仅根据物体的局部观察部 分对抓取物进行分类[31,19]。在实践中,物体的观测 点云存在缺陷,如缺失或有噪声的深度值。为了缓解 这个问题,以前的方法求助于使用高质量的深度传感 器[19]或使用多视图[31],这限制了系统在受控环境之 外的部署。在这项工作中,我们仅使用对象的不完美 观测点云X对每次抓取进行分类。

抓取姿势的成功取决于抓取相对于对象的相对姿 势。评估器网络的输入是点云X和抓手g。与抓手采样 器类似,我们为抓手评估器使用点网[23]架构。对抓取 物进行分类有多种方法。第一种简单的方法是将抓手g 的6D姿态与第一层中每个点x∈x的特征相关联。我们 的实验表明,这样的表征导致抓握分类的准确性很差。 相反,我们建议用一种与物体点云更紧密联系的方式 来表示抓握g:我们通过一个根据6D抓取姿势g渲染的点 云Xg来近似机器人抓取器。物体点云X和抓取器点云 Xg通过使用一个额外的二进制特征组合成一个点云, 该特征表明一个点是属于物体还是属于抓取器。在点 网架构中,每个点的特征是点本身及其相邻点的特征 加上点之间的相对空间关系的函数。使用统一的点云 X∪X g,可以很自然地使用抓取姿势g和物体点云X之 间的所有相对信息来对抓取物进行分类。通过优化利 用交叉熵损失对抓握评估器进行优化。

其中y是抓取的基础真值二元标签,表示抓取是否成功, s是评估器预测的成功概率。 为了训练一个鲁棒的评估器,模型需要同时训练 正抓取和负抓取。由于所有可能的6D抓取姿势的空间 组合很大,因此不可能对所有的负抓取进行采样。相 反,我们进行硬负挖掘来对负抓取进行抽样。硬负抓 取的集合G − is定义为与积极抓取姿势相似,但要么与物体发生碰撞,要么 距离物体太远而无法抓取物体的抓取姿势。更正式地, G−被定义为:

3.3 迭代抓取姿势细化

xx

4.实验

xx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/734229.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

备考2024年小学生古诗文大会:历年真题15题练习和独家解析

如何提高小学生古诗词的知识?如何激发小学生古诗词的学习兴趣?如何提高小学古诗词的学习成绩?如何备考2024年小学生古诗文大会?...如果你也在关心和这些问题,我的建议是参加每年一度的小学生古诗词大会(免费…

亚马逊跨境电商名词解释

亚马逊界面名词解释 最常用的名词解释总结: ASIN:亚马逊标准标识号,也就是每个商品的编码标识,每个商品的都不同,可以把它当成该商品的“身份证号”。由亚马逊随机生成的字母数字组合。 SKU:库存进出计量单位。 Listing&#xf…

太强了!最全的大模型检索增强生成(RAG)技术概览!

本文是对检索增强生成(Retrieval Augmented Generation, RAG)技术和算法的全面研究,对各种方法进行了系统性的梳理。文章中还包含了我知识库中提到的各种实现和研究的链接集合。 鉴于本文的目标是对现有的RAG算法和技术进行概览和解释&#…

django学习记录07——订单案例(复选框+ajax请求)

1.订单的数据表 1.1 数据表结构 1.2 数据表的创建 models.py class Order(models.Model):"""订单号"""oid models.CharField(max_length64, verbose_name"订单号")title models.CharField(max_length64, verbose_name"名称&…

做跨境电商,选哪个浏览器好?跨境电商浏览器推荐

在我们的日常生活中,有很多浏览器可供选择,比如百度浏览器、谷歌浏览器和360、火狐等等。但是在跨境电商行业中,是否有特别适合我们卖家使用的浏览器呢?所谓跨境电商浏览器,就是为跨境电商用户设计的浏览器&#xff0c…

Unity 采用自定义通道ShaderGraph实现FullScreen的窗户雨滴效果

效果如下 ShaderGraph实现 N21 随机化 DragLayer分层 将DragLayer分成四层,分别调整每层的缩放和大小 Shader实现的链接(Unity 雨水滴到屏幕效果) 我也是参考这个实现Shader Graph

微信小程序-侧滑删除

简介 movable-view和movable-area是可移动的视图容器,在页面中可以拖拽滑动。 本篇文章将会通过该容器实现一个常用的拖拽按钮功能。 使用效果 代码实现 side-view.wtml 布局见下面代码,left view为内容区域,right view为操作按钮&a…

初探深度学习-手写字体识别

前言 手写数字的神经网络识别通常指的是通过训练有素的神经网络模型来识别和分类手写数字图像的任务。这种类型的任务是机器学习和计算机视觉领域的一个经典问题,经常作为入门级的图像识别问题来展示和测试各种机器学习算法的能力。在实际应用中,手写数…

mac电脑总卡蓝屏是怎么回事,苹果电脑老卡蓝屏怎么办

电脑老卡蓝屏是比较常见的电脑故障之一,导致这一问题的出现很可能是电脑本身的硬件,或电脑上的驱动安装错误,没法运行,当然也不排除其他的一些因素。虽说电脑蓝屏是电脑几乎都会出现的小毛病,不足以致命,但…

基于决策树实现葡萄酒分类

基于决策树实现葡萄酒分类 将葡萄酒数据集拆分成训练集和测试集,搭建tree_1和tree_2两个决策树模型,tree_1使用信息增益作为特征选择指标,B树使用基尼指数作为特征选择指标,各自对训练集进行训练,然后分别对训练集和测…

图论练习6

[NOIP2013]车站分级 Here 解题思路 由于起始点之间所选的站号,相互之间一定满足那么对于起始点间未选择的站号,一定满足选择的站号考虑用边来维护信息,表示的级别大于按题意,则车站会被分为几个联通块,且保证块内无环…

So you think you understand IP fragmentation?

文章目录 前言一、Why care?二、Prevention三、Well-understood?四、Introducing fragquiz五、A novel (?) algorithm六、Reader challenge七、traceroute八、ICMP参考资料 前言 本文来自:https://lwn.net/Articles/960913/ February 7, 2024This article was …

【Python】成功解决ModuleNotFoundError: No module named ‘seaborn’

【Python】成功解决ModuleNotFoundError: No module named ‘seaborn’ 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 …

高分辨率全球海洋温度和盐度再分析数据Global Ocean Physics Reanalysis(0.083°),并利用matlab读取绘图

1.引言 在研究全球海平面变化的问题中,卫星测高获得总的海平面变化,而海平面变化包含质量变化和比容变化。因此测高数据和海洋物理分析数据对于海平面研究至关重要。 测高数据下载网址: Global Ocean Gridded L 4 Sea Surface Heights And …

动态规划课堂4-----子数组系列

目录 引入: 例题1:最大子数组和 例题2:环形子数组的最大和 例题3:乘积最大子数组 例题4:乘积为正数的最长子数组 总结: 结语: 引入: 在动态规划(DP)子…

农场管理小程序|基于微信小程序的农场管理系统设计与实现(源码+数据库+文档)

农场管理小程序目录 目录 基于微信小程序的农场管理系统设计与实现 一、前言 二、系统设计 三、系统功能设计 1、用户信息管理 2、农场信息管理 3、公告信息管理 4、论坛信息管理 四、数据库设计 五、核心代码 七、最新计算机毕设选题推荐 八、源码获取&#x…

【工具使用-VScode】VScode如何设置空格和tab键显示

一,简介 在提交代码的时候,行末尾的tab和空格不符合规范,但是如果在vscode中不显示tab和空格的话,不能及时的查看到并改正,导致提交代码之后还需要再次进行修改,效率比较低。 代码编辑界面如图所示&#…

【大厂AI课学习笔记NO.68】开源和开源发展情况

开源即源代码公开,任何人能获取源代码,查看、修改、分发他们认为合适的代码。 依托同行评审和社区生成,旨在以分散、协作的方式开发。 我们曾经很详细的讨论过开源协议的问题,详细可以参考我的文章: https://giszz.…

LeetCode-1004. 最大连续1的个数 III

每日一题系列(day 20) 前言: 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 &#x1f50…

docker部署在线聊天室平台Fiora

Fiora 是一款开源免费的在线聊天系统 https://github.com/yinxin630/fiora 部署 创建docker网络 docker network create fiora-networkdocker-compose部署 vim docker-compose.yml version: 3 services:fiora_redis:image: rediscontainer_name: fiora_redisrestart: alway…