链接:1301.3592.pdf (arxiv.org)
这个用于从单一RGB-D视图进行机器人抓取检测的算法包括以下步骤:
-
图像获取:
- 机器人获取包含待抓取对象的场景的RGB-D图像。
-
抓取评分:
- 使用小型深度网络对RGB-D图像中的潜在抓取进行评分。
- 抓取以在图像平面中表示的定向矩形为基础,其中一对平行边对应于机器人夹爪。
- 每个矩形由其左上角的X和Y坐标、宽度、高度和在图像平面的方向参数化,形成了一个五维搜索空间。
-
特征学习:
- 该算法利用深度学习方法为每个候选抓取学习一组RGB-D特征。
- 从对应矩形内提取特征,这些矩形与夹爪板对齐。
-
多模态正则化:
- 引入了结构化的多模态正则化方法,以提高从RGB-D数据中学到的特征质量,而无需限制网络结构。
-
抓取排序:
- 根据学到的特征对抓取进行排序。
-
姿态转换和方向:
- 该算法将检测到的矩形转换为夹爪抓取的姿态。
- 识别矩形内(水平方向上)中心第三部分最小深度的点。
- 围绕该点的平均表面法线确定夹爪的进入矢量。
- 将检测到的矩形的方向翻译为围绕此矢量的旋转,以确定夹爪的方向。
-
执行抓取:
- 矩形中心的X-Y坐标以及最近点的深度确定了机器人坐标系中的抓取点。
- 通过沿进入矢量的方向向后移动10厘米,计算出一个预抓取位置。
- 夹爪定位在此点,机器人沿着进入矢量接近物体,执行抓取。
-
深度网络训练:
- 使用标准的特征学习方法(例如稀疏自动编码器)训练深度网络,用于解决矩形识别(即,给定图像空间中的矩形是否对应于有效的机器人抓取)的问题。
总体而言,该算法利用深度学习不仅学习抓取排序权重,还学习用于排序的特征,重点关注RGB-D数据,并使用了多模态正则化。