本文提出了一种基于CNN的3D物体识别方法,能够从3D图像表示中识别3D物体,并在比较了不同的体素时的准确性。已有文献中,3D CNN使用3D点云数据集或者RGBD图像来构建3D CNNs,但是CNN也可以用于直接识别物体体积表示的体素。本文中,我们提出了3D CAD物体检测。
相关工作
- 3D形状描述符。现代3D物体识别模型起始于60年代,早期的识别框架基于几何模型。然而,大多数识别工作基于手工提取的特征描述符,例如点特征直方图,3D形状上下文等。CNN第一次用于识别3D物体识别时用于识别RGBD图像,其中深度作为额外的输入通道。基于深度的方法在概念上非常类似于基于二维的识别方法。深度仅作为CNN的第四个通道,使用3D合成模型作为CNN的输入。然而,使用深度通道和颜色通道产生2.5D,不能提供物体的全部几何信息。近年来,研究者尝试了基于多视图和体积信息来更好的形状描述符。
- 卷积神经网络。CNNs是为图像和音频信号等二维数据而设计的。它广泛应用于各种计算机视觉任务和数据科学中。CNN在基于二维图像的任务中被广泛使用的原因是可以获得大量的基准数据集,与手工制作的特征相比,这些大型数据集有助于生成更好的图像描述符。本文将相似的特征学习方法应用于三维数据而不是二维数据。
- 三维数据上的卷积神经网络. 近年来,随着基于距离和三维CAD数据集的可用性,研究人员获得了与二维图像相比的图像中物体的附加信息。在深度网络中,采用动作、多视图和基于体积的方法来表示三维数据。将基于运动的CNN结构成功地应用于动作识别任务中。Wu等人开发了第一个基于体积数据的CNN架构,即3DShapeNets。3DShapeNets使用一个深度信念网络来表示三维几何形状,将其表示为三维体素网格上二进制变量的概率分布。他们也用他们的方法从深度图中完成形状。然而,我们的工作灵感来自VoxNet,它是由Maturana & Shere设计的。VoxNet由一个简单而有效的CNN组成,接受类似于Wu等人的输入体素网格。3D ShapeNets和VoxelNet提供了最先进的结果。另外值得注意的作品还有Shi等人提出的全景视图[22]和Su等人提出的多视图CNN。
数据集
近年来,已有一些3D数据集可用。但是,这些数据集没有像包含2D图像的ImageNet1数据集那样大。有许多合理大小的三维数据集。大多数三维数据集是基于点云的,这些点云是通过距离扫描器获取的,比如ModelNet2、Sydney Urban Objects3、SUN-3D4。ModelNet数据集用于训练和测试提出的CNN模型。ModelNet数据集包含来自662个不同对象类的127,915张CAD三维图像。ModelNet40是ModelNet的一个子集,它是3D对象识别的基准,并分为9843个训练图像和2468个测试图像中使用。在实验中,我们还在ModelNet10上测试了我们的网络。ModelNet10有10个对象类别,它是ModelNet40的一个子集。在实验中,我们还在ModelNet10上测试了我们的网络。ModelNet10有10个对象类别,它是ModelNet40的一个子集。
方法
通过从目标类中选择最相似的特征,实现了三维CNN中的目标识别。对象识别过程可分为两部分,即三维对象的数据表示和CNN对表示数据的训练。我们在提出的架构中使用了三维体数据表示。大多数研究人员使用体素或点云方法来表示体积数据。我们在CNNs中使用了基于体素的数据表示。体素是在二进制“occupation grid”的帮助下生成的。与二维数据集相比,dataset提供的模型数量较少,因此,为了利用网络,我们向模型提供了沿重力方向30°的旋转。所有的体素都是由ModelNet 数据集中提供的网格模型渲染到12个不同的方向后生成的。本文所提出的网络是Voxnet的改进版本。我们使用了两种不同的网络进行培训。
网络模型1
Network-1包括三个卷积层和两个完全连接的层。大多数研究人员使用的体素大小等于或小于32×32×32。但是,我们认为32×32×32像素对于一个物体的准确预测是非常少的。在二维图像任务中,实验表明小于227×227的迭代对二维图像中的目标识别任务效果不佳。为了充分利用网络,我们使用体素有32×32×32、64×64×64、128×128×128三种不同尺寸。体素中的许多像素表示空单元,产生大量不必要的矩阵乘法(零值矩阵)。为了降低这一成本,我们使用5×5×5的核来代替体积CNNs中常用的3×3×3卷积核。卷积(layer)操作后使用ReLU和max-pooling(大小为2×2×2)层。池化层来减少过多参数的过拟合。为了避免数据过拟合,由于方向和相似的视图,我们在第一个完全连接层之前使用dropout层,概率为0.5。
网络模型2
网络模型2的灵感来自AlexNet的网络架构。它由五个卷积层和三个全连接的层组成。网络模型2还使用了体素的多个视图。我们以30度旋转训练网络。除了池之外,此网络具有network-1中使用的所有设置。为了训练网络,我们没有使用网络中池化层。在我们看来,池化可以在对象的形状上产生歧义。Network-2帮助我们了解CNN的深度如何影响识别模型的性能。
实验
该网络使用ModelNet数据集进行训练和测试。所有的三维CAD图像都使用[19]提供的脚本在体素中转换。我们测试了不同尺寸的体素32×32×32、64×64×64和128×128×128的网络。我们分别实现了这两个网络,并比较了它们的结果。然而,两种网络的结果有非常小的差异。我们比较了ModelNet10和ModelNet40数据集的体素大小相同的结果。结果表明,高分辨率体素提高了识别任务的精度。与VoxNet相比,我们的模型具有更好的精度。然而,VoxNet在其架构中只有不到100万个参数,而我们的network-2有超过200万个参数。我们训练network-2不使用pooling来测试pooling对volume - CNN的效果。但结果表明,池化层对结果没有显著影响。池化层对性能没有影响的原因之一是,用于训练和测试的所有体素都是实心的。ModelNet数据集中没有一个对象模型,它具有空心对象。结果如图4所示,图5为损耗和精度。
结论
本文描述了基于体素的三维数据表示的三维数据识别任务。分析了CNN在不同体素尺寸下的性能。分析进一步设计新的网络和测试不同大小的体素,以找到适合CNN操作的大小。实验结果表明,体素的大小直接影响目标识别任务。但是另一方面,增加体素的大小会在容量CNN架构中造成性能瓶颈。为了克服这一问题,我们应该探索一种关于时间和空间的优化数据结构来处理体素的大尺寸。