目标检测是一种基于目标几何和统计特征的图像分割,最新的进展一般是通过R-CNN(基于区域的卷积神经网络)来实现的,其中最重要的方法之一是Faster R-CNN。
1. 总体结构
Faster R-CNN的基本结构如下图所示,其基础是深度全卷积网络(ZF或者VGG-16)。在深度全卷积网络输出的特征图(Feature Map)上,增加了区域提议网络(RPN,Region Proposal Network),该网络的主要任务是提出Proposals。根据提出的这些Proposals对特征图进行裁剪,当然对不同区域裁剪以后的尺寸是不一致的,因此需要进行RoI池化(RoI Pooling),转换成统一的尺寸,最终得到每个区域的分类。