【简介】 Fast RCNN[6]网络是RCNN和SPPNet的改进版,该网路使得我们可以在相同的网络配置下同时训练一个检测器和边框回归器。该网络首先输入图像,图像被传递到CNN中提取特征,并返回感兴趣的区域ROI,之后再ROI上运用ROI池化层以保证每个区域的尺寸相同,最后这些区域的特征被传递到全连接层的网络中进行分类,并用Softmax和线性回归层同时返回边界框。
【性能】 Fast RCNN在VOC-07数据集上将检测精度mAP从58.5%提高到70.0%,检测速度比RCNN提高了200倍。
【不足】 Fast RCNN仍然选用选择性搜索算法来寻找感兴趣的区域,这一过程通常较慢,与RCNN不同的是,Fast RCNN处理一张图片大约需要2秒,但是在大型真实数据集上,这种速度仍然不够理想。
Fast R-CNN架构。将一个输入图像和多个感兴趣区域(roi)输入到一个全卷积网络中。每个RoI被汇集到一个固定大小的特征映射中,然后通过全连接层(FCs)映射到一个特征向量。该网络在每个RoI上有两个输出向量:softmax概率和每个类的边界框回归偏移量。
也就是:一个快速的R-CNN网络接收整个图像和一组目标建议作为输入。该网络首先使用几个卷积(conv)和最大池化层处理整个图像,以生成一个conv特征图。然后,针对每个目标提议,由感兴趣区域(RoI)池化层从特征图中提取定长特征向量。每个特征向量被送入一个全连接(fc)层序列,最后分支成两个同级输出层:一个产生K个目标类的softmax概率估计,加上一个全面的“背景”类;另一个层为每个K个目标类输出4个实值数字。每组4个值为K个类中的一个编码改进的边界框位置。