目标检测——RCNN系列学习(一）

前置知识

包括：非极大值抑制（NMS）、selective search等

RCNN

[1311.2524] Rich feature hierarchies for accurate object detection and semantic segmentation (arxiv.org)https://arxiv.org/abs/1311.2524

1.网络训练

2.推理流程

3.总结

1.多阶段模型：RCNN框架上看分为三个部分：预测类别的CNN特征提取网络，SVM分类器，BoundingBox回归预测模型，训练起来很麻烦；

2.计算时间长：每个提出的region proposal都需要单独计算一次feature map

3.占用空间大：需要保存所有的region proposal的feature map

SPP-Net

[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (arxiv.org)https://arxiv.org/abs/1406.4729

1.Motivation

RCNN的问题：

速度瓶颈：重复为每个region proposal提取特征是极其费时的，Selective Search对于每幅图片产生2K左右个region proposal，也就是意味着一幅图片需要经过2K次的完整的CNN计算得到最终的结果。
性能瓶颈：对于所有的region proposal放缩到固定的尺寸会导致我们不期望看到的几何形变，而且由于速度瓶颈的存在，不可能采用多尺度或者是大量的数据增强去训练模型。

问题核心：

CNN网络需要固定的输入尺寸？

进一步剖析，CNN为什么需要固定的输入尺寸？

何恺明团队发现，这是由于网络中的全连接层（fc）所导致的，卷积层是不需要的，而全连接层需要指定输入张量的维度。那么有没有办法解决这一问题呢？

2.SPP-Net

SPP-Net的做法就是在CNN网络的卷积层和全连接层中加入一个新的层，叫做Spatial Pyramid Pooling（空间金字塔池化层），将卷积层的输出转化为了固定的尺度。

其实这个名字里面包含了两个要素：空间金字塔、池化：

1.空间金字塔：多尺度信息的利用

2.池化：信息的聚合，同时降低参数量，加速模型计算

具体的做法如下：

简单的描述一下：

对于卷积层的最后一层输出，尺寸为任意的H*W*C（示例图中channel为256），我们将H和W按统一规则切分，分成16份、4份、1份，每个区域（H/4*W/4*C, H/2*W/2*C, H*W*256）都进行池化操作，最后concat在一起，张量维度变成：（16+4+1）* 256 = 5376维。无论H、W为什么值，全连接的输入都是这个维度。

3.一个实现细节：如何从一个region proposal 映射到feature map的位置？

SPPNet通过 corner point将图像像素映射到feature map上，假设每一层的padding都是p/2，p为卷积核大小。对于feature map的一个像素（x',y'），其实际感受野为：（Sx‘，Sy’），其中S为之前所有层strides的乘积。然后对于region proposal的位置，我们获取左上右下两个点对应的feature map的位置，然后取特征就好了。

左上角映射为： $x'=[x/S]+1$

右下角映射为： $x'=[x/S]-1$

Fast RCNN

[1504.08083] Fast R-CNN (arxiv.org)https://arxiv.org/abs/1504.08083

（部分内容参考：目标检测之Fast RCNN - 知乎 (zhihu.com)）

1.Motivation

主要是针对RCNN中的问题：

冗余的特征提取 + 需要固定region proposal的尺度 + SVM和fc需要分开训练，无法端到端

2.推理流程

拿到一张图片，使用selective search选取建议框
将原始图片输入卷积神经网络之中，获取特征图（最后一次池化前的卷积计算结果）
对每个建议框，从特征图中找到对应位置（按照比例寻找即可），截取出特征框（深度保持不变）
将每个特征框划分为 H*W个网格（论文中是 7×7 ），在每个网格内进行池化（即每个网格内取最大值），这就是ROI池化。这样每个特征框就被转化为了 7×7×C的矩阵(其中C为深度)
对每个矩阵拉长为一个向量，分别作为之后的全连接层的输入
全连接层的输出有两个，计算分类得分和bounding box回归（bounding box表示预测时要画的框）。前者是sotfmax的21类分类器（假设有20个类别+背景类），输出属于每一类的概率（所有建议框的输出构成得分矩阵）；后者是输出一个 20×4 的矩阵，4表示(x, y, w, h)，20表示20个类，这里是对20个类分别计算了框的位置和大小
对输出的得分矩阵使用非极大抑制方法选出少数框，对每一个框选择概率最大的类作为标注的类，根据网络结构的第二个输出，选择对应类下的位置和大小对图像进行标注

（1）RoI Pooling

在学习了SPP-Net之后，ROI池化就很好理解了，其实可以看成单一尺度的SPP层。

（2）全连接的思考

Q: 为什么第2个fc层要输出一个 20×4 的矩阵，而不是一个4维的向量就行呢？

A: 注意这里的两个全连接层是并行训练的，也就是第一个fc层学习到的类别信息，第二个fc层是无法共享的。因此，如果只学习4维的bounding box框，相当于需要第二个fc隐含的学习类别信息，在没有label作为gt的情况下，训练难度极大，所以学习20*4个框，对类别信息解耦，相当于告诉网络，指定类别去预测框的位置。

3.网络训练

（1）网络结构

初始化为一个预训练的VGG-16网络，改动网络结构：

将最后一个最大池化层换成ROI池化层
将最后一个全连接层和后面的softmax1000分类器换成两个并行层，一个是全连接层1+21分类器，另一个是全连接层2+表示每个类预测框位置的输出
输入的不再只是图片，还有提取到的建议框位置信息

（2）网络训练

训练输入：图像、GT、Region proposal的坐标

为了提高训练速度，采取了小批量梯度下降的方式，每次使用2张图片的128张建议框（每张图片取64个建议框）更新参数。

每次更新参数的训练步骤如下

2张图像直接经过前面的卷积层获得特征图
根据ground truth标注所有建议框的类别。具体步骤为，对每一个类别的ground truth，与它的iou大于0.5的建议框标记为groud truth的类别，对于与ground truth的iou介于0.1到0.5之间的建议框，标注为背景类别
每张图片随机选取64个建议框（要控制背景类的建议框占75%），提取出特征框
特征框继续向下计算，进入两个并行层计算损失函数（损失函数具体计算见下面）
反向传播更新参数