摘要： 一文了解目标检测技术发展，不要错过哟。

目标检测旨在准确地找到给定图片中物体的位置，并将其正确分类。准确地来讲，目标检测需要确定目标是什么以及对其定位。

然而，想要解决这个问题并不容易。因为，目标的大小，其在空间中的方向，其姿态，以及其在图片中的位置都是变化的。

这里有一张图片，我们需要识别图片中的物体，并且用方框将该物体圈出来。

图像识别（分类）

输入：图像
输出：目标类型
评价指标：精确度

定位：

输入：图像
输出：方框在图片中的位置（x,y,w,h）
评价指标：检测评价函数（IOU）

如今大火的卷积神经网络帮助我们很好地进行图像识别。但是，我们仍需要一些额外的功能来进行精确定位，深度学习在这里发挥了很好的作用。

在本文中，我们将从目标定位的角度入手探讨目标检测技术的发展。我们将按着如下的演化顺序讲述：R-CNN->SPP Net->Fast R-CNN-> Faster R-CNN

在开始前，我们将对基于区域的卷积神经网络（R-CNN）进行简单的介绍。

将定位看作回归问题

如果我们将其看作是一个回归问题，则需要对（x，y，w，h）四个参数进行预测，从而得到方框所在位置。

步骤1

先解决最简单的问题：使用神经网络识别图片
在AlexNet VGG GoogleLenet上微调（fine-tuning）

步骤2

在上述神经网络的尾部展开（CNN前面保持不变，我们对CNN的结尾处做出改进：加了两个头：“分类头”和“回归头”）
将其转化为分类 + 回归模型

步骤3

在回归部分使用欧氏距离损失
使用随机梯度下降进行训练

步骤4

在预测部分结合回归和分类
实现不同的功能

接着，我们将进行两次微调操作。第一次在AlexNet上进行，第二次将头部改为回归头。

回归部分加在哪里呢？

两种解决办法：

加在最后一个卷积层后面（如VGG）
加在最后一个全连接层后面（如R-CNN）

但是实现回归操作太困难了，我们需要找到一种方法将其变为分类问题。回归的训练参数收敛的时间要长得多，所以上面的网络采取了用分类的网络来计算网络共同部分的连接权值。

取图像窗口

依旧使用前面所提及的分类+回归的思路
首先选取不同的大小的方框
让方框出现在不同的位置，计算出这个方框在不同位置的得分
取得分最高的那方框

左上角的黑框：得分0.5
右上角的黑框：得分0.75
左下角的黑框：得分0.6
右下角的黑框：得分0.8

根据这些得分，我们选择右下角的黑框作为所要预测的目标位置。

注：有的时候也会选择得分最高的两个方框，然后取两个方框的交集作为最终需要预测的位置。

问题：方框的大小如何确定呢？

当取了不同的方框后，依次从左上角扫描到右下角。

总结：

对第一张图片，我们使用不同大小的方框（遍历整张图片）将图片截取出来，输入到CNN，然后CNN会输出这个框的分类以及这个框图片对应的（x，y，w，h）。

但是，这个方法太耗费时间了，需要做一些优化。最初的网络模型如下图所示：

所做优化：将全连接层改为为卷积层以提高速度。

目标检测

当图中有多个物体存在的时候我们应该如何做呢？现在我们所要解决的问题就变成了：多个目标识别+定位。

现在我们还能将其看作分类问题么？

可是，将其看作分类问题的话会有如下矛盾产生：

你需要找到许多的位置，并提供不同大小的方框
你还需要对方框中的图像进行分类
当然，如果你的GPU很强大，将其看作分类问题也没什么不妥

如果将其看作分类问题，我们能做哪些优化呢？我们并不想使用太多的方框在不同的位置间来回尝试。下面，给出了一种解决方案：

首先，我们需要找出包含所有目标的方框。其中有的方框会产生重叠或者互相包含，这样我们就不用枚举出所有的方框了。

对于候选框的获取，前人发现了很多种方法：比如EdgeBoxes和Selective Search。以下是候选方框获取方法的性能对比：

对于“选择性搜索”是如何选出所有候选方框这个问题，本文不作介绍，有兴趣的可以对其相关论文进行研究。

R-CNN

上述提及的思路推动了R-CNN的面世。让我们以同样的图片为例，对R-CNN进行讲解。

步骤1

下载一个分类模型（如AlexNet）

步骤2

对模型进行微调

将分类数目从1000降至20
去掉最后一个全连接层

步骤3

特征提取：

提取出图像中所有的候选方框（选择性搜索）
对每一个区域：调整区域的大小，使其与CNN的输入一致，做一次向前运算，将第五个池化层的输出存入硬盘中

步骤4

训练一个支持向量机（SVM）分类器（二分类），用以判断这个候选框里物体的类别
判断SVM是否属于对应的类别。如果是，就是positive，如果否，就是negative。下面是一个给狗分类的SVM示例。

步骤5

使用回归器对候选方框的位置进行仔细校正。对于每一个分类，都需要训练一个线性回归模型，用以判断这个方框是否足够匹配。

SPP Net

空间金字塔池化（SPP：Spatial Pyramid Pooling）概念的提出对R-CNN的发展有着非凡的意义。在此我们会对SPP进行简明的介绍。

SPP有两个特征：

1. 结合空间金字塔法，实现CNN的多尺度输入
一般来说，在CNN后面会接有一个全连接层或者一个分类器。它们都需要调整至合适大小方可作为输入，因此需要对输入数据进行分割和变形。然而，这些预处理可能会造成数据的丢失或几何的失真。SPP Net的第一个贡献就是将金字塔思想与CNN相结合，实现数据的多尺度输入。
如下图所示，在卷积层和全连接层之间加入一个SPP层。此时，网络的输入尺度可以是任意的，在SPP层中，池化所需的过滤器会根据输入自动调节大小，但SPP的输出尺度确实保持不变的。

2. 只对原始图像提取一次卷积特征
在R-CNN中，每个候选框会将其尺寸调至统一，然后分别作为CNN的输入，但这样的做法降低了效率。SPP Net针对这个缺点做了相应的优化：只对原始图像进行一次卷积操作，得到特征图，然后找到每个候选方框在特征图上的映射，然后将该映射作为卷积特征输入SPP层。这种优化方法节约了大量的计算时间，相比 R-CNN快上百倍。

Fast R-CNN

SPP Net非常实用，有学者就在R-CNN的基础上结合SPP Net，提出Fast R-CNN，进一步提升了性能。

R-CNN与Fast R-CNN有什么区别呢？

首先，让我们来看看R-CNN的不足之处。尽管它在提取潜在边框作为输入时，使用了选择性搜索以及其它处理方法，但是R-CNN在运算速度上仍然遇到了瓶颈。这是由于计算机在对所有区域进行特征提取时会进行大量的重复计算。

为了解决这个问题，研究学者提出了Fast R-CNN。

在Fast R-CNN中，有一个被称为ROI Pooling的单层SPP网络层。该网络层能够将不同尺寸的输入映射为一系列固定尺度的特征向量，正如我们所知，conv，pooling，relu以及一些其它操作并不需要固定尺度的输入。因此，当我们在原始图片上执行这些操作后，由于输入图片的尺寸不同，得到的特征图尺寸也不一样，不能将它们直接连接到一个全连接层上进行分类，但是我们可以在其中加入ROI Pooling层，以一个固定尺度的特征来表示每个区域，再通过softmax进行分类。

此外，前面所讲的R-CNN需要先有一个proposal，再输入到CNN中进行特征提取，之后采用SVM进行分类，最后进行边框回归。但是在Fast R-CNN模型中，作者将边框回归引入神经网络，并将其与区域分类合并，形成一个多任务模型。

实验证明，这两个任务能够共享卷积特征。Fast R-CNN的一个额外贡献是使Region Proposal+CNN这一框架得以运用，同时让人们看到进行多类检测的同时仍保证精度是能够实现的。

R-CNN总结：

R-CNN有一些缺点
主要缺点：因为每一个候选方框都需要独立地输入到CNN中，此操作十分耗费时间
次要缺点：在共享层，不是每个候选方框都作为输入进入到CNN中。相反，输入的是一张完整的图片，在第五个卷积层提取出每个候选方框的特征
原始方法：大量候选方框（例如2000个）→CNN→得到每个候选方框的特征→分类+回归
现在的方法：完整的图片→CNN→得到每个候选方框的特征→分类+回归
很明显，Fast R-CNN比R-CNN在速度上有了大幅提升；与R-CNN对每个候选方框输入到CNN中提取特征不同的是，Fast R-CNN只对输入的整张图片提取一次特征，然后在第五个卷积层上提取每个候选方框的特征，此操作只需要计算一次特征，剩下的操作在第五个卷积层上完成即可。

性能的提升也十分明显：