动手学CV-目标检测入门教程5：损失函数

3.5 损失函数

本文来自开源组织 DataWhale 🐳 CV小组创作的目标检测入门教程。

对应开源项目《动手学CV-Pytorch》的第3章的内容，教程中涉及的代码也可以在项目中找到，后续会持续更新更多的优质内容，欢迎⭐️。

如果使用我们教程的内容或图片，请在文章醒目位置注明我们的github主页链接：https://github.com/datawhalechina/dive-into-cv-pytorch

3.5.1 Matching strategy (匹配策略)：

我们分配了许多prior bboxes，我们要想让其预测类别和目标框信息，我们先要知道每个prior bbox和哪个目标对应，从而才能判断预测的是否准确，从而将训练进行下去。

不同方法 ground truth boxes 与 prior bboxes 的匹配策略大致都是类似的，但是细节会有所不同。这里我们采用SSD中的匹配策略，具体如下：

第一个原则： 从ground truth box出发，寻找与每一个ground truth box有最大的jaccard overlap的prior bbox，这样就能保证每一个groundtruth box一定与一个prior bbox对应起来(jaccard overlap就是IOU，如图3-26所示，前面介绍过)。反之，若一个prior bbox没有与任何ground truth进行匹配，那么该prior bbox只能与背景匹配，就是负样本。

在这里插入图片描述

图3-26 IOU

一个图片中ground truth是非常少的，而prior bbox却很多，如果仅按第一个原则匹配，很多prior bbox会是负样本，正负样本极其不平衡，所以需要第二个原则。

第二个原则： 从prior bbox出发，对剩余的还没有配对的prior bbox与任意一个ground truth box尝试配对，只要两者之间的jaccard overlap大于阈值（一般是0.5），那么该prior bbox也与这个ground truth进行匹配。这意味着某个ground truth可能与多个Prior box匹配，这是可以的。但是反过来却不可以，因为一个prior bbox只能匹配一个ground truth，如果多个ground truth与某个prior bbox的 IOU 大于阈值，那么prior bbox只与IOU最大的那个ground truth进行匹配。

注意：第二个原则一定在第一个原则之后进行，仔细考虑一下这种情况，如果某个ground truth所对应最大IOU的prior bbox小于阈值，并且所匹配的prior bbox却与另外一个ground truth的IOU大于阈值，那么该prior bbox应该匹配谁，答案应该是前者，首先要确保每个ground truth一定有一个prior bbox与之匹配。

用一个示例来说明上述的匹配原则：

在这里插入图片描述

图3-27

图像中有7个红色的框代表先验框，黄色的是ground truths，在这幅图像中有三个真实的目标。按照前面列出的步骤将生成以下匹配项：

在这里插入图片描述

图3-28

3.5.2 损失函数

下面来介绍如何设计损失函数。

将总体的目标损失函数定义为定位损失（loc）和置信度损失（conf）的加权和：

$\frac{1}{N}(L_{conf}(x,c)+\alpha L_{loc} (x,l,g)) (1)$

其中N是匹配到GT（Ground Truth）的prior bbox数量，如果N=0，则将损失设为0；而 α 参数用于调整confidence loss和location loss之间的比例，默认 α=1。

confidence loss是在多类别置信度c上的softmax loss，公式如下：

$Lconf(x,c)=−∑i∈PosNxijplog(c^ip)−∑i∈Neglog(c^i0)Wherec^ip=exp(cip)∑pexp(cip)(2)L_{conf}(x,c) = -\sum_{i \in Pos}^N x^{p}_{ij} log(\hat{c}^{p}_{i}) - \sum_{i \in Neg} log(\hat{c}^{0}_{i}) Where \hat{c}^{p}_{i} = \frac{exp(c^{p}_{i})}{\sum_p exp(c^{p}_{i})} (2)$

其中i指代搜索框序号，j指代真实框序号，p指代类别序号，p=0表示背景。其中 $xijp={1,0}x^{p}_{ij}=\left\{1,0\right\}$ 中取1表示第i个prior bbox匹配到第 j 个GT box，而这个GT box的类别为 p 。 $CipC^{p}_{i}$ 表示第i个搜索框对应类别p的预测概率。此处有一点需要关注，公式前半部分是正样本（Pos）的损失，即分类为某个类别的损失（不包括背景），后半部分是负样本（Neg）的损失，也就是类别为背景的损失。

而location loss（位置回归）是典型的smooth L1 loss

$Lloc(x,l,g)=∑i∈Posm∈{cx,cy,w,h}N∑xijksmoothL1(lim−g^jm)(3)L_{loc}(x,l,g) = \sum_{i \in Pos m \in \left\{c_x,c_y,w,h\right\}}^N \sum x^{k}_{ij} smooth_{L1}(l^{m}_{i}-\hat{g}^{m}_{j}) (3)$

$g^jcx=(gjcx−dicx)/diw\hat{g}^{c_x}_{j}=(g^{c_x}_{j}-d^{c_x}_{i})/d^{w}_{i}$

$g^jcy=(gjcy−dicy)/dih\hat{g}^{c_y}_{j}=(g^{c_y}_{j}-d^{c_y}_{i})/d^{h}_{i}$

$g^jw=log(gjwdiw)\hat{g}^{w}_{j}=log(\frac{g^{w}_{j}}{d^{w}_{i}})$

$g^jh=log(gjhdih)\hat{g}^{h}_{j}=log(\frac{g^{h}_{j}}{d^{h}_{i}})$

其中，l为预测框，g为ground truth。(cx,xy)为补偿(regress to offsets)后的默认框d的中心,(w,h)为默认框的宽和高。更详细的解释看-看下图：

在这里插入图片描述

3.5.3 Hard negative mining:

值得注意的是，一般情况下negative prior bboxes数量 >> positive prior bboxes数量，直接训练会导致网络过于重视负样本，预测效果很差。为了保证正负样本尽量平衡，我们这里使用SSD使用的在线难例挖掘策略(hard negative mining)，即依据confidience loss对属于负样本的prior bbox进行排序，只挑选其中confidience loss高的bbox进行训练，将正负样本的比例控制在positive：negative=1:3。其核心作用就是只选择负样本中容易被分错类的困难负样本来进行网络训练，来保证正负样本的平衡和训练的有效性。

举个例子：假设在这 441 个 prior bbox 里，经过匹配后得到正样本先验框P个，负样本先验框 441−P 个。将负样本prior bbox按照prediction loss从大到小顺序排列后选择最高的M个prior bbox。这个M需要根据我们设定的正负样本的比例确定，比如我们约定正负样本比例为1:3时。我们就取M=3P，这M个loss最大的负样本难例将会被作为真正参与计算loss的prior bboxes，其余的负样本将不会参与分类损失的loss计算。