目标检测中的损失函数(一) | IoU GIoU DIoU CIoU EIoU Focal-EIoU

🚀该系列将会持续整理和更新BBR相关的问题，如有错误和不足恳请大家指正，欢迎讨论！！！

📦目标检测的损失函数一般包含三个部分，分别是边界框损失也可称为定位损失、置信度损失和分类损失，这一小节主要讲解一下边界框损失！

首先，边界框损失也就是目标检测中的边界框回归任务（bounding box regression, BBR），之前用的最广泛的就是n范数损失，目前基本就是关于IoU相关的损失了。n范数损失可以参考一些文献，比如发表在2015年CVPR会议上的《Fast R-CNN》。

接下来，先回顾一下n范数损失，一般有L1loss、L2loss和L $\infty$ loss。

L1loss(绝对值损失) $L_{1}=\sum \left | y_{i} - \hat{y_{i} } \right |$ ，其中 $y_{i}$ 是真值， $\hat{y_{i}}$ 是预测值；对于异常较为鲁棒，但不处处可导；

L2loss(平方损失) $L_{1}=\sum ( y_{i} - \hat{y_{i} } )^2$ ，其中 $y_{i}$ 是真值， $\hat{y_{i}}$ 是预测值；对于异常比较敏感；

L $\infty$ loss(最大模损失) 考虑的是预测值与真实值之间差的最大绝对值，适用于最小化最大误差。

BBR相关的任务可追溯到YOLOv1中，使用平方误差来计算边界框的位置损失，即预测框与真实框之间的中心坐标(x, y)和宽高(w, h)的误差，弥补了尺度敏感性。这种计算两个bbox相似度有一定的局限性，导致定位不准，所以在2016年，由UIUC和旷视发表的论文引入了IoU损失，就是用1减去IoU取个均值就ok了。《UnitBox: An Advanced Object Detection Network》

但是，将IoU作为loss的话，会有一个问题就是预测框和真实框之间不重叠，IoU值为0，两个框之间的距离无法确定，梯度将为0，无法优化。

在2019年，斯坦福在CVPR上发表了一篇论文，提出了GIoU，取预测框和真实框的最小外接边界框加入运算。《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》

具体计算如下：

GIoU loss通常不能很好地收敛，导致检测不准确。 2019年，天津大学发表在AAAI上的一篇论文《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》提出了DIoU和CIoU。DIoU考虑了两个边界框（预测和真实的）中心点坐标之间的距离，CIoU包含了三个几何测度，分别是预测和真实边界框之间的重叠面积、中心点坐标之间的距离和纵横比。

具体计算如下：

然而CIoU不能有效地测量目标盒和锚点之间的差异，导致BBR模型优化收敛缓慢，定位不准确。2022年，CASIA在《 Neurocomputing》上发表了一篇论文《Focal and Efficient IOU Loss for Accurate Bounding Box Regression》提出了一种有效的联合交集(EIOU)损失，它明确地衡量了BBR中三个几何因素的差异，即重叠区域、中心点和边长。之后，针对有效的示例挖掘 (EEM) 问题，并提出了一个焦点损失的回归版本解决样本不平衡问题，以使回归过程专注于高质量的锚框。最后，将上述两个部分组合起来得到一个新的损失函数，即Focal-EIOU损失。 EIoU其实就是将CIoU中的纵横比修改为了优化框的宽度和高度的差异。

在ultralytics-main/ultralytics/utils/metrics.py中的实现：

def bbox_iou(box1, box2, xywh=True, GIoU=False, DIoU=False, CIoU=False, EIoU=False, Focal=False, eps=1e-7):# Returns Intersection over Union (IoU) of box1(1,4) to box2(n,4)# Get the coordinates of bounding boxesif xywh:  # transform from xywh to xyxy(x1, y1, w1, h1), (x2, y2, w2, h2) = box1.chunk(4, -1), box2.chunk(4, -1)w1_, h1_, w2_, h2_ = w1 / 2, h1 / 2, w2 / 2, h2 / 2b1_x1, b1_x2, b1_y1, b1_y2 = x1 - w1_, x1 + w1_, y1 - h1_, y1 + h1_b2_x1, b2_x2, b2_y1, b2_y2 = x2 - w2_, x2 + w2_, y2 - h2_, y2 + h2_else:  # x1, y1, x2, y2 = box1b1_x1, b1_y1, b1_x2, b1_y2 = box1.chunk(4, -1)b2_x1, b2_y1, b2_x2, b2_y2 = box2.chunk(4, -1)w1, h1 = b1_x2 - b1_x1, (b1_y2 - b1_y1).clamp(eps)w2, h2 = b2_x2 - b2_x1, (b2_y2 - b2_y1).clamp(eps)# Intersection areainter = (b1_x2.minimum(b2_x2) - b1_x1.maximum(b2_x1)).clamp(0) * \(b1_y2.minimum(b2_y2) - b1_y1.maximum(b2_y1)).clamp(0)# Union Areaunion = w1 * h1 + w2 * h2 - inter + eps# IoUiou = inter / unionif CIoU or DIoU or GIoU or EIoU:cw = b1_x2.maximum(b2_x2) - b1_x1.minimum(b2_x1)  # convex (smallest enclosing box) widthch = b1_y2.maximum(b2_y2) - b1_y1.minimum(b2_y1)  # convex heightif CIoU or DIoU or EIoU:  # Distance or Complete IoU https://arxiv.org/abs/1911.08287v1c2 = cw ** 2 + ch ** 2 + eps  # convex diagonal squaredrho2 = ((b2_x1 + b2_x2 - b1_x1 - b1_x2) ** 2 + (b2_y1 + b2_y2 - b1_y1 - b1_y2) ** 2) / 4  # center dist ** 2if CIoU:  # https://github.com/Zzh-tju/DIoU-SSD-pytorch/blob/master/utils/box/box_utils.py#L47v = (4 / math.pi ** 2) * (torch.atan(w2 / h2) - torch.atan(w1 / h1)).pow(2)with torch.no_grad():alpha = v / (v - iou + (1 + eps))if EIoU:rho_w2 = ((b2_x2 - b2_x1) - (b1_x2 - b1_x1)) ** 2rho_h2 = ((b2_y2 - b2_y1) - (b1_y2 - b1_y1)) ** 2cw2 = cw**2 + epsch2 = ch**2 + epsif Focal:return iou - (rho2 / c2 + rho_w2 / cw2 + rho_h2 / ch2), torch.pow(inter / (union + eps), 0.5)  # Focal_EIoUelse:return iou - (rho2 / c2 + rho_w2 / cw2 + rho_h2 / ch2) # EIoUreturn iou - (rho2 / c2 + v * alpha)  # CIoUreturn iou - rho2 / c2  # DIoUc_area = cw * ch + eps  # convex areareturn iou - (c_area - union) / c_area  # GIoU https://arxiv.org/pdf/1902.09630.pdfreturn iou  # IoU

在ultralytics-main/ultralytics/utils/loss.py中的调用：

# iou = bbox_iou(pbox, tbox[i], CIoU=True).squeeze()  # iou(prediction, target)
# lbox += (1.0 - iou).mean()  # iou lossiou = bbox_iou(pbox, tbox[i], EIoU=True, Focal=True).squeeze()  # iou(prediction, target)
if type(iou) is tuple:lbox += (iou[1].detach() * (1.0 - iou[0])).mean()
else:lbox += (1.0 - iou).mean()