🚀该系列将会持续整理和更新BBR相关的问题,如有错误和不足恳请大家指正,欢迎讨论!!!
📦目标检测的损失函数一般包含三个部分,分别是边界框损失也可称为定位损失、置信度损失和分类损失,这一小节主要讲解一下边界框损失!
首先,边界框损失也就是目标检测中的边界框回归任务(bounding box regression, BBR),之前用的最广泛的就是n范数损失,目前基本就是关于IoU相关的损失了。n范数损失可以参考一些文献,比如发表在2015年CVPR会议上的《Fast R-CNN》。
接下来,先回顾一下n范数损失,一般有L1loss、L2loss和Lloss。
L1loss(绝对值损失)
,其中
是真值,
是预测值;对于异常较为鲁棒,但不处处可导;
L2loss(平方损失)
,其中
是真值,
是预测值;对于异常比较敏感;
L
loss(最大模损失) 考虑的是预测值与真实值之间差的最大绝对值,适用于最小化最大误差。
BBR相关的任务可追溯到YOLOv1中,使用平方误差来计算边界框的位置损失,即预测框与真实框之间的中心坐标(x, y)和宽高(w, h)的误差,弥补了尺度敏感性。这种计算两个bbox相似度有一定的局限性,导致定位不准,所以在2016年,由UIUC和旷视发表的论文引入了IoU损失,就是用1减去IoU取个均值就ok了。《UnitBox: An Advanced Object Detection Network》
但是,将IoU作为loss的话,会有一个问题就是预测框和真实框之间不重叠,IoU值为0,两个框之间的距离无法确定,梯度将为0,无法优化。
在2019年,斯坦福在CVPR上发表了一篇论文,提出了GIoU,取预测框和真实框的最小外接边界框加入运算。《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》
具体计算如下:
GIoU loss通常不能很好地收敛,导致检测不准确。 2019年,天津大学发表在AAAI上的一篇论文《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》提出了DIoU和CIoU。DIoU考虑了两个边界框(预测和真实的)中心点坐标之间的距离,CIoU包含了三个几何测度,分别是预测和真实边界框之间的重叠面积、中心点坐标之间的距离和纵横比。
具体计算如下:
然而CIoU不能有效地测量目标盒和锚点之间的差异,导致BBR模型优化收敛缓慢,定位不准确。2022年,CASIA在《 Neurocomputing》上发表了一篇论文《Focal and Efficient IOU Loss for Accurate Bounding Box Regression》提出了一种有效的联合交集(EIOU)损失,它明确地衡量了BBR中三个几何因素的差异,即重叠区域、中心点和边长。之后,针对有效的示例挖掘 (EEM) 问题,并提出了一个焦点损失的回归版本解决样本不平衡问题,以使回归过程专注于高质量的锚框。最后,将上述两个部分组合起来得到一个新的损失函数,即Focal-EIOU损失。 EIoU其实就是将CIoU中的纵横比修改为了优化框的宽度和高度的差异。
在ultralytics-main/ultralytics/utils/metrics.py中的实现:
def bbox_iou(box1, box2, xywh=True, GIoU=False, DIoU=False, CIoU=False, EIoU=False, Focal=False, eps=1e-7):# Returns Intersection over Union (IoU) of box1(1,4) to box2(n,4)# Get the coordinates of bounding boxesif xywh: # transform from xywh to xyxy(x1, y1, w1, h1), (x2, y2, w2, h2) = box1.chunk(4, -1), box2.chunk(4, -1)w1_, h1_, w2_, h2_ = w1 / 2, h1 / 2, w2 / 2, h2 / 2b1_x1, b1_x2, b1_y1, b1_y2 = x1 - w1_, x1 + w1_, y1 - h1_, y1 + h1_b2_x1, b2_x2, b2_y1, b2_y2 = x2 - w2_, x2 + w2_, y2 - h2_, y2 + h2_else: # x1, y1, x2, y2 = box1b1_x1, b1_y1, b1_x2, b1_y2 = box1.chunk(4, -1)b2_x1, b2_y1, b2_x2, b2_y2 = box2.chunk(4, -1)w1, h1 = b1_x2 - b1_x1, (b1_y2 - b1_y1).clamp(eps)w2, h2 = b2_x2 - b2_x1, (b2_y2 - b2_y1).clamp(eps)# Intersection areainter = (b1_x2.minimum(b2_x2) - b1_x1.maximum(b2_x1)).clamp(0) * \(b1_y2.minimum(b2_y2) - b1_y1.maximum(b2_y1)).clamp(0)# Union Areaunion = w1 * h1 + w2 * h2 - inter + eps# IoUiou = inter / unionif CIoU or DIoU or GIoU or EIoU:cw = b1_x2.maximum(b2_x2) - b1_x1.minimum(b2_x1) # convex (smallest enclosing box) widthch = b1_y2.maximum(b2_y2) - b1_y1.minimum(b2_y1) # convex heightif CIoU or DIoU or EIoU: # Distance or Complete IoU https://arxiv.org/abs/1911.08287v1c2 = cw ** 2 + ch ** 2 + eps # convex diagonal squaredrho2 = ((b2_x1 + b2_x2 - b1_x1 - b1_x2) ** 2 + (b2_y1 + b2_y2 - b1_y1 - b1_y2) ** 2) / 4 # center dist ** 2if CIoU: # https://github.com/Zzh-tju/DIoU-SSD-pytorch/blob/master/utils/box/box_utils.py#L47v = (4 / math.pi ** 2) * (torch.atan(w2 / h2) - torch.atan(w1 / h1)).pow(2)with torch.no_grad():alpha = v / (v - iou + (1 + eps))if EIoU:rho_w2 = ((b2_x2 - b2_x1) - (b1_x2 - b1_x1)) ** 2rho_h2 = ((b2_y2 - b2_y1) - (b1_y2 - b1_y1)) ** 2cw2 = cw**2 + epsch2 = ch**2 + epsif Focal:return iou - (rho2 / c2 + rho_w2 / cw2 + rho_h2 / ch2), torch.pow(inter / (union + eps), 0.5) # Focal_EIoUelse:return iou - (rho2 / c2 + rho_w2 / cw2 + rho_h2 / ch2) # EIoUreturn iou - (rho2 / c2 + v * alpha) # CIoUreturn iou - rho2 / c2 # DIoUc_area = cw * ch + eps # convex areareturn iou - (c_area - union) / c_area # GIoU https://arxiv.org/pdf/1902.09630.pdfreturn iou # IoU
在ultralytics-main/ultralytics/utils/loss.py中的调用:
# iou = bbox_iou(pbox, tbox[i], CIoU=True).squeeze() # iou(prediction, target)
# lbox += (1.0 - iou).mean() # iou lossiou = bbox_iou(pbox, tbox[i], EIoU=True, Focal=True).squeeze() # iou(prediction, target)
if type(iou) is tuple:lbox += (iou[1].detach() * (1.0 - iou[0])).mean()
else:lbox += (1.0 - iou).mean()