Focaler-IoU:更聚焦的IoU损失

摘要

边界框回归在目标检测领域中起着至关重要的作用,而目标检测的定位精度在很大程度上取决于边界框回归的损失函数。现有的研究通过利用边界框之间的几何关系来提高回归性能,而忽略了难易样本分布对边界框回归的影响。本文分析了难易样本分布对回归结果的影响,并提出了Focaler-IoU方法,该方法通过关注不同的回归样本,可以在不同的检测任务中提高检测器的性能。最后,通过使用现有的先进检测器和回归方法进行比较实验,进一步提高了使用本文提出的方法的检测性能。代码可在https://github.com/malagoutou/ Focaler-IoU上获取。

关键词:目标检测、损失函数、边界框回归

一、介绍

目标检测是计算机视觉的基本任务之一,其目的是在图像中定位和识别目标。根据是否生成锚点,可以将它们分为基于锚点和无锚点的方法。基于锚点的算法包括Faster R-CNN [1]、YOLO(You Only Look Once)系列 [2]、SSD(Single Shot MultiBox Detector) [3]和RetinaNet [4]。无锚点检测算法包括CornerNet [5]、CenterNet [6]和FCOS(Fully Convolutional One Stage Object Detection) [7]。在这些检测器中,边界框回归损失函数作为定位分支的重要组成部分,发挥着不可替代的作用。

A. 边界框回归损失

随着计算机视觉的发展,目标检测任务得到了研究人员的更多关注。为了评估各种算法在检测任务上的性能,需要引入适当的度量标准。在IoU(Intersection over Union) [8]被提出之前, l_{n} 范数损失 [13]被用作早期边界框回归问题的评估度量,然而,由于 l_{n} 范数损失对异常值非常敏感,这导致异常值对损失的影响更大,使得模型中存在异常值时性能不稳定。为了更好地解决上述问题,提出了一个更合适的度量标准:IoU(Intersection over Union) [8]。在基于IoU的评价准则下,大多数目标检测任务的检测精度得到了进一步提高,但IoU损失本身也存在一些缺点,例如,当GT框与锚点之间没有重叠时,它们的梯度会消失,这无法准确描述两个边界框之间的位置关系。为了弥补这一缺陷,GIoU [9]提出使用包含GT框和锚点的最小封闭框来计算损失可以提高检测性能。在CIoU和DIoU [10]中,为了弥补GIoU收敛速度慢的缺点,CIoU通过进一步考虑GT框与锚之间的宽高比来加速收敛,而DIoU通过归一化两个边界框质心之间的距离来加速收敛。EIoU [12]在CIoU的基础上进一步考虑了形状损失,通过最小化GT框与锚的宽度和高度之间的差异来加速收敛。SIoU [13]进一步考虑了连接两个边界框中心线的角度,并根据角度重新定义了距离损失和形状损失,并将其添加到损失函数中作为一个新的损失项,这使得基于IoU的当前损失函数达到了最佳的检测效果。

B. Focal Loss

在边缘回归过程中,训练样本不平衡的问题仍然存在。训练样本可以根据是否包含目标类别分为正样本和负样本。针对训练样本不平衡的一些传统解决方案是在训练过程中对困难样本进行采样和重新加权,然而,这种方法的效果并不显著。在Focal Loss [14]中,它提出容易识别的负样本在总损失中占主导地位,并主导梯度。Focal Loss [14]通过调整正负样本的权重,提高了模型识别稀有目标类别的能力,使模型更加关注难以分类的正样本,并减少相对容易分类的负样本的权重。在Libra R-CNN [15]中,提出了一种简单有效的平衡学习框架,其中在目标层使用平衡L1损失将训练样本分为离群点和内点。离群点被视为困难样本,与内点相比可以产生更大的梯度,这对训练过程是有害的。因此,Libra R-CNN使用梯度回归来促进内点并裁剪由离群点产生的较大梯度,以获得更好的分类结果。在EIoU [12]中,训练样本被分为高质量样本(锚点)和低质量样本(离群点),并在L1损失的基础上提出了FocalL1损失,以增加高质量样本对训练过程的梯度贡献。同时,将EIoU损失作为变量添加到FocalL1损失中,使模型能够更加关注高质量样本,以进一步提高检测效果。

本文的主要贡献如下:

  • 我们分析了困难样本和易样本分布对边界框回归的影响。基于现有的边界框回归方法,我们提出了Focaler-IoU,通过线性区间映射来关注不同的回归样本。
  • 我们使用先进的一阶段检测器进行了实验,验证了我们的方法可以有效提高检测性能,并弥补现有方法的不足之处。

II. 相关研究
近年来,随着检测器的发展,边缘回归损失得到了迅速发展。起初,IoU [8]被提出用于评估边界回归状态,然后基于IoU等,陆续提出了新的约束条件,如GIoU [9],DIoU [10],CIoU [10],EIoU [12]和SIoU [11]等。

A. IoU度量

IoU(交集与并集之比)是最受欢迎的目标检测评估标准,其定义如下:
I o U = ∣ B ∩ B g t ∣ ∣ B ∪ B g t ∣ I o U=\frac{\left|B \cap B^{g t}\right|}{\left|B \cup B^{g t}\right|} IoU=BBgtBBgt
其中 B 和 B^{g t} 分别表示预测框和GT框。

B. GIoU度量

为了解决IoU损失在边界框回归中由于GT框和Anchor框之间无重叠而导致的梯度消失问题,提出了GIoU(通用交集与并集之比) [9]。其定义如下:
G I o U = I o U − ∣ C − B ∩ B g t ∣ ∣ C ∣ G I o U=I o U-\frac{\left|C-B \cap B^{g t}\right|}{|C|} GIoU=IoUCCBBgt
其中 C 表示 GT 框和 Anchor 框之间的最小外接框。

C. DIoU度量

与GIoU相比,DIoU [10]考虑了边界框之间的距离约束,并在IoU的基础上添加了质心归一化距离损失项,从而使其回归结果更加准确。其定义如下:
D I o U = I o U − ρ 2 ( b , b g t ) c 2 D I o U=I o U-\frac{\rho^{2}\left(b, b^{g t}\right)}{c^{2}} DIoU=IoUc2ρ2(b,bgt)

其中 b 和 b^{g t} 分别是锚框和GT框的中心点,\rho(\cdot) 表示欧几里得距离,其中 c 是 b 和 b^{g t} 之间的最小外接框的对角线距离。

CIoU [10]进一步通过在DIoU中添加新的形状损失项来考虑GT框和锚框之间的形状相似性,以减少锚框和GT框之间的纵横比差异。其定义如下:
C I o U = I o U − ρ 2 ( b , b g t ) c 2 − α v α = v ( 1 − I o U ) + v v = 4 π 2 ( arctan ⁡ w g t h g t − arctan ⁡ w h ) 2 \begin{array}{c} C I o U=I o U-\frac{\rho^{2}\left(b, b^{g t}\right)}{c^{2}}-\alpha v \\ \alpha=\frac{v}{(1-I o U)+v} \\ v=\frac{4}{\pi^{2}}\left(\arctan \frac{w^{g t}}{h^{g t}}-\arctan \frac{w}{h}\right)^{2} \end{array} CIoU=IoUc2ρ2(b,bgt)αvα=(1IoU)+vvv=π24(arctanhgtwgtarctanhw)2
其中 w^{g t} 和 h^{g t} 分别表示GT框的宽度和高度,w 和 h 分别表示锚框的宽度和高度。

D. EIoU度量

EIoU [12]重新定义了基于CIoU的形状损失,并通过直接减少GT框和锚框之间的纵横比差异,进一步提高了检测精度。其定义如下:

E I o U=I o U-\frac{\rho^{2}\left(b, b^{g t}\right)}{c{2}}-\frac{\rho{2}\left(w, w^{g t}\right)}{\left(w{c}\right){2}}-\frac{\rho^{2}\left(h, h^{g t}\right)}{\left(h{c}\right){2}}

其中 w^{c} 和 h^{c} 分别表示覆盖GT框和锚框的最小外接框的宽度和高度。

E. SIoU度量

在先前研究的基础上,SIoU [11]进一步考虑了边界框之间的角度对边界框回归的影响,旨在通过减小锚框和GT框之间的角度(水平或垂直方向)来加速收敛过程。其定义如下:
S I o U = I o U − ( Δ + Ω ) 2 Λ = sin ⁡ ( 2 sin ⁡ − 1 min ⁡ ( ∣ x c g t − x c ∣ , ∣ y c g t − y c ∣ ) ( x c g t − x c ) 2 + ( y c g t − y c ) 2 + ϵ ) Δ = ∑ t = w , h ( 1 − e − γ ρ t ) , γ = 2 − Λ { ρ x = ( x c − x c g t w c ) 2 ρ y = ( y c − y c g t h c ) 2 Ω = ∑ t = w , h ( 1 − e − ω t ) θ , θ = 4 { ω w = ∣ w − w g t ∣ max ⁡ ( w , w g t ) ω h = ∣ h − h g t ∣ max ⁡ ( h , h g t ) \begin{array}{l} S I o U=I o U-\frac{(\Delta+\Omega)}{2} \\ \Lambda=\sin \left(2 \sin ^{-1} \frac{\min \left(\left|x_{c}^{g t}-x_{c}\right|,\left|y_{c}^{g t}-y_{c}\right|\right)}{\sqrt{\left(x_{c}^{g t}-x_{c}\right)^{2}+\left(y_{c}^{g t}-y_{c}\right)^{2}}+\epsilon}\right) \\ \Delta=\sum_{t=w, h}\left(1-e^{-\gamma \rho_{t}}\right), \gamma=2-\Lambda \\ \left\{\begin{array}{l} \rho_{x}=\left(\frac{x_{c}-x_{c}^{g t}}{w^{c}}\right)^{2} \\ \rho_{y}=\left(\frac{y_{c}-y_{c}^{g t}}{h^{c}}\right)^{2} \end{array}\right. \\ \Omega=\sum_{t=w, h}\left(1-e^{-\omega_{t}}\right)^{\theta}, \theta=4 \\ \left\{\begin{array}{l} \omega_{w}=\frac{\left|w-w_{g t}\right|}{\max \left(w, w_{g t}\right)} \\ \omega_{h}=\frac{\left|h-h_{g t}\right|}{\max \left(h, h_{g t}\right)} \end{array}\right. \\ \end{array} SIoU=IoU2(Δ+Ω)Λ=sin(2sin1(xcgtxc)2+(ycgtyc)2 +ϵmin(xcgtxc,ycgtyc))Δ=t=w,h(1eγρt),γ=2Λ ρx=(wcxcxcgt)2ρy=(hcycycgt)2Ω=t=w,h(1eωt)θ,θ=4{ωw=max(w,wgt)wwgtωh=max(h,hgt)hhgt

在这里插入图片描述

III. 方法
A. 分析

在各种目标检测任务中都存在样本不平衡的问题,根据目标检测的难度,可以将其分为困难样本和简单样本。从目标规模分析的角度来看,一般检测目标可以视为简单样本,而极小目标由于难以精确定位,可以视为困难样本。对于以简单样本为主的检测任务,在边界框回归过程中关注简单样本有助于提高检测性能。相反,对于困难样本比例较高的检测任务,需要关注困难样本的边界框回归。

B. Focaler-IoU

为了在不同的回归样本中关注不同的检测任务,我们使用线性间隔映射方法重构IoU损失,这有助于提高边缘回归。其公式如下:
I o U focaler  = { 0 , I o U < d I o U − d u − d , d ≪ I o U ≪ u 1 , I o U > u I o U^{\text {focaler }}=\left\{\begin{array}{ll} 0, & I o U<d \\ \frac{I o U-d}{u-d}, & d \ll I o U \ll u \\ 1, & I o U>u \end{array}\right. IoUfocaler = 0,udIoUd,1,IoU<ddIoUuIoU>u

其中 I o U^{\text {focaler }} 是重构的Focaler-IoU,IoU是原始的IoU值,而 [d, u] \in[0,1] 。通过调整 d 和 u 的值,我们可以使 I o U^{\text {focaler }} 关注不同的回归样本。其损失定义如下:
L Focaler-IoU  = 1 − I o U focaler  L_{\text {Focaler-IoU }}=1-I o U^{\text {focaler }} LFocaler-IoU =1IoUfocaler 
将Focaler-IoU损失应用于现有的基于IoU的边界框回归损失函数,L_{\text {Focaler-GIoU }},L_{\text {Focaler-DIoU }},L_{\text {Focaler-CIoU }},L_{\text {Focaler-EIoU }}和L_{\text {Focaler-SIoU }}如下所示:

L Focaler-GIoU  = L G I o U + I o U − I o U Focaler  L Focaler-DIoU  = L D I o U + I o U − I o U Focaler  L Focaler-CIoU  = L C I o U + I o U − I o U Focaler  L Focaler-EIoU  = L E I o U + I o U − I o U Focaler  L Focaler-SIoU  = L S I o U + I o U − I o U Focaler  \begin{array}{l} L_{\text {Focaler-GIoU }}=L_{G I o U}+I o U-I o U^{\text {Focaler }} \\ L_{\text {Focaler-DIoU }}=L_{D I o U}+I o U-I o U^{\text {Focaler }} \\ L_{\text {Focaler-CIoU }}=L_{C I o U}+I o U-I o U^{\text {Focaler }} \\ L_{\text {Focaler-EIoU }}=L_{E I o U}+I o U-I o U^{\text {Focaler }} \\ L_{\text {Focaler-SIoU }}=L_{S I o U}+I o U-I o U^{\text {Focaler }} \end{array} LFocaler-GIoU =LGIoU+IoUIoUFocaler LFocaler-DIoU =LDIoU+IoUIoUFocaler LFocaler-CIoU =LCIoU+IoUIoUFocaler LFocaler-EIoU =LEIoU+IoUIoUFocaler LFocaler-SIoU =LSIoU+IoUIoUFocaler 

IV. 实验
A. YOLO v8 在PASCAL VOC上的实验

PASCAL VOC数据集是目标检测领域最受欢迎的数据集之一,本文使用VOC2007和VOC2012的训练和验证集作为训练集,包括16551张图像,并将VOC2007的测试集作为测试集,包含4952张图像。在本实验中,我们选择最先进的一阶检测器YOLOv8s和YOLOv7-tiny在VOC数据集上进行比较实验,选择SIoU作为实验的比较方法。实验结果如表I所示:
在这里插入图片描述

B. YOLOv5在AI-TOD上的实验

AI-TOD是一个遥感图像数据集,与一般数据集不同的是,它包含大量的小目标,目标的平均大小只有12.8像素。在本实验中,选择YOLOv5s作为检测器,比较方法为SIoU。实验结果如表II所示:
TABLE II: The performance of SIoU and Focaler-SIoU on Yolov5.

V. 结论

本文分析了难易样本分布对目标检测的影响。当难样本占据主导时,需要重点关注难样本以提高检测性能;当简单样本占比相对较大时,情况相反。接着,我们提出了Focaler-IoU方法,通过线性区间映射重构原始IoU损失,实现了关注难易样本的目标。最后,对比实验证明,所提方法能有效提升检测性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/656824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

零基础学编程初级视频教程,中文编程工具免费版下载及编程源码文件下载

零基础学编程初级视频教程&#xff0c;中文编程工具免费版下载及编程源码文件下载 编程初级视频教程链接 https://edu.csdn.net/course/detail/39061 编程工具及实例源码文件下载可以点击最下方官网卡片——软件下载——常用工具下载——编程工具免费版下载及实例源码下载。…

Ubuntu2204+ROS2(humble)+usb_cam内参标定

1、安装usb_cam包 pip install pydantic1.10.14sudo apt install ros-humble-usb-cam# 测试打开相机 ros2 launch usb_cam camera.launch.py# 显示图像 ros2 run image_view image_view image:/camera1/image_raw 2、安装 camera_calibration sudo apt install ros-humble-c…

PawSQL更新 | 新增18个SQL性能审核重写规则

PawSQL最新版本针对DML和DQL新增了审核和重写优化规则共计33个&#xff0c;整体的规则数目达到了83个&#xff0c;覆盖了正确性&#xff0c;安全性、可维护性、性能四个方面的SQL质量问题&#xff0c;并提供了优化建议&#xff0c;已经形成比较完善的针对数据操作的SQL质量审查…

防御保护--防火墙的可靠性

目录 前提&#xff1a; VGMP 接口故障切换场景 状态切换备份的过程 HRP 第一种备份方式 --- 自动备份 第二种备份方式 --- 手工备份 第三种备份方式 --- 快速备份 各备份场景过程分析 1&#xff0c;主备形成场景 2&#xff0c;主备模式下&#xff0c;接口故障切…

ElementUI组件:Button 按钮

button按钮 点击下载learnelementuispringboot项目源码 效果图 el-button.vue页面效果图 项目里el-button.vue代码 <script> export default {name: "el_button",// 注意这里的名称不能和 router inex.js里的name一样methods: {sendMsg() {// alert(1)xthi…

Linux系统中Docker的安装及常用组件的安装

什么是Docker Docker是一个开源的应用容器引擎&#xff0c;它可以让开发者将应用程序及其依赖项打包到一个可移植的镜像中&#xff0c;并发布到任何流行的操作系统上。Docker使用沙箱机制来隔离容器&#xff0c;使其相互独立&#xff0c;并简化了应用程序的部署和管理。沙箱机…

网工内推 | 资深网工,周末双休,厂商认证优先,14薪

01 群核科技 招聘岗位&#xff1a;资深网络运维工程师 职责描述&#xff1a; 1、负责公司IDC机房网络的规划及持续改进&#xff0c;保证网络稳定运行&#xff1b; 2、负责公司国内外传输线路建设&#xff0c;提高链路的高可用保证业务的SLA&#xff1b; 3、负责网络监控平台的…

阿尔泰科技—创新解决农业环境监测难题!

引言 “农业是人类生活中不可或缺的重要领域&#xff0c;而农业环境的监测与保护对于农作物的生长和农业生产的可持续发展至关重要。为了解决农业环境参数监测的难题&#xff0c;阿尔泰科技提供了一套先进的解决方案&#xff0c;利用USB5630-D数据采集卡搭配传感器测试方案&a…

Pi 5缺货?CM5什么出来?RP2024? 在 CES2024 上访谈树莓派CEO Eben Upton

Pi 5缺货&#xff1f;CM5什么出来&#xff1f;RP2024&#xff1f; 在 CES2024 上访谈树莓派CEO Eben Upton 树莓派 CEO Eben Upton 在 CES2024 上回答关于树莓派5缺货&#xff0c;Pi 5与AI&#xff0c;以及 CM5 和 RP2024 的未来发展这些相关问题。 00:00 - 树莓派上的AI &…

设计模式之框架源码剖析(实战+图解)

Java设计模式 1&#xff0c;概述 随着软件开发人员人数的增多&#xff0c;一些公司急需一些高端人才。作为一个高端人才&#xff0c;设计面向对象软件是必不可少的能力&#xff0c;而软件设计是需要很深的功力&#xff0c;设计模式就要求你必须掌握。 2&#xff0c;本章特色…

Linux(CentOS7)常见指令的常见用法(上)

指令功能hostname查看当前的主机名hostnamectl set-hostname修改主机名adduser添加用户passwd给用户设置密码userdel -r 删除用户ls显示某路径下的文件名ls -l ll 显示某路径下每个文件及其属性ls -la ls -al 显示某路径下所有文件包括隐藏文件及属性ls -d只看指定文件夹&…

5-1 A. DS串应用--KMP算法

题目描述 学习KMP算法&#xff0c;给出主串和模式串&#xff0c;求模式串在主串的位置 算法框架如下&#xff0c;仅供参考 输入 第一个输入t&#xff0c;表示有t个实例 第二行输入第1个实例的主串&#xff0c;第三行输入第1个实例的模式串 以此类推 输入样例&#xff1a; 3 qwe…

Mac下手动源码编译安装Swig

使用Homebrew安装 这个方式最简单&#xff0c;但是一般都是安装的最新版&#xff1a; brew install swig如果按照特定版本&#xff0c;需要看一个当前支持的列表&#xff1a; brew search swig brew install swig3源码编译安装 swig依赖pcre库&#xff0c;需要先安装pcre …

浅谈一下软件 QA 方法论 和 工具

浅谈一下软件 QA 方法论 和 工具 目录概述需求&#xff1a; 设计思路实现思路分析1.QA方法论2.Java QA工具 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy&#xff0c;skip hardness,make a better result…

Linux系统——文本三剑客

目录 一、grep 1.格式 2.选项 2.1 grep重定向 2.2grep -m 匹配到几次停止 2.3grep -i 忽略大小写 2.4grep -n 显示行号 2.5grep -c 统计匹配行数 2.6grep -A 后几行 2.7grep -C 前后三行 2.8grep -B 前三行 2.9grep -e 或 2.10grep -w 匹配整个单词 2.11grep -r…

窥探向量乘矩阵的存内计算原理—基于向量乘矩阵的存内计算

在当今计算领域中&#xff0c;存内计算技术凭借其出色的向量乘矩阵操作效能引起了广泛关注。本文将深入研究基于向量乘矩阵的存内计算原理&#xff0c;并探讨几个引人注目的代表性工作&#xff0c;如DPE、ISAAC、PRIME等&#xff0c;它们在神经网络和图计算应用中表现出色&…

现代C++之万能引用、完美转发、引用折叠FrancisFrancis

转载&#xff1a;现代C之万能引用、完美转发、引用折叠 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/99524127 后期参考(还未整合)&#xff1a;C 完美转发深度解析:从入门到精通_c完美转发-CSDN博客https://blog.csdn.net/qq_21438461/article/details/129938466 0.导语 …

Dragons

题目链接&#xff1a; Problem - 230A - Codeforces 解题思路&#xff1a; 用结构体排序就好&#xff0c;从最小的开始比较&#xff0c;大于就加上奖励&#xff0c;小于输出NO 下面是c代码&#xff1a; #include<iostream> #include<algorithm> using namespac…

java框架面试篇

Spring框架 spring Bean线程安全问题 Scope注解 我们可以在bean的类上加Scope注解来声明这个Bean是单个实例还是多个实例。在默认情况下Bean是单个实例的&#xff0c;此时的注解中的属性默认为Scope("singleton")&#xff0c;Scope("prototype")则是一…

一、图像读取显示

读取和显示函数主要为&#xff1a;imread()和imshow()函数 imread函数&#xff0c;im是image的缩写&#xff0c;read就是读入一张图片 同理&#xff0c;imshow也是一样的 C中读入的图片是按照矩阵&#xff08;Matrix&#xff09;进行存储的&#xff0c;故定义变量src的数据类型…