【论文阅读|基于 YOLO 的红外小目标检测的逆向范例】

在这里插入图片描述

基于 YOLO 的红外小目标检测的逆向范例

  • 摘要
  • 1 引言
  • 2 相关工作
    • 2.1 逆向推理
    • 2.2 物体检测方法
  • 3 方法
    • 3.1 总体架构
    • 3.2 逆向标准的可微分积分
  • 4 实验
    • 4.1 数据集和指标
    • 4.2 实验环境
    • 4.4 OL-NFA 为少样本环境带来稳健性
  • 5 结论

论文题目: A Contrario Paradigm for YOLO-based Infrared Small Target Detection(基于 YOLO 的红外小目标检测的逆向范例)

论文下载链接: https://arxiv.org/pdf/2402.02288.pdf

摘要

检测红外图像中的微小目标是计算机视觉领域的一项具有挑战性的任务,尤其是在将这些目标从嘈杂或纹理背景中区分出来时。与分割神经网络相比,传统的物体检测方法(如 YOLO)在检测微小物体时非常吃力,因此在检测小目标时性能较弱。为了在保持高检测率的同时减少误报,在 YOLO 检测器的训练中引入了反向决策标准。后者利用小目标的不可预测性,将它们与复杂背景区分开来。在 YOLOv7-tiny 中加入这一统计标准,缩小了红外小目标检测和物体检测网络中最先进的分割方法之间的性能差距。它还大大提高了 YOLO 对少样本环境的鲁棒性。

关键词: 小目标检测、逆向推理、YOLO、少样本检测

1 引言

在包括医疗或安全领域在内的各种应用中,准确检测红外(infrared, IR)图像中的小目标至关重要。红外小目标检测(Infrared small target detection, IRSTD)是计算机视觉领域的一项巨大挑战,其困难主要在于:(1) 目标的大小(面积低于 20 像素);(2) 复杂且纹理丰富的背景,从而导致许多误报;(3) 学习条件,即从小型、多样化程度低且高度类不平衡的数据集中学习,因为与背景类像素相比,目标类像素的数量非常少。过去几十年来,深度学习方法的兴起在物体检测领域取得了令人瞩目的进步,这主要归功于它们能够从大量标注数据中学习,提取出非常适合最终任务的非线性特征。在 IRSTD 中,语义分割神经网络的应用最为广泛[1]。其中包括 ACM[2]、LSPM[3]和最近最先进的(SOTA)方法之一,即 DNANet[4],它由多个嵌套的 UNets 和一个多尺度融合模块组成,能够分割不同大小的小物体。然而,依靠分割神经网络进行物体检测的一个主要问题是,在调整用于二值化分割图的阈值时,可能会出现物体破碎的情况。这会导致许多不希望出现的误报,并扭曲计数指标。Faster-RCNN [5] 或 YOLO [6] 等物体检测算法通过边界框回归明确定位物体,从而降低了这种风险。然而,这些算法往往难以检测到微小物体。很少有研究关注将此类检测器用于 IRSTD [7],也没有与 SOTA IRSTD 方法进行严格比较。

在本文中,提出了一种新颖的 YOLO 检测头,称为 OL-NFA(for Object-Level Number of False Alarms, OL-NFA对象级误报数量),专门用于小物体检测。该模块集成了一个逆向决策标准,用于引导特征提取,从而使不可预测的物体在背景中脱颖而出并被检测到。它用于重新估算由 YOLO 骨干计算出的对象性分数,并经过精心实施,以便在训练过程中进行反向传播。使用逆向范式的一个好处是,因为有大量的背景样本,它侧重于对背景建模,而不是对物体本身建模。这样,通过拒绝背景分布的假设来进行检测,就可以绕过类不平衡和训练数据少的问题。主要贡献如下:

1.设计了一种新颖的 YOLO 检测头,它整合了一种用于估算对象性分数的逆向标准。通过重点对背景而非物体本身进行建模,放宽了对大量训练样本的限制。

2.在著名的 IRSTD 基准上比较了 SOTA 分割神经网络和物体检测方法,结果表明在 YOLOv7-tiny 骨干中添加 OL-NFA 可以缩小 IRSTD 中物体检测器和 SOTA 分割神经网络 之间的性能差距。

3.此外,还在少样本环境中大幅提高了 YOLOv7-tiny 的性能(15-shot 的 AP 为 39.2%),证明了逆向范式在弱训练条件下的鲁棒性。

2 相关工作

2.1 逆向推理

逆向决策方法可以自动推导出与假设检验相关的决策标准。这些方法从感知理论,尤其是Gestalt理论中汲取灵感[8]。这些方法包括通过使用可解释的检测阈值来拒绝表征非结构化背景的原始模型。后者允许控制误报数量(NFA),通常定义为被测物体总数与所选原始的模型所遵循的规律的尾部分布之间的乘积。由于计算出的尾值取决于对象的特征,因此 NFA 值可以与任何给定对象相关联。文献中提出了几种逆向的公式。它们取决于考虑的是灰度图像还是二值图像。在第一种情况下,最常用的原始模型是像素灰度值的高斯分布 [9、10、11]。后者已被 [12] 整合到深度学习框架中,并在小目标分割中表现出了很好的性能。在第二种情况下,最广泛使用的原始模型是图像网格中 "真实 "像素的均匀空间分布。这就导致了参数 p p p 的二项分布,即 "真实 "像素 κ κ κ在任何给定参数形状的区域 ν ν ν内的数量[13, 14]:
NFA ( κ , ν , p ) = η ∑ i = κ ν ( ν i ) p i ( 1 − p ) ν − i , \text{NFA}\left(\kappa,\nu,p\right)=\eta\sum_{i=\kappa}^{\nu}\begin{pmatrix}\nu\\i\end{pmatrix}p^{i}\left(1-p\right)^{\nu-i}, NFA(κ,ν,p)=ηi=κν(νi)pi(1p)νi,
其中, η η η 是测试对象的数量。根据公式 (1),可能代表物体的像素子集更加重要,因为与图像整体密度相比,它包含许多空间上接近的点。工作重点是将这一原始的模型整合到物体检测器的训练循环中,以引导特征提取,而这在之前的研究中并没有考虑到。与 [12] 不同的是,[12] 的原始模型适用于像素级分类(即分割),而作者考虑的是另一种直接适用于对象级的模型,因此更适用于有边界框建议的神经网络。

2.2 物体检测方法

物体检测是在图像中检测感兴趣的物体,并通过边界框确定其位置的任务。针对此类任务,已经提出了几种深度学习方法 [15, 6]。YOLO 框架是应用最广泛的一种,因为它在各种应用中都有很好的性能,而且执行时间短。它是一种单阶段算法,使用单个卷积神经网络来预测边界框坐标、对象性和分类分数。具体来说,它将图像划分为一个个网格,并预测任何给定网格单元包含物体的概率(表示为物体度分数),如果存在物体,则预测物体的边界框坐标。YOLO 早期版本的一个问题是,它们在检测小物体时很吃力。事实上,如果要检测的物体太小,它可能只占据网格单元的一小部分,这使得 YOLO 难以准确地检测到它。为了解决这个问题,YOLOv3 [16] 引入了一个特征金字塔网络(feature pyramid network,FPN),将在多个尺度上检测到的特征结合起来。YOLO 的一些最新版本,如 YOLOR [17] 或 YOLOv7 [18],在一些著名的计算机视觉基准测试中取得了具有竞争力的检测性能,同时还提高了执行速度。还有人提出了卷积层数更少的 YOLO 微型版本。

3 方法

3.1 总体架构

在这里插入图片描述

作者提出了一种新颖的 YOLO 检测头,称为 OL-NFA(对象级 NFA 检测头),它集成了一种逆向标准,用于检测具有意外偏离背景分布特征的物体。OL-NFA 将根据 NFA 标准(式 (1))计算对象性得分,并应用于网络生成的特征图。

图 1 展示了方法的整体架构。红外输入图像首先经过 YOLO 主干网络,提取不同尺度的特征图。然后,通过颈部将三个较低层次的特征组合在一起,从而得到最终的特征图 F i F_i Fi,用于执行三个层次的检测: i ∈ 1 , 2 , 3 i∈{1, 2, 3} i1,2,3。为了实现检测,首先要通过密集层预测边界框坐标。然后,引入 OL-NFA 模块,利用 NFA 准则重新估算每个边界框的对象度得分。为此,使用 Faster R-CNN [15] 中的 ROI Align 提取出 η 个感兴趣区域(ROI),用 f r o i f_{roi} froi表示,并通过第 3.2 节所述的重要性层计算出每个 ROI 的重要性得分。最后,通过第 3.2 节中定义的函数 f a c t f_{act} fact,这些分数的范围为 [0,1],这样就可以应用 YOLO 中使用的二元交叉熵损失。

3.2 逆向标准的可微分积分

图 1 中的重要性层整合了公式 (1) 中给出的逆向标准。然而,由于该公式 (i) 是为二值图像而非灰度特征图而设计的,而且 (ii) 不可微,因此需要进行一些近似处理,以便将其整合到 YOLO 训练循环中。公式 (1) 带来的第一个困难是计算 f r o i ∈ R 2 f_{roi}∈\mathbb{R}^2 froiR2 中 "True "像素 κ 的数量。如果要对 f r o i f_{roi} froi进行二值化处理,就会破坏反向传播循环。因此,建议考虑实数成员系数(以模糊聚类或分类的精神为指导),即对每个像素处理一个系数,表示它属于包含二进制情况下的值为 1像素的集合的程度。为此,在像素值上使用了 sigmoid 函数 σ,这样就可以通过这些模糊归属系数的总和,近似地计算出 f r o i f_{roi} froi 中包含的像素数量,从而估算出局部密度。在计算 F i F_i Fi中的总点数时,也采用了同样的近似方法,以估算公式 (1) 中二项式定律的参数 p p p(代表 F i F_i Fi 的全局密度)。第二个问题是,NFA 函数是不连续的、不可微的,而且由于处理的是面积很小的物体 ν ν ν,它只取极少数不同的值。这些因素使得很难将公式 (1) "原封不动 "地集成到训练环路中,并进行有效的反向传播。因此,定义了 S ( κ , ν , p ) = − l n ( N F A ( κ , ν , p ) ) S (κ, ν, p) = - ln(NFA(κ, ν, p)) S(κ,ν,p)=ln(NFA(κ,ν,p)) 的意义,并在 k v > p \frac{k}{v} > p vk>p 时使用霍夫丁近似,从而得出
S ( κ , ν , p ) ≈ ν [ κ ν ln ⁡ ( κ ν p ) + ( 1 − κ ν ) ln ⁡ ( 1 − κ ν 1 − p ) ] − ln ⁡ η . S\left(\kappa,\nu,p\right)\approx\nu\left[\frac{\kappa}{\nu}\ln\left(\frac{\frac{\kappa}{\nu}}{p}\right)+\left(1-\frac{\kappa}{\nu}\right)\ln\left(\frac{1-\frac{\kappa}{\nu}}{1-p}\right)\right]-\ln\eta. S(κ,ν,p)ν[νκln(pνκ)+(1νκ)ln(1p1νκ)]lnη.
这样,就可以将函数 S ( κ , ν , p ) S (κ, ν, p) S(κ,ν,p) 的域扩展到 R 3 \mathbb{R}^3 R3,并输出更多的中间值。在 κ ν ≤ p \frac{\kappa}{\nu}≤ p νκp 的情况下,只需指定 ( κ , ν , p ) = − l n η (κ, ν, p) = - ln~η (κ,ν,p)=ln η,因为它对应于明显的背景值。最后,由于显著性值的范围为 [ − l n ( N t e s t ) , + ∞ ] [- ln(N_{test}), +∞] [ln(Ntest),+],其中大值对应于可能的目标,为了获得范围为[0, 1]的对象性得分,应用了非对称激活函数 f a c t ( x , η ) = 2 σ ( x + l n η ) − 1 f_{act}(x, η) = 2σ(x + ln η) - 1 fact(x,η)=2σ(x+lnη)1,其中 x ∈ R x∈ \mathbb{R} xR η ∈ N ∗ η∈ \mathbb{N}^∗ ηN

4 实验

4.1 数据集和指标

在 NUAA-SIRST 数据集[2]上对提出的方法进行了评估,该数据集是为数不多的可公开获取并在文献中广泛使用的红外小目标数据集之一。该数据集由 427 幅红外图像组成,波长范围为 950 到 1200 nm。来自 NUAA-SIRST 的目标的空间范围从 2 - 3 像素到最大目标的 100 像素以上不等,这使得该数据集适合在各种目标尺寸上评估提出的方法。如图 2 第一行所示,目标被淹没在纹理云等具有挑战性的场景中。按照 60 : 20 : 20 的比例将数据集分为训练集、验证集和测试集。还通过仅在 15 幅和 25 幅图像上训练 神经网络 来评估提出的方法在少样本环境中的优势。在定量评估方面,侧重于传统的检测指标:F1 分数(F1)和平均精度(AP,精度-召回曲线下的面积)。还依赖精度(Prec.)和召回率(Rec.)来了解 F1 分数的实现值。表格中的结果是三次不同训练的平均值,上标为 F1 和 AP 的标准偏差。
在这里插入图片描述

4.2 实验环境

在 YOLOv7tiny 的基础上添加了 OL-NFA 检测头,因为与其他 YOLO 主干线相比,该基线在 NUAA-SIRST 数据集上表现出色。将其与几种基线进行比较:1) 专门为 IRSTD 设计的分割网络,即 ACM [2]、LSPM [3] 和 DNANet [4];2) YOLO 基线,如 YOLOv3 [16]、YOLOR [17]、YOLOv7 和 YOLOv7-tiny [18]。对于 IRSTD 分割神经网络,使用原始论文中推荐的训练设置。所有物体检测神经网络都在 Nvidia RTX6000 GPU 上进行了 600 epochs从头开始的训练,使用 Adam 优化器 [19],批量大小等于 16,学习率等于 0.001。少量训练也采用了相同的设置。

表 1 显示了每种比较方法在 NUAA-SIRST 上取得的性能。可以看到,用OLNFA 代替传统的 YOLO 检测头不仅提高了微小物体检测的 YOLO 性能,还缩小了 SOTA IRSTD 分割神经网络与传统物体检测神经网络之间的性能差距。具体来说,提出的方法比最佳 YOLO 基线的 F1 分数高出 0.7%。AP 标准也提高了 0.4%。此外,提出的方法在 F1 和 AP 方面的表现略好于 DNANet,后者是 IRSTD 的 SOTA 方法。提出的方法的推理时间也比 DNANet 的推理时间短得多,因此可以进行实时目标检测。提出的 OL-NFA 模块之所以性能卓越,主要是因为精度更高,但召回率损失有限,这可以用 NFA 控制误报数量的特性来解释。事实上,增加一个逆向的判定标准有助于增强小物体的特征,从而将它们与复杂背景区分开来。这一点可以从图 2 中看出,最佳 YOLO 基线会导致输入 3 和输入 4 出现多个误报,而提出的方法则能提供正确的检测,没有任何误报。

在这里插入图片描述

4.4 OL-NFA 为少样本环境带来稳健性

将逆向推理纳入神经网络的一个重要动机是网络能够通过学习背景元素的表示而不是目标本身学习判别小目标。因此,它应该能使神经网络对薄弱的训练条件具有鲁棒性。为了证实猜想,在 NUAASIRST 数据集上定量评估了所提出的方法在少样本环境中的优势。为此,分别在 15 幅和 25 幅图像上对网络进行了训练。对于每种少样本设置,都在三个明显的褶皱上训练检测器,它们之间没有重叠。在第 4.1 节定义的测试集上获得的结果是这三个褶皱的平均值,计算出的平均值见表 2。可以看出,提出的方法在节俭设置中的表现明显优于基线方法。事实上,在这些情况下,F1 分数和平均精度都至少提高了 20%。因此,得出结论,在基线方法中添加对象级 NFA 能显著提高其在节俭环境下的鲁棒性:当训练样本数量除以 10 以上时,F1 分数仅降低 15%,而平均精度则保持在 90% 以上。
在这里插入图片描述

5 结论

在本文中,提出了一种名为 OL-NFA 的新型 YOLO 检测头,它在 YOLO 网络的训练循环中集成了一个逆向的决策标准。它迫使网络对背景分布而不是要检测的物体进行建模。广泛的实验表明,提出的方法不仅显著提高了 YOLO 网络在节俭型和少样本环境下的小目标检测性能,而且在小目标检测方面与 SOTA 分割网络的性能相当。这一令人鼓舞的性能促使考虑进一步研究如何使用逆向范式来检测微小目标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/693474.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详解 leetcode_078. 合并K个升序链表.小顶堆实现

/*** 构造单链表节点*/ class ListNode{int value;//节点值ListNode next;//指向后继节点的引用public ListNode(){}public ListNode(int value){this.valuevalue;}public ListNode(int value,ListNode next){this.valuevalue;this.nextnext;} }package com.ag; import java.ut…

[树形DP] 最长乘积链

题目 1.最长乘积链 - 蓝桥云课 (lanqiao.cn) 初始思路 对问题进行分析,对每个点dfs去求走不同路的最远距离与次远距离求乘积,时间复杂度为O(n^2) 看了答案怎么弄的优化 解题思路 总的来说 预处理(对每个结点的信息进行统计&#xff09…

AWS无服务器直播解决方案

随着媒体系统的发展,越来越多的直播客户想要一个即开即用的平台,在不需要管理和运维底层资源的同时使用一站式的媒体平台。九河云对多家云厂商有所了解及有一定合作,下面将按客户的需求介绍aws的无服务器直播解决方案。 架构概述&#xff1a…

Flutter插件开发指南02: 事件订阅 EventChannel

Flutter插件开发指南02: 事件订阅 EventChannel 视频 https://www.bilibili.com/video/BV1zj411d7k4/ 前言 上一节我们讲了 Channel 通道,但是如果你是卫星定位业务,原生端主动推消息给 Flutter 这时候就要用到 EventChannel 通道了。 本节会写一个 1~…

Unity编辑器扩展之是否勾选Text组件BestFit选项工具(此篇教程也可以操作其他组件的属性)

想要批量化是否勾选项目预制体资源中Text组件BestFit属性(此篇教程也可以操作其他组件的属性,只不过需要修改其中对应的代码),可以采用以下步骤。 1、在项目的Editor文件中,新建一个名为TextBestFitBatchProcessor的…

Linux篇:指令

一 基本常识: 1. 文件文件内容文件的属性 2. 文件的操作对文件内容的操作对文件属性的操作 3. 文件的类型: d:目录文件 -:普通文件 4. 指令是可执行程序,指令的代码文件在系统的某一个位置存在的。/u…

Linux---进程间通讯(上)

一、进程间通讯的目的 数据传输:一个进程需要将它的数据发送给另一个进程资源共享:多个进程之间共享同样的资源。通知事件:一个进程需要向另一个或一组进程发送消息,通知它(它们)发生了某种事件&#xff0…

分享10款自媒体人常用ai写作工具,总有一款适合你 #其他#AI写作

你是否因为写作困顿而感到沮丧?是不是希望能够找到一个能给你提供无限灵感和提高创作效率的利器?AI写作助手就是你的绝佳选择!现在我向大家推荐几款好用的AI写作助手,它们将让你的创作之旅更加流畅、富有创意。 1.七燕写作 这是一…

十二、通过色彩空间转换进行更换图片背景

项目功能实现&#xff1a;对一张白色背景的图片进行更换成蓝色背景&#xff0c;类似抠图更换背景操作 按照之前的博文结构来&#xff0c;这里就不在赘述了 一、头文件 inrange.h #pragma once#include<opencv2/opencv.hpp>using namespace cv;class INRANGE{ public:v…

华为OD机试真题-围棋的气-2023年OD统一考试(C卷)---python代码

题目&#xff1a; 代码&#xff1a; """ # 输入&#xff1a;2的倍数 第一个为行号 0-18 第二个为列号 0-18第一行为黑色 第二行为白色思路&#xff1a;先求黑色&#xff0c;进行去重棋子的位置&#xff0c;再求白色 逐个棋子求坐标。 """ d…

OpenLayers6入门,如何销毁已经创建好的OpenLayers地图容器

专栏目录: OpenLayers入门教程汇总目录 前言 本章介绍如何销毁已经创建好的OpenLayers地图容器。 在某些场景下,可能会需要销毁之前的地图,重新创建新的地图的需要,因此本章介绍一下在开始创建地图前如何先销毁之前的地图的功能。 二、依赖和使用 "ol": &qu…

用CSS3画一个三角形

<style> .up{width:0;height:0;border: 100px solid transparent;border-top: 100px solid red;/*红色*/ } .down{width:0;height:0;border: 100px solid transparent;border-bottom: 100px solid blue;/*蓝色*/ } .left{width:0;height:0;border: 100px solid transpare…

【爬虫JS逆向-工具篇】浏览器内存漫游加密参数Hook实战教程

文章目录 1. 写在前面2. 环境搭建2. 加密定位实战 【作者主页】&#xff1a;吴秋霖 【作者介绍】&#xff1a;Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作&#xff01; 【作者推荐】&#xff1a;对JS逆向感兴趣的朋友可以关…

JWT 重点讲解

JWT 重点讲解 文章目录 JWT 重点讲解1. JWT 是什么2. JWT 的组成2.1 第一部分 HEADER2.2 第二部分 PAYLOAD2.3 第三部分 SIGNATURE 3. JWT 在线生成与解析4. JWT 的特点4.1 无状态4.2 可自定义4.3 扩展性强4.4 调试性好4.5 安全性取决于密钥管理4.6 无法撤销4.7 需要缓存到客户…

Java集合框架-1

目录 List集合 常见方法 迭代器&#xff08;Iterator&#xff09; List集合特有方法 List 的特点 创建 List 遍历List Java集合框架是Java编程语言提供的各种数据结构和算法的实现。它提供了不同类型的集合类&#xff0c;如列表(List)、集(Set)、映射(Map)等&#xff0c…

一个获取正定矩阵的非常好的方法 (多元二次函数 ---> 正定矩阵) (done)

参考视频&#xff1a;https://www.bilibili.com/video/BV11T4y1S7YF/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 如下图&#xff0c;是一种非常直接的获取正定矩阵的方法 &#xff08;且这种方法一定会获得对称矩阵&#xff…

IDEA 2023.2 配置 JavaWeb 工程

目录 1 不使用 Maven 创建 JavaWeb 工程 1.1 新建一个工程 1.2 配置 Tomcat 1.3 配置模块 Web 2 使用 Maven 配置 JavaWeb 工程 2.1 新建一个 Maven 工程 2.2 配置 Tomcat &#x1f4a5;提示&#xff1a;IDEA 只有专业版才能配置 JavaWeb 工程&#xff0c;若是社区版&am…

☀️将大华摄像头画面接入Unity 【2】配置Unity接监控画面

一、前言 上一篇咱们将大华摄像头接入到电脑上了&#xff0c;接下来准备接入到unity画面。 接入到监控就涉及到各种视频流的格式rtsp、rtmp、m3u8。 Unity里有一些播放视频流的插件&#xff0c;主要的就是AVPro Video 和 UMP等&#xff0c;这次我用的是UMP 最好使用2.0.3版本…

从0到1的私域流量体系搭建,私域操盘手的底层认知升级

一、教程描述 本套私域操盘手教程&#xff0c;大小4.31G&#xff0c;共有12个文件。 二、教程目录 01第一课、私域能力必修&#xff1a;私域大神熟记于心的高阶私域体系.mp4 02第二课、私域IP打造&#xff1a;那些忍不住靠近的私域IP如何打造的.mp4 03第三课、朋友圈经济&…

论文阅读——SqueezeSAM

SqueezeSAM: User-Friendly Mobile Interactive Segmentation 比SAM更小&#xff0c;更快。 框架&#xff1a; 使用的U型结构 使用BatchNorm而不是LayerNorm节省计算&#xff1b; 对于用户点击和框&#xff0c;单独作为通道&#xff0c;前融合和后融合&#xff08;sam只有后融…