HCF-Net:用于红外小目标检测的分层上下文融合网络

摘要

红外小目标检测是一项重要的计算机视觉任务,涉及在红外图像中识别和定位微小物体,这些物体通常仅包含几个像素。然而,由于物体尺寸极小以及红外图像中通常复杂的背景,这项任务面临困难。在本文中,我们提出了一种深度学习方法 HCF-Net,通过多个实用模块显著提高了红外小目标检测的性能。具体来说,它包括并行补丁感知注意力(PPA)模块、维度感知选择性集成(DASI)模块和多空洞通道细化器(MDCR)模块。PPA 模块使用多分支特征提取策略来捕获不同尺度和级别的特征信息。DASI 模块实现自适应通道选择和融合。MDCR 模块通过多个深度可分离卷积层捕获不同感受野范围的空间特征。在 SIRST 红外单帧图像数据集上的大量实验结果表明,所提出的 HCF-Net 性能良好,优于其他传统和深度学习模型。代码可在 https://github.com/zhengshuchen/HCFNet 获取。

关键词:红外小目标检测,深度学习,多尺度特征。

一、引言

红外小目标检测是一种在红外图像中识别和检测微小物体的关键技术。由于红外传感器能够捕获物体发出的红外辐射,这种技术即使在黑暗或低光环境中也能实现微小物体的精确检测和识别。因此,它在军事、安全、海上救援和火灾监测等多个领域具有显著的应用前景和价值。

然而,红外小目标检测仍然面临以下挑战。首先,深度学习是目前红外小目标检测的主要方法。但是,几乎所有现有的网络都采用经典的下采样方案。由于红外小物体尺寸小,通常伴随着微弱的热信号和模糊的轮廓,在多次下采样过程中存在信息丢失的重大风险。其次,与可见光图像相比,红外图像缺乏物理信息且对比度较低,使得小物体容易淹没在复杂的背景中。
在这里插入图片描述

为了应对这些挑战,我们提出了一种名为HCF-Net的红外小目标检测模型。该模型旨在更精确地描述物体的形状和边界,通过将红外小目标检测作为语义分割问题来提高物体定位和分割的准确性。如图1所示,它包含三个关键模块:PPA、DASI和MDCR,这些模块从多个层面解决了上述挑战。

具体来说,作为编码器-解码器的主要组成部分,PPA模块采用层次特征融合和注意力机制来保持和增强小物体的表示,确保在多次下采样步骤中保留关键信息。DASI模块增强了U-Net中的跳跃连接,专注于高维和低维特征的自适应选择和精细融合,以增强小物体的显著性。MDCR模块位于网络的深层,强化了多尺度特征提取和通道信息表示,捕获不同感受野范围的特征。它更精细地建模物体与背景之间的差异,提高了定位小物体的能力。这些模块的有机结合使我们能够更有效地应对小目标检测的挑战,提高检测性能和鲁棒性。

综上所述,本文的主要贡献可以总结如下:

  • 我们将红外小目标检测建模为语义分割问题,并提出了HCF-Net,一个可以从头开始训练的逐层上下文融合网络。

  • 提出了三个实用模块:并行补丁感知注意力(PPA)模块、维度感知选择性集成(DASI)模块和多空洞通道细化器(MDCR)模块。这些模块有效缓解了红外小目标检测中物体丢失和背景区分度低的问题。

  • 我们在公开可用的单帧红外图像数据集SIRST上评估了所提出HCF-Net的检测性能,并证明其相比几种最先进的检测方法具有显著优势。

二、相关工作

A. 传统方法

在红外小目标检测的早期阶段,主要的方法是基于模型的传统方法,通常分为基于滤波器的方法、基于人类视觉系统的方法和低秩方法。基于滤波器的方法通常局限于特定和均匀的场景。例如,TopHat[1]使用各种滤波器估计场景背景,以从复杂背景中分离出物体。基于人类视觉系统的方法适用于具有大物体和强背景区分度的场景,如LCM[2],它通过测量中心点与其周围环境的对比度来实现。低秩方法适用于快速变化和复杂的背景,但在实际应用中缺乏实时性能,通常需要额外的辅助手段,如GPU加速。这些方法包括IPI[3],它使用低秩分解将低秩背景与稀疏形状的物体相结合;PSTNN[4]采用基于张量核范数的非凸方法;RIPT[5]专注于重加权的红外补丁张量;以及NIPPS[6],这是一种高级优化方法,试图将低秩和先验约束结合起来。尽管传统方法在特定场景中有效,但它们容易受到杂波和噪声的干扰。在复杂的现实场景中,物体建模受到模型超参数的影响很大,导致泛化性能较差。

B. 深度学习方法

近年来,随着神经网络的快速发展,深度学习方法在红外小目标检测任务上取得了显著进展。深度学习方法[7]-[14]相比传统方法具有更高的识别准确率,且不依赖于特定场景或设备,表现出更强的鲁棒性和更低的成本,逐渐在该领域占据主导地位。王等人[15]使用在ImageNet大规模视觉识别挑战赛(ILSVRC)数据上训练的模型来完成红外小目标检测任务。梁奎等人[16]结合过采样生成的数据,提出了一种多层网络用于小目标检测。赵等人[17]开发了一种结合红外小目标语义约束信息的编码器-解码器检测方法(TBCNet)。王等人[18]使用生成器和判别器处理两个不同任务:漏检和误报,实现了这两方面的平衡。纳西尔等人[19]提出了一种用于自动目标识别(ATR)的深度卷积神经网络模型。张等人提出了AGPCNet[20],其中引入了注意力引导上下文模块。戴等人引入了非对称上下文调制ACM[21],并发布了第一个真实世界的红外小目标数据集SIRST。吴等人[22]提出了一种“U-Net中的U-Net”框架,以实现目标的多级表示学习。

三、方法

本节将详细讨论HCF-Net。如图1所示,HCF-Net是一个升级版的U-Net架构,由三个关键模块组成:PPA、DASI和MDCR。这些模块使我们的网络更适合检测红外小目标,并有效应对小目标损失和背景特征不明显等挑战。接下来,我们将在第III-A节中简要介绍PPA,然后在第III-B节中概述DASI,最后在第III-C节中介绍MDCR。

A. 并行补丁感知注意力模块

在红外小目标检测任务中,小目标在多次下采样操作中容易丢失关键信息。如图1所示,PPA替代了编码器和解码器基础组件中的传统卷积操作,以更好地应对这一挑战。
在这里插入图片描述

1) 多分支特征提取:PPA的主要优势在于其多分支特征提取策略。如图2所示,PPA采用并行多分支方法,每个分支负责在不同尺度和层次上提取特征。这种多分支策略有助于捕捉目标的多尺度特征,从而提高小目标检测的准确性。具体来说,该策略涉及三个并行分支:局部卷积分支、全局卷积分支和串行卷积分支。给定输入特征张量 F ∈ R H ′ × W ′ × C \mathbf{F} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C} FRH×W×C,它首先通过逐点卷积进行调整,得到 F ′ ∈ R H ′ × W ′ × C ′ \mathbf{F}^{\prime} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} FRH×W×C。然后,通过这三个分支,可以分别计算出 F local  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {local }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Flocal RH×W×C F global  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {global }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fglobal RH×W×C,以及 F conv  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv RH×W×C。最后,将这三个结果相加,得到 F ~ ∈ R H ′ × W ′ × C ′ \tilde{\mathbf{F}} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} F~RH×W×C

具体来说,局部分支和全局分支之间的区别是通过控制补丁大小参数 p p p来建立的,这通过在空间维度上聚合和位移非重叠补丁来实现。此外,我们计算非重叠补丁之间的注意力矩阵,以实现局部和全局特征的提取和交互。

首先,我们使用计算效率高的操作,包括Unfold和reshape,将 F ′ \mathbf{F}^{\prime} F分割成一组空间上连续的补丁,形状为 ( p × p , H ′ / p , W ′ / p , C ) \left(p \times p, H^{\prime} / p, W^{\prime} / p, C\right) (p×p,H/p,W/p,C)。接着,我们进行通道平均化操作,得到形状为 ( p × p , H ′ / p , W ′ / p ) \left(p \times p, H^{\prime} / p, W^{\prime} / p\right) (p×p,H/p,W/p)的结果。然后,我们使用FFN(Feed-Forward Network)进行线性计算。随后,我们应用激活函数,以获得线性计算特征在空间维度上的概率分布,并相应地调整它们的权重。

在加权结果中,我们采用特征选择[24]来从标记和通道中选择与任务相关的特征。具体来说,设 d = H ′ × W ′ p × p d = \frac{H^{\prime} \times W^{\prime}}{p \times p} d=p×pH×W,并将加权结果表示为 ( t i ) i = 1 C ′ \left(\mathbf{t}_{i}\right)_{i=1}^{C^{\prime}} (ti)i=1C,其中 t i ∈ R d \mathbf{t}_{i} \in \mathbb{R}^{d} tiRd表示第 i i i个输出标记。特征选择对每个标记进行操作,输出为 t ^ i = P ⋅ sim ⁡ ( t i , ξ ) ⋅ t i \hat{\mathbf{t}}_{i} = \mathbf{P} \cdot \operatorname{sim}\left(\mathbf{t}_{i}, \xi\right) \cdot \mathbf{t}_{i} t^i=Psim(ti,ξ)ti,其中 ξ ∈ R C ′ \xi \in \mathbb{R}^{C^{\prime}} ξRC P ∈ R C ′ × C ′ \mathbf{P} \in \mathbb{R}^{C^{\prime} \times C^{\prime}} PRC×C是与任务相关的参数, sim ⁡ ( ⋅ , ⋅ ) \operatorname{sim}(\cdot, \cdot) sim(,)是范围在 [ 0 , 1 ] [0,1] [0,1]之间的余弦相似度函数。这里, ξ \xi ξ作为任务嵌入,指定了哪些标记与任务相关。每个标记 t i \mathbf{t}_{i} ti都根据其与任务嵌入的相关性(通过余弦相似度衡量)重新加权,有效地模拟了标记选择。随后,我们对每个标记的通道进行线性变换 P \mathbf{P} P,然后进行重塑和插值操作,最终生成特征 F local  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {local }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Flocal RH×W×C F global  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {global }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fglobal RH×W×C。最后,我们用由三个 3 × 3 3 \times 3 3×3卷积层组成的串行卷积替代了传统的 7 × 7 7 \times 7 7×7 5 × 5 5 \times 5 5×5 3 × 3 3 \times 3 3×3卷积层。这会产生三个不同的输出: F conv  1 ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv } 1} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv 1RH×W×C F conv  2 ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv } 2} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv 2RH×W×C,和 F conv  3 ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv } 3} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv 3RH×W×C。随后,我们将这些输出相加,以得到串行卷积的输出 F conv  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv RH×W×C

2)特征融合与注意力机制:通过多分支特征提取之后,我们利用注意力机制进行自适应特征增强。注意力模块包含一系列高效的通道注意力[25]和空间注意力[26]组件。在这个上下文中, F ~ ∈ R H × W × C ′ \tilde{\mathbf{F}} \in \mathbb{R}^{H \times W \times C^{\prime}} F~RH×W×C 会依次经过一个一维通道注意力图 M c ∈ R 1 × 1 × C ′ \mathbf{M}_{c} \in \mathbb{R}^{1 \times 1 \times C^{\prime}} McR1×1×C 和一个二维空间注意力图 M s ∈ R H ′ × W ′ × 1 \mathbf{M}_{s} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times 1} MsRH×W×1 的处理。这个过程可以总结如下:

F c = M c ( F ~ ) ⊗ F ~ , F s = M s ( F c ) ⊗ F c , F ′ ′ = δ ( B ( dropout ( F s ) ) ) \begin{array}{c} \mathbf{F}_{c} = \mathbf{M}_{c}(\tilde{\mathbf{F}}) \otimes \tilde{\mathbf{F}}, \quad \mathbf{F}_{s} = \mathbf{M}_{s}\left(\mathbf{F}_{c}\right) \otimes \mathbf{F}_{c}, \\ \mathbf{F}^{\prime \prime} = \delta\left(\mathcal{B}\left(\text{dropout}\left(\mathbf{F}_{s}\right)\right)\right) \end{array} Fc=Mc(F~)F~,Fs=Ms(Fc)Fc,F′′=δ(B(dropout(Fs)))

其中, ⊗ \otimes 表示逐元素乘法, F c ∈ R H × W × C ′ \mathbf{F}_{c} \in \mathbb{R}^{H \times W \times C^{\prime}} FcRH×W×C F s ∈ R H × W × C ′ \mathbf{F}_{s} \in \mathbb{R}^{H \times W \times C^{\prime}} FsRH×W×C 分别表示经过通道和空间选择后的特征, δ ( ⋅ ) \delta(\cdot) δ() B ( ⋅ ) \mathcal{B}(\cdot) B() 分别表示修正线性单元(ReLU)和批量归一化(BN),而 F ′ ′ ∈ R H × W × C ′ \mathbf{F}^{\prime \prime} \in \mathbb{R}^{H \times W \times C^{\prime}} F′′RH×W×C 是 PPA(可能指的是某个特定模块或处理的缩写)的最终输出。

B. 维度感知选择性集成模块

在红外小目标检测的多级下采样过程中,高维特征可能会丢失关于小目标的信息,而低维特征可能无法提供足够的上下文信息。为解决这个问题,我们提出了一种新颖的通道划分选择机制(如图3所示),使DASI(维度感知选择性集成模块)能够根据目标的大小和特性自适应地选择适当的特征进行融合。具体来说,DASI首先通过卷积和插值等操作将高维特征 F h ∈ R H h × W h × C h \mathbf{F}_{\mathbf{h}} \in \mathbb{R}^{H_{h} \times W_{h} \times C_{h}} FhRHh×Wh×Ch 和低维特征 F 1 ∈ R H l × W l × C l \mathbf{F}_{1} \in \mathbb{R}^{H_{l} \times W_{l} \times C_{l}} F1RHl×Wl×Cl 与当前层的特征 F u ∈ R H × W × C \mathbf{F}_{\mathbf{u}} \in \mathbb{R}^{H \times W \times C} FuRH×W×C 进行对齐。
在这里插入图片描述

随后,DASI在通道维度上将它们均等地划分为四个部分,得到 ( h i ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{h}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (hi)i=14RH×W×4C ( l i ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{l}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (li)i=14RH×W×4C ( u i ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{u}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (ui)i=14RH×W×4C,其中 h i \mathbf{h}_{i} hi l i \mathbf{l}_{i} li u i \mathbf{u}_{i} ui 分别表示高维特征、低维特征和当前层特征的第 i i i 个划分部分。这些划分部分是根据以下公式计算得到的:
α = sigmoid ⁡ ( u i ) , u i ′ = α l i + ( 1 − α ) h i , F u ′ = [ u 1 ′ , u 2 ′ , u 3 ′ , u 4 ′ ] , F u ^ = δ ( B ( Conv ⁡ ( F u ′ ) ) ) , \begin{array}{c} \alpha=\operatorname{sigmoid}\left(\mathbf{u}_{i}\right), \quad \mathbf{u}_{i}^{\prime}=\alpha \mathbf{l}_{i}+(1-\alpha) \mathbf{h}_{i}, \\ \mathbf{F}_{u}^{\prime}=\left[\mathbf{u}_{1}^{\prime}, \mathbf{u}_{2}^{\prime}, \mathbf{u}_{3}^{\prime}, \mathbf{u}_{4}^{\prime}\right], \quad \hat{\mathbf{F}_{\mathbf{u}}}=\delta\left(\mathcal{B}\left(\operatorname{Conv}\left(\mathbf{F}_{\mathbf{u}}^{\prime}\right)\right)\right), \end{array} α=sigmoid(ui),ui=αli+(1α)hi,Fu=[u1,u2,u3,u4],Fu^=δ(B(Conv(Fu))),

其中, α ∈ R H × W × C 4 \alpha \in \mathbb{R}^{H \times W \times \frac{C}{4}} αRH×W×4C 表示通过激活函数应用于 u i \mathbf{u}_{i} ui 得到的值, u i ′ ∈ R H × W × C 4 \mathbf{u}_{i}^{\prime} \in \mathbb{R}^{H \times W \times \frac{C}{4}} uiRH×W×4C 表示每个分区的选择性聚合结果。在通道维度上合并 ( u i ′ ) i = 1 4 \left(\mathbf{u}_{i}^{\prime}\right)_{i=1}^{4} (ui)i=14 后,我们得到 F u ′ ∈ R H × W × C \mathbf{F}_{u}^{\prime} \in \mathbb{R}^{H \times W \times C} FuRH×W×C。操作 Conv ( ) \text{Conv}() Conv() B ( ) \mathcal{B}() B() δ ( ) \delta() δ() 分别表示卷积、批量归一化(BN)和修正线性单元(ReLU),最终输出为 F u ^ ∈ R H × W × C \hat{\mathbf{F}_{u}} \in \mathbb{R}^{H \times W \times C} Fu^RH×W×C

如果 α > 0.5 \alpha>0.5 α>0.5,则模型优先考虑细粒度特征;而如果 α < 0.5 \alpha<0.5 α<0.5,则模型更强调上下文特征。

C. 多扩张通道细化模块

在多扩张通道细化模块(MDCR)中,我们引入了多个具有不同扩张率的深度可分离卷积层,以捕获不同感受野大小的空间特征。这允许我们更详细地建模对象与背景之间的差异,从而增强其识别小对象的能力。
在这里插入图片描述

如图4所示,MDCR将输入特征 F a ∈ R H × W × C \mathbf{F}_{\mathbf{a}} \in \mathbb{R}^{H \times W \times C} FaRH×W×C沿通道维度划分为四个不同的头部,生成 ( a i ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{a}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (ai)i=14RH×W×4C。然后,每个头部都经过具有不同扩张率的独立深度可分离扩张卷积,得到 ( a i ′ ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{a}_{i}^{\prime}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (ai)i=14RH×W×4C。我们将卷积扩张率指定为 d 1 , d 2 , d 3 d_1, d_2, d_3 d1,d2,d3 d 4 d_4 d4

a i ′ = D D W Conv ( a i ) , \mathbf{a}_{i}^{\prime}=D D W \text{Conv}\left(\mathbf{a}_{i}\right), ai=DDWConv(ai),

其中, a i ′ \mathbf{a}_{i}^{\prime} ai表示通过对第 i i i个头部应用深度可分离扩张卷积而获得的特征。操作 D D W Conv ( ) D D W \text{Conv}() DDWConv()表示深度可分离扩张卷积,而 i i i的取值范围为 1 , 2 , 3 , 4 1,2,3,4 1,2,3,4

MDCR通过通道分割和重组来增强特征表示。具体来说,我们将 a i ′ \mathbf{a}_{i}^{\prime} ai分割成单独的通道,以获得每个头部的 ( a i j ) j = 1 C 4 ∈ R H × W × 1 \left(\mathbf{a}_{i}^{j}\right)_{j=1}^{\frac{C}{4}} \in \mathbb{R}^{H \times W \times 1} (aij)j=14CRH×W×1。接着,我们在各个头部之间交错这些通道,形成 ( h j ) j = 1 C 4 ∈ R H × W × 4 \left(\mathbf{h}_{j}\right)_{j=1}^{\frac{C}{4}} \in \mathbb{R}^{H \times W \times 4} (hj)j=14CRH×W×4,从而增强多尺度特征的多样性。随后,我们使用逐点卷积进行组内和跨组信息融合,得到输出 F o ∈ R H × W × C \mathbf{F}_{\mathbf{o}} \in \mathbb{R}^{H \times W \times C} FoRH×W×C,实现轻量级且高效的聚合效果。
h j = W inner  ( [ a 1 j , a 2 j , a 3 j , a 4 j ] ) , F o = δ ( B ( W outer  ( [ h 1 , h 2 , … , h j ] ) ) ) , \begin{array}{c} \mathbf{h}_{j}=\mathbf{W}_{\text {inner }}\left(\left[\mathbf{a}_{1}^{j}, \mathbf{a}_{2}^{j}, \mathbf{a}_{3}^{j}, \mathbf{a}_{4}^{j}\right]\right), \\ \mathbf{F}_{\mathbf{o}}=\delta\left(\mathcal{B}\left(\mathbf{W}_{\text {outer }}\left(\left[\mathbf{h}_{1}, \mathbf{h}_{2}, \ldots, \mathbf{h}_{j}\right]\right)\right)\right), \end{array} hj=Winner ([a1j,a2j,a3j,a4j]),Fo=δ(B(Wouter ([h1,h2,,hj]))),
其中, W inner  \mathbf{W}_{\text {inner }} Winner  W outer  \mathbf{W}_{\text {outer }} Wouter 是逐点卷积中使用的权重矩阵。这里, a i j \mathbf{a}_{i}^{j} aij表示第 i i i个头部的第 j j j个通道,而 h j \mathbf{h}_{j} hj表示第 j j j组特征。我们有 i ∈ 1 , 2 , 3 , 4 i \in 1,2,3,4 i1,2,3,4 j ∈ 1 , 2 , … , C 4 j \in 1,2, \ldots, \frac{C}{4} j1,2,,4C。函数 δ ( ) \delta() δ() B ( ) \mathcal{B}() B()分别对应修正线性单元(ReLU)和批量归一化(BN)。

D. 损失设计

如图1所示,我们采用了深度监督策略来进一步解决下采样过程中小对象丢失的问题。每个尺度的损失由二元交叉熵损失(Bce)和交并比损失(Iou)组成,定义如下:
l i = Bce ⁡ ( y , y ^ ) + Iou ⁡ ( y , y ^ ) , L = ∑ i = 0 5 λ i ⋅ l i , l_{i}=\operatorname{Bce}(y, \hat{y})+\operatorname{Iou}(y, \hat{y}), \quad \mathcal{L}=\sum_{i=0}^{5} \lambda_{i} \cdot l_{i}, li=Bce(y,y^)+Iou(y,y^),L=i=05λili,
其中, ( l i ) i = 0 5 \left(l_{i}\right)_{i=0}^{5} (li)i=05表示多个尺度的损失, y ^ \hat{y} y^是真实掩码, y y y是预测掩码。每个尺度的损失权重定义为 [ λ 0 , λ 1 , λ 2 , λ 3 , λ 4 ] = [ 1 , 0.5 , 0.25 , 0.125 , 0.0625 ] \left[\lambda_{0}, \lambda_{1}, \lambda_{2}, \lambda_{3}, \lambda_{4}\right]=[1,0.5,0.25,0.125,0.0625] [λ0,λ1,λ2,λ3,λ4]=[1,0.5,0.25,0.125,0.0625]

这种设计允许模型在多个尺度上同时学习,并在训练过程中对不同尺度的特征进行加权。通过给予较低尺度(即较粗糙的尺度)较小的权重,我们能够在不牺牲对小对象检测精度的前提下,平衡模型对不同尺度特征的关注。这有助于模型更好地处理小对象,并在下采样过程中减少信息丢失。通过结合二元交叉熵损失和交并比损失,我们能够同时优化模型的分类和定位能力,从而提高整体性能。

四、实验

A. 数据集与评估指标

我们使用SIRST[21]数据集来评估我们的方法,并采用两个标准指标:交并比(IoU)和归一化交并比(nIoU)[21]。在我们的实验中,SIRST被划分为训练集和测试集,比例为8:2。

B. 实现细节

我们在NVIDIA GeForce GTX 3090 GPU上进行了HCF-Net的实验。对于大小为512×512像素、具有三个颜色通道的输入图像,HCF-Net的计算成本为93.16 GMac(Giga Multiply-Accumulate操作),包含1529万个参数。我们采用Adam优化器进行网络优化,使用批处理大小为4,训练模型300个周期。
在这里插入图片描述

C. 消融实验与对比

本节介绍了在SIRST数据集上进行的消融实验和对比实验。首先,如表I所示,我们使用U-Net作为基线,并系统地引入不同的模块来展示它们的有效性。其次,如表II所示,我们提出的方法在SIRST数据集上取得了出色的性能,IoU和nIoU分数分别为80.09%和78.31%,显著优于其他方法。最后,图5展示了各种方法的可视化结果。在第一行中,可以观察到我们的方法以较低的误报率准确检测到了更多的物体。第二行表明我们的方法在复杂背景下仍然能够精确定位物体。最后,最后一行表明我们的方法提供了更详细的形状和纹理特征描述。
在这里插入图片描述

五、结论

本文围绕红外小目标检测中的两个挑战——小目标损失和背景杂波问题进行了深入研究。为应对这些挑战,我们提出了HCF-Net模型,该模型集成了多个实用模块,显著提升了小目标检测的性能。通过大量实验验证,HCF-Net展现出了优越性,在性能上超过了传统的分割方法和深度学习模型。因此,该模型在红外小目标检测领域具有广阔的应用前景和重要的实用价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/1936.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

贪吃蛇代码实现

一.基本信息 实现目标&#xff1a;使用C语言在Windows环境的控制台中实现贪吃蛇游戏 游戏运行&#xff1a; 地图绘制基本玩法提示信息游戏的开始与结束 基本玩法&#xff1a; 通过上下左右键控制蛇的移动蛇可以加速减速吃掉食物可以得分并增加蛇的长度可以自动暂停 游戏结…

代码随想录算法训练营第三十四天|1005.K次取反后最大化的数组和、134. 加油站、135. 分发糖果

1005.K次取反后最大化的数组和 思路&#xff1a; 贪心的思路&#xff0c;局部最优&#xff1a;让绝对值大的负数变为正数&#xff0c;当前数值达到最大&#xff0c;整体最优&#xff1a;整个数组和达到最大。 局部最优可以推出全局最优。 那么如果将负数都转变为正数了&…

SAP DMS后台配置(4)

当DMS和CS文档服务器关联的时候,除了需要BASIS进行相关的配置以外,我们DMS也要进行相关的系统配置 路径:SPRO—跨应用组件—文档管理—常规数据—存储系统设置—维护还原系统 路径:SPRO—跨应用组件—文档管理—常规数据—存储系统设置—维护还原类别 当DMS和CS文档服…

HarmonyOS开发实例:【图片编辑应用】

介绍 本篇Codelab通过动态设置元素样式的方式&#xff0c;实现几种常见的图片操作&#xff0c;包括裁剪、旋转、缩放和镜像。效果如图所示&#xff1a; 相关概念 [image组件]&#xff1a;图片组件&#xff0c;用来渲染展示图片。[div组件]&#xff1a;基础容器组件&#xff0…

VMware虚拟机安装CentOS详细教程

前言 最近小白发现&#xff0c;有很多小伙伴在学习过程中都需要配置CentOS的系统&#xff0c;因此决定更新一篇在VMware虚拟机上安装CentOS的教程。 小白最近也去看了一下各种云的服务商出租的服务器&#xff0c;其中可选的系统中也有包括CentOS&#xff0c;所以在VMware配置…

用python做傅里叶变换和系统辨识

一、原始信号 1、理想数据 &#xff08;1&#xff09;系统参数 参数类型数值J0.5 k g ∗ m 2 kg*m^2 kg∗m2K0.2b5 &#xff08;2&#xff09;激励曲线 import matplotlib.pyplot as plt import numpy as np# 生成数据 x np.linspace(0, 10, 1000) # 生成0到10之间的100…

Midjourney与waifu2x双剑合璧:完美打造超高清动漫图像

在追求完美的动漫图像时&#xff0c;质量和分辨率是两个关键因素。Midjourney&#xff08;一个神秘而强大的AI图像生成工具&#xff09;与waifu2x&#xff08;一个专门用于放大动漫风格图像的AI工具&#xff09;的结合使得创造超高清的动漫图像变得触手可及。本文将引导您如何使…

【C++】---STL之vector详解

【C】---STL之vector详解 一、vector的介绍&#xff1a;二、vector的成员函数&#xff1a;1、vector类的构造函数2、vector的元素访问符3、vector的迭代器4、vector的模版5、vector的拷贝构造6、vector的容量&#xff08;1&#xff09;vector的增容机制&#xff08;2&#xff0…

Spring的过滤器、拦截器、切面区别及案例分析

Spring的过滤器、拦截器、切面 三者的区别&#xff0c;以及对应案例分析 一、三者的实现方式 1.1 过滤器 xxxFilter 过滤器的配置比较简单&#xff0c;直接实现Filter接口即可&#xff0c;也可以通过WebFilter注解实现对特定URL的拦截&#xff0c;Filter接口中定义了三个方法…

告别数据丢失,轻松掌握文件自动备份秘籍

在这个数字化高速发展的时代&#xff0c;我们的工作和生活都离不开电脑&#xff0c;而电脑中存储的文件和数据更是至关重要。然而&#xff0c;数据丢失的风险无处不在&#xff0c;可能因为硬件故障、软件崩溃、病毒攻击等原因而导致重要文件丢失。因此&#xff0c;文件自动备份…

Abaqus三维晶体塑性Voronoi泰森多边形晶格建模插件

插件介绍 AbyssFish Voronoi2D&3D 3D V3.0 插件可对Abaqus内已进行网格划分的部件&#xff08;Part&#xff09;生成Voronoi泰森多边形区块。插件可对任意形状的二维或三维部件、任意特征&#xff08;实体或壳&#xff09;、任意单元形状进行指派Voronoi晶格&#xff0c;可…

【STM32F4】按键开关

上一章&#xff0c;我们介绍了STM32F4的IO口作为输出的使用&#xff0c;这一章&#xff0c;将向大家介绍如何使用按键作为输入使用。 &#xff08;一&#xff09;硬件连接 根据正点原子的stm32f4阿波罗开发板&#xff0c;可以看见 按键KEY0连接在PH3上、 KEY1连接在PH2上、 …

SQLite的DBSTAT 虚拟表(三十六)

返回&#xff1a;SQLite—系列文章目录 上一篇:SQLite运行时可加载扩展(三十五&#xff09; 下一篇&#xff1a;SQLite—系列文章目录 1. 概述 DBSTAT 虚拟表是一个只读的同名虚拟表&#xff0c;返回 有关用于存储内容的磁盘空间量的信息 的 SQLite 数据库。 示例用例…

FPGA - ZYNQ 基于Axi_Lite的PS和PL交互

前言 在FPGA - ZYNQ 基于EMIO的PS和PL交互中介绍了ZYNQ 中PS端和PL端交互的开发流程&#xff0c;接下来构建基于基于Axi_Lite的PS和PL交互。 开发流程 Axi_Lite从机 在FPGA - AXI4_Lite&#xff08;实现用户端与axi4_lite之间的交互逻辑&#xff09;中&#xff0c;详解介绍…

性能工具之 JMeter 自定义 Java Sampler 支持国密 SM2 算法

文章目录 一、前言二、加密接口1、什么是SM22、被测接口加密逻辑 三、准备工作四、JMeter 扩展实现步骤1&#xff1a;准备开发环境步骤2&#xff1a;了解实现方法步骤3&#xff1a;runTest 方法步骤4&#xff1a;getDefaultParameters 方法步骤5&#xff1a;setupTest 方法 五、…

HTX迪拜之夜盛大举行:共筑开放、互联的Web3生态系统

4月18日&#xff0c;由HTX、HTX DAO主办&#xff0c;去中心化AI云游戏协议DeepLink赞助的HTX迪拜之夜主题活动“领航者相聚&#xff0c;引领币圈新风向”在迪拜盛大举行。通过在全球第二大加密中心-迪拜的频繁亮相&#xff0c;HTX正积极塑造自己作为行业领导者的形象&#xff0…

Mysql学习一

目录 1.启动数据库&#xff1a; 2.命令行连接到MySQL&#xff08;winr输入cmd&#xff09; 3.MySQL的三重结构&#xff1a; 4.SQL语句分类&#xff1a; 1.启动数据库&#xff1a; winr——输入services.msc进入本地服务 2.命令行连接到MySQL&#xff08;winr输入cmd&#x…

109. Python的turtle库简介

109. Python的turtle库简介 【目录】 文章目录 109. Python的turtle库简介1. 什么是turtle库&#xff1f;2. 用turtle库绘制一个爱心图案3. 库的导入方法3.1 直接导入整个库3.2 从库中导入特定的函数或类3.3 导入库中的所有内容3.4 为导入的库设置别名3.5 为导入的函数或变量设…

阿里巴巴Java开发规范——编程规约(3)

# 阿里巴巴Java开发规范——编程规约&#xff08;3&#xff09; 编程规约 &#xff08;四&#xff09; OOP规约 1.【强制】构造方法里面禁止加入任何业务逻辑&#xff0c;如果有初始化逻辑&#xff0c;请放在 init 方法中 这条编程规范的目的是为了保持代码的清晰性、可读性…

AOP

代理模式 提出问题 现有缺陷 假设我们有一个计算类&#xff0c;里面有加减乘除四个方法&#xff0c;现在我们要为这四个方法添加日志&#xff0c;即在方法执行的前后分别输出一句话&#xff0c;这时我们会发现如下缺陷&#xff1a; 1.对核心业务有干扰。核心业务是加减乘除…