伪装目标检测论文BGNet:Boundary-Guided Camouflaged Object Detection

论文地址:link
代码地址:link
这篇论文是22年的CVPR收录的一篇关于伪装目标检测的文章,作者主要是用了一些通道注意力和Atrous卷积来实现边缘引导的伪装目标检测,模型并不复杂,看了两天的论文和代码,为了加深印象在这里总结一下。

摘要

  伪装物体检测(COD)是一项有价值但具有挑战性的任务,它可以分割与周围环境完美融合的物体。现有的深度学习方法往往难以准确识别具有完整精细对象结构的伪装对象。为此,在本文中,我们提出了一种用于伪装目标检测的新型边界引导网络(BGNet)。我们的方法探索了有价值的和额外的对象相关的边缘语义,以指导COD的表示学习,这迫使模型生成突出对象结构的特征,从而促进精确边界定位的伪装对象检测。在三个具有挑战性的基准数据集上进行的大量实验表明,在四个广泛使用的评估指标下,我们的BGNet显著优于现有的18种最先进的方法。

1.介绍

  伪装是自然界中的一种重要防御机制,它帮助某些物种隐藏在周围环境中,通过材料、着色或照明的方式进行隐藏,或伪装成其他东西,如模仿环境的外观、颜色或图案和破坏性着色,来保护自己免受捕食者的伤害[Price等人,2019]。这种机制也影响人类生活,如艺术、文化和设计(如伪装制服)[Stevens等人,2009]。近年来,从背景中识别伪装物体,即伪装物体检测(COD),引起了计算机视觉界越来越多的研究兴趣。它在促进不同领域的各种有价值的应用方面有着广阔的前景,从动物保护,例如物种发现[Rardo et al,2012]和动物监测,以及与视觉相关的领域,包括图像合成[Fan et al,2020a]、医学图像分析[Fan et al.,2020b]以及搜救。然而,由于伪装的性质,即候选对象与混沌背景之间的高度内在相似性,使得人类和机器很难发现伪装对象,因此COD是一项极具挑战性的任务。
  伪装目标检测方法大致可分为三个类型:
  1.设计有针对性的网络模块,以有效地探索COD的有区别的伪装对象特征,如C2FNet、UGTR。
  2.将一些辅助任务纳入联合学习/多任务学习框架,如分类任务、边缘提取、显著对象检测和伪装对象排序等。这种方法可以从共享特征中挖掘出有价值的额外线索,从而显著增强COD的特征表示。
  3.采用仿生方法,模仿出自然界中捕食者的行为过程或者人类的视觉心理模式来设计网络,如SINet、MirrorNet、PFNet。
   上述方法的弊端:边缘干扰或者身体轮廓伪装,难以有效和完整地识别对象的结构和细节,使检测出来的对象具有粗略/不完整的边界。
   MGL:Mutual graph learning model是第一个显式地利用边缘信息来提高COD性能的模型,但是MGL将边缘特征和对象特征一起编码到图卷积网络中,并通过图交互模块来增强特征表示。由此可见,MGL是一个复杂的模型,不可避免地增加了模型的复杂性,并承受着沉重的计算负担。
  为此,本文提出了一种新的边界引导网络(BGNet),该网络明确地利用边缘语义来提高伪装目标检测的性能。首先,我们设计了一个简单而有效的边缘感知模块(EAM),该模块集成了低级的局部边缘信息和高级的全局位置信息,在明确的边界监督下探索与目标边界相关的边缘语义。然后,引入边缘引导特征模块(EFM),将边缘特征与各层伪装对象特征结合起来,指导COD的表示学习;EFM模块可以使网络更加关注对象的结构和细节。然后,从上到下逐步聚合多层融合特征,预测伪装目标。为了增强特征表示,我们构建了一个上下文聚合模块(CAM),该模块通过一系列的属性卷积来挖掘和聚合多尺度上下文语义,以产生具有更强和更有效表示的特征。利用设计良好的模块,BGNet能够预测具有精细目标结构和边界的伪装目标。值得注意的是,与MGL相比,我们设计了一个更简单但更有效的边缘提取模块来挖掘准确的对象边界语义,然后利用所提出的EFM和CAM来指导伪装对象的特征表示学习。此外,该方法实现了更精确的目标定位和更强的目标结构保留。
综上所述,我们的主要贡献如下:
• 对于COD任务,我们提出了一种新的边界引导网络,即BGNet,它挖掘和集成了与边界相关的边缘语义,以提高伪装目标检测的性能。
• 我们精心设计了边缘引导特征模块(EFM)和上下文聚合模块(CAM),以增强边界语义,探索有价值和强大的COD特征表示。

2.方法

2.1 整体结构

  作为我们的骨干网络,从输入图像中提取多层次特征,即 f i ( i = 1 , 2 , . . . . , 5 ) {f_i}\left( {i = 1,2,....,5} \right) fi(i=1,2,....,5)然后,应用边缘感知模块(EAM)在目标边界监督下,从包含局部边缘细节的低级特征 f 2 {f_2} f2和包含全局位置信息 f 5 {f_5} f5的高级特征中挖掘出与对象相关的边缘语义。利用以下多个边缘引导特征模块(EFM)将EAM的边缘线索与每一级的多级骨干特征) f 2 {f_2} f2- f 5 {f_5} f5相结合,指导特征学习,增强了边界表示。最后,采用多个上下文聚合模块(CAM),自上而下逐步聚合多层次融合特征,发现伪装对象。在测试中,我们选择最后一个CAM的预测作为最终结果。请注意,我们没有采用主干特征 f 1 {f_1} f1,因为它太接近输入,有很多冗余信息和一个小的接受域。
在这里插入图片描述

2.2 Edge-aware Module-EAM

  良好的边缘先验有利于分割和定位的目标检测。虽然低级特征包含了丰富的边缘细节,但它们也引入了许多非目标边缘。因此,需要高级语义或位置信息来促进对伪装对象相关边缘特征的探索。在本模块中,我们结合低级特征 f 2 {f_2} f2和高级特征 f 5 {f_5} f5来建模与对象相关的边缘信息,如图8所示。具体来说,首先使用两个1×1卷积层将 f 2 {f_2} f2 f 5 {f_5} f5的通道分别更改为64( f 2 ′ f_2^{'} f2) 和256 ( f 5 ′ f_5^{'} f5)。然后通过串联运算对特征 f 2 ′ f_2^{'} f2和上采样的 f 5 ′ f_5^{'} f5进行积分。最后,通过两个3×3卷积层和一个1×1卷积层,再加上Sigmoid函数,得到边缘特征 f e {f_e} fe。EAM是一种简单而有效的提取特定边缘特征的模块。如图7所示,EAM很好地学习了与对象边界相关的边缘语义。
在这里插入图片描述

2.3 Edge-guidance Feature Module-EFM

  边缘引导特征模块(EFM)旨在将与边界相关的边缘线索注入到表征学习中,以增强具有对象结构语义的特征表征。众所周知,不同的特征通道往往包含不同的语义。因此,为了实现良好的集成并获得强大的表征,我们引入了本地通道注意机制来探索跨通道交互并挖掘通道之间的关键线索。
  如图4所示,给定输入特征 f i ( i ∈ { 2 , 3 , . . . . . , 5 } ) {f_i}\left( {i \in \left\{ {2,3,.....,5} \right\}} \right) fi(i{2,3,.....,5})和边缘特征 f e {f_e} fe,我们首先在它们之间进行逐元素乘法,并进行额外的跳过连接和3×3卷积,得到初始融合特征 f i e f_i^e fie,可以表示为:
f i e = F c o n v ( ( f i ⊗ D ( f e ) ) ⊕ f i ) f_i^e = {F_{conv}}\left( {\left( {{f_i} \otimes D\left( {{f_e}} \right)} \right) \oplus {f_i}} \right) fie=Fconv((fiD(fe))fi)
  式中D为下采样,Fconv为3×3卷积。⊗是元素明智的乘法,⊕是元素明智的加法。为了增强特征表征,受[Wang et al .2020]的启发,我们引入局部关注来探索关键特征通道。具体来说,我们使用通道全球平均池化(GAP)聚合卷积特征 f i e f_i^e fie。然后通过1D卷积和Sigmoid函数得到相应的通道关注(权值)。不像完全连接的操作,捕获所有通道的依赖关系,但显示出很高的复杂性,我们探索本地跨通道交互,并以本地方式学习每个注意,例如,只考虑每个通道的k个邻居。之后,我们将通道注意力与输入特征 f i e f_i^e fie相乘,通过1×1卷积层减少通道,得到最终输出 f i a f_i^a fia,即
f i a = F c o n v 1 ( σ ( F 1 D k ( G A P ( f i e ) ) ) ⊕ f i e ) f_i^a = {F_{conv1}}\left( {\sigma \left( {F_{1D}^k\left( {GAP\left( {f_i^e} \right)} \right)} \right) \oplus f_i^e} \right) fia=Fconv1(σ(F1Dk(GAP(fie)))fie)
式中 F c o n v 1 F_{conv1} Fconv1为1×1卷积, f 1 D k f_{1D}^{k} f1Dk为核大小为k的1D卷积,σ为Sigmoid函数。核大小 k = ∣ ( 1 + l o g 2 ( C ) ) / 2 ∣ o d d k = {\left| {\left( {1 + lo{g_2}\left( C \right)} \right)/2} \right|_{odd}} k=(1+log2(C))/2odd可以自适应地设置为奇数,其中 ∣ ∗ ∣ o d d {\left| * \right|_{odd}} odd表示最近的奇数,C是 f i e f_i^e fie的通道。内核大小与通道尺寸成正比。显然,所提出的注意策略可以突出关键通道,抑制冗余通道或噪声,从而增强语义表征。
在这里插入图片描述

2.4 Context Aggregation Module

  为了整合多层融合特征进行伪装目标预测,我们设计了一个上下文聚合模块(CAM)来挖掘上下文语义以增强目标检测,如图5所示。BBSNet中的全局上下文模块[Fan et al . 2020c]只利用多个独立的并行分支分别提取不同尺度的特征,而不考虑各个分支之间的语义相关性[Wu et al ., 2020],而CAM则考虑了跨尺度交互来增强特征表征。以 f 4 a f_4^a f4a f 5 a f_5^a f5a样,并将它们连接起来,然后进行1×1卷积层,得到初始聚合特征 f m f_m fm。接下来,我们将fm平均分成四个特征图 ( f m 1 , f m 2 , f m 3 , f m 4 ) (f_m^1,f_m^2,f_m^3,f_m^4) (fm1,fm2,fm3,fm4)沿通道维,然后进行跨尺度交互学习,即通过一系列亚元卷积对相邻分支的特征进行积分提取多尺度上下文特征。可表述为:
f m j ′ = F c o n v n j ( f m j − 1 ′ ⊕ f m j ⊕ f m j + 1 ) , j = { 1 , 2 , 3 , 4 } ^{f_m^{{j^{'}}} = F_{conv}^{{n_j}}\left( {f{{_m^{j - 1}}^{'}} \oplus f_m^j \oplus f_m^{j + 1}} \right),j = \left\{ {1,2,3,4} \right\}} fmj=Fconvnj(fmj1fmjfmj+1),j={1,2,3,4}
  其中 F c o n v n j F_{conv}^{{n}_{j}} Fconvnj表示一个3 × 3的卷积,膨胀率为 n j n_j nj。在我们的实验中,设 n j n_j nj={1,2,3,4}.另外,当i = 1时,只有 f m 1 f_m^1 fm1 f m 2 f_m^2 fm2;当i = 4时,只有 f m 4 f_m^4 fm4 f m 3 ′ f_m^{{3^{'}}} fm3。然后,我们将这四个多尺度特征在 f m j ′ f_m^{j^{'}} fmj中进行连接,然后进行1×1卷积、残差连接和3×3卷积,可以表示为:
f i c = F c o n v ( F c o n v 1 ( [ f m j ′ ] ) ⊕ f m ) f_i^c = {F_{conv}}\left( {{F_{conv1}}\left( {\left[ {f_m^{{j^{'}}}} \right]} \right) \oplus {f_m}} \right) fic=Fconv(Fconv1([fmj])fm)
  其中[*]为级联运算, f i c f_i^c fic为CAM的输出。注意,对于i={2,3}时,前一个CAM的输出 f i + 1 c f_{i+1}^c fi+1c将与fci一起作为下一个CAM的输入,得到 f i c f_i^c fic。通过另一个1×1卷积来改变特征的通道数,我们可以得到预测 P i ( i ∈ { 2 , 3 , 4 } ) {P_i}\left( {i \in \{ 2,3,4\} } \right) Pi(i{2,3,4})的伪装物体。
在这里插入图片描述

2.5 Loss Function 损失函数

  我们的模型有两种监督:伪装对象蒙版(Go)和伪装对象边缘(Ge)。对于掩码监督,我们采用加权二元交叉熵损失( L B C E w L_{BCE}^w LBCEw)和加权IOU损失( L I O U w L_{IOU}^w LIOUw) [Wei等,2020],它们更关注硬像素,而不是为所有像素分配相同的权重。对于边缘监督,我们采用骰子损失( L d i c e L_{dice} Ldice) [Xie et al ., 2020]来处理正负样本之间的强烈不平衡。注意到面具监督是在来自CAM的三个伪装对象预测( P i ( i ∈ { 2 , 3 , 4 } ) {P_i}\left( {i \in \{ 2,3,4\} } \right) Pi(i{2,3,4})上进行的。因此,总损耗定义为: L t o t a l = ∑ i = 2 4 ( L B C E w ( P i , G o ) + L I O U w ( P i , G o ) ) + λ L d i c e ( P e , G e ) {L_{total}} = \sum\nolimits_{i = 2}^4 {\left( {L_{BCE}^w\left( {{P_i},{G_o}} \right) + L_{IOU}^w\left( {{P_i},{G_o}} \right)} \right)} + \lambda {L_{dice}}\left( {{P_e},{G_e}} \right) Ltotal=i=24(LBCEw(Pi,Go)+LIOUw(Pi,Go))+λLdice(Pe,Ge),其中λ是权衡参数,在我们的实验中设置λ = 3, P e P_e Pe是对伪装对象边缘的预测。

3.实验

在这里插入图片描述
在这里插入图片描述

4.结论

  在本文中,我们利用边缘先验来帮助恢复目标结构,提高伪装目标检测的性能。我们提出了一个简单而有效的边界引导网络(BGNet),该网络包含边缘感知模块、边缘引导特征模块和上下文聚合模块,用于探索与对象相关的边缘语义,以指导和增强COD的表示学习。通过采用边缘线索,我们的BGNet提供了精确的伪装对象预测,具有完整和精细的对象结构和边界。大量的实验表明,我们的方法在三个基准上优于现有的最先进的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/747907.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于UE的相机震动CameraShake

创建CameraShake资源 CameraShake配置是个蓝图类,我们选择创建BlueprintClass,父类选择CameraShakeBase即可。 参数调整 目前主要用到了 LocationAmplitudeMultiplier 1 LocationFrequencyMultiplier 10 RotationAmplitudeMultiplier 1 Rotation…

专业120+总400+北京理工大学826信号处理导论考研经验北理工电子信息与通信工程,真题,大纲,参考书。

**今年专业课826信号处理导论(信号系统和数字信号处理)120,总分400,应群里同学需要,自己总结一下去年的复习经历,希望对大家复习有帮助。**专业课: 北京理工大学专业826是两门合一,…

深度学习指标| 置信区间、Dice、IOU、MIOU、Kappa

深度学习部分指标介绍 置信区间混淆矩阵DiceIOU和MIOUKappa 置信区间 95%CI指标 读论文的时候,常会看到一个“95%CI”的评价指标。 其中CI指的是统计学中的置信区间(Confidence interval,CI)。在统计学中,一个概率样…

代码随想录训练营第46天 | LeetCode 139.单词拆分、动态规划:关于多重背包,你该了解这些!、总结

目录 LeetCode 139.单词拆分 文章讲解:代码随想录(programmercarl.com) 视频讲解:你的背包如何装满?| LeetCode:139.单词拆分_哔哩哔哩_bilibili 思路 动态规划:关于多重背包,你该了解这些&#xff01…

perl 用 XML::LibXML DOM 解析 Freeplane.mm文件,生成测试用例.csv文件

Freeplane 是一款基于 Java 的开源软件,继承 Freemind 的思维导图工具软件,它扩展了知识管理功能,在 Freemind 上增加了一些额外的功能,比如数学公式、节点属性面板等。 在云计算中,解析XML元素和属性是一种常见的操作…

vite打包流程和原理

文章目录 打包原理Vite比Webpack快?在生产环境下的表现启动项目后,完成加载比较慢?Esbuild & Rollup热更新 打包原理 vite利用了ES module这个特性,使用vite运行项目时,首先会用esbuild进行预构建,将所…

迷宫寻路[天梯赛 -- 栈]

文章目录 题目描述思路AC代码 题目描述 输入样例 8 8 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 1 1 1 0 1 1 0 1 0 0 0 0 0 0 0 4 4 0 0 1 0 0 0 0 0 0 0 1 1 0 1 0 0 -1 -1输出样例 1,1 2,1 3,1 4,1 5,1 5,2 5…

【Session】Tomcat Session 集群

设备 nginx:192.168.67.11 tomcat1:192.168.67.12 tomcat2:192.168.67.13安装nginx (192.168.67.11) #关闭防火墙和安全机制 [roottest1 ~]# systemctl stop firewalld [roottest1 ~]# setenforce 0#安装epel源 [ro…

【AI+办公】利用AI软件制作PPT提升工作效率

最近看了很多AI相关信息的输入,很多使用AI软件赚钱的文章或付费课程,思路多多少少自己了解不少,后面有时间分享下。本篇主题是,利用AI软件制作PPT提升工作效率。对于上班族来说,提升工作效率也是一种节省个人时间的方式…

002——编译鸿蒙(Liteos -a)

目录 一、鸿蒙是什么 二、Kconfig 2.1 概述 2.2 编译器 2.3 make使用 本文章引用了很多韦东山老师的教程内容,算是我学习过程中的笔记吧。如果侵权请联系我。 一、鸿蒙是什么 这里我补充一下对鸿蒙的描述 这张图片是鸿蒙发布时使用的,鸿蒙是一个很…

hcia复习总结5

路由表 路由器的转发原理&#xff1a;当一个数据包进入路由器&#xff0c;路由器将基于数据包中的 目标IP地址查看本地的 路由表 。如果路由表中存在记录&#xff0c;则将 无条件 按照 路由表记录执行&#xff1b;如果没有记录&#xff0c;则将该数据包直接丢弃。 <aa…

基于变分模态分解与平稳小波变换的信号联合降噪(MATLAB R2021B)

变分模态分解VMD与递归式模态分解(EMD等)所采取的层层筛选模式有本质的不同&#xff0c;其整体框架是变分问题的求解&#xff0c;并且具有坚实的理论基础。 关于递归式模态分解(EMD等)的研究&#xff0c;实践超前于理论&#xff0c;目前尚没有严格的理论支持&#xff0c;递归式…

无硫防静电手指套:高科技产业的纯净与安全新选择

随着科技的飞速发展&#xff0c;高科技产业对于生产环境的纯净度和产品的防静电要求日益严格。为了满足这一高标准的需求&#xff0c;无硫防静电手指套应运而生&#xff0c;以其独特的无硫特性和出色的防静电功能&#xff0c;迅速成为了高科技产业中的纯净与安全新选择。 无硫手…

生成器模式(软考uml C++版)

按照软考中级软件设计师中指定的生成器模式uml图&#xff0c;可编写对应的C&#xff0b;&#xff0b;代码&#xff1a; #include<iostream> #include<vector> #include<string> using namespace std;/*创建者模式&#xff0c;又名生成器模式意图&#xff1a…

html5的css使用display: flex进行div居中的坑!

最近做项目的时候&#xff0c;有个需求&#xff0c;一个高度宽度不确定的Div在另一个Div内上下左右居中。 然后以前上下居中用的都是很繁琐的&#xff0c;就打算去百度搜索一个更优秀的方法。 百度AI自己给我一个例子&#xff1a; /* div在容器里居中显示&#xff0c;设置外容…

Linux_socket编程

套接字通信 socket 接口 守护进程 一.套接字通信 端口号&#xff1a; 端口号是一个2字节16位的整数;端口号用来标识一个进程, 告诉操作系统, 当前的这个数据要交给哪一个进程来处理; 一台主机可以根据ip地址定位另一台主机&#xff0c;而两台主机之间的通信本质是进程在通信。…

Mybatis(搭建,CRUD,方法参数,XML映射文件,动态SQL)【详解】

目录 一.准备基础代码 Mybatis的通用配置 二. 基本CURD操作 1.查询-根据id查询一条 2.查询-查询数量 3.删除 4.新增 获取主键值 5.修改 6.查询-模糊查询 预编译SQL #{}与${}的区别【面试题】 三. Mybatis的方法参数与结果集 1.SQL里取方法参数的值 2.查询结果集…

固定资产管理系统:井然有序,提升利用率,降损增值的解决之道。

固定资产管理系统是一种用于管理和跟踪组织内固定资产的软件系统。固定资产是指组织长期持有并用于生产、运营或提供服务的资产&#xff0c;例如土地、建筑物、机器设备、车辆等。 固定资产管理系统提供了一种集中管理和监控固定资产的方式&#xff0c;帮助组织更好地管理其资产…

人工智能 安装GPU环境 windows版

准备工作 需要有NVIDIA账号 磁盘要有50G 空间 我这里是 aws的 G4dn 虚拟机, 对应的 Tesla显卡,操作系统windows2022 1,安装VS 用社区版2019即可 https://my.visualstudio.com/Downloads?PId8228 2,下载完后运行程序选择C桌面版 大概5-10个G 3,下载完后运行一下 有账号就输…

房天下登录接口JS逆向

声明 本文章中所有内容仅供学习交流&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff0c;若有侵权&#xff0c;请联系我立即删除&#xff01; 逆向目标 目标&#xff1a;房天下账号密码登录 主页&#xff1a;https://passport.…