【论文阅读笔记】CamoFormer: Masked Separable Attention for Camouflaged Object Detection

1.论文介绍

CamoFormer: Masked Separable Attention for Camouflaged Object Detection
CamoFormer:用于隐藏目标检测的掩蔽可分离注意力

TPAMI 2024
Paper Code

2.摘要

如何从背景中识别和分割隐藏的对象是一个挑战。受transformer中多头自注意的启发,提出了一种简单的掩蔽可分离注意(MSA)伪装目标检测算法。我们首先将多头自注意力分为三个部分,分别负责使用不同的掩模策略将被遮挡的物体从背景中区分出来。此外,我们建议捕获高分辨率的语义表示逐步基于一个简单的自上而下的解码器与MSA,以达到精确的分割结果。这些结构加上骨干编码器形成了一个新的模型,称为CamoFormer。

**Keywords:**隐藏目标检测,自注意,掩蔽可分离注意,自顶向下解码器

3.Introduction

之前只关注局部特征进行点级细化,而忽略了在前景和背景特征之间建立交互的重要性。在本文中,提出了掩蔽可分离注意力(MSA),它考虑了从一个新的角度编码的方式,隐藏的对象和背景特征。MSA是建立在多头自注意机制,但不像传统的方法,利用多个注意头只是为了增强特征表示,我们建议利用不同的注意头来计算不同区域的像素相关性。具体来说,将自注意力头分为三组。首先使用两组头部来独立地计算前景和背景区域的像素相关性。我们的目标是使用由预测头生成的预测前景内构建的注意力分数来索引来自全值表示的隐藏对象,并且对于背景也是如此。此外,我们保留了一组正常的注意力头,用于计算全局的像素相关性,这可以帮助从全局视图中区分被隐藏的对象。因此,三组头部是互补的。

给定所提出的MSA,我们将其应用于编码器解码器架构以逐步细化分割图。在解码器的每个特征级别,预测分割图并将其发送到MSA块以提高预测质量。这种渐进的细化过程使我们能够随着特征分辨率的增加获得高质量的图像对象预测。

  • 提出了一种利用不同的自我注意头来计算不同区域的视觉相似度,同时显式地模拟前景和背景之间的全局依赖关系的掩蔽可分离注意方法(MSA)。
  • 我们提出了一种新的网络体系结构,称为CamoFormer,其中构建了一条自上而下的路径,以充分利用我们的MSA的潜力。实验结果表明,我们的方法取得了比以往工作更好的性能。
  • 提出了两个新的简单度量来评估伪装目标检测模型在边界区域上的性能,结果表明我们的方法在处理边界区域方面具有更好的性能。

4.网络结构详解

在这里插入图片描述
编码器。默认情况下,采用PVTv2作为编码器,因为Vision Transformer在二进制分割任务中表现出了出色的性能。给定一幅输入图像I ∈ RH×W×3,将其送入编码器,从四个阶段生成多尺度特征图,记为{Ei}4 i=1。因此,E1的空间大小为H/4 × W/4,E4的空间大小为H/32 × W/32。然后,聚合来自编码器的最后三个阶段的特征,并将它们发送到卷积块,从而产生具有更高级语义的表示E5。

解码器。解码器是建立在编码器之上的。将来自编码器的多级语义特征{Ei} 5i =1馈送到解码器。为了在效率和性能之间实现更好的折衷,首先将Cd = 128个通道的1 × 1卷积连接到每个级别的特征图。如图所示,采用渐进的方式从编码器的顶部细化特征。在每个特征层次上,使用掩蔽的可分离注意力(MSA)来更好地区分伪装目标和背景。在渐进式融合的初始级中,聚集特征D4可以写为:
在这里插入图片描述
其中Fup(·)是用于形状匹配的双线性上采样操作。在以下级别中的聚合特征{Di}3 i=1可以被定义为:
在这里插入图片描述
与使用加法运算或级联运算来融合来自不同特征级别的特征不同,本文首先计算它们之间的元素乘积,然后使用求和运算。

损失函数。在每个feature级别添加了监督。将CamoFormer的解码器生成的预测表示为{Pi} 5i =1。除了最终预测图P1之外,所有其它预测图Pi在MSA中被用于如上所述的渐进细化。在训练过程中,每个Pi被重新缩放到与输入图像相同的大小,并且它们都由BCE损失和IoU损失来监督。总损失是多级损失的总和。CamoFormer的总损耗可以用公式表示如下:
在这里插入图片描述
掩码可分离注意力Masked Separable Attention
隐藏目标检测是不同的规模和高度相似的背景,这使得他们很难完全分割。如何从背景中准确地识别出隐藏的物体是至关重要的。本文通过提出掩蔽可分离注意力(MSA)来解决这个问题,其中不同的注意力负责不同的功能。打算使用部分注意力头分别计算预测的前景和背景区域的注意力分数,并使用它们来更好地识别隐藏的对象。MSA基于自注意力的修改版本以节省计算,即Multi-Dconv Head Transposed Attention,我们将其简称为TA。给定输入X ∈ RHW×C,其中H和W分别是高度和宽度,而C是通道数,TA可以用公式表示为:
在这里插入图片描述
其中Q、K、V是查询矩阵、键矩阵和值矩阵,它们可以通过使用三个单独的1×1卷积以及随后的3 × 3深度卷积来生成,α是可学习的缩放参数。在实际使用中,上述公式也可以扩展到多头版本,如在原始的自注意力中所做的那样,以扩充特征表示。

掩码的可分离注意。上述TA中的注意头同样用于对空间信息进行编码。与此不同的是,在MSA中,提出了在TA中引入一个可以在每个特征水平上生成的预测掩模作为前景-背景对比先验,以更好地识别伪装目标。为了实现这一点,将所有的注意力头部分为三组:前景头部TA(F-TA),背景头部TA(B-TA)和正常TA。MSA的结构细节如图所示。
在这里插入图片描述

这里的attention是基于卷积层实现的注意力。输入的特征先经过归一化,然后分别经过卷积得到qkv,把mask点乘到qk上,最后用注意力公式计算出结果。

具体地,给定预测的前景掩模MF,F-TA的公式可以写为:
在这里插入图片描述
其中QF、KF是掩码查询和键矩阵,可以通过将它们与MF相乘来产生,VF是没有掩码的值矩阵。以这种方式,可以通过在前景区域内建立成对关系来细化特征,从而避免可能包含污染信息的背景的影响。类似地,通过广播减法MB = 1-MF给定背景掩模,我们也可以对背景进行该过程。因此,B-TA的公式可以写为:
在这里插入图片描述
除了F-TA头和B-TA头之外,第三组头保持不变,用于建立前景和背景之间的关系。
在这里插入图片描述

然后将所有磁头的输出连接并发送到3 × 3卷积中进行特征聚合,并将通道数映射到Cd:
在这里插入图片描述
掩码生成。在每个特征级,掩模应通过3 × 3卷积和Sigmoid函数生成,然后用于MSA。由于监督被添加到每个特征级别,因此我们直接使用预测{Pi}5 i=2作为掩码,并将它们中的每一个发送到对应的MSA。注意,我们不对预测图进行二值化,而是将它们保持为范围从0到1的连续图。

这里其实就是以PVTv2编码器,出来四层特征,其中把高层特征2、3、4 cat到一起,然后卷积,就可以得到高级特征E5,然后再卷积得到P5(一层输出)。对于其他层而言,每层都加上一层的输出特征、当前层的编码器输出和上一层的预测结果入MSA(Di+1,Ei,Pi+1)得到Di,再卷积得到预测结果Pi。(对于D4没有D5,就用E5)。
对于MSA:前景头:输入上一层的处理后的特征和上一层的预测结果;背景头:输入上一层的处理后的特征和(1-上一层的预测结果);正常头就输入上一层的处理后的特征自己。
在这里插入图片描述
第二层的P2是最终的预测结果
在这里插入图片描述

5.结果与分析

在这里插入图片描述
在这里插入图片描述
这个模型设计了多个注意力头,分别应对于前景与背景和正常的自注意力,这应该就是创新之处了,它说还有设计了新的边界衡量指标,这个没有仔细看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/59731.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【从零开始的LeetCode-算法】3254. 长度为 K 的子数组的能量值 I

给你一个长度为 n 的整数数组 nums 和一个正整数 k 。一个数组的 能量值 定义为: 如果 所有 元素都是依次 连续 且 上升 的,那么能量值为 最大 的元素。否则为 -1 。 你需要求出 nums 中所有长度为 k 的子数组的能量值。 请你返回一个长度为 n - k 1…

LLMs之PDF:zeroX(一款PDF到Markdown 的视觉模型转换工具)的简介、安装和使用方法、案例应用之详细攻略

LLMs之PDF:zeroX(一款PDF到Markdown 的视觉模型转换工具)的简介、安装和使用方法、案例应用之详细攻略 目录 zeroX的简介 1、支持的文件类型 zeroX的安装和使用方法 T1、Node.js 版本: 安装 使用方法 使用文件 URL: 使用本地路径&…

qt QStandardItemModel详解

1、概述 QStandardItemModel是Qt框架中提供的一个基于项的模型类,用于存储和管理数据,这些数据可以以表格的形式展示在视图控件(如QTableView、QTreeView等)中。QStandardItemModel支持丰富的数据操作,包括添加、删除…

思源笔记轻松连接本地Ollama大语言模型,开启AI写作新体验!

文章目录 前言1. 下载运行Ollama框架2. Ollama下载大语言模型3. 思源笔记设置连接Ollama4. 测试笔记智能辅助写作5. 安装Cpolar工具6. 配置Ollama公网地址7. 笔记设置远程连接Ollama8. 固定Ollama公网地址 前言 今天我们要聊聊如何通过cpolar内网穿透技术,把国产笔…

基于C++的决策树C4.5机器学习算法(不调包)

目前玩机器学习的小伙伴,上来就是使用现有的sklearn机器学习包,写两行代码,调调参数就能跑起来,看似方便,实则有时不利于个人能力发展,要知道现在公司需要的算法工程师,不仅仅只是会调参&#x…

这款Chrome 插件,使浏览器页面快速滑动到最底部和最顶部,并且还能...

前言 前几日我在使用谷歌浏览器,也就是chrome的时候,浏览一个内容很长的页面,由于页面上的内容有前后关联,所以我必须不停地切换到上面和下面。这非常不方便。使我非常抓狂。后来,我灵机一动,去谷歌浏览器…

汉诺塔问题代码分享及思路分享(c基础)

可以先自己尝试,只要看见过递归即可写。(我自己是)希望能自己尝试出来。 两种方法迭代比递归快很多.(不发代码的原因是想让你自己动手) 1 递归 2 迭代 猜数游戏是自己写的第一个有互动的程序。对我很有意义。 我绑定资源了的,大…

第9章 Apache WEB服务器企业实战

万维网 (WORLD WIDE WEB,WWW)服务器,也称之为WEB服务器,主要功能是提供网上信息浏览服务。WWW是 Internet的多媒体信息查询工具,是Internet上飞快发展的服务,也是目前用的最广泛的服务。正是因为有了WWW软件,才使得近年来 Internet 迅速发展。 目前主流的WEB服务器软件包…

第10章 MYSQL服务器企业实战

MySQL是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 旗下公司。MySQL 最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之一。 本章介绍关系型数据库特…

【初阶数据结构与算法】沉浸式刷题之顺序表练习(顺序表以及双指针两种方法)

文章目录 顺序表练习1.移除数组中指定的元素方法1(顺序表)方法2(双指针) 2.删除有序数组中的重复项方法1(顺序表)方法2(双指针) 3.双指针练习之合并两个有序数组方法1(直…

【flask开启进程,前端内容图片化并转pdf-会议签到补充】

flask开启进程,前端内容图片化并转pdf-会议签到补充 flask及flask-socketio开启threading页面内容转图片转pdf流程前端主js代码内容转图片-browser端browser端的同步编程flask的主要功能route,def 总结 用到了pdf,来回数据转发和合成,担心flask卡顿,响应差,于是刚好看到threadi…

PADS的GND难解之谜——GND铺不上捅?GND焊盘上全是绿色叉号?

PADS难解之谜——GND覆不上铜?焊盘上全是叉号? 文章目录 PADS难解之谜——GND覆不上铜?焊盘上全是叉号?1、GND灌铜灌不上?2、GND焊盘上全是绿色叉号? 如果对你有帮助,就点赞收藏把!(…

02- 模块化编程-007 Ltc1684( ADC16-Bit)采样显示

1、Ltc1684芯片介绍 该芯片是一款高精度的16位模数转换器(ADC),适合于高精度仪器的开发,它能提供精准的模拟信号到数字信号的转换。 特性 采用 MSOP 封装的 16 位、250ksps ADC 单 5V 电源 低电源电流:850μA (典型值) 自动停机功能可把电源…

信息安全工程师(80)网络安全测评技术与工具

前言 网络安全测评是评估信息系统、网络和应用程序的安全性,以发现潜在的漏洞和威胁,并确保系统符合安全标准和政策的过程。 一、网络安全测评技术 渗透测试(Penetration Testing) 描述:通过模拟真实的攻击&#xff0c…

基于STM32的太阳跟踪系统设计

引言 本项目基于STM32微控制器设计了一个智能太阳跟踪系统,通过集成光敏传感器模块和电机控制系统,实现太阳能电池板的自动调节,以保持太阳能电池板始终垂直对准太阳,从而最大化光能的吸收效率。该系统通过实时监测太阳光的方向&…

新能源汽车与公共充电桩布局

近年来,全球范围内对新能源汽车产业的推动力度不断增强,中国新能源汽车市场也呈现蓬勃发展的势头,在政策与市场的共同推动下,新能源汽车销量持续增长。然而,据中国充电联盟数据显示,充电基础设施建设滞后于新能源汽车数量增长的现状导致充电桩供需不平衡,公共充电桩服务空白区域…

Qt中的Model与View 4:QStandardItemModel与QTableView

目录 QStandardItemModel API QTableView 导航 视觉外观 坐标系统 API 样例:解析一个表格txt文件 QStandardItemModel QStandardItemModel 可用作标准 Qt 数据类型的存储库。它是模型/视图类之一,是 Qt 模型/视图框架的一部分。它提供了一种基于…

【STM32】项目实战——OV7725/OV2604摄像头颜色识别检测(开源)

本篇文章分享关于如何使用STM32单片机对彩色摄像头(OV7725/OV2604)采集的图像数据进行分析处理,最后实现颜色的识别和检测。 目录 一、什么是颜色识别 1、图像采集识别的一些基本概念 1. 像素(Pixel) 2. 分辨率&am…

Request 和 Response 万字详解

文章目录 1.Request和Response的概述2.Request对象2.1 Request 继承体系2.2 Request获取请求数据2.2.1 获取请求行数据2.2.2 获取请求头数据2.2.3 获取请求体数据2.2.4 获取请求参数的通用方式 2.3 解决post请求乱码问题 掌握内容讲解内容小结 2.4 Request请求转发 3.HTTP响应详…

经典网络模型

文章目录 网络演变过程1、阻塞IO(BIO)实现缺点 2、非阻塞IO(NIO)实现改进后设置非阻塞IO缺点 3、IO多路复用第一版(select/poll)问题点改进缺点 4、IO多路复用第二版(epoll)5、信号驱…