CAVER: Cross-Modal View-Mixed Transformer for Bi-Modal Salient Object Detection

目录

一、论文阅读笔记:

1、摘要:

2、主要贡献点:

3、方法:

3.1 网络的总体框架图:

3.2 Transformer-based Information Propagation Path (TIPP)

3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)

Q1: MHSA计算复杂度较高

A1:Patch-wise Token Re-Embedding (PTRE)

Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值

A2:View-Mixed Attention (VMA)

 3.4 Inter-Modal Cross-Attention (IMCA)

4、实验:

二、代码复现

1、实验细节:

2、数据集:

3、实验步骤:

3.1 将对应的代码和数据集上传到服务器上

3.2 将根目录下的datasets.py里的路径更改成自己的路径

3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息

3.4 将预训练模型从给出的网址上下载下来,上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)

3.5 安装对应的module

3.6 在两个数据集上的训练结果

三、BUGS

问题1:assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError

问题2: TypeError: FormatCode() got an key word 'verify'

​编辑

​编辑 问题3:RuntimeError: CuDA error: no kernel imade is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrectFor debugging consider passing CUDA LAUNCH BLOCKING=1.

四、提问



发表期刊及年份:TIP 2023

代码网址:https://github.com/lartpang/CAVER

一、论文阅读笔记:

1、摘要:

        大多数现有的双模态(RGB-D 和 RGB-T)显着对象检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模态信息集成。卷积操作的固有局部连通性将基于卷积的方法的性能限制在天花板上。在这项工作中,我们从全局信息对齐和转换的角度重新思考这些任务。具体来说,所提出的跨模态视图混合转换器 (CAVER) 级联了几个跨模态集成单元来构建自上而下的基于转换器的信息传播路径。CAVER 将多尺度和多模态特征集成视为建立在新颖的视图混合注意力机制之上的序列到序列上下文传播和更新过程。此外,考虑到输入令牌数量的二次复杂度w.r.t,我们设计了一种无参数补丁令牌重新嵌入策略来简化操作。RGB-D 和 RGB-T SOD 数据集的广泛实验结果表明,当配备所提出的组件时,这种简单的双流编码器-解码器框架可以超越最近最先进的方法。代码和预训练模型将在链接处可用。

2、主要贡献点:

  1. 我们引入了transformer从序列到序列的角度重新思考双模态SOD建模,从而获得更好的可解释性。
  2. 我们构建了一个自顶向下的基于transformer的信息传播路径,通过视图混合注意块增强,可以对齐RGB和深度/热模态的特征,充分利用空间和通道视图之间的模态间和模态内信息。
  3. 我们通过使用patch-wise令牌重新嵌入来提高注意中的矩阵操作,提高了transformer对多尺度特征和高分辨率特征的效率。在卷积前馈网络的帮助下,可以进一步增强特征的局部性,并且可以充分感知和探索全局和局部上下文中的关键线索。
  4. 大量的实验表明,该模型在7个RGB-D SOD数据集和3个RGB-T SOD数据集上的性能优于最近的方法。

3、方法:

3.1 网络的总体框架图:

   

3.2 Transformer-based Information Propagation Path (TIPP)

        基于transformer的信息传播路径主要是四个CMUI模块之间自上而下地信息交互和传播,前三个CMUI模块(即CMUI1、CMUI2、CMUI3)都是有三个输入(RGB流、depth/thermal流,来自下一个CMUI的输出 {f_{rgb-d/t}^{i+1}}),但是最后一个CMUI4模块只有两个输入(即RGB流、depth/thermal流)

3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)

        IMSA和CSSA两者的结构式相同的,但相较于自注意机制而言两者在FFN(前馈神经网络)和MHSA(多头注意力机制)两部分做出了改进。如下图所示:

其中如上两部分改进的原因:

Q1: MHSA计算复杂度较高

MHSA单头的计算公式:

        Qh、Kh、Vh 分别是单个头部的查询、键和值。Wq , Wk, Wv 是对应的投影矩阵。Z = [Y1,., Yh ]W^{^{o}}W^{^{o}}是一个输出投影层。

        注意矩阵Q_{h}K_{h}^{T}的点积运算具有输入序列长度的二次复杂度w.r.t,即N^2,这限制了它处理多尺度高分辨率特征。

A1:Patch-wise Token Re-Embedding (PTRE)

        与MHSA相比,PTRE被应用于将矩阵运算从像素形式提高到逐块形式,从而将复杂度降低了p^2倍。这里,p^2是Patch-wise中的元素数量。具体做法就是将1D序列折叠成2D的形式,部分和总体图如下面两图:

Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值
A2:View-Mixed Attention (VMA)

        具体做法如下,值得注意的是,计算空间和通道的Z值时,计算方式不一样。

\Rightarrow 

 3.4 Inter-Modal Cross-Attention (IMCA)

        交叉注意机制和自注意机制两者之间的区别就是,自注意机制的Q、K、V是同源的,即来自同一个X,而交叉注意机制的Q、K、V是不同源的,如在IMCA中Q来自rgb流,但是K和V来自d/t流。

        d/t流与上述公式类似

4、实验:

二、代码复现

1、实验细节:

        在AutoDL平台上租的服务器,服务器型号为:RTX A4000(16GB),同时使用的相关配置为:PyTorch  1.11.0 Python  3.8(ubuntu20.04) Cuda  11.3

2、数据集:

        并未采用论文里的数据集,而是采用rsdds_1500数据集和rsdds_113数据集

3、实验步骤:
3.1 将对应的代码和数据集上传到服务器上
3.2 将根目录下的datasets.py里的路径更改成自己的路径

        由于datasets.py中有多个数据集的定义,我只更改了第一个数据集的内容,具体是(更改的地方标红)

_RGBD_SOD_ROOT = "/root/autodl-tmp/CAVER/rsdds"
_RGBT_SOD_ROOT = "<rgbtsod root>"

# RGB-D SOD
rsdds= dict(
    image=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/RGB", suffix=".bmp"),
    depth=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/depth", suffix=".tiff"),
    mask=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/GT", suffix=".png"),
)

3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息

由于使用的是ResNet101d训练模型,所以需要更改对应的./configs/rgbd-2dataset.py中的路径信息。

具体做法如下(由于数据集中图片较少,只进行了训练,没有测试,所以两者都是rsdds_113):

data = dict(
    train=dict(
        name=[
            "rsdds_113",
        ],
        shape=dict(h=256, w=256),
    ),
    test=dict(
        name=[
            "rsdds_113"
        ],
        shape=dict(h=256, w=256),
    ),

3.4 将预训练模型从给出的网址上下载下来,上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)

预训练模型网址:

Pre-trained parameters: Release All pretrained parameters. · lartpang/CAVER · GitHub

3.5 安装对应的module
3.6 在两个数据集上的训练结果

rsdds_113

 rsdds_1500

三、BUGS

问题1:assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError

解决办法:原来对应的datasets.py中的后缀suffix没有更改,原来对应的是如上图,但是我数据集里的三个文件夹中对应的图片格式与之不同,更改成对应的后缀即可 ,如下图:

_RGBD_SOD_ROOT = "/root/autodl-tmp/CAVER/rsdds"
_RGBT_SOD_ROOT = "<rgbtsod root>"

# RGB-D SOD
rsdds= dict(
    image=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/RGB", suffix=".bmp"),
    depth=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/depth", suffix=".tiff"),
    mask=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/GT", suffix=".png"),
)

问题2: TypeError: FormatCode() got an key word 'verify'

解决办法:我对应文件夹里的预训练模型上传出现问题,对应的.pth文件大小为0Bytes,重新上传即可

问题3:RuntimeError: CuDA error: no kernel imade is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrectFor debugging consider passing CUDA LAUNCH BLOCKING=1.

解决办法:由于为了直接快速安装各种包,我直接使用 pip install -r requirements.txt 安装各种包,但是由于txt文件里有torch和torchvision的版本,与无使用的版本不同,导致我原先的版本被卸载,重新安装了对应的版本,但是由于安装是从阿里云镜像里安装的cpu版本,导致出现这个问题。所以直接换一个服务器,然后再将requirements.txt中对应的torch和torchvision的版本要求删掉,或者一步一步根据错误提示安装对应的包即可。

四、提问

问题1:SOD(显著性目标检测)和图像分割之间的区别

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/599724.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

onxxruntime使用cuda以及tensorrt进行加速

1、版本匹配 版本需要匹配&#xff0c;不然运行会报错 2、onnxruntime之tensorrt加速 方式一&#xff1a; OrtTensorRTProviderOptions trt_options{}; trt_options.trt_max_workspace_size 2147483648; trt_options.trt_max_partition_iterations 10; trt_options.trt_m…

kali-Linux安装ARL灯塔教程以及timeout of 20000ms exceeded 的解决方法

FLAG&#xff1a;别和妈妈诉苦&#xff0c;她帮不上&#xff0c;也睡不着。 专研方向: docker&#xff0c;ARL资产灯塔系统 每日emo&#xff1a;天冷了&#xff0c;你还在坚持吗&#xff1f; 欢迎各位与我这个菜鸟交流学习 kali安装ARL灯塔教程 1.安装docker环境&#xff0c;…

【MySQL】orderby/groupby出现Using filesort根因分析及优化

序 在日常的数据库运维中&#xff0c;我们可能会遇到一些看似难以理解的现象。比如两个SQL查询语句&#xff0c;仅仅在ORDER BY子句上略有不同&#xff0c;却造成了性能的天壤之别——一个飞速完成&#xff0c;一个则让数据库崩溃。今天就让我们围绕这个问题&#xff0c;深入剖…

LeetCode每日一题 | 1944. 队列中可以看到的人数

文章目录 队列中可以看到的人数题目描述问题分析程序代码&#xff08;Golang 版本&#xff09; 队列中可以看到的人数 题目描述 原题链接 有 n 个人排成一个队列&#xff0c;从左到右 编号为 0 到 n - 1 。给你以一个整数数组 heights &#xff0c;每个整数 互不相同&#xff…

Mysql的安装配置教程(非常详细)从零基础入门到精通,看完这一篇就够了

首先简单概述分为几个步骤&#xff1a; 一、下载Mysql 二、安装Mysql 三、验证Mysql安装是否成功 四、 配置环境变量 五、验证配置环境变量是否成功 一、下载Mysql 要在Windows或Mac上安装MySQL&#xff0c;首先从MySQL官方网站下载最新的MySQL Community Server版本&am…

QCharView使用

QChart是 QGraphicsWidget的子类。 QCharView是QGraphicsView的子类 QCharView概念:title、系列、图标Chart、视图 说明: 需要添加Qt组件charts 在使用QChart或者QChartView之前需要添加宏定义QT_CHARTS_USE_NAMESPACE &#xff08;其实是使用了命名空间&#xff09;&#xff…

Baumer工业相机堡盟工业相机如何联合NEOAPI SDK和OpenCV实现相机图像转换为Mat图像格式(C++)

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK实现相机掉线自动重连&#xff08;C&#xff09; Baumer工业相机Baumer工业相机的图像转换为OpenCV的Mat图像的技术背景在NEOAPI SDK里实现相机图像转换为Mat图像格式联合OpenCV实现相机图像转换为Mat图像格式测试演示图 工业相机…

SQL-取连续日期或者数值

从LVV_START_TIMEKEY开始&#xff0c;取LVV_END_TIMEKEY - LVV_START_TIMEKEY 1个连续的日期&#xff1a; SELECTTO_DATE (:LVV_START_TIMEKEY,YYYYMMDD) ROWNUM-1 AS wwm FROMDUAL CONNECT BYROWNUM < LAST_DAY (TO_DATE (:LVV_END_TIMEKEY,YYYYMMDD)) - TO_DATE (:LVV_…

大容量交流中间继电器RXMK1 RK225052 220VAC 板前接线带座 JOSEF约瑟

系列型号&#xff1a; RXMK1 RK 255 049大容量交流中间继电器 RXMK1 RK 255 050大容量交流中间继电器 RXMK1 RK 255 051大容量交流中间继电器 RXMK1 RK 255 052大容量交流中间继电器 RXMK1 RK 255 053大容量交流中间继电器 RXMK1大容量交流中间继电器 一、 用途及工作原理 RX…

【深入理解 ByteBuf 之一】 release() 的必要性

引言 开个新坑 【深入理解 ByteBuf】 至于为什么&#xff0c;本篇就是原因 我大概会花一个较长的时间来剖析 Netty 对于 ByteBuf 的实现&#xff0c;对象池的设计&#xff0c;从分配到释放重用&#xff0c;希望可以借此学习理解对象池的设计思想&#xff0c;以及搞清楚&#x…

XTU OJ 1525瓷片

题意 给定一个2n的地面&#xff0c;用11和1*2的瓷片铺满&#xff0c;问有多少种方案 数据范围 n<30 输入 3 1 2 30 输出 2 7 1084493574452273 代码 #include<stdio.h>int main() {int t;scanf("%d",&t);long long a[40];a[0]1,a[1]2,a[2]7;fo…

Vue 3.4 发布

本文为翻译 原文地址&#xff1a;Announcing Vue 3.4 | The Vue Point — Vue 3.4 发布公告 |Vue 点 (vuejs.org) 今天&#xff0c;我们很高兴地宣布 Vue 3.4 “&#x1f3c0;灌篮高手”的发布&#xff01; 此版本包括一些实质性的内部改进 - 最引人注目的是重写的模板解析器&…

晶圆代工降价竞争进入白热化,降幅最高15% | 百能云芯

随着半导体产业的不确定性和市况回落&#xff0c;晶圆代工市场再次掀起波澜&#xff0c;“降价大军”再添猛将。 据综合媒体报道&#xff0c;传三星计划在2024年第一季度调降晶圆代工报价&#xff0c;提供5%至15%的折扣&#xff0c;并表示愿意进一步协商。 台积电根据客户的投产…

一、Vue3组合式基础[ref、reactive]

一、ref 解释&#xff1a;ref是Vue3通过ES6的Proxy实现的响应式数据&#xff0c;其与基本的js类型不同&#xff0c;其为响应式数据&#xff0c;值得注意的是&#xff0c;reactive可以算是ref的子集&#xff0c;ref一般用来处理js的基本数据类型如整型、字符型等等(也可以用来处…

Java集合框架深度解析-ArrayList

Java的集合框架提供了一组实现常用数据结构的类和接口。理解集合框架对于Java程序员来说至关重要&#xff0c;因为它们在日常编程中广泛应用。 为什么需要集合框架&#xff1f; 在编程中&#xff0c;我们经常需要存储和操作一组对象。集合框架提供了用于表示和操作对象组的通…

从 YOLOv1 到 YOLO-NAS 的所有 YOLO 模型:论文解析

在计算机视觉的浩瀚领域&#xff0c;有一支耀眼的明星&#xff0c;她的名字传颂着革新与突破的传奇——YOLO&#xff08;You Only Look Once&#xff09;。回溯时光&#xff0c;走进这个引人注目的名字背后&#xff0c;我们仿佛穿越进一幅画卷&#xff0c;一幅展现创新魅力与技…

Unity之预制体与变体

PS:不用说了&#xff0c;我在写博客就是在摸鱼 一、预制体 不知道大家小时候有没有看过火影&#xff0c;记得剧情最开始的时候水木哄骗鸣人去偷封印之书&#xff0c;反而让鸣人学会了多重影分身之术&#xff1a; 好了&#xff0c;小编绞尽脑子终于想好怎么向大家介绍预制体了&a…

Java中包装类型使用‘==’比较的坑

1、缓冲机制 在Java中&#xff0c;Integer 、Byte 、Short 、Long 、Character 五大包装类都有缓冲机制&#xff0c; 且缓冲的默认值范围都是 -128 ~ 127 而Float 、Double 、Boolean 三大包装类并没有缓冲机制。 2、创建包装类对象 两种方法&#xff1a; &#xff08;1&am…

PageHelper 使用示例

1. mapper 层返回的 List 的泛型和 service 层返回的PageInfo 的泛型类型一致&#xff1a; Override public PageInfo<VO1> queryVO1List(String startTime,String endTime,Integer pageNum,Integer pageSize) {boolean pageStarted false;try {PageHelper.startPage( …

经典目标检测YOLO系列(一)复现YOLOV1(4)VOC2007数据集的读取及预处理

经典目标检测YOLO系列(一)复现YOLOV1(4)VOC2007数据集的读取及预处理 之前&#xff0c;我们依据《YOLO目标检测》(ISBN:9787115627094)一书&#xff0c;提出了新的YOLOV1架构&#xff0c;并解决前向推理过程中的两个问题&#xff0c;继续按照此书进行YOLOV1的复现。 经典目标检…