【论文速览_01】Awesome Few Shot Segmentation论文

Awesome Few Shot Segmentation

  • Awesome Few Shot Segmentation论文
    • CVPR 2023
      • Hierarchical Dense Correlation Distillation for Few-Shot Segmentation
        • 文章内容
      • MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation
        • 文章内容
    • ICCV2023
      • Self-Calibrated Cross Attention Network for Few-Shot Segmentation
        • 文章内容
    • Transactions
      • DRNet: Disentanglement and Recombination Network for Few-shot Semantic Segmentation
        • 文章内容
    • Others
      • Masked Cross-image Encoding for Few-shot Segmentation
        • 文章内容

Awesome Few Shot Segmentation论文

CVPR 2023

Hierarchical Dense Correlation Distillation for Few-Shot Segmentation

Paper Url / Code Url

文章内容

查询样本背景中的对象也可能与支持样本中的目标相关,因为查询样本的背景图像也可能被增强从而引入噪声。必要的支持信息可能通过多个堆叠的交叉注意力和自注意力层积累查询背景上,使得解码器更难区分它们。因为文章只使用自注意力层去建立层次化的特征。如下是本文方法和之前方法的比较:
在这里插入图片描述
文章使用的是余弦相似度计算Correlation Map,但没有说明这么做的原因。

同时文章使用了Correlation Map蒸馏,蒸馏low-level的map信息到high-level的map,因为low-level特征含有更多的细节信息。

文章网络结构为:
在这里插入图片描述

贡献:

  • 将Transformer扩展为层次解析和特征匹配,用于少样本语义分割,并使用了一个新的匹配模块来减少过拟合。
  • 提出在多层和多尺度结构下利用soft correspondence的相关映射蒸馏

MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation

Paper Url / Code Url

文章内容

和存在方法的比较:
在这里插入图片描述

文章针对的问题:

  • 类内差异的多样性导致支持集和查询集之间不能进行很好地匹配
  • 因为模型拟合训练数据的分布,训练好的模型将可见的训练类错误地分类到不可见的测试类。

文章的网络结构为:
在这里插入图片描述

PG使用的是high-level的特征,多次使用它产生层次化的激活图,有实例信息。

GIG将从支持集得到的前景原型和从语义标签得到的类别语义向量作为输入,生成通用的类别原型,它的结构是两层全连接层。

LFG以中层支持特征为输入,生成与区域相关的局部特征,形成正负对从而构成三元组,LFG由3个卷积块组成,它将支持特征的大小减少了4倍,以获得区域特征。

然后使用支持mask进行特征选择,得到前景和背景区域向量。选择最困难的样本作为positive样本,negtive样本通过平均背景区域向量得到。

本文的贡献为:

  • 首次在FSS中使用词嵌入,并且设计了一个通用信息模块( GIM )来从每个类的词嵌入中获得通用类信息。
  • 提出了一种多信息聚合网络( MIANet )来聚合通用信息和无偏的实例级信息,以实现准确的分割
  • 提出一种非参数分层先验模块( HPM )为MIANet提供无偏的实例级分割知识,提供了查询图像在多尺度上的先验信息,缓解了测试中的偏置问题

ICCV2023

Self-Calibrated Cross Attention Network for Few-Shot Segmentation

Paper Url / Code Url

文章内容

和存在方法的比较:

在这里插入图片描述

文章针对的问题:在FSS中,查询集的前景特征可以和支持集的前景特征融合,但是查询集的背景特征可能无法在支持集中找到正确的特征进行融合,从而引入噪声。

本文的出发点:实现前景和前景匹配,背景和背景匹配,从而解决上述问题。具体来说,文章提出了一个自校准交叉注意力( SCCA ),它同时计算自注意力和交叉注意力。查询特征作为Q和K,支持特征的前景特征作为V,这样可以有效解决背景不匹配问题以及前景和背景特征错误融合问题。

本文提出的结构:

在这里插入图片描述

文章的方法是基于patch的,分为patch alignment,它将每个查询patch与其最相似的支持patch(含有前景像素)对齐;自校准交叉注意力( SCCA ),将查询特征和支持集的前景特征融合。

同时为了避免查询特征本身在self-attention过程占据主导地位,进一步将SCCA与比例余弦( Scaled-cosine,SC )机制相结合,以鼓励查询前景特征从支持图像中集成更多的信息。如下图所示:

在这里插入图片描述

本文的贡献:

  • 提出了一种自校准交叉注意力网络( SCCAN ),包括伪掩码聚合( PMA )模块和自校准交叉注意力( SCCA )模块,以有效地利用支持信息
  • SCCA可以解决BG错误匹配和FG - BG错误融合问题,使查询的FG和BG分开,从而实现有效的分割。
  • 训练无关的PMA模块可以粗略地定位查询FG,与现有的方法相比,它能更好地抑制噪声的影响

Transactions

DRNet: Disentanglement and Recombination Network for Few-shot Semantic Segmentation

Paper Url (TCSVT 2023) / Code Url

文章内容

和其他方法的比较:

在这里插入图片描述

文章认为:并不是查询分支中的所有信息都有助于促进分支间的信息交互,因为它们还包含一些不相关的背景信息。

文章的网络结构为:

在这里插入图片描述

其中Fine-grained encoding是一个transformer encoder,它用于挖掘背景中的有用信息。

文章设计了一个联合学习方法,不仅预测查询集的图像,还预测支持集的图像,它促进分支之间的信息交互,鼓励不同分支中的前景原型之间的对齐,有助于促进无GT掩码的查询图像的查询特征分解。

原型是在视觉空间中精确表示类的语义的向量表示。查询集的前景和背景特征的生成文章中并没有说明,我认为应该首先初始化为原始特征,然后通过intra-branch和inter-branch来加强前景特征,然后利用前景特征生成背景特征。

本文的贡献为:

  • 开发了一个用于FSS的解耦和重组网络( DRNet ),以提高泛化性能。它更具有实用性,因为它可以同时执行支持图像和查询图像的分割,这在以前的工作中被忽视了。
  • 提出了一个特征分解和重组模块,可以将没有GT掩码的查询特征分解为前景和背景特征。基于分解后的前景特征,建立分支间的前景交互,在减少类内差异的同时间接增加类间差异。据我们所知,这是第一个在FSS任务中使用没有GT掩码的查询图像的解耦特征的工作。
  • 设计了一个联合学习调度方法,帮助模型在不牺牲支持图像中大量分割能力的情况下,提高模型对查询图像中新对象的泛化性能

Others

Masked Cross-image Encoding for Few-shot Segmentation

Paper Url (ICME 2023) / Code Url

文章内容

和之前方法的比较:

在这里插入图片描述

文章观察到Vision Transformer中的自注意力和交叉注意力可以在表征依赖构建过程中捕获图像的上下文信息。本文提出cross-image的语义编码进行建模,以识别具有判别性的局部区域,旨在捕获支持图像和查询图像之间的对象语义相互关系。

文章提出一种称为掩码交叉图像编码(Masked Cross-Image Encoding,MCE)的对称交叉注意力结构,旨在在多层次特征上集成双向的图像间关系。

本文的结构图:

在这里插入图片描述

其中MAP表示Mask Average Pooling,它利用支持集图像和掩码特征生成一个类别原型 V S V_S VS A s i m A_{sim} Asim为查询集特征和支持集特征之间的平均相似度得分矩阵,维度为 H × W H \times W H×W,元素表示每个查询特征位置和支持对象位置之间的平均语义相关性。

文章的贡献:

  • 提出计算支持查询相似度得分矩阵,以反映查询特征中的像素属于前景的可能性。然后将这些矩阵与多级的cross-image特征一起加入模型中,以促进最终的分割
  • 提出了一种掩码的cross-image编码方法来发现支持和查询特征中目标对象的共享视觉表示。通过使用对称的交叉注意力结构,MCE能够在多层次特征上关注双向的图像间关系,不仅利用支持对象区域的信息丰富了查询特征,而且增强了支持查询的交互性,从而使FSS具有更好的元学习能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/663368.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探讨深浅拷贝在js加密中的运用

深浅拷贝是JavaScript中常用的概念,用于复制对象或数组。它们在处理数据时有不同的用途,适用于不同的场景。在本文中,我们将详细介绍深浅拷贝的概念,提供案例代码,并探讨它们在JavaScript中的应用场景,以及…

linux如何知道运行的进程的运行目录,就可以了解自己的程序是否在运行。

目 录 一、背景 二、找到运行的进程的运行目录的方法 1、使用ps命令结合grep命令 2. 使用pgrep命令结合readlink命令 一、背景 在实际应用中,发现Linux中运行了多个nginx,不知道自己的应用程序的Nginx是否在正常运行? 如果知道这…

学习python第五天

一.判断语句 yourAge 20 myAge 18if yourAge > myAge:print("你的年龄比我大")""" 输出 你的年龄比我大 """ 1.冒号 判断语句的固定格式,用来表示这行判断条件的结束。 2.四个空格(缩进) …

MySQL原理(一)架构组成之逻辑模块(1)组成

总的来说,MySQL可以看成是二层架构,第一层我们通常叫做SQL Layer,在MySQL数据库系统处理底层数据之前的所有工作都是在这一层完成的,包括权限判断,sql解析,执行计划优化,query cache的处理等等&…

中二少年工具箱(PC端)简介

同学们可以私信我加入学习群! 正文开始 简介一、功能模块1.node版本管理工具 总结 简介 中二少年开发的中二少年工具箱,相信博主,功能不孬。 辅助自己开发工作,帮助新人快速入门,提供交互式文档辅助学习……如果还不…

CSS3:最新特性和实例教程

今天简单复习一下css3的相关特性吧。 一:响应式设计 CSS3引入了媒体查询(Media Queries)和弹性盒子布局(Flexbox)等特性,使得响应式设计变得更加容易。媒体查询可以根据设备的屏幕大小、分辨率等属性来应…

拓展欧几里得法求逆元

板子: x即为最终答案,x可能为负数,加模数即可 乘法逆元 - OI Wiki (oi-wiki.org) void exgcd(int a, int b, int& x, int& y) {if (b 0) {x 1, y 0;return;}exgcd(b, a % b, y, x);y - a / b * x; } 使用: exgcd(a, n 1, x,…

什么是ISO21434网络安全中的汽车网络?-亚远景

在ISO 21434标准中,汽车网络指的是车辆内部和车辆与外部之间的所有电子控制单元(ECU)之间的连接和通信。这些电子控制单元包括车辆内部的各种系统和功能,例如引擎控制、刹车系统、驾驶辅助系统、娱乐系统等。 具体来说&#xff0c…

空间计算时代加速到来,需要的不只是苹果

近年来,科技行业一直在期待“寒武纪”时刻。伴随技术革命的深入推进,所有厂商都预感新的时代即将到来,并期待自己成为那个引爆点,轻轻一触,推开一扇新的未来之门。 今年开年,苹果就为科技圈锚定了一个可能…

学习C语言的第31天

全局函数和静态函数 全局函数 1、全局函数在作用域中唯一的&#xff1b; 2、作用域&#xff1a;在整个项目中使用文件中使用&#xff1b; 3、函数可以调用自己成为递归函数&#xff1b; #include<stdio.h> void bubblesort(int arr[],int len) {for(int i0;i<len…

Spring WebSocket实现实时通信

简介 WebSocket 是基于TCP/IP协议,独立于HTTP协议的通信协议。WebSocket 连接允许客户端和服务器之间的全双工通信,以便任何一方都可以通过已建立的连接将数据推送到另一方。 我们常用的HTTP是客户端通过「请求-响应」的方式与服务器建立通信的,必须是客户端主动触发的行为…

Hutool导入导出用法

整理了下Hutool导入导出的简单使用。 导入maven或jar包&#xff08;注意这里导入的poi只是为了优化样式&#xff09; <!-- https://mvnrepository.com/artifact/cn.hutool/hutool-all --> <dependency><groupId>cn.hutool</groupId><artifactId&g…

【笔记】Helm-5 Chart模板指南-6 流控制

流控制 控制结构&#xff08;在模板语言中称为“actions”&#xff09;提供给您和模板作者控制模板迭代流的能力。Helm的模板语言提供了以下控制结构&#xff1a; if/else&#xff0c;用来创建条件语句 with&#xff0c;用来指定范围 range&#xff0c;提供“for each”类型…

2024技术发展洞察与趋势学习总结

2023技术发展洞察 2024技术发展趋势

QT假如有三个线程如何保证顺序执行

目录 1 QSemaphore 2 QMutex和QWaitCondition 3 QFuture 1 QSemaphore #include <QSemaphore> #include <QThread> #include <QDebug> QSemaphore sem1(1); QSemaphore sem2(0); QSemaphore sem3(0);class Thread1 : public QThread { public:void run()…

服务器为什么老是被攻击?被攻击了怎么办?

1、关闭端口&#xff0c;只打开必要的端口 服务器端口是攻击的主要入口&#xff0c;是服务器的外部窗口。服务器上的开放端口被黑客使用&#xff0c;他们通过这些开放端口攻击服务器。相对有效的预防方法是关闭一些不必要的端口&#xff0c;然后修改关键端口。如果你少开一个开…

《Lua程序设计》-- 学习10

环境&#xff08;Environment&#xff09; 具有动态名称的全局变量 全局变量的声明 由于Lua语言将全局变量存放在一个普通的表中&#xff0c;所以可以通过元表来发现访问不存在全局变量的情况。 正如前面所提到的&#xff0c;我们不允许值为nil的全局变量&#xff0c;因为值为…

Beats:在单个服务器上配置多个 Beats 实例

本文档作为如何在同一服务器上配置和运行 Filebeat/Metricbeat/Auditbeat 的多个实例的指南。 当你需要为同一台计算机上的不同应用程序或环境分离数据收集和处理时&#xff0c;此设置特别有用。 在今天的展示中&#xff0c;我们将以 Filebeat 为例来进行展示。此方法也适用于…

element-ui上传图片组件封装

//上传图片组件 定义文件imageUpload <template><div class"component-upload-image"><el-upload multiple :action"uploadImgUrl" list-type"picture-card" :on-success"handleUploadSuccess":before-upload"han…

Mybatis | 逻辑 sql - 结果的映射默认有缓存

mybatis 里 select 方法默认会使用缓存&#xff0c;即&#xff0c;如果逻辑 sql 的入参不变&#xff0c;则会走缓存。 所以对于只有表名 tableName 变&#xff08;用于 sharding&#xff09;的情况下&#xff0c;需要修改 xml 文件&#xff1a;flushCache true&#xff0c;来…