【论文速览_01】Awesome Few Shot Segmentation论文

Awesome Few Shot Segmentation

  • Awesome Few Shot Segmentation论文
    • CVPR 2023
      • Hierarchical Dense Correlation Distillation for Few-Shot Segmentation
        • 文章内容
      • MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation
        • 文章内容
    • ICCV2023
      • Self-Calibrated Cross Attention Network for Few-Shot Segmentation
        • 文章内容
    • Transactions
      • DRNet: Disentanglement and Recombination Network for Few-shot Semantic Segmentation
        • 文章内容
    • Others
      • Masked Cross-image Encoding for Few-shot Segmentation
        • 文章内容

Awesome Few Shot Segmentation论文

CVPR 2023

Hierarchical Dense Correlation Distillation for Few-Shot Segmentation

Paper Url / Code Url

文章内容

查询样本背景中的对象也可能与支持样本中的目标相关,因为查询样本的背景图像也可能被增强从而引入噪声。必要的支持信息可能通过多个堆叠的交叉注意力和自注意力层积累查询背景上,使得解码器更难区分它们。因为文章只使用自注意力层去建立层次化的特征。如下是本文方法和之前方法的比较:
在这里插入图片描述
文章使用的是余弦相似度计算Correlation Map,但没有说明这么做的原因。

同时文章使用了Correlation Map蒸馏,蒸馏low-level的map信息到high-level的map,因为low-level特征含有更多的细节信息。

文章网络结构为:
在这里插入图片描述

贡献:

  • 将Transformer扩展为层次解析和特征匹配,用于少样本语义分割,并使用了一个新的匹配模块来减少过拟合。
  • 提出在多层和多尺度结构下利用soft correspondence的相关映射蒸馏

MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation

Paper Url / Code Url

文章内容

和存在方法的比较:
在这里插入图片描述

文章针对的问题:

  • 类内差异的多样性导致支持集和查询集之间不能进行很好地匹配
  • 因为模型拟合训练数据的分布,训练好的模型将可见的训练类错误地分类到不可见的测试类。

文章的网络结构为:
在这里插入图片描述

PG使用的是high-level的特征,多次使用它产生层次化的激活图,有实例信息。

GIG将从支持集得到的前景原型和从语义标签得到的类别语义向量作为输入,生成通用的类别原型,它的结构是两层全连接层。

LFG以中层支持特征为输入,生成与区域相关的局部特征,形成正负对从而构成三元组,LFG由3个卷积块组成,它将支持特征的大小减少了4倍,以获得区域特征。

然后使用支持mask进行特征选择,得到前景和背景区域向量。选择最困难的样本作为positive样本,negtive样本通过平均背景区域向量得到。

本文的贡献为:

  • 首次在FSS中使用词嵌入,并且设计了一个通用信息模块( GIM )来从每个类的词嵌入中获得通用类信息。
  • 提出了一种多信息聚合网络( MIANet )来聚合通用信息和无偏的实例级信息,以实现准确的分割
  • 提出一种非参数分层先验模块( HPM )为MIANet提供无偏的实例级分割知识,提供了查询图像在多尺度上的先验信息,缓解了测试中的偏置问题

ICCV2023

Self-Calibrated Cross Attention Network for Few-Shot Segmentation

Paper Url / Code Url

文章内容

和存在方法的比较:

在这里插入图片描述

文章针对的问题:在FSS中,查询集的前景特征可以和支持集的前景特征融合,但是查询集的背景特征可能无法在支持集中找到正确的特征进行融合,从而引入噪声。

本文的出发点:实现前景和前景匹配,背景和背景匹配,从而解决上述问题。具体来说,文章提出了一个自校准交叉注意力( SCCA ),它同时计算自注意力和交叉注意力。查询特征作为Q和K,支持特征的前景特征作为V,这样可以有效解决背景不匹配问题以及前景和背景特征错误融合问题。

本文提出的结构:

在这里插入图片描述

文章的方法是基于patch的,分为patch alignment,它将每个查询patch与其最相似的支持patch(含有前景像素)对齐;自校准交叉注意力( SCCA ),将查询特征和支持集的前景特征融合。

同时为了避免查询特征本身在self-attention过程占据主导地位,进一步将SCCA与比例余弦( Scaled-cosine,SC )机制相结合,以鼓励查询前景特征从支持图像中集成更多的信息。如下图所示:

在这里插入图片描述

本文的贡献:

  • 提出了一种自校准交叉注意力网络( SCCAN ),包括伪掩码聚合( PMA )模块和自校准交叉注意力( SCCA )模块,以有效地利用支持信息
  • SCCA可以解决BG错误匹配和FG - BG错误融合问题,使查询的FG和BG分开,从而实现有效的分割。
  • 训练无关的PMA模块可以粗略地定位查询FG,与现有的方法相比,它能更好地抑制噪声的影响

Transactions

DRNet: Disentanglement and Recombination Network for Few-shot Semantic Segmentation

Paper Url (TCSVT 2023) / Code Url

文章内容

和其他方法的比较:

在这里插入图片描述

文章认为:并不是查询分支中的所有信息都有助于促进分支间的信息交互,因为它们还包含一些不相关的背景信息。

文章的网络结构为:

在这里插入图片描述

其中Fine-grained encoding是一个transformer encoder,它用于挖掘背景中的有用信息。

文章设计了一个联合学习方法,不仅预测查询集的图像,还预测支持集的图像,它促进分支之间的信息交互,鼓励不同分支中的前景原型之间的对齐,有助于促进无GT掩码的查询图像的查询特征分解。

原型是在视觉空间中精确表示类的语义的向量表示。查询集的前景和背景特征的生成文章中并没有说明,我认为应该首先初始化为原始特征,然后通过intra-branch和inter-branch来加强前景特征,然后利用前景特征生成背景特征。

本文的贡献为:

  • 开发了一个用于FSS的解耦和重组网络( DRNet ),以提高泛化性能。它更具有实用性,因为它可以同时执行支持图像和查询图像的分割,这在以前的工作中被忽视了。
  • 提出了一个特征分解和重组模块,可以将没有GT掩码的查询特征分解为前景和背景特征。基于分解后的前景特征,建立分支间的前景交互,在减少类内差异的同时间接增加类间差异。据我们所知,这是第一个在FSS任务中使用没有GT掩码的查询图像的解耦特征的工作。
  • 设计了一个联合学习调度方法,帮助模型在不牺牲支持图像中大量分割能力的情况下,提高模型对查询图像中新对象的泛化性能

Others

Masked Cross-image Encoding for Few-shot Segmentation

Paper Url (ICME 2023) / Code Url

文章内容

和之前方法的比较:

在这里插入图片描述

文章观察到Vision Transformer中的自注意力和交叉注意力可以在表征依赖构建过程中捕获图像的上下文信息。本文提出cross-image的语义编码进行建模,以识别具有判别性的局部区域,旨在捕获支持图像和查询图像之间的对象语义相互关系。

文章提出一种称为掩码交叉图像编码(Masked Cross-Image Encoding,MCE)的对称交叉注意力结构,旨在在多层次特征上集成双向的图像间关系。

本文的结构图:

在这里插入图片描述

其中MAP表示Mask Average Pooling,它利用支持集图像和掩码特征生成一个类别原型 V S V_S VS A s i m A_{sim} Asim为查询集特征和支持集特征之间的平均相似度得分矩阵,维度为 H × W H \times W H×W,元素表示每个查询特征位置和支持对象位置之间的平均语义相关性。

文章的贡献:

  • 提出计算支持查询相似度得分矩阵,以反映查询特征中的像素属于前景的可能性。然后将这些矩阵与多级的cross-image特征一起加入模型中,以促进最终的分割
  • 提出了一种掩码的cross-image编码方法来发现支持和查询特征中目标对象的共享视觉表示。通过使用对称的交叉注意力结构,MCE能够在多层次特征上关注双向的图像间关系,不仅利用支持对象区域的信息丰富了查询特征,而且增强了支持查询的交互性,从而使FSS具有更好的元学习能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/663368.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探讨深浅拷贝在js加密中的运用

深浅拷贝是JavaScript中常用的概念,用于复制对象或数组。它们在处理数据时有不同的用途,适用于不同的场景。在本文中,我们将详细介绍深浅拷贝的概念,提供案例代码,并探讨它们在JavaScript中的应用场景,以及…

MySQL原理(一)架构组成之逻辑模块(1)组成

总的来说,MySQL可以看成是二层架构,第一层我们通常叫做SQL Layer,在MySQL数据库系统处理底层数据之前的所有工作都是在这一层完成的,包括权限判断,sql解析,执行计划优化,query cache的处理等等&…

中二少年工具箱(PC端)简介

同学们可以私信我加入学习群! 正文开始 简介一、功能模块1.node版本管理工具 总结 简介 中二少年开发的中二少年工具箱,相信博主,功能不孬。 辅助自己开发工作,帮助新人快速入门,提供交互式文档辅助学习……如果还不…

拓展欧几里得法求逆元

板子: x即为最终答案,x可能为负数,加模数即可 乘法逆元 - OI Wiki (oi-wiki.org) void exgcd(int a, int b, int& x, int& y) {if (b 0) {x 1, y 0;return;}exgcd(b, a % b, y, x);y - a / b * x; } 使用: exgcd(a, n 1, x,…

空间计算时代加速到来,需要的不只是苹果

近年来,科技行业一直在期待“寒武纪”时刻。伴随技术革命的深入推进,所有厂商都预感新的时代即将到来,并期待自己成为那个引爆点,轻轻一触,推开一扇新的未来之门。 今年开年,苹果就为科技圈锚定了一个可能…

Hutool导入导出用法

整理了下Hutool导入导出的简单使用。 导入maven或jar包&#xff08;注意这里导入的poi只是为了优化样式&#xff09; <!-- https://mvnrepository.com/artifact/cn.hutool/hutool-all --> <dependency><groupId>cn.hutool</groupId><artifactId&g…

2024技术发展洞察与趋势学习总结

2023技术发展洞察 2024技术发展趋势

《Lua程序设计》-- 学习10

环境&#xff08;Environment&#xff09; 具有动态名称的全局变量 全局变量的声明 由于Lua语言将全局变量存放在一个普通的表中&#xff0c;所以可以通过元表来发现访问不存在全局变量的情况。 正如前面所提到的&#xff0c;我们不允许值为nil的全局变量&#xff0c;因为值为…

【Java程序设计】【C00196】基于(JavaWeb+SSM)的旅游管理系统(论文+PPT)

基于&#xff08;JavaWebSSM&#xff09;的旅游管理系统&#xff08;论文PPT&#xff09; 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于ssm的旅游平台 本系统分为前台、管理员2个功能模块。 前台&#xff1a;当游客打开系统的网址后&#xff0c;首先看到的…

C# 引用同一个dll不同版本的程序集

因为项目需要所以必须在项目中引用不同版本的同一程序集 我要引用的文件是newtonsoft.json.dll 两个版本为12.0.0.0 和4.0.0.0 1.如果已经先引入了newtonsoft.json 12.0.0.0版本的程序集&#xff0c;如果直接引入另一个版本的程序集的话会提示不成功&#xff0c;所以先将另一个…

分布式ID介绍实现方案总结

分布式 ID 介绍 什么是 ID&#xff1f; 日常开发中&#xff0c;我们需要对系统中的各种数据使用 ID 唯一表示&#xff0c;比如用户 ID 对应且仅对应一个人&#xff0c;商品 ID 对应且仅对应一件商品&#xff0c;订单 ID 对应且仅对应一个订单。 我们现实生活中也有各种 ID&…

BetrFS: A Compleat File System for Commodity SSDs——论文阅读

EuroSys 2022 Paper 分布式元数据论文汇总 问题 在不同的工作负载下&#xff0c;没有单一的Linux文件系统在普通SSD上始终表现良好。我们将一个完备的文件系统定义为在各种微基准测试和应用程序中&#xff0c;没有一个工作负载的性能低于最佳文件系统性能的30%&#xff0c;并…

EasyX图形库学习(一)

目录 一、easyX图形库基本介绍 1、easyX的原理 2、easyX的安装 3、easyX的颜色&#xff08;RGB颜色模型&#xff09; 颜色模型相关函数: 4、easyX的坐标 二、相关函数介绍: 绘图设备相关函数&#xff1a; 图形颜色及样式设置相关函数: 图形绘制相关函数: 文字输出相关…

Linux多线程服务端编程:使用muduo C++网络库 学习笔记 第十一章 反思C++面向对象与虚函数(下)

11.7.2 值语义与生命期 值语义的一个巨大好处是生命期管理很简单&#xff0c;就跟int一样——你不需要操心int的生命期。值语义的对象要么是stack object&#xff0c;要么直接作为其他object的成员&#xff0c;因此我们不用担心它的生命期&#xff08;一个函数使用自己stack上…

分享个前端工具-取色调色工具

这里虽然贴了两个&#xff0c;但推荐 Pipette. PipetteWin22.10.22.zip: https://download.csdn.net/download/rainyspring4540/88799632 图标&#xff1a; 界面&#xff1a; ColorPix https://download.csdn.net/download/rainyspring4540/88799642 图标&#xff1a; 界面…

Google Play上架:因行为透明度被拒审或下架的政策自查(基于区块链的内容)

近期很多朋友的项目出现因行为透明度问题被谷歌拒审或者已经上架的包被下架甚至封号,今天解释一下为什么会被封号下架,根据是什么? 目录 政策发布时间与截止时间政策内容政策背景政策解析和问题讲解政策发布时间与截止时间 基于区块链的内容相关政策,于2023-07-12 公布,…

看完这篇文章,你一定能看懂Datasheet!

大家好&#xff0c;我是砖一。 针对以上学妹的疑问&#xff0c;我有几点建议&#xff0c;大家可以听一下~ 一&#xff0c;怎么样查找Datasheet&#xff08;数据手册&#xff09; 大多数人下意识就点开浏览器&#xff0c;把型号往里面一输&#xff0c;不建议这样。 对于刚入行…

Fluent的小bug处理:后处理截面显示存在漏洞

最近发现的Fluent的bug&#xff0c;关于后处理截面显示不完整的问题。 1 现象 在使用六面体核心类型单元&#xff08;包括四面体-六面体核心和多面体-六面体核心&#xff09;进行网格划分的时候&#xff0c;可能会在截面上不能完整捕捉单元形状及其分布状态&#xff0c;导致做…

linux使用iptables禁用ip

iptables是什么&#xff1f; iptables 是一个强大的开源软件&#xff0c;它是 Linux 系统内核中 netfilter 包过滤框架的一部分&#xff0c;用来实现防火墙功能。iptables 提供了一种灵活的方式来控制和管理进出以及通过 Linux 计算机的网络流量。 前提 我在云服务器上用doc…

【代码随想录】LC 1. 两数之和

文章目录 前言一、题目1、原题链接2、题目描述 二、解题报告1、思路分析2、时间复杂度3、代码详解 前言 本专栏文章为《代码随想录》书籍的刷题题解以及读书笔记&#xff0c;如有侵权&#xff0c;立即删除。 一、题目 1、原题链接 1. 两数之和 2、题目描述 二、解题报告 1、思…