实例分割论文阅读之:《Mask Transfiner for High-Quality Instance Segmentation》

1.摘要

两阶段和基于查询的实例分割方法取得了显著的效果。然而,它们的分段掩模仍然非常粗糙。在本文中,我们提出了一种高质量和高效的实例分割Mask Transfiner。我们的Mask Transfiner不是在规则的密集张量上操作,而是将图像区域分解并表示为四叉树。我们基于变压器的方法只处理检测到的容易出错的树节点,并并行地自我纠正它们的错误。虽然这些稀疏像素只占总数的一小部分,但它们对最终的掩模质量至关重要。这使得Mask Transfiner能够以较低的计算成本预测高度准确的实例掩码。大量的实验表明,Mask Transfiner在三个流行的基准测试上优于当前的实例分割方法,显著提高了两阶段和基于查询的框架在COCO和BDD100K上的+3.0掩码AP,以及在cityscape上的+6.6边界AP。

2.介绍

图像实例分割的进步在很大程度上是由强大的目标监测范式的发展所推动的。基于Mask RCNN和最近的DETR的方法在例如COCO挑战上取得了越来越高的性能。虽然这些方法在物体的监测和定位方面表现出色,但有效预测高精度分割掩码的问题迄今仍是难以琢磨的。
如图3所示,最近最先进的方法,特别是基于查询的方法,在边界盒和分割性能之间仍然存在较大差距,这强烈表明,掩膜质量的改进并没有跟上检测能力的进步,在图2中,先前方法的预测掩码非常粗糙,大多数情况下是过于平滑的的对象边界,实际上,高效而精确的掩膜预测是极具挑战性的,因为需要高分辨率的深度特征,而这需要大量的计算和内存成本。
图1
为了解决这些问题,我们提出了Mask Transfiner,这是一种高效的基于transformer的高质量实例分割方法,在图1中,我们的方法首先识别容易出错的区域,这些区域大多分布在对象边界或者高频区域,为此,我们的网络学习检测非相干区域,由下采样掩码自身时的信息损失来定义,这些非相干区域分布稀疏,仅占总像素的一小部分,然而,由于它们对最终的分割性能至关重要,它允许我们在细化过程中只处理高分辨率特征图的一小部分。因此,我们构建了一个分层四叉树来表示和处理多尺度的非相干图像像素。
为了改进非相干四叉树节点的掩码标签,我们设计了一个基于transform的改进网络,而不是标准卷积网络,因为它们需要在均匀网格上运行。我们的变压器有三个模块:节点编码器,序列编码器和像素解码器。节点编码器首先丰富了每个不相干点的特征嵌入。序列编码器然后将这些编码的特征向量跨多个四叉树级别作为输入查询。最后,像素解码器预测其对应的掩码标签。与MLP相比,序列表示和多头关注使得Mask Transfiner能够灵活地将稀疏特征点作为跨层并行的输入,对它们的逐像素关系进行建模,然后在长距离范围内传播信息。
我们在COCO, cityscape和BDD100K基准测试中广泛分析了我们的方法,其中定量和定性结果表明,Mask Transfiner不仅优于现有的两阶段和基于查询的方法,而且与标准变压器使用相比,在计算和内存成本方面效率更高。我们使用ResNet-50在41.6 APMask的COCO测试开发上建立了一个新的最先进的结果,显著优于最近的SOLQ和queryst。

3.相关工作

在这里插入图片描述

实例分割:两阶段实例分割方法首先检测边界框,然后在每个RoI区域中执行分割。 Mask R-CNN 使用 FCN 分支扩展了 Faster R-CNN 。后续工作 也为 Mask R-CNN 模型家族做出了贡献。一阶段方法 和基于内核的方法 ,例如 PolarMask 、YOLOACT 和 SOLO 删除了提案生成和特征重新池化步骤,以更高的效率获得可比较的结果。
基于查询的实例分割方法 受到 DETR 的启发,最近通过将分割视为集合预测问题而出现。这些方法使用查询来表示感兴趣的对象,并对它们联合执行分类、检测和掩模回归。在[15, 23]中,使用DCT或PCA算法将对象掩码压缩为编码向量,而QueryInst采用具有掩码信息流的动态掩码头。然而,图 3 中检测和分割性能之间的巨大差距表明,这些基于查询的方法产生的掩模质量仍然不能令人满意。与上述方法相比,Mask Transfiner 的目标是高质量的实例分割。在我们高效的转换器中,输入查询是不连贯的像素节点,而不是表示对象。我们的方法适用于两阶段框架和基于查询的框架,并且在其中都有效。
实例分割的细化:大多数现有的实例分割细化工作都依赖于专门设计的卷积网络 或 MLP 。 PointRend [28] 对低置信度分数的特征点进行采样,并使用共享 MLP 细化其标签,其中所选点由 Mask R-CNN 的粗略预测确定。 RefineMask [47] 结合了细粒度的特征和额外的语义头作为指导。后处理方法 BPR [36] 裁剪图像的边界块和初始掩模作为输入,并使用 [38] 进行分割。值得注意的是,一些方法 [11,14,46] 专注于细化语义分割细节。然而,由于更复杂的分割设置、每个图像的对象数量不同以及描绘重叠对象的要求,使得实例分割具有挑战性[27]。
与这些细化方法相比,Mask Transfiner 是一种端到端的实例分割方法,使用转换器来纠正错误。使用轻量级 FCN 来预测要细化的区域,而不是基于掩模分数的非确定性采样 [28]。与[28]中的MLP不同,顺序和分层输入表示使Mask Transfiner能够有效地将非局部稀疏特征点作为输入查询,其中变压器的强大全局处理非常适合我们的四叉树结构。

4.Mask Transfiner

图5
我们提出了一种有效解决高质量实例分割的方法。 Mask Transfiner 的整体架构如图 5 所示。 Mask R-CNN [21],我们采用多尺度深度特征金字塔。然后,对象检测头将边界框预测为实例建议。该组件还以低分辨率生成粗略的初始掩模预测。给定这些输入数据,我们的目标是预测高度准确的实例分割掩模。
由于大部分分割错误归因于空间分辨率的损失,我们首先在 3.1 节中定义这种不相干的区域并分析它们的属性。为了识别和细化多个尺度的不相干区域,我们采用了四叉树,这将在 3.2 节中讨论。轻量级不相干区域检测器将粗略初始掩模与多尺度特征一起作为输入,并以级联方式预测每个尺度的不相干区域。这使得我们的 Mask Transfiner 能够节省巨大的计算和内存负担,因为只有一小部分高分辨率图像特征由细化网络本身处理。我们的细化transformer(第 3.3 节详述)在检测到的不相干区域中运行。由于它对构建的四叉树上的特征点进行操作,而不是在统一的网格中,因此我们设计了一个transformer架构,它联合处理四叉树各级中的所有不相干节点。最后,我们介绍了 Mask Transfiner 的训练策略以及实现细节。

3.1 不相干区域

现有实例分割方法 [15, 21] 产生的大部分分割错误是由于空间分辨率的损失造成的,例如掩模下采样操作、小 RoI 池大小和系数压缩 [15, 23],其中掩模预测本身是在粗略的特征尺度上执行的。尽管其效率很高,但由于高频细节的丢失,低空间分辨率使得预测准确的对象边界变得困难。在本节中,我们首先定义不相干区域,其中由于空间分辨率降低而丢失掩模信息。然后,通过分析它们的属性,我们观察到很大一部分错误确实位于这些区域。
在这里插入图片描述

不相干区域的定义
为了识别不相干的区域,我们通过对掩模本身进行下采样来模拟由于网络中下采样而导致的信息丢失。具体来说,在无法通过后续上采样步骤正确重建掩模的区域中,信息会丢失,如图 4 所示。正式地,令 Ml 为尺度级别 l 的对象的二进制真实实例掩模。每个尺度级别的分辨率相差 2 倍,其中 l = 0 是最精细的尺度,l = L 是最粗糙的尺度。我们分别用 S↓ 和 S↑ 表示 2× 最近邻下采样和上采样。尺度 l 处的不相干区域是二元掩模,如下所示:
在这里插入图片描述
这里,⊕表示逻辑“异或”运算,O↓是通过在每个2×2邻域中执行逻辑“或”运算来进行2×下采样。因此,如果原始掩模值Ml-1在更精细尺度级别中的至少一个像素中与其重建不同,则像素(x,y)是不相干的Dl(x,y)=1。直观上,不连贯的区域大多沿着对象实例边界或高频区域散布,由粗掩模丢失或额外预测错误标签的点组成。我们在图 6 和补充中提供了它们的可视化。文件,它们稀疏且不连续地分布在典型图像上。
在这里插入图片描述
在这里插入图片描述
不相干区域的属性:在表 1 中,我们提供了对上面定义的不相干区域的分析。
结果表明,大部分预测误差集中在这些不相干区域,占所有错误预测像素的 43%,而对应的边界框区域仅占 14%。不相干区域的粗掩模预测准确率为 56%。通过修复边界框检测器,我们进行了预言机研究,用真实标签填充每个对象的所有这些不连贯区域,同时将其余部分保留为初始掩模预测。与在不相干区域使用初始掩模预测相比,性能从 35.5 AP 飙升至 51.0 AP,这确实证明它们对于提高最终性能至关重要。

3.2用于掩膜细化的四叉树

在本节中,我们将描述检测和细化图像中不相干区域的方法。我们的方法基于迭代检测和划分每个特征尺度中的不相干区域的思想。通过仅分割已识别的不相干像素以进一步细化,我们的方法仅关注重要区域,从而有效地处理高分辨率特征。为了形式化我们的方法,我们采用四叉树结构首先识别跨尺度的不连贯区域。然后,我们使用 3.3 节中详细介绍的网络来预测四叉树中所有不相干节点的细化分割标签。最后,我们的四叉树用于通过将校正后的掩模概率从粗尺度传播到更细尺度来融合来自多个尺度的新预测。
不相干区域的检测:图 5 的右侧部分描述了我们的轻量级模块的设计,用于有效检测多尺度特征金字塔上的不相干区域。按照级联设计,我们首先连接最小特征和粗略对象掩模预测作为输入,并使用简单的全卷积网络(四个 3×3 卷积),然后使用二元分类器来预测最粗略的不相干掩模。然后,对检测到的较低分辨率掩模进行上采样并与相邻级别中的较高分辨率特征融合,以指导更精细的不相干预测,其中仅采用单个 1×1 卷积层。在训练过程中,我们强制执行等式生成的较低级别的真实不相干点。 1 在更高级别特征图中其父点的覆盖范围内。
四叉树的定义和构造:我们定义一个点四叉树来分解检测到的不相干区域。
我们的结构如图 5 所示,其中较高级别 FPN 特征(例如特征分辨率 28×28)中的一个黄点在其相邻的较低级别 FPN 特征图中(例如分辨率 56×56)有四个象限点。这些都是特征点,但具有不同的粒度,因为它们位于不同的金字塔级别。与计算机图形学中使用的传统四叉树“单元”相反,四叉树“单元”可以有多个点,我们的点四叉树的细分单元始终在单个点上,点的划分由检测到的不相干值决定以及二元分类器的阈值。基于检测到的不相干点,我们构造一个多级分层四叉树,从使用最高级别特征图中检测到的点作为根节点开始。选择这些根节点来细分到较低级别特征图上的四个象限,具有更大的分辨率和更多的局部细节。请注意,在精细级别,只有被检测为不相干的象限点才能进一步分解,并且不相干树节点的扩展被限制在与先前粗略级别的不相干预测相对应的区域中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/674092.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TCP相关知识点

TCP相关知识点 参考: 《计算机网络》 (建议收藏)TCP协议灵魂之问,巩固你的网路底层基础 关于 TCP 三次握手和四次挥手,满分回答在此 (值得看) TCP处于网络体系结构中的运输层。 运输层主要为应用进程提供端到端的逻辑通信,然后对…

zzzzzzzzzzzzzzzzz

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起探讨和分享Linux C/C/Python/Shell编程、机器人技术、机器学习、机器视觉、嵌入式AI相关领域的知识和技术。 磁盘满的本质分析 专栏:《Linux从小白到大神》 | 系统学习Linux开发、VIM/GCC/GDB/Make工具…

Snipaste使用

今天推荐一款好用的截图、贴图软件工具,名字叫Snipaste,以下是官方介绍的截图 软件官方下载地址: Snipaste 下载 1、截图功能 2、标注 3、开发中的使用 有时候在开发中需要临时把一些任务规则信息,放在代码编辑器旁边进行参考&am…

linux之wsl2安装远程桌面

0. 安装后的效果 1. wsl中打开terminal并安装库 sudo apt-get purge xrdp sudo apt install -y xrdp sudo apt install -y xfce4 sudo apt install -y xfce4-goodies 2.优化显示 sudo sed -i s/max_bpp32/#max_bpp32\nmax_bpp128/g /etc/xrdp/xrdp.ini sudo sed -i s/xserverbp…

安全名词解析-水坑攻击、鱼叉攻击、钓鲸攻击

为方便您的阅读,可点击下方蓝色字体,进行跳转↓↓↓ 01 水坑攻击02 鱼叉攻击03 钓鲸攻击 01 水坑攻击 水坑攻击(Watering Hole Attack)是一种针对特定目标的网络攻击方式。顾名思义,是在受害者必经之路设置了一个“水坑…

百亿规模京东实时浏览记录系统的设计与实现

百亿规模京东实时浏览记录系统的设计与实现 系统介绍 浏览记录系统主要用来记录京东用户的实时浏览记录,并提供实时查询浏览数据的功能。在线用户访问一次商品详情页,浏览记录系统就会记录用户的一条浏览数据,并针对该浏览数据进行商品维度…

分享80个行业PPT,总有一款适合您

分享80个行业PPT,总有一款适合您 80个行业PPT下载链接:https://pan.baidu.com/s/1sc44xGll2RZ8Q2aiKDbjEA?pwd8888 提取码:8888 Python采集代码下载链接:采集代码.zip - 蓝奏云 学习知识费力气,收集整理更不易。知…

阿里云ECS服务器Linux安装Mysql8

链接:https://pan.baidu.com/s/1s9j7OhiOMV9e9Qq9GDbysA 提取码:dd5a --来自百度网盘超级会员V5的分享 Mysql官网:MySQL 关于Mysql Yum Repository介绍可以看下 更加简单 关于X86和ARM 传到服务器 进入所在包 cd /usr/local/develop/mysql8 解压 …

数据结构 - 线段树

1. 预制值: 构建的数组为,nums:【2, 5, 1, 4, 3】区间和问题,假设求区间 [1,3] 的和 2. 建树 2.1 构建线段树数组 int[] segT new int[4*n](为什么数组大…

红队打靶练习:PHOTOGRAPHER: 1

目录 信息收集 1、arp 2、nmap 3、nikto 目录扫描 1、gobuster 2、dirsearch WEB 信息收集 enum4linux smbclient 8000端口 CMS利用 信息收集 文件上传漏洞利用 提权 信息收集 get user.txt get flag 信息收集 1、arp ┌──(root㉿ru)-[~/kali] └─# a…

Codeforces Round 923 (Div. 3)

Codeforces Round 923 (Div. 3) Codeforces Round 923 (Div. 3) A. Make it White 题意&#xff1a;略 思路&#xff1a;找最小和最大的‘B’下标即可 AC code&#xff1a; void solve() {cin >>n;string s; cin>> s;int mn INF, mx 0;for (int i 0; i <…

Linux文件和目录管理

目录基础 Linux操作系统以目录的方式来组织和管理系统中的所有文件。所谓的目录&#xff0c;就是将所有文件的说明信息采用树状结构组织起来。每个目录节点之下会有文件和子目录。 所有一切都从 ‘根’ 开始&#xff0c;用 ‘/’ 代表, 并且延伸到子目录。 bin&#xff1a;B…

ongoDB从入门到实战之.NET Core使用MongoDB开发ToDoList系统(2)-Swagger框架集成

Swagger是什么&#xff1f; Swagger是一个规范且完整API文档管理框架&#xff0c;可以用于生成、描述和调用可视化的RESTful风格的 Web 服务。Swagger 的目标是对 REST API 定义一个标准且和语言无关的接口&#xff0c;可以让人和计算机拥有无须访问源码、文档或网络流量监测就…

Java并发基础:Deque接口和Queue接口的区别?

核心概念 Deque&#xff08;double ended queue&#xff0c;双端队列&#xff09;和Queue&#xff08;队列&#xff09;都是Java集合框架中的接口&#xff0c;它们用于处理元素的排队和出队&#xff0c;但是它们之间存在一些重要的区别&#xff0c;如下&#xff1a; 1、Queue…

HarmonyOS 创建components目录 定义全局自定义组件导出供整个项目使用

之前我的文章 harmonyOS 自定义组件基础演示讲解 我们讲解了 自定义组件的基础用法 但是 我们是写在单个page文件中的 这样 我们跨文件使用就很不友好了 如下图 指向 ets目录下 创建一个目录 按我们 前端开发以往的习惯 这个目录要叫 components 专门放组件集合的地方 然后 按…

《MySQL 简易速速上手小册》第3章:性能优化策略(2024 最新版)

文章目录 3.1 查询优化技巧3.1.1 基础知识3.1.2 重点案例3.1.3 拓展案例 3.2 索引和查询性能3.2.1 基础知识3.2.2 重点案例3.2.3 拓展案例 3.3 优化数据库结构和存储引擎3.3.1 基础知识3.3.2 重点案例3.3.3 拓展案例 3.1 查询优化技巧 让我们来聊聊如何让你的 MySQL 查询跑得像…

3.3-媒资管理之MinIo分布式文件系统上传视频

文章目录 媒资管理5 上传视频5.1 需求分析5.2 断点续传技术5.2.1 什么是断点续传5.2.2 分块与合并测试5.2.3 视频上传流程5.2.4 minio合并文件测试 5.3 接口定义5.4 上传分块开发5.4.1 DAO开发5.4.2 Service开发5.4.2.1 检查文件和分块5.4.2.2 上传分块5.4.2.3 上传分块测试 5.…

高并发对于服务器性能有什么要求?

随着互联网的普及和应用程序的复杂度增加&#xff0c;高并发已经成为许多应用程序必须面对的问题。高并发是指在短时间内有大量用户同时访问应用程序或数据库&#xff0c;对服务器性能提出了更高的要求。本文将探讨高并发对于服务器性能的要求。 一、高并发对服务器硬件的要求…

【Fabric.js】监听画布or元素的点击、选中、移动、添加、删除销毁、变形等各事件

在fabric使用过程中&#xff0c;如果想要玩各种花样&#xff0c;那么fabric的事件监听是一定、必须、肯定要掌握&#xff01;&#xff01;&#xff01; 例子就用vue项目组件里的代码&#xff0c;fabric的使用跟vue、react、angular之类的框架都没任何关系&#xff01; 并且本de…

第205篇| 送给新年12条格言,一些有用的废话

这是2024年一月份flomo和notion 上聚合的系列文章 (01)&#xff1b; 具体方法用的是这个 &#xff1a; 【知识沙虫&#xff0c;一个简单易用的知识体系建模工具】https://mp.weixin.qq.com/s/V2Cdq-1PbMQYvpE4o9NLpQ 首先&#xff0c;方法用下来还是很给力的。输出很快。不过前…