Mask-Free Video Instance Segmentation

论文地址:[2303.15904] 无掩码视频实例分割 (arxiv.org)

论文代码https://github.com/SysCV/MaskFreeVis

目录

一、摘要

二、介绍

三、方法

        3.1 时间掩码一致性

        3.2 时间KNN-patch Loss

        3.3 训练MaskFreeVIS

四. 数据集

五.消融实验

六. 结果

七. 结论


一、摘要

        视频掩码注释繁琐且昂贵, 限制了现有VIS 数据集的规模和多样性。本文的目标是消除掩膜注 释的要求,提出了MaskFreeVIS,实现了高度竞争的VIS性能, 同时只使用边界框和对象状态符号。

二、介绍

        当前问题

        (1)最先进的VIS模型使用来自VIS数据集的完整视频注释进行训练。

        视频注释是昂贵的,特别是关于对象掩码标签。即使是粗糙的基于多边形的掩膜标注,也⽐标注视频边界框慢好⼏倍。昂贵的掩码注释使得现有的VIS基准难以扩展,从⽽限制了覆盖的对象类别的数量。

        (2)弱监督的单图像⽅法在学习掩膜预测时没有利⽤时间线索,导致直接应⽤于视频时精度较低。

        所做工作

        (1)通过研究⽆掩码设置的弱监督VIS问题,重新审视了完全掩码注释的必要性。

        (2)利⽤时间掩码⼀致性约束(不同帧中对应于相同基础对象的区域应该具有相同的掩码标签)来进⾏VIS的⽆掩模学习。

        具体贡献

        (1)为了利⽤时间信息,开发了⼀种新的⽆参数时间KNN-patchLoss,它利⽤⽆监督的⼀对kpatch对应来利⽤时间掩模⼀致性。

        (2)基于TK-Loss,开发了MaskFreeVIS⽅法,可以在没有任何掩码注释的情况下训练现有的最先进的VIS模型。

        (3)MaskFreeVIS是第⼀个获得⾼性能分割结果的⽆掩模VIS⽅法。MaskFreeVIS在不使⽤视频或注释的情况下,在具有挑战性的YTVIS2019基准上实现了42.5%AP。我们的⽅法进⼀步扩展到更⼤的主⼲⽹,在没有视频掩码注释的情况下,在swing-l主⼲⽹上实现了55.3%的掩码AP


三、方法

        3.1 时间掩码一致性

        视频描述了场景的连续变化。物体和背景移动、变形、被遮挡,经历光照变化、运动模糊和噪声,从⽽导致⼀系列通过逐渐变换⽽密切相关的不同图像。

        场景中的⼀个⼩区域要么属于⼀个物体,要么属于背景。该区域投影对应的像素在每一帧中应该具有相同的掩膜预测,因为它们属于相同的底层物理对象或背景区域。然⽽,视频中的动态变化导致了实质性的外观变化,作为⼀种⾃然的数据增强形式。因此,对应于相同基础对象区域的像素在时间变化下应该具有相同的掩膜预测,这⼀事实提供了⼀个强⼤的约束,即时间掩膜⼀致性,可⽤于掩膜监督。

        利用时间掩膜一致性约束的困难来自于在视频帧之间建立可靠对应的关系。

        3.2 时间KNN-patch Loss

        时间KNN-patchLoss(TK-Loss)是基于⼀种简单⽽灵活的跨帧对应估计。建⽴了1-k对应关系。这包括传统的⼀对⼀对应(K=1),其中存在⼀个独特的定义良好的匹配。然⽽,这也允许我们在遮挡情况下处理不存在对应关系(K=0)的情况,在同⽣区域情况下处理⼀对多(K2)的情况。在发现多个匹配的情况下,由于它们的外观相似,这些最常属于相同的底层对象或背景。通过更密集的监督,这进⼀步有利于我们的mask⼀致性⽬标。⽅法如图,包含四个主要步骤。

        (1)候选Patch提取

        设X pt 表⽰在第 t 帧中以空间位置 p=(x,y)为中⼼的N × N ⽬标图像 Patch 。我们的⽬标是在第 t ´帧
中找到⼀组对应的位置 S p t t ´ = {tpi}i ,表⽰相同的⽬标区域。⾸先在半径R 内选择候选位置 p ,使 kp pk ≤R。这种带窗⼝的块搜索利⽤了相邻帧的空间邻近性,以避免穷尽的全局搜索。为了快速实现,并⾏地对所有⽬标图像块X pt 执⾏加窗搜索。

        (2)时间knn匹配

        通过简单的距离计算对候选补丁进⾏匹配,L2norm是最有效的补丁匹配指标。我们选择了patch距离最⼩的前K个匹配dttpp。 最后,通过强制执⾏⼀个最⼤的patch距离D作为dt→tp→p来去除低置信度的匹配 对于每个位置p,从集合Spttpi}i进⾏匹配。

        (3)一致性损失

        设Mpt[0,1]表⽰⼀个对象的预测⼆进制实例掩码,在帧t中的位置p处求值。为了确保时间掩码⼀致性约束,对Sptt}中⼀个时空点(p,t)与其估计的对应点之间的掩码预测不⼀致进⾏惩罚。

        掩码的⼀致性是⽤

        只有在两个预测都准确地表⽰背景 (Mpt=Mp-t-=0)或前景 (Mpt=Mp-t-=1) 时才会达到其最⼩值零。因此,⽬标不仅促进两个掩码预测达到相同的概率值Mpt=Mp-t- ,⽽且还承诺⼀定的前景或背
景预测。

        (4)循环管连接

        以循环的⽅式计算整个管的时间损失。起始帧连接到结束帧,这在时间上最遥远的两个帧之间引⼊了直接的⻓期掩码⼀致性。全管时间TK-Loss由式给出

循环损耗实现了类似的性能,但⼤⼤减少了实验部分验证的内存使用

        3.3 训练MaskFreeVIS

        (1)联合时空正则化

        为了训练MaskFreeVIS,除了⽤于时间掩码⼀致性的temporal-poralKNN-patchLoss外,我们还利⽤现有的空间弱分割损失来联合强制帧内⼀致性。 为了探索来⾃图像边界框和像素颜⾊的空间弱监督信号,我们利⽤具有代表性的Box投影损失Lproj和成对损失Lpair来代替监督掩码学习损失。投影损失Lproj强制对象掩模在图像的~x轴和~y轴上的投影p0与它的地真盒掩模⼀致。对于具有T帧的时间管,我们同时优化管as的所有预测帧掩模

        D为骰⼦损失,p0x/y轴⽅向的投影函数,Mpt和Mbt分别为第t帧下预测的实例掩码及其GT掩码。为清晰起⻅,这⾥省略了对象实例索引。另⼀⽅⾯,成对损失Lpair限制了单帧的空间相邻像素。对于具有颜⾊相似性>σ像素的位置p0ip0j像素,强制其预测的掩膜标签⼀致,如下式:

空间损失与权重因⼦λ pair : 相结合

优化视频分割的整体时空⽬标Lseg 被总结为 :

        (2)基于transformer的方法的集成

        现有的关于无监督分割损失的⼯作与单阶段或两阶段检测器相耦合,并且仅解决单幅图像的情况。然⽽,最先进的VIS⽅法是基于变压器的。这些⼯作通过集合预测进⾏对象检测,其中在评估损失时,预测的实例掩码需要与掩码标注匹配。为了将⽆遮罩VIS训练与变压器相结合,⼀个关键的修改是在实例序列匹配步骤中。

        作为初步尝试,⾸先从估计的实例掩码中产⽣边界框预测。然后,我们使⽤VIS⽅法中使⽤的顺序匹配成本函数。为了计算整个序列的匹配代价,在帧间平均每个单独的边界框的L1损失和⼴义IoU损失。然⽽,我们观察到帧平均的匹配结果很容易受到单个离群帧的影响,特别是在弱分割设置下,导致训练期间的不稳定和性能下降。 时空盒掩码匹配没有使⽤前述的帧级匹配,⽽是凭经 验找到了时空盒-掩码匹配,以在弱分割设置下产⽣实质性的改进。我们⾸先将每个预测实例掩码转换为边界框掩码,并将ground-truth盒转换为盒掩码。然后,我们分别从ground-truth盒掩码序列和预测盒掩码序列中随机采样等量的点。与Mask2Former不同,我们 只采⽤骰⼦IoU损失来计算序列匹配成本。交叉熵累积了每个像素的误差,导致⼤⼩物体之间的 值不平衡。相⽐之下,IoU损失是标准化的每个对象,导致⼀个平衡的度量。在消融实验中,研究了⽆掩模 VIS设置下不同的实例序列匹配策略。

        (3)基于图像的MaskFreeVIS预训练

        ⼤多数VIS模型都是从COCO实例分割数据集上预训练的模型初始化的。为了完全消除掩模监督,我们仅使⽤无监督在COCO上预训练MaskFreeVIS。我们在单帧上采⽤空间⼀致性损失来代替Mask2Former中原始的GT掩码损失,同时基于相同的图像COCO培训设置。因此,我们在实验中提供了两种训练设置,⼀种是在训练过程中同时去除图像和视频蒙版,另⼀种是采⽤COCO蒙版注释预训练的权值。在这两种情况下,都没有使⽤视频掩模注释。


四. 数据集

        在⼤规模的 YouTube-VIS2019和2021 上进⾏实验。 YTVIS2019 包括 2883 个视频, 131k注释对象实例,属于 40 个类别。为了处理更复杂的情况,YTVIS2021 更新了 YTVIS2019 ,增加了 794 个培训视频和129 个验证视频,包括更多令⼈困惑的运动轨迹轨迹。 还在OVIS 上进⾏训练和评估 OVIS 是遮挡学习的VIS 基准。 OVIS 由覆盖 25 个类别的实例掩模组成,分别有607 个、 140 个和 154 个视频⽤于训练、有效和测试。
        BDD100KMOTS进⼀步报道了⼤规模⾃动驾驶基准BDD100KMOTS Mask-FreeVIS 结果。该数据集标注了154 个视频 (30,817 张图像 ) ⽤于训练, 32 个视频(6,475张图像 ) ⽤于验证, 37 个视频 (7,484 张图像 ) ⽤于测试。

五.消融实验


六. 结果

        将MaskFreeVIS 与最先进的完全 / 弱监督⽅法在基准YTVIS2019/2021 OVIS, BDD100KMOTS 上进⾏⽐较。我们将MaskFreeVIS 集成到四种代表性⽅法 上,在强基线上获得⼀致的⼤收益。

七. 结论

        MaskFreeVIS是第⼀个在训练过程中不需要 任何 掩码注释的竞争性VIS⽅法。强有⼒的结果导致了⼀个显著的结论: 掩膜标签不是⾼性能 VIS 的必要条件。我们的关键组件是⽆监督的时间KNN-patchLoss ,它通过利⽤时间掩膜⼀致性约束取代了传统的视频掩膜损失。我们的⽅法⼤⼤减少了在四个⼤规模基准上完全监督和弱监督VIS 之间⻓期存在的差距。因此, MaskFreeVIS 为研究⼈员和实践者提供了许多标签⾼效VIS 的机会。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/661321.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度解读NVMe计算存储协议-1

随着云计算、企业级应用以及物联网领域的飞速发展,当前的数据处理需求正以前所未有的规模增长,以满足存储行业不断变化的需求。这种增长导致网络带宽压力增大,并对主机计算资源(如内存和CPU)造成极大负担,进…

Python网络爬虫分步走之 – 第一步:什么是网络爬虫?

Python网络爬虫分步走之第一步:什么是网络爬虫? Web Scraping in Python Step by Step – 1st Step, What is Web Crawler? By JacksonML 1. 什么是网络爬虫? 在能够使用Google搜索引擎的场合,你是否尝试过简单搜索&#xff…

【C++】类和对象万字详解

目录 一、类与对象 1、类是什么 二、类和对象的基础知识 2.1 定义类:成员变量和成员函数 2.2 创建对象:实例化一个类的对象。 2.3对象的生命周期:构造函数和析构函数。 a. 构造函数 b. 析构函数 c.小结: 三、成员变量和…

腾讯云雾锁王国游戏服务器上线,10秒钟快速搭建!

随着科技的飞速发展,游戏行业也迎来了前所未有的繁荣。在这个时代,玩家们对游戏的体验需求日益增长,对服务器的稳定性和速度要求也越来越高。为了满足市场需求,腾讯云推出了雾锁王国游戏联机服务器及一键部署方案,只需…

❤ 做一个自己的AI智能机器人吧

❤ 做一个自己的AI智能机器人 看了扣子(coze)的模型,字节基于chatgpt搭建的一个辅助生成AI的网站,感觉蛮有意思,看了掘金以后,于是动手自己也实现了一个。 官网 https://www.coze.cn/ 进入的网站 1、 创…

java之基础知识、零碎知识

MENU java学习路程之篇一、知识点、path环境变量、计算机发展史、数据的存储和运算、人机交互、计算机语言java学习路程之篇二、知识点、JAVA背景介绍、配置JAVA_HOME、跨平台、JVM、JRE、JDKjava学习路程之篇三、知识点、类、模块、项目、操作、下载、安装、IDEA、开发工具jav…

速过计算机二级python——第二讲:基础语法

第二讲:基础语法 基础语法1. 变量2. 变量命名2.1语法规则2.1.1 区分大小写2.1.2 缩进 4 个空格2.1.3 # 注释 2.2 人机交互1. 输入函数:input()2. 转换函数:eval()3. 输出函数 print() 数据类型String(字符串)数字 组合…

面向对象设计的七大设计原则

在我们探讨如何创建健壮且可维护的面向对象系统时,有一些原则可以为我们提供指导。这些原则可以帮助我们理解如何最好地组织我们的类和对象,以实现高效、模块化和可扩展的设计。在本篇文章中,我们将探讨这些原则,以及如何在我们的…

centos7安装mysql5.7 或者mysql8

1、centos7安装mysql8 mysql官网 https://dev.mysql.com/downloads/mysql/ 示例2个版本的下载地址 #5.7.30下载地址 wget https://cdn.mysql.com/archives/mysql-5.7/mysql-5.7.30-1.el7.x86_64.rpm-bundle.tar #8.0.22下载地址 wget https://cdn.mysql.com/archives/mysql-8…

Maya------布尔 圆形圆角组件

17. maya常用命令7.布尔 圆形圆角组件_哔哩哔哩_bilibili 选中一个模型,再按shift加选另外一个模型 圆形圆角命令

PVE安装后报错:NO IOMMU Detected解决办法

1、首先在BIOS中确定图形界面卡,打开了VT-D功能。 2、修改grub vim /etc/default/grub 找到:GRUB_CMDLINE_LINUX_DEFAULT"quiet" 然后修改为 GRUB_CMDLINE_LINUX_DEFAULT"quiet intel_iommuon" 3、使用命…

华擎B660 主板 怎么设置打开来电自启功能?

环境: 华擎B660 钢铁传奇 1700 : Intel B660 问题描述: 华擎B660 主板 怎么设置打开来电自启功能? 解决方案: 1.前往-高级- 芯片组配置 2.往下划找到交流 /电源断电恢复 选择电源故障后的电源状态。如果选择 [关机]&#x…

mapbox gl 测量

一、代码 <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>Measure distances</title> <meta name"viewport" content"initial-scale1,maximum-scale1,user-scalableno"> <link hre…

Typora导出html文件图片自动转换成base64

Typora导出html文件图片自动转换成base64 一、出现问题二、解决方案三、编码实现3.1.创建Java项目3.2.代码3.3.打包成Jar包 四、如何使用endl 一、出现问题 typora 导出 html 的时候必须带有原图片&#xff0c;不方便交流学习&#xff0c;文件太多显得冗余&#xff0c;只有将图…

【vim 学习系列文章 3.2 -- vim 删除 空格】

文章目录 vim 删除行尾空格 vim 删除行尾空格 在代码开发的过程中&#xff0c;经常会遇到行尾有空格的现象&#xff0c;如下&#xff1a; 我们可以在 .vimrc 中通过map 命令来映射删除行尾空格的快捷键&#xff0c;如下&#xff1a; map d<space> :%s/\s*$//g <cr…

Spring速成(一)

文章目录 Spring速成&#xff08;一&#xff09;1&#xff0c;课程介绍1.1 为什么要学?1.2 学什么?1.3 怎么学? 2&#xff0c;Spring相关概念2.1 初识Spring2.1.1 Spring家族2.1.2 了解Spring发展史 2.2 Spring系统架构2.2.1 系统架构图2.2.2 课程学习路线 2.3 Spring核心概…

Linux实验记录:使用Apache的虚拟主机功能

前言&#xff1a; 本文是一篇关于Linux系统初学者的实验记录。 参考书籍&#xff1a;《Linux就该这么学》 实验环境&#xff1a; VmwareWorkStation 17——虚拟机软件 RedHatEnterpriseLinux[RHEL]8——红帽操作系统 正文&#xff1a; 目录 前言&#xff1a; 正文&…

【重温设计模式】构建器及其Java示例

设计模式中的构建器模式介绍 在编程的世界里&#xff0c;设计模式是一种让我们的代码更加优雅、可读、可维护的工具。其中&#xff0c;构建器模式是一种创建型模式&#xff0c;它提供了一种高效且灵活的方式来创建复杂对象。这种模式的主要特点是&#xff0c;它分离了对象的构…

易点易动设备管理平台助力制造企业实现设备的智能化维修和保养管理

在制造业领域&#xff0c;设备的维修和保养是保障生产运行和产品质量的关键环节。然而&#xff0c;传统的维修和保养管理方式往往存在效率低下、难以及时发现问题等问题。为了解决这些挑战&#xff0c;易点易动设备管理平台应运而生。该平台利用物联网和数据分析技术&#xff0…

回归预测 | Matlab实现CPO-GRU【24年新算法】冠豪猪优化门控循环单元多变量回归预测

回归预测 | Matlab实现CPO-GRU【24年新算法】冠豪猪优化门控循环单元多变量回归预测 目录 回归预测 | Matlab实现CPO-GRU【24年新算法】冠豪猪优化门控循环单元多变量回归预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现CPO-GRU【24年新算法】冠豪猪优化…