光流可以在运动物体分割中发现运动物体并为分割提供清晰的边界。然而,如果物体暂时静止,就会面临分割挑战。
而我们知道SAM可以很好的分割静态图像对象。因此,是否可以利用SAM与光流结合来在视频中进行移动物体分割?
今天给大家介绍的这篇文章介绍并探索了两个模型,以利用SAM在视频中进行移动物体分割,使主要移动物体能够与背景运动区分开来。主要贡献有三个方面:
-
FlowI-SAM模型,利用光流作为三通道输入图像进行精确的逐帧分割和移动物体识别。
-
FlowP-SAM模型,这是RGB和流的双流数据的新颖组合,利用光流生成提示,指导SAM在RGB图像中识别和定位移动物体。
-
在移动物体分割基准上,包括DAVIS、YTVOS和MoCA,在帧级和序列级上都取得了新的领先性能。
相关链接
项目:www.robots.ox.ac.uk/~vgg/research/flowsam
论文:arxiv.org/abs/2404.12389
代码:github.com/Jyxarthur/flowsam
论文阅读
摘要
本文的目标是运动分割——发现和分割视频中的运动物体。这是一个被广泛研究的领域,有许多谨慎的,有时甚至是复杂的方法和训练方案,包括:自监督学习,从合成数据集学习,以对象为中心的表示,模态表示等等。我们在本文中感兴趣的是确定分段任意模型(SAM)是否可以为这项任务做出贡献。
我们研究了两种将SAM与光流相结合的模型,利用了SAM的分割能力和光流发现和分组运动物体的能力。首先,我们对SAM进行调整,使其将流(而不是RGB)作为输入。在第二个模型中,SAM以RGB作为输入,flow作为分割提示符。
这些令人惊讶的简单方法,无需任何进一步的修改,在单对象和多对象基准测试中都比以前的所有方法都要好得多。我们还将这些帧级分割扩展到保持对象身份的序列级分割。同样,这个简单的模型在多个视频对象分割基准上优于以前的方法。
方法
将SAM应用于视频目标分割。
-
(a)流作为输入:flow-sam只接收光流并预测帧级分割掩码。
-
(b) flow-as-prompt: FlowP-SAM接受RGB并应用flow作为帧级分割提示符的信息。
-
(c)序列级掩码关联:作为后处理步骤,多掩码选择模块自回归从FlowI-SAM和/或FlowP-SAM转换帧级掩码输出并产生序列级掩码,其中对象标识在整个序列中是一致的。
flow-sam概述
-
(a) flow-sam的推理管道。
-
(b)体系结构带有可训练参数标记的flow - sam。生成点提示令牌由一个冻结的提示编码器。
FlowP-SAM概述
-
(a) FlowP-SAM的推理管道。
-
(b)体系结构FlowP-SAM。流提示生成器生成要注入的流提示类似sam的基于rgb的分段模块。两个模块取同一点提示令牌,从冻结的提示编码器获得。
-
(c)流量变压器的详细结构。译输入令牌作为轻量级查询的功能变压器解码器,迭代处理密集流特性。输出移动对象分数(MOS)令牌然后由基于mlp的头部处理以预测分数指示输入点提示符是否对应于移动对象。
实验
DAVIS上flow-sam方法的定性比较 (左),YTVOS(中)和MoCA(右)序列。我们的flow-sam(seq)成功地从嘈杂的光流背景中识别出运动物体(例如,鸭子第四栏)。
基于rgb的分割方法的定性比较DAVIS(左),YTVOS(中)和SegTrackv2(右)。而前面的方法 (第三行)努力解开多个移动的物体(例如,混合的金鱼,在第二列中),我们的FlowI-SAM (seq)准确地分离和分割所有移动对象。
结论
在本文中,我们通过两种方式将每帧SAM与运动信息(光流)结合起来,专注于现实世界视频中的运动目标分割:
-
(i)对于纯流分割,我们引入了直接接收的flow-sam光流作为输入;
-
(ii)对于基于rgb的分割,我们利用运动信息来生成流提示作为指导。
这两种方法在跨单对象和多对象的帧级分割中都提供了最先进的性能基准。此外,我们开发了一种基于帧的关联方法合并FlowI-SAM和FlowP-SAM的预测,实现序列级分割预测,优于所有先前在DAVIS上的方法。
这项工作的主要限制是它的运行时间长,归因于 到普通SAM中计算量大的图像编码器。然而,我们的 该方法一般适用于其他基于提示符的分割模型。 随着更有效的SAM版本的出现,我们预计会有显著的 减少推理时间。