牛津大学和上海交大将SAM和Flow应用于移动目标,简单而有效,轻松分割运动目标!

光流可以在运动物体分割中发现运动物体并为分割提供清晰的边界。然而,如果物体暂时静止,就会面临分割挑战。

而我们知道SAM可以很好的分割静态图像对象。因此,是否可以利用SAM与光流结合来在视频中进行移动物体分割?

今天给大家介绍的这篇文章介绍并探索了两个模型,以利用SAM在视频中进行移动物体分割,使主要移动物体能够与背景运动区分开来。主要贡献有三个方面:

  • FlowI-SAM模型,利用光流作为三通道输入图像进行精确的逐帧分割和移动物体识别。

  • FlowP-SAM模型,这是RGB和流的双流数据的新颖组合,利用光流生成提示,指导SAM在RGB图像中识别和定位移动物体。

  • 在移动物体分割基准上,包括DAVIS、YTVOS和MoCA,在帧级和序列级上都取得了新的领先性能。

相关链接

项目:www.robots.ox.ac.uk/~vgg/research/flowsam

论文:arxiv.org/abs/2404.12389

代码:github.com/Jyxarthur/flowsam

论文阅读

摘要

本文的目标是运动分割——发现和分割视频中的运动物体。这是一个被广泛研究的领域,有许多谨慎的,有时甚至是复杂的方法和训练方案,包括:自监督学习,从合成数据集学习,以对象为中心的表示,模态表示等等。我们在本文中感兴趣的是确定分段任意模型(SAM)是否可以为这项任务做出贡献。

我们研究了两种将SAM与光流相结合的模型,利用了SAM的分割能力和光流发现和分组运动物体的能力。首先,我们对SAM进行调整,使其将流(而不是RGB)作为输入。在第二个模型中,SAM以RGB作为输入,flow作为分割提示符。

这些令人惊讶的简单方法,无需任何进一步的修改,在单对象和多对象基准测试中都比以前的所有方法都要好得多。我们还将这些帧级分割扩展到保持对象身份的序列级分割。同样,这个简单的模型在多个视频对象分割基准上优于以前的方法。

方法

将SAM应用于视频目标分割。

  • (a)流作为输入:flow-sam只接收光流并预测帧级分割掩码。

  • (b) flow-as-prompt: FlowP-SAM接受RGB并应用flow作为帧级分割提示符的信息。

  • (c)序列级掩码关联:作为后处理步骤,多掩码选择模块自回归从FlowI-SAM和/或FlowP-SAM转换帧级掩码输出并产生序列级掩码,其中对象标识在整个序列中是一致的。

flow-sam概述

  • (a) flow-sam的推理管道。

  • (b)体系结构带有可训练参数标记的flow - sam。生成点提示令牌由一个冻结的提示编码器。

FlowP-SAM概述

  • (a) FlowP-SAM的推理管道。

  • (b)体系结构FlowP-SAM。流提示生成器生成要注入的流提示类似sam的基于rgb的分段模块。两个模块取同一点提示令牌,从冻结的提示编码器获得。

  • (c)流量变压器的详细结构。译输入令牌作为轻量级查询的功能变压器解码器,迭代处理密集流特性。输出移动对象分数(MOS)令牌然后由基于mlp的头部处理以预测分数指示输入点提示符是否对应于移动对象。

实验

DAVIS上flow-sam方法的定性比较 (左),YTVOS(中)和MoCA(右)序列。我们的flow-sam(seq)成功地从嘈杂的光流背景中识别出运动物体(例如,鸭子第四栏)。

基于rgb的分割方法的定性比较DAVIS(左),YTVOS(中)和SegTrackv2(右)。而前面的方法 (第三行)努力解开多个移动的物体(例如,混合的金鱼,在第二列中),我们的FlowI-SAM (seq)准确地分离和分割所有移动对象。

结论

在本文中,我们通过两种方式将每帧SAM与运动信息(光流)结合起来,专注于现实世界视频中的运动目标分割:

  • (i)对于纯流分割,我们引入了直接接收的flow-sam光流作为输入;

  • (ii)对于基于rgb的分割,我们利用运动信息来生成流提示作为指导。

这两种方法在跨单对象和多对象的帧级分割中都提供了最先进的性能基准。此外,我们开发了一种基于帧的关联方法合并FlowI-SAM和FlowP-SAM的预测,实现序列级分割预测,优于所有先前在DAVIS上的方法。

这项工作的主要限制是它的运行时间长,归因于 到普通SAM中计算量大的图像编码器。然而,我们的 该方法一般适用于其他基于提示符的分割模型。 随着更有效的SAM版本的出现,我们预计会有显著的 减少推理时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11094.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分享一个php常驻内存多进程任务的扩展

前言 最近在摸鱼的时候发现一个PHP常驻内存多进程任务扩展包:EasyTask: PHP常驻内存多进程任务管理器,支持定时任务(PHP resident memory multi-process task manager, supports timing tasks) (gitee.com),支持php使用多线程处理任务。之前…

重写muduo之TcpServer

目录 1、Callbacks.h 2、TcpServer.h 3、TcpServer.cc 1、Callbacks.h 回调操作 不用依赖boost库&#xff0c;全部翻译成对C11的依赖&#xff0c;与多线程相关&#xff0c;也翻译成C11,与Linux底层的API的关联性减少&#xff0c;移植性更好 #pragma once#include <memo…

PV操作大题强化

1.生产者消费者问题——进程间关系为“生产资源-消费资源” 解题步骤 分析有几类进程——每类进程对应一个函数在每一个函数内部可以用中文描述动作(如果动作只做一次&#xff0c;就不用加while循环&#xff0c;如果动作要重复&#xff0c;就要加while循环)分析每一个动作在做…

【超详细】跑通YOLOv8之深度学习环境配置1

环境配置1下载安装内容如下&#xff1a; Anaconda&#xff1a;https://www.anaconda.com/download/success VScode&#xff1a;https://code.visualstudio.com/Download Pycharm&#xff1a;https://www.jetbrains.com/pycharm/download/?sectionwindows Visual Studio2019&a…

Linux 信号保存

&#x1f493;博主CSDN主页:麻辣韭菜&#x1f493;   ⏩专栏分类&#xff1a;Linux知识分享⏪   &#x1f69a;代码仓库:Linux代码练习&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学习更多Linux知识   &#x1f51d; 目录 前言 阻塞信号 1. 信号其他相关常见…

LLM-KERec

1、LLM-KERec整体框架 LLM-KERec系统包括传统推荐模块和基于LLM的互补知识增强模块。传统推荐模块负责召回候选商品、粗排过滤、精排和重排。LLM互补知识增强模块则包括实体提取器、互补图构造、E-E-I权重决策模型等&#xff0c;以整合互补知识&#xff0c;增强推荐效果。 2、…

周末可以做什么副业?

周末可以做很多种副业&#xff0c;具体可以根据个人兴趣和技能来选择。以下是一些常见的周末副业推荐 1. 线上销售 可以开设自己的网店&#xff0c;销售自己制作的产品、代理热门商品或者利用二手交易平台售卖闲置物品。 2. 做任务 空闲时间可以选择做的是百度的黑鲨阁&…

Pyecharts的编程环境准备

一&#xff0c;准备Python编程环境&#xff1a; Python版本&#xff1a;3.10以上&#xff0c;最高版本3.12 https://www.python.org/ 进入官网&#xff0c;点击downloads—>windows进入下载页面&#xff0c;搜索”3.10.6”找到指定版本&#xff0c;下载并安装64位Installer…

力扣HOT100 - 4. 寻找两个正序数组的中位数

解题思路&#xff1a; 两个数组合并&#xff0c;然后根据奇偶返回中位数。 class Solution {public double findMedianSortedArrays(int[] nums1, int[] nums2) {int m nums1.length;int n nums2.length;int[] nums new int[m n];if (m 0) {if (n % 2 0) return (nums2…

C语言实现猜数字小游戏

1.随机数生成 要想实现猜数字小游戏&#xff0c;依赖于随机数的生成 1.1 rand()函数 这个函数是用来生成随机数的&#xff0c;返回值是正整数&#xff0c;他的值的范围是0到rand_max之间的&#xff0c;rand_max的值在大多数编译器上面是32767&#xff0c;rand()函数的使用必…

【5分钟学会一个知识点】01.Elasticsearch基本操作-增删改查

目录 【5分钟学会一个知识点-探索现代搜索与分析引擎的魅力】01.Elasticsearch基本操作-增删改查1.基本操作1.1索引操作1.2文档操作1.3查询1.4修改数据1.5查询1.5.1条件查询1.5.1.1遍历所有的索引1.5.1.2查询某个索引1.5.1.3条件查询1&#xff1a;使用GET url传参数1.5.1.4条件…

MySQL数据库基础(数据库操作,常用数据类型,表的操作)

MySQL数据库基础&#xff08;数据库操作&#xff0c;常用数据类型&#xff0c;表的操作&#xff09; 前言 数据库的操作1.显示当前数据库2.创建数据库3.使用数据库4.删除数据库 常用数据类型1.数值类型2.字符串类型3.日期类型 表的操作1.查看表结构2.创建表3.删除表 总结 前言 …

深入解析MySQL中的事务(下)

MySQL事务管理 3. 隔离性&#xff08;Isolation&#xff09;查看和设置隔离级别隔离级别作用域区别与解析 四种隔离级别解析小结 4. 一致性&#xff08;Consistency&#xff09;如何保持一致性 5.“保持原子性、隔离性、持久性就能保证一致性”的理解&#xff1a; 四、如何理解…

【高阶数据结构】并查集

并查集 并查集1、概念2、根据人找编号 / 根据编号找人&#xff08;简单介绍一下并查集&#xff09;&#xff08;1&#xff09;代码展示&#xff08;2&#xff09;调试结果&#xff08;3&#xff09;优化1&#xff1a;小的往大的合并&#xff08;4&#xff09;优化2&#xff1a;…

Linux下安装gmp6.2.1的详细操作(深度学习)

方式一&#xff1a;编译gmp GMP官方地址https://gmplib.org/ 1. 官网下载gmp安装包 2. 解压下载好的安装包 tar -zxvf gmp-6.2.1.tar.bz2 3. 进入解压后的文件夹 cd gmp-6.2.1 4. 指定安装路径进行安装 # /usr/local换成自己的安装路径 ./configure --prefix/usr/local 5. 编…

鸿蒙ArkUI-X跨平台开发电商应用

一、ArkUI-X 简介 ArkUI-X 是由 OpenHarmony TSC - 跨平台应用开发框架 TSG 所孵化的开源项目,使用ArkUI-X可以让开发者基于一套主代码, 就可以构建支持多平台的精美、高性能应用。目前支持OpenHarmony、HarmonyOS、Android、 iOS,后续会逐步增加更多平台支持。 ArKUI跨平台…

volatile 和 synchronzied 的区别

文章目录 概述volatilesynchornizedvolatile vs synchornized总结 概述 提起并发编程&#xff0c;我们不得不说起 volatile 和 synchronized 这两个关键字&#xff0c;这两个关键字也是面试中常常被问到的&#xff0c;下面我们分别介绍一下这两个关键字以及二者的异同。首先需要…

Java构造方法详解

在Java方法内部定义一个局部变量时&#xff0c;必须要初始化&#xff0c;否则就会编译失败&#xff0c;如下&#xff1a; 要让上述代码通过编译&#xff0c;只需在使用a之前给a赋一个初始值即可 如果是对象&#xff1a;下面用一个日期类演示 我们没有给年月日赋值&#xff0c;…

[通用人工智能] 论文分享:ElasticViT:基于冲突感知超网的快速视觉Transformer

引言: 近年来&#xff0c;视觉Transformer&#xff08;Vision Transformer&#xff0c;简称ViT&#xff09;在计算机视觉任务中的应用日益广泛&#xff0c;从图像分类到对象识别等&#xff0c;均显示出优越的性能。然而&#xff0c;ViT模型也面临一些挑战&#xff0c;特别是在模…

ASME美国机械工程师学会文献如何查询下载经验分享

一、ASME美国机械工程师学会数据库简介&#xff1a; ASME是世界上最大的技术出版机构之一&#xff0c;制定众多的工业和制造业行业标准。现在ASME拥有工业和制造行业的600项标准和规范&#xff0c;这些标准在全球90多个国家被采用。 ASME数据库包含25种专业期刊&#xff0c;其…