【VL tracking】Towards Unified Token Learning for Vision-Language Tracking

在这里插入图片描述

不知道什么原因学校认证账号进不去,下载不了最新的PDF

在这里插入图片描述
广西师范大学 | 国科大 | 厦大
代码开源

zhihu指路👉【VL tracking】MMTrack阅读

问题

一方面,传统的VL tracking方法需要昂贵的先验知识。例如,一些tracker是专门用于bounding box的,它们使用区域建议网络(基于锚点的机制)和ROI池化来生成跨模态融合和对齐的建议实例。

另一方面,在多任务学习中,寻找一个有利于vision-language理解的训练目标是困难的。例如,将各种损失函数用于某个特定的模块或任务中,如果一个模型想要有效地学习所有类型任务的特征,调整会是困难的并且泛化能力有限。

为了简化VL tracking建模,本文提出一种概念简单但有效的VL多模态跟踪pipeline,称作MMTrack

Contributions

  • 本文将视觉语言跟踪重新定义为一项token生成任务,并提出了一个新颖的pipeline,从统一建模的角度释放视觉语言多模态学习的潜力。
  • 整个方法简单灵活,将语言和边界框统一作为多线索的token输入。它避免了冗余的子任务学习和优化目标,并且只使用交叉熵作为统一的训练目标。
  • 本文提出的方法在4个VL基准测试上实现了最先进的跟踪结果,表明该方法可以成为VL Tracking新的baseline。

方法

讨论与基于序列的工作的不同之处

pix2seq采用语言建模的方式解决了目标检测任务,取得了较好的结果。受其理念启发,作者为跟踪社区贡献了一种新颖的VL多模态跟踪模型,工作区别在以下几个方面:

  1. pix2seq是为目标检测而设计的,而作者创造性地将其扩展到了VL跟踪任务的多模态建模,并为文本视频理解设计了一个多模态编码器。这超出了原方法单模态的限制。
  2. pix2seq从边界框、类别和噪声数据中创建长序列。相比之下,作者通过仅依赖于边界框和文本信息来简化序列构建策略,避免使用类别和其他噪声策略。因此通过防止长而复杂的序列,本文提出的方法减少了训练负荷,更好地适应了VL跟踪任务。

SeqTrack与本文研究相似,但区别在以下几个方面:

  1. SeqTrack是专门针对涉及视觉模态的纯视觉跟踪任务而设计的,在处理多模态数据输入方面缺乏灵活性。相比之下,视觉语言跟踪结合了高级语义信息来解决边界框的模糊性,从而在实际应用中实现了更灵活、鲁棒和准确的跟踪。
  2. 标记序列构建策略不同。尽管SeqTrack和我们的工作都使用了短标记序列的构建策略,但我们减少了量化桶(quantization bins)的数量,并考虑了将语言标记纳入其中。这种增加的措施提高了在复杂场景中目标定位的鲁棒性。

具体方法

在这里插入图片描述
本文提出的MMTrack框架如上图,包含两个输入:图像对和语言描述。首先,通过文本编码器和视觉编码器分别来提取这两种类型输入的特征。为了提高计算效率,作者使用两个线性层,将两类特征的通道维度从C降到d。然后,将语言和视觉特征喂到多模态编码器中进行统一的VL表征学习,因为通过融合操作形成统一表示是实现多模态学习的关键。
为了构建条件查询,作者将文本嵌入和边界框进行分词(tokenize),生成多个一维标记序列,然后将它们连接起来得到条件查询。接下来,将条件查询和VL表示输入到多模态解码器中。按照 自回归

的方式,条件查询学习从VL表示中生成带有边界框信息的目标序列。

最后,作者设计了一个简单的与任务无关(task-agnostic)的序列头部,可以直接预测最终的跟踪结果。

a. 跨模态编码器

在这里插入图片描述

b.跨模态解码器

在这里插入图片描述在这里插入图片描述在这种模式下,不同模态可以通过encoder-decoder架构在MMTrack中传播。多模态编码器负责更新VL表示,而多模态解码器以自回归方式预测离散坐标标记。我们可以看到,整个pipeline简单而灵活。

c. 条件查询

在这里插入图片描述
x ~ = r o u n d ( x i s × K ) y ~ = r o u n d ( y i s × K ) \tilde{x}=round(\frac{x_i}{s}\times K) \ \tilde{y}=round(\frac{y_i}{s}\times K) x~=round(sxi×K) y~=round(syi×K)

d.不依赖特定任务的序列预测器

在这里插入图片描述

如上图所示,本文提出一个task-agnostic序列预测器,生成一个属性序列来描述目标实例。具体而言,在多模态解码器的顶部添加了三个连续的线性层,以进一步学习坐标token。预测头输出坐标token序列的概率,其中前4个最大分数的索引代表当前帧的目标定位。By doing so, 模型能够摆脱传统分类器的引导,降低预测头的设计复杂度。

效果

在这里插入图片描述表中数据红色是最优结果蓝色次优

可视化:复杂场景下的效果

在这里插入图片描述

与其他VL trackers的定性比较结果

在这里插入图片描述

failure case

在这里插入图片描述

无关结论

【多阅读多思考,有想法立刻写】相近领域或方向中,对最新方法的迁移和借鉴,比如单模态->多模态,检测->跟踪。

【绝对充分的实验】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/69802.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

9月第1周榜单丨哔哩哔哩飞瓜数据B站UP主排行榜发布!

飞瓜轻数发布2023年8月28日-9月3日飞瓜数据UP主排行榜(B站平台),通过充电数、涨粉数、成长指数、带货数据等维度来体现UP主账号成长的情况,为用户提供B站号综合价值的数据参考,根据UP主成长情况用户能够快速找到运营能…

无限访问 GPT-4,OpenAI 强势推出 ChatGPT 企业版!

继 ChatGPT 收费大降价、推出 App 版等系列动作之后,OpenAI 于今日宣布正式发布面向企业的 AI 助手——ChatGPT Enterprise 版。 与 To C 端的 ChatGPT 版本有所不同的是,该版本可以以更快速度无限制地访问 GPT-4,还可以用来处理更长输入的上…

vue3 + elementplus Cannot read properties of null (reading ‘isCE‘)

使用命令行直接下载的element-plus,使用时会报错。 卸载掉,然后在项目根目录下,使用vue ui安装依赖, 即可使用

搭建PyTorch神经网络进行气温预测

import numpy as np import pandas as pd import matplotlib.pyplot as plt import torch import torch.optim as optim import warnings warnings.filterwarnings("ignore") %matplotlib inline features pd.read_csv(temps.csv)#看看数据长什么样子 features.he…

stable diffusion实践操作-LyCORIS

系列文章目录 stable diffusion实践操作 文章目录 系列文章目录前言一、LyCORIS是什么?二、使用步骤1.下载2.安装3 使用 二、整理模型1.LoHa-v1.0-pynoise 总结 前言 LyCORIS,可以理解为lora的加强版本。 LyCORIS - Lora beYond Conventional methods,…

leetcode:1941. 检查是否所有字符出现次数相同(python3解法)

难度:简单 给你一个字符串 s ,如果 s 是一个 好 字符串,请你返回 true ,否则请返回 false 。 如果 s 中出现过的 所有 字符的出现次数 相同 ,那么我们称字符串 s 是 好 字符串。 示例 1: 输入:s…

vue中实现签名画板

特意封装成了一个组件&#xff0c;签名之后会生成一张图片 signBoard.vue <template><el-drawer title"签名" :visible.sync"isShowBoard" append-to-body :show-close"false" :before-close"closeBoard" size"50%&quo…

数学建模--非整数规划问题蒙特卡洛方法的Python求解

目录 1.算法流程简介 2.算法核心代码 1.算法流程简介 #非线性整数规划 #我们一般采用蒙特卡洛算法来进行估算求解 #在实验次数足够多的情况下我们认为此解是非线性整数规划的最优解 """ #Qustion1:求解: max zx1^2x2^23x^24x4^22x5^2-8x1-2x2-3x3-x4-2x5s.t…

使用redis实现队列功能

使用redis实现队列功能 操作方法描述LPUSHLong lPush(String key, String… values)将一个或多个值 value 插入到列表 key 的表头&#xff0c;返回插入后列表中value的数量&#xff0c;若key不存在&#xff0c;会创建一个新的列表并执行 LPUSH 操作RPOPLPUSHString rPopLPush(S…

Modbus协议详解2:通信方式、地址规则、主从机通信状态

首先我们要清楚&#xff1a;Modbus是一种串行链路上的主从协议&#xff0c;在通信线路上只能有一个主机存在&#xff0c;不会有多主机存在的情况。虽然主机只有一个&#xff0c;但是从机是可以有多个的。 Modbus的通信过程都是由主机发起的&#xff0c;从机在接收到主机的请求后…

渗透测试漏洞原理之---【任意文件读取漏洞】

文章目录 1、概述1.1、漏洞成因1.2、漏洞危害1.3、漏洞分类1.4、任意文件读取1.4.1、文件读取函数1.4.2、任意文件读取 1.5、任意文件下载1.5.1、一般情况1.5.2、PHP实现1.5.3、任意文件下载 2、任意文件读取攻防2.1、路径过滤2.1.1、过滤../ 2.2、简单绕过2.2.1、双写绕过2.2.…

音视频 ffmpeg命令直播拉流推流

直播拉流 ffplay rtmp://server/live/streamName ffmpeg -i rtmp://server/live/streamName -c copy dump.flv对于不是rtmp的协议 -c copy要谨慎使用 直播推流 ffmpeg -re -i out.mp4 -c copy flvrtmp://server/live/streamName参数&#xff1a;-re,表示按时间戳读取文件 参…

docker笔记8:Docker网络

1.是什么 1.1 docker不启动&#xff0c;默认网络情况 ens33 lo virbr0 在CentOS7的安装过程中如果有选择相关虚拟化的的服务安装系统后&#xff0c;启动网卡时会发现有一个以网桥连接的私网地址的virbr0网卡(virbr0网卡&#xff1a;它还有一个固定的默认IP地址192.168.122…

vr智慧党建主题展厅赋予企业数字化内涵

现如今&#xff0c;VR全景技术的发展让我们动动手指就能在线上参观博物馆、纪念馆&#xff0c;不仅不用受时间和空间的限制&#xff0c;还能拥有身临其境般的体验&#xff0c;使得我们足不出户就能随时随地学习、传承红色文化。 很多党建展厅都是比较传统的&#xff0c;没有运用…

Protocol Buffers教程

Protocol Buffers教程 Protocol Buffers简介下载安装Protocol Buffers编译器编写第一个protobuf文件&#xff0c;并编译成go文件Protocol Buffers定义消息类型Protocol Buffers基本数据类型Protocol Buffers枚举类型Protobuf生成的go源码分析Protobuf序列化和反序列化protobuf…

【实用 Python 库】使用 XPath 与 lxml 模块在 Python 中高效解析 XML 与 HTML

在今天的信息时代&#xff0c;数据无处不在&#xff0c;从网络爬虫到数据挖掘&#xff0c;从文本处理到数据分析&#xff0c;我们时常需要从结构化文档中提取有用的信息。XPath 是一门强大的查询语言&#xff0c;它可以在 XML 与 HTML 等文档中定位特定的元素与数据。而在 Pyth…

C++中的##、#符号含义

在C中&#xff0c;## 和 # 是两个不同的预处理符号。这些符号都是在C的预处理阶段使用的&#xff0c;用于在代码编译之前对文本进行操作。 #&#xff08;字符串化操作符&#xff09;&#xff1a; 用于将宏参数转换为字符串常量。 #define STRINGIZE(x) #x const char* str S…

C++(QT)画图行车

通过鼠标在窗口上点击形成多个点的连线&#xff0c;绘制一辆汽车沿着绘制的连线轨迹前进。要求连线点数大于20.可以通过清除按钮清除已经绘制的连线&#xff0c;并可以重新绘制一条轨迹连线。当车辆行驶到轨迹终点时&#xff0c;自动停止。&#xff08;汽车实在可用方块代替&am…

go锁--读写锁

每个锁分为读锁和写锁&#xff0c;写锁互斥 没有加写锁时&#xff0c;多个协程都可以加读锁 加了写锁时&#xff0c;无法加读锁&#xff0c;读协程排队等待 加了读锁&#xff0c;写锁排队等待 Mutex用来写协程之间互斥等待 读协程使用readerSem等待写锁的释放 写协程使用writer…

文末送书!谈谈原型模式在JAVA实战开发中的应用(附源码+面试题)

作者主页&#xff1a;Designer 小郑 作者简介&#xff1a;3年JAVA全栈开发经验&#xff0c;专注JAVA技术、系统定制、远程指导&#xff0c;致力于企业数字化转型&#xff0c;CSDN博客专家&#xff0c;蓝桥云课认证讲师。 本文讲解了 Java 设计模式中的原型模式&#xff0c;并给…