全新Transformer模型:全球与局部双重突破!

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!

引言:探索视觉变换器在对象重识别中的全局与局部特征

在对象重识别(Re-ID)的研究领域中,如何有效地从不同时间和地点捕获的图像中识别和检索特定对象一直是一个挑战。最近,随着视觉变换器(Vision Transformers,简称ViT)的发展,对象重识别取得了显著的进展。然而,对于对象重识别,全局与局部特征的相互关系和作用尚未被充分探索。

在本研究中,我们首先探讨了ViT中全局和局部特征的影响,然后进一步提出了一种新颖的全局-局部变换器(Global-Local Transformer,简称GLTrans)以实现高性能的对象重识别。我们发现,ViT的最后几层已经具有很强的表征能力,全局和局部信息可以相互增强。基于这一发现,我们提出了全局聚合编码器(Global Aggregation Encoder,简称GAE),有效地利用最后几层变换器的类别标记来学习全面的全局特征。同时,我们提出了局部多层融合(Local Multi-layer Fusion,简称LMF),它利用GAE的全局线索和多层补丁标记来探索具有辨别力的局部表征。

通过在四个大规模对象重识别基准上的广泛实验,我们的方法展示了优于大多数最先进方法的性能。

  • 论文标题:Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification
  • 机构:Dalian University of Technology
  • 论文链接:https://arxiv.org/pdf/2404.14985.pdf
    在这里插入图片描述

对象重识别的挑战与现状

1. CNNs在对象重识别中的应用与局限

在过去的二十年中,基于卷积神经网络(CNNs)的方法主导了对象重识别(Re-ID)领域。这些方法通过分割特征图来获取细粒度线索,例如将特征图水平分割以学习区分性的局部特征。尽管这些方法取得了卓越的表现,但它们受限于卷积操作的全局表示能力较弱,这可能导致过拟合并忽略全局重要信息。

2. Transformers引入对象重识别的新视角

Transformers由于其全局建模能力,在自然语言处理(NLP)领域已成为主流模型。近年来,研究者们开始将Transformers引入到视觉任务中,例如Vision Transformer(ViT)。这些方法通常使用类标记来代表整个图像,但常常忽略了patch标记中丰富的细粒度线索。为了解决这一问题,一些研究通过将patch标记划分为多个独立区域来挖掘局部区分性线索,但这种方法可能会遗漏结构信息。
在这里插入图片描述

GLTrans方法介绍:结合全局与局部的视觉变换器

1. Vision Transformer (ViT)的基本工作原理

Vision Transformer(ViT)通过将图像分解为重叠的图像块,并将每个块线性投影到一个高维空间,从而获得一系列的向量。这些向量通过多头自注意力机制进行信息聚合,使模型能够关注长距离依赖,从而捕捉全局信息。

2. 全局聚合编码器(GAE)的设计与功能

全局聚合编码器(GAE)利用从ViT的最后几层获得的类标记,通过一个全连接层和GeLU激活函数生成一个综合的全局特征表示。这种方法不仅考虑了最后一层的类标记,还结合了前几层的类标记,以获得更全面的全局特征。

3. 局部多层融合(LMF)的策略与实现

局部多层融合(LMF)模块包括Patch Token Fusion(PTF)、Global-guided Multi-head Attention(GMA)和Part-based Transformer Layers(PTL)。PTF通过聚合多层的patch标记并增强它们之间的空间关系来获取紧凑的局部表示。GMA进一步通过全局特征引导增强patch标记的区分性表示。PTL则利用分割后的patch标记和全局类标记,通过多头自注意力层和前馈网络,提取区分性的局部特征。
在这里插入图片描述

实验设置与数据集描述

在本研究中,我们采用了四个大规模的对象重识别(Re-ID)基准数据集,包括Market1501、DukeMTMC-ReID、MSMT17和VeRi-776。这些数据集广泛用于评估Re-ID算法的性能。Market1501和DukeMTMC-ReID主要用于行人重识别,而MSMT17和VeRi-776则包括更多场景和更复杂的环境条件。

我们的实验框架基于Vision Transformer (ViT)模型,结合了全局聚合编码器(Global Aggregation Encoder, GAE)和局部多层融合(Local Multi-layer Fusion, LMF)模块。我们首先从ViT获取多层的类标记和补丁标记,然后通过GAE和LMF生成更具辨别力的全局和局部特征。此外,我们还引入了多头自注意力机制来增强补丁标记的判别表示。
在这里插入图片描述

与现有技术的比较

1. 在Market1501和DukeMTMC-ReID数据集上的表现

在Market1501数据集上,尽管我们的模型在Rank1得分方面略低于一些比较方法,例如ISP和HAT,但在平均精度(mAP)方面表现非常竞争。在DukeMTMC-ReID数据集上,我们的GLTrans方法在mAP得分上超过了TransReID、AAformer和PFD,显示了通过探索补充的局部和全局信息,我们的方法能够获得更鲁棒的表示。

2. 在MSMT17和VeRi-776数据集上的优势分析

在MSMT17数据集上,我们的模型在mAP和Rank1上均实现了最佳性能。这表明,通过全局线索引导的多层特征融合可以获得互补和细粒度的特征表示。此外,在VeRi-776数据集上,我们的GLTrans模型在mAP和Rank1上也表现最佳。这一结果强调了在车辆Re-ID中识别局部信息的重要性,我们的方法通过考虑局部和全局线索,实现了卓越的性能。

总体而言,这些实验结果验证了我们提出的GLTrans框架在处理多种复杂场景下的对象Re-ID任务时的有效性和优越性。
在这里插入图片描述

深入分析:局部与全局特征融合的影响

1. 不同组件的性能比较

在GLTrans方法中,局部多层融合(LMF)和全局聚合编码器(GAE)是两个关键组件。LMF通过融合多层的patch tokens来增强局部特征的表达能力,而GAE则聚合多层的class tokens以提取更全面的全局特征。实验结果表明,这两种策略的结合显著提高了对象重识别的性能,尤其是在处理复杂场景和多样化的视觉信息时。

2. 不同层聚合的效果分析

通过对比不同层级的特征聚合,发现最后几层的ViT特征包含了丰富的语义信息,这些信息对于提高模型的判别能力至关重要。然而,单一层次的特征往往无法全面表达对象的复杂性,因此GLTrans采用了多层特征聚合策略,以获得更加全面和鲁棒的特征表示。

3. 不同聚合策略的影响

在全局聚合编码器(GAE)中,采用了多层class tokens的聚合,而在局部多层融合(LMF)中,则是通过patch token fusion、全局引导的多头注意力(GMA)和部分感知的Transformer层(PTL)来实现局部特征的增强。这种局部与全局的聚合策略有效地提升了模型对于细节的捕捉能力,使得模型在多个重识别基准测试中取得了优异的性能。

总结与未来展望

1. GLTrans方法的主要贡献与创新点

GLTrans方法的主要创新在于它有效地融合了局部和全局特征,通过全局聚合编码器(GAE)和局部多层融合(LMF)两大组件,优化了特征的表达能力。此外,该方法还引入了多头注意力机制来进一步增强模型对复杂场景的适应性和鲁棒性。

2. 对象重识别领域的未来研究方向

未来的研究可以在以下几个方向进行深入:首先,探索更高效的特征融合技术,以进一步提升模型的性能和效率;其次,研究跨模态和跨领域的对象重识别问题,以应对更加多样化的应用场景;最后,考虑到隐私和安全的问题,研究如何在保护个人隐私的前提下进行有效的对象重识别。

关注DeepVisionary 了解更多深度学习前沿科技信息&顶会论文分享!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/836674.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习RAG踩坑解决记录

学习 https://zhuanlan.zhihu.com/p/675509396 和 https://zhuanlan.zhihu.com/p/668082024 文章了解RAG,使用langchain实现一种简单的RAG问答应用示例。 问题一:import langchain 报错 pydantic.errors.PydanticUserError: If you use root_validator…

奇舞周刊第527期:​Virtual DOM(虚拟DOM) 的地位再一次被挑战 !!!

奇舞推荐 ■ ■ ■ Virtual DOM(虚拟DOM) 的地位再一次被挑战 !!! 最近在前端圈有一个 Github Repo 算是蛮受关注的 - proposal-signals,这是一个由 Daniel Ehrenberg 为主导,向 TC39 提案的项目…

多语言环境下的正则表达式实战:校验整数、小数

在软件开发中,正则表达式是验证用户输入数据格式的强大工具,特别是在处理表单验证时。本文将通过JavaScript、Java、Python、C、Rust、Go、C六种编程语言展示如何使用正则表达式来校验输入是否为整数或小数,特别强调小数点后最多保留两位的场…

26版SPSS操作教程(高级教程第二十章)

目录 前言 粉丝及官方意见说明 第二十章一些学习笔记 第二十章一些操作方法 神经网络与支持向量机 人工神经网络(artificial neural network,ANN) 假设数据 具体操作 结果解释 对案例的进一步分析 结果解释 ​编辑 尝试将模型复…

自动驾驶技术与传感器数据处理

目录 自动驾驶总体架构 感知系统 决策系统 定位系统 ​计算平台​ 仿真平台​ 自动驾驶公开数据集 激光点云 点云表征方式 1) 原始点云 2) 三维点云体素化 3)深度图 4)鸟瞰图 点云检测障碍物的步骤 PCL点云库 车载毫米波雷达 车载相机 设备标定 自动驾驶…

手把手带你构建一个自己的LLM训练框架【1】

手把手带你构建一个自己的LLM训练框架【1】 随着到模型的日益发展,构建一个属于自己的训练框架是有趣的。 计划写一系列教程来构建属于自己的训练框架。 目前项目仍在持续更新中(未完成),详情见github项目:https://g…

Matlab如何导出高质量论文插图?科研效率UpUp第8期

当你用Matlab绘制了一张论文插图: 想要所见即所得,原封不动地将其保存下来,该怎么操作呢? 虽说以前总结过7种方法(Matlab导出论文插图的7种方法),但要说哪一种可以满足上面的要求,想…

Flutter 中的 TextField 小部件:全面指南

Flutter 中的 TextField 小部件:全面指南 在 Flutter 中,TextField 是一个允许用户输入文本的小部件。它非常灵活,支持多种文本输入场景,如单行文本、多行文本、密码输入、数值输入等。TextField 还提供了丰富的定制选项&#xf…

UV胶固化时使用的UV灯要如何选择才适合!

近日,在使用UV灯固化 UV胶的过程中,遇到了不同的问题,最基本的就是很多人对于固化UV胶时,使用什么样的UV灯不清楚,从而导致了UV胶在实际使用过程中没有固化,或者没有完全固化,胶水仍处是液体流动…

2024OD机试卷-连续字母长度 (java\python\c++)

题目:连续字母长度 题目描述 给定一个 字符串 ,只包含大写字母,求在包含同一字母的子串中,长度第 k 长的子串的长度,相同字母只取最长的那个子串。 输入描述 第一行有一个子串(1<长度<=100),只包含大写字母。 第二行为 k的值 输出描述 输出连续出现次数第k多…

2024年AIGC发展趋势报告

来源&#xff1a;靠谱二次元 AIGC&#xff0c;即人工智能生成内容&#xff0c;是近年来在人工智能领域兴起的一项重要技术。 它通过使用机器学习和深度学习等技术&#xff0c;使得计算机能够自动生成各种形式的数字内容&#xff0c;如文本、图像、音频和视频等。 AIGC的发展可…

批量处理文件,高效分发数据:一键操作解决繁琐工作的技巧

在数字化时代&#xff0c;文件处理和数据分发已经成为许多行业日常工作中不可或缺的一部分。然而&#xff0c;面对大量的文件和数据&#xff0c;传统的手动处理方式往往显得繁琐且效率低下。幸运的是&#xff0c;现代技术为我们提供了办公提效工具批量处理文件&#xff0c;高效…

【谷粒商城】01-环境准备

1.下载和安装VirtualBox 地址&#xff1a;https://www.virtualbox.org/wiki/Downloads 傻瓜式安装VirtualBox 2.下载和安装Vagrant官方镜像 地址&#xff1a;https://app.vagrantup.com/boxes/search 傻瓜式安装 验证是否安装成功 打开CMD,输入vagrant命令&#xff0c;是否…

Transformer模型详解04-Encoder 结构

文章目录 简介基础知识归一化作用常用归一化 残差连接 Add & NormFeed Forward代码实现 简介 Transformer 模型中的 Encoder 层主要负责将输入序列进行编码&#xff0c;将输入序列中的每个词或标记转换为其对应的向量表示&#xff0c;并且捕获输入序列中的语义和关系。 具…

Linux基础之进程-fork()函数的详解

目录 一、前言 二、fork()函数 2.1 fork()函数的基本概念 2.2 问题一的解答 2.3 问题二的解答 2.4 问题三的解答 2.5 问题四的解答 2.6 问题五的解答 一、前言 在上节内容中我们已经学会了使用我们的getpid()和我们的getppid()去查看我们进程的pid&#xff0c;并且学习到…

Pyecharts简介

Pyecharts 是一个用于生成各种交互式图表的 Python 图表库。它是基于开源的 Echarts 图表库构建的&#xff0c;Echarts 是由百度团队开发的一个使用 JavaScript 实现的开源可视化库。Pyecharts 使得在 Python 中创建复杂的图表变得更加容易&#xff0c;它支持多种类型的图表&am…

FastAPI:Python打造高效API的终极武器

在Python的世界里&#xff0c;如果你想要一个既快速又现代的方式来构建API&#xff0c;那么FastAPI可能是你的首选。这个库基于Starlette&#xff08;用于Web编程&#xff09;和Pydantic&#xff08;用于数据验证&#xff09;&#xff0c;专门为速度和易用性设计。 什么是FastA…

【系统架构师】-案例篇(三)NoSQL与分布式对象调用

1、NoSQL 一个基于Web 2.0的大型社交网络系统。就该系统的数据架构而言&#xff0c;李工决定采用公司熟悉的数据架构&#xff0c;使用通用的商用关系型数据库&#xff0c;系统内部数据采用中央集中方式存储。该系统投入使用后&#xff0c;初期用户数量少&#xff0c;系统运行平…

【LeetCode】每日一题 2024_5_13 腐烂的橘子(经典多源 BFS)

文章目录 LeetCode&#xff1f;启动&#xff01;&#xff01;&#xff01;题目&#xff1a;找出不同元素数目差数组题目描述代码与解题思路 每天进步一点点 LeetCode&#xff1f;启动&#xff01;&#xff01;&#xff01; 好久没写每日一题题解了&#xff0c;今天重新起航 干…

U盘打不开无法使用

我一个U盘通过window无法识别了&#xff0c;属性也打不开&#xff1b; 我这时候通过挂载U盘到我的centos虚拟机上&#xff0c;打开后&#xff0c;将其挂载 如有需要备份其中的文件 fdisk -L blkid mount /dev/sdc4 /UP cp -r /UP /opt/ umout /UP mkfs.xfs -f /dev/sdc4…