告别互信息:跨模态人员重新识别的变分蒸馏

Farewell to Mutual Information: Variational Distillation for Cross-Modal Person Re-Identification

摘要:

信息瓶颈 (IB) 通过在最小化冗余的同时保留与预测标签相关的所有信息,为表示学习提供了信息论原理。尽管 IB 原理已应用于广泛的应用,但它的优化仍然是一个具有挑战性的问题,严重依赖于互信息的准确估计。在本文中,我们提出了一种新的策略,变分自蒸馏 (VSD),它提供了一种可扩展、灵活和解析解,以基本上拟合互信息但没有显式估计它。在严格的理论保证下,VSD 使 IB 能够掌握表示和标签之间的内在相关性以进行监督训练。此外,通过将VSD扩展到多视图学习,我们引入了另外两种策略,变分交叉蒸馏(VCD)和变分互学习(VML),通过消除特定于视图和与任务无关的信息,显著提高了表示对视图变化的鲁棒性。为了验证我们理论基础的策略,我们将我们的方法应用于跨模态人 Re-ID,并进行了广泛的实验,其中展示了与最先进的方法相比的优越性能。我们有趣的发现强调了重新思考估计互信息的方法的必要性。

1.引言

信息瓶颈(IB)[35]在计算机视觉[6]、语音处理[21]、神经科学[30]和自然语言处理[18]等现代机器感知系统的发展方面取得了显著进展。它本质上是一个信息论原理,将原始观察转换为通常低维的表示,该原理自然地扩展到表示学习或理解深度神经网络 (DNN) [31, 24, 9]。通过拟合互信息 (MI),IB 允许学习的表示在高维数据上保留复杂的内在相关结构,并包含与下游任务相关的信息 [35]。然而,尽管应用成功,但传统 IB 存在重大缺陷,阻碍了其进一步发展(即互信息的估计)

在本文中,我们提出了一种新的信息瓶颈策略,称为变分自蒸馏 (VSD),这使我们能够保留足够的与任务相关的信息,同时丢弃与任务无关的干扰物。我们在这里应该强调的是,我们的方法本质上拟合互信息,但没有明确估计它。为了实现这一点,我们使用变分推理来提供理论分析,该理论分析获得了 VSD 的解析解。与试图为互信息开发估计器的传统方法不同,我们的方法避免了所有复杂的设计并允许网络通过该方法保证掌握数据和标签之间的内在相关性。此外,通过将VSD扩展到多视图学习,我们提出了变分交叉蒸馏(VCD)和变分互学习(VML),这是一种提高信息瓶颈对视图变化的鲁棒性的策略VCD 和 VML 消除了特定于视图和与任务无关的信息,而不依赖于任何强大的先验假设。更重要的是,我们以训练损失的形式实现VSD、VCD和VML,它们可以相互受益,提高了性能。因此,我们的方法保留了表示学习的两个关键特征(即充分性和一致性)。为了验证我们理论基础的策略,我们将我们的方法应用于跨模态人员再识别1,这是一种跨模态行人图像匹配任务。在广泛采用的基准数据集上进行的广泛实验表明,我们的方法对最先进的方法的有效性、鲁棒性和令人印象深刻的性能。我们的主要贡献总结如下:

• 我们为表示学习设计了一种新的信息瓶颈策略(VSD)。通过使用变分推理重建 IB 的目标,我们可以保留足够的标签信息,同时摆脱与任务无关的细节

通过严格的理论分析提出了一种可扩展的、灵活和解析解来拟合互信息,从根本上解决了互信息估计的困难

• 我们将我们的方法扩展到多视图表示学习,并通过消除特定于视图和与任务无关的信息显着提高了对视图变化的鲁棒性。

2.相关工作和预备知识

开创性的工作来自[35],它引入了IB原则。在此基础上,[1,6,27]要么重新制定训练目标,要么扩展IB原则,极大地促进了其应用。与上述所有内容相比,我们的工作是第一个提供解析解来拟合互信息而不估计它。所提出的 VSD 可以更好地保留与任务相关的信息,同时摆脱与任务无关的干扰。此外,我们将VSD扩展到多视图设置,并提出了VCD和VML,显著提高了对视图变化的鲁棒性。为了更好地说明,我们在监督学习的背景下简要回顾了 IB 原则 [35],数据观察 V 和标签 Y ,表示学习的目标是获得一个编码 Z,它对 Y 的信息量最大,由互信息衡量:(1)

为了鼓励编码过程关注标签信息,IB 通过最大化以下目标等式(2)来实现

将Ic作为从观测V到编码Z的信息流的上界。

等式 (2) 意味着压缩表示可以通过忽略原始输入中的不相关干扰项来提高泛化能力。通过使用拉格朗日目标,IB 允许编码 Z 最大程度地表达 Y,同时通过以下方式最大限度地压缩 X的表达:

其中 β 是拉格朗日乘数。然而,已经表明,由于高压缩和高互信息之间的权衡优化,不可能在等式中实现两个目标。 (3) 实际上 [6, 1]。更重要的是,在高维估计互信息给优化IB带来了额外的困难[26,2,29]。因此,它不可避免地引入了不相关的干扰因素,并在编码过程中丢弃了一些预测线索。接下来,我们展示了如何设计一种新的策略来处理这些问题,并将其扩展到多视图表示学习。

 3.方法

令 v ∈ V 是从编码器 E(v|x) 中提取的输入数据 x ∈ X 的观察。优化信息瓶颈的挑战可以表述为找到一个额外的编码 E(z|v),它保留了 v 中包含的所有标签信息,同时丢弃了与任务无关的干扰项。为此,我们根据信息论展示了 z 的两个特征(即充分性和一致性)的关键作用,并设计了两个变分信息瓶颈来保持这两个特征。具体来说,我们提出了一种变分自蒸馏 (VSD) 方法,它允许信息瓶颈保持表示 z 的充分性,其中编码过程后标签信息的数量不变。在VSD的设计中,我们进一步发现它可以扩展到多视图任务,提出了基于表示一致性的变分交叉蒸馏(VCD)和变分互学习(VML)方法,这两种方法都能够消除视图变化的敏感性,提高泛化能力

更重要的是,所提出的 VSD、VCD 和 VML 可以相互受益,并且本质上拟合高维的互信息,而无需通过理论分析明确估计它。

3.1. 变分自蒸馏

信息瓶颈用于生成表示 z,以保持所有预测信息 w.r.t 标签 y,同时避免编码与任务无关的信息。它也被称为 z 对y 的充分性,定义为:

(4)

 其中 v 是包含所有标签信息的观察。通过分解 v 和 z 之间的互信息,我们对公式进行分解

(5)

注:LEARNING ROBUST REPRESENTATIONS VIAMULTI-VIEW INFORMATION BOTTLENECK 论文中  定义1。充分性:当且仅当I(x;y|z) = 0时,x的表示z对于y就足够了。任何访问足够表示z的模型都必须能够至少准确地预测y,就好像它可以访问原始数据x一样。事实上,当且仅当有关任务的信息量因编码过程而改变时,z 对于 y 就足够了(参见附录中的命题 B.1):I(x; y|z) = 0 ⇐⇒ I(x; y) = I(y; z)。(1) 在足够的表示中,导致对未标记数据实例更好的泛化的表示特别吸引人。当 x 的信息内容高于 y 时,x 中的一些信息必须与预测任务无关。这可以通过使用互信息的链式法则将 I(x; z) 细分为两个组件来更好地理解(参见附录 A):

其中 I(z; y) 表示表示 z 中保留的标签信息量,I(v; z|y) 表示 z 中对给定任务 [6] 进行编码的不相关信息,即多余的信息。因此,z  for y 的充分性被表述为最大化 I(z; y) 并同时最小化 I(v; z|y)。

等式右侧的第一项。 (6) 表明保持充分性经历了两个子过程:最大化 I(v; y) 和强制 I(z; y) 来近似 I(v; y)。在这种情况下,y 的 z 的充分性被重新制定为三个子优化:最大化 I(v; y),最小化 I(v; y)−I(z; y) 和最小化 I(v; z|y)。显然,最大化第一项 I(v; y) 与特定任务严格一致,最后两个项是等价的。因此优化简化为:

然而,在式(5)中很难进行最小-最大博弈,因为在高维估计互信息方面存在很大的困难,特别是在涉及潜在变量优化时。为了解决这个问题,我们引入了以下理论:

定理1。最小化Eq.(7)等价于最小化条件熵H(y|z)和H(y|v)的减法。

 更具体地说,给定 y 的充分观察 v,我们有以下推论:

推论1。如果充分观测v的预测分布与表示z之间的kl散度等于0,那么z也足以满足y,

 z for y 的充分性可以通过以下目标来实现:

(8)

 其中 θ, φ 分别代表编码器和信息瓶颈的参数。另一方面,基于Eq.(6)和Eq.(5),I(v;y)−I(z;y)的最小化等价于减少I(v;z|y),表明Eq.(8)也使IB能够消除不相关的干扰因素。从这个角度来看,我们的方法本质上是一种自我蒸馏方法它净化与任务相关的知识。更重要的是,通过使用变分推理,我们重新制定了 IB 的目标,并提供了理论分析,该理论分析获得了高维互信息拟合解析解。因此,我们将策略命名为变分自蒸馏,即 VSD。讨论。与其他自蒸馏方法(如 [46])相比,我们方法的一个主要优势是 VSD 能够检索那些有用但可能丢弃的信息,同时避免了理论上保证下与任务无关的信息。与显式减少 I(v; z) 不同,我们迭代地执行 VSD 以使表示足以完成任务。理想情况下,当我们有 I(v; y) = I(z; y) 时,我们可以用最小化多余信息来实现足够的表示,即最优表示

3.2.变分交叉蒸馏和变分互学习

越来越多的真实世界数据是从不同的来源收集的,或者从不同的特征提取器中获得,多视图表示学习越来越受到关注。在本节中,我们展示了 VSD 可以灵活地扩展到多视图学习。

将 v1 和 v2 视为来自不同视点的 x 的两个观察。假设 v1 和 v2 都足以标记 y,因此任何包含两个视图访问的所有信息的表示 z 也将包含必要的标签信息。更重要的是,如果 zonly 捕获从 v1 和 v2 访问的线索,它将消除特定于视图的细节,并且对视图更改具有鲁棒性 [6]。受此启发,我们将从信息瓶颈中获得的一致性 w.r.t z1, z2 定义为:

当且仅当 I(z1; y) = I(v1v2; y) = I(z2; y)    z1 and z2 are view-consistent

直观地说,只有当 z1 和 z2 具有相同数量的预测信息时,它们才是视图一致的。类似于方程式。 (5),我们首先分解观察 v1 和表示 z1 之间的互信息,以清楚地揭示一致性的本质:

I(v1;z1|v2)表示z1中包含的信息对v1是唯一的,通过观察v2(即视图特定信息)无法预测(特有信息),I(z1;v2)表示z1和v2共享的信息,称为视图一致信息。为了以最小的视图特定细节获得视图一致的表示,我们需要联合最小化 I(v1; z1|v2) 并最大化 I(z1; v2)。一方面,为了减少特定于视图的信息并注意 y 是恒定的,我们可以使用以下等式来近似 I(v1; z1|v2) 的上限(证明可以在补充材料中找到)。

另一方面,通过使用链式法则将I(z1;v2)细分为两个分量[6],我们有:

等式。 (14) 意味着视图一致的信息还包括多余的信息。因此,基于上述分析,我们给出了以下定理来净化视图一致性:

定理2。给定输入x的两个不同的充分观测v1, v2,当满足以下条件时,对应的表示z1和z2是视图一致的:

 其中 Pz1 = p(y|z1) 和 Pv2 = p(y|v2) 表示预测分布。基于定理 1 和推论 1,等式。 (15) 使表示 z1 能够保留预测线索,同时消除 I(z1; v2) 中包含的多余信息(z2 和 I(z2;v1) 反之亦然),称为变分交叉蒸馏。

讨论。请注意,MIB [6] 也是一种多视图信息瓶颈方法。但是,在我们的和MIB之间有三个不同

1)我们的策略本质上适合互信息,而无需通过变分推理对其进行估计。2)我们的方法不依赖于[6]中提出的强假设,即每个视图提供相同的与任务相关的信息。相反,我们探索了多个视图的互补性和一致性来进行表示学习。3) MIB 本质上是一种无监督方法,由于缺乏标签监督,它在不同视图中保持所有一致的信息。然而,通过预测信息,我们的方法能够丢弃一致表示中包含的多余信息,从而提高鲁棒性。

3.3.多模态人员Re-ID

在本节中,我们将展示如何将VSD、VCD和VML应用于多模态学习(即多模态人员ReID)。在这种情况下,来自不同模态的图像有两种(即红外图像 xI 和可见图像 xV)。多模态人员Re-ID的基本目标是匹配来自另一个模态的图像的图库中的目标人。特别是,我们使用两个配备VSD的并行模态特定分支来处理来自特定模态的图像。此外,如图3所示,部署了使用VCD和VML训练的模态共享分支来生成模态一致的表示。为了便于 Re-ID 学习,我们还在 Re-ID 社区中采用了一些常用的策略。因此总损失为:Ltrain = LReID + β · (LV SD + LV CD + LV M L)。(16) 更具体地说,LReID可以进一步划分为以下项,LReID = Lcls + Lmetric + α·LDM L,(17)其中Lcls, Lmetric, LDM L表示标签平滑[34]、度量约束[39]和深度相互学习损失[47]的分类损失。

多模态Re-ID的网络架构。EI/S/V 和 BI/S/V 分别表示编码器(ResNet-50)和信息瓶颈(多层感知器)。v 和 z 分别表示来自编码器和信息瓶颈的观察和表示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/2753.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

简述MASM宏汇编

Hello , 我是小恒不会java。今天写写x86相关底层的东西 寄存器 8086由BIU和EU组成 8088/8086寄存器有14个。8通用,4段,1指针,1标志 8个通用寄存器:这些寄存器可以用来存储任意类型的数据,包括整数、地址等。8086有8个…

【Java--数据结构】提升数据处理速度!深入理解Java中的顺序表机制

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 目录 两种创建顺序表的方法及区别 认识ArrayList的构造方法 不带参数的构造方法 带参数的构造方法 利用Collection 构造方法 举例 ArrayList 常用方法演示 add addAll remo…

Linux进程详解三:进程状态

文章目录 进程状态Linux下的进程状态运行态-R阻塞态浅度休眠-S深度睡眠-D暂停状态-T暂停状态-t 终止态僵尸-Z死亡-X 孤儿进程 进程状态 进程的状态,本质上就是一个整型变量,在task_struct中的一个整型变量。 状态的存在决定了你的后续行为动作。 Linu…

直接用表征还是润色改写?LLM用于文生图prompt语义增强的两种范式

直接用表征还是润色改写?LLM用于文生图prompt语义增强的两种范式 导语 目前的文生图模型大多数都是使用 CLIP text encoder 作为 prompt 文本编码器。众所周知,由于训练数据是从网络上爬取的简单图文对,CLIP 只能理解简单语义,而…

拿捏 顺序表(1)

目录 1. 顺序表的分类2. 顺序表实现3. 顺序表实现完整代码4. 总结 前言: 一天xxx想存储一组数据, 并且能够轻松的实现删除和增加, 此时数组大胆站出, 但是每次都需要遍历一遍数组, 来确定已经存储的元素个数, 太麻烦了, 于是迎来了顺序表不屑的调侃: 数组你不行啊… 顺序表是一…

第二期书生浦语大模型训练营第四次笔记

大模型微调技术 大模型微调是一种通过在预训练模型的基础上,有针对性地微调部分参数以适应特定任务需求的方法。 微调预训练模型的方法 微调所有层:将预训练模型的所有层都参与微调,以适应新的任务。 微调顶层:只微调预训练模型…

oracle 12c+ max_string_size参数

一个客户的数据库版本是19.3,在做数据库复制的时候,目标端报错了,查看了一下问题发现表的字段长度有不对,在12c以前我们都知道varchar的长度最大是4000,但是客户这里居然有32767: 把客户的建表语句弄出来,放到我的一个19c的测试环境进行测试: 发现报错了: 这里报错很明显了,是M…

学习c语音的自我感受

因为是自学,所以走过不少弯路。去年,受知乎“python性能弱”风潮的影响,学过go,rust。 在学习这些新语言的时候,由衷感受到,或是本身侧重方向的原因(如go侧重服务器),或是语言太新不…

uniapp——组件多颜色模块展示、气泡框

一、自定义颜色&#xff1a; 样式 代码 <template><view class"content"><!-- 右上角 --><view class"coverStatus" :class"[itemClass, positionClass,cornerClass,sanJiaoCss,sanJiaoCss2]":style"dynamicStyle&q…

python getsize如何使用

第一步&#xff0c;点击键盘 winr&#xff0c;打开运行窗口&#xff1b;在窗口中输入“cmd"&#xff0c;点击确定&#xff0c;打开windows命令行窗口。 第二步&#xff0c;在windows命令行窗口中&#xff0c;输入“python”&#xff0c;进入python交互窗口。 第三步&#…

笔记 | 嵌入式系统概论

1 嵌入式系统简介 1.1 嵌入式系统的定义 根据美国电气与电子工程师学会&#xff08;IEEE&#xff1a;Institute of Electrical and Electronics Engineers )的定义&#xff0c;嵌入式系统是用于控制、监视或辅助操作机器和设备的装置(原文: devices used to control, monitor…

WiFi、Ethenet、4G优先级切换

1、多网卡情况下如何调整优先级方案 按照目前公司前辈给出的方案&#xff0c;调整优先级的手段有两种&#xff1a; <1>.删除默认路由--route del 的方法 <2>.ifmetric源码提供的修改路由表的mteric的值来设置路由的优先级&#xff0c;metric越小优先级越高。 应…

ANSYS Help 的使用

ANSYS 帮助文档是相当实用且重要的第一手资料&#xff0c;90% 以上的纯操作问题都可以在帮助文档找到相关的解释。 点击开始菜单的 ANSYS Help即可打开帮助文档 帮助文档有两种打开方式&#xff1a; 基于帮助文档的安装包安装于本地后&#xff0c;可直接启动帮助程序没有安装…

Spring-IOC之组件扫描

版本 Spring Framework 6.0.9​ 1. 前言 通过自动扫描&#xff0c;Spring 会自动从扫描指定的包及其子包下的所有类&#xff0c;并根据类上的特定注解将该类装配到容器中&#xff0c;而无需在 XML 配置文件或 Java 配置类中逐一声明每一个 Bean。 支持的注解 Spring 支持一系…

书生·浦语大模型实战营之Llama 3 高效部署实践(LMDeploy 版)

书生浦语大模型实战营之Llama 3 高效部署实践&#xff08;LMDeploy 版&#xff09; 环境&#xff0c;模型准备LMDeploy chatTurmind和Transformer的速度对比LMDeploy模型量化(lite)LMDeploy服务(serve) 环境&#xff0c;模型准备 InternStudio 可以直接使用 studio-conda -t …

机器学习运用-民宿价格

项目简介 随着旅游业的蓬勃发展&#xff0c;民宿市场迎来了前所未有的增长机遇。正好最近在参加拓尔思数据挖掘公益实习活动&#xff0c;我的项目将应用机器学习技术开发一个价格预测模型。可以达到更好地理解和预测民宿价格的目的&#xff0c;该模型综合考虑了从容纳人数、便…

【Python】Python函数的黑魔法:递归,嵌套函数与装饰器

欢迎来到CILMY23的博客 本篇主题为&#xff1a; Python函数的黑魔法&#xff1a;递归&#xff0c;嵌套函数与装饰器 个人主页&#xff1a;CILMY23-CSDN博客 系列专栏&#xff1a;Python | C | C语言 | 数据结构与算法 感谢观看&#xff0c;支持的可以给个一键三连&#xff…

基于51单片机的矩阵按键扫描的proteus仿真

文章目录 一、按键按键按键消抖 二、独立按键仿真图仿真程序 三、矩阵按键仿真图仿真程序 四、总结 一、按键 按键 按键通常指的是电子设备上的一种输入装置&#xff0c;用于在按下时发送信号&#xff0c;以便设备执行相应的操作。按键可以分为独立按键和矩阵按键两种类型。 …

TRIZ理论下攀爬机器人的创新设计与研究

随着科技的飞速发展&#xff0c;机器人技术已广泛应用于各个领域。特别是在复杂环境下的作业&#xff0c;如灾难救援、太空探测等&#xff0c;对机器人的移动能力和适应性提出了更高要求。在这样的背景下&#xff0c;基于TRIZ理论的攀爬机器人设计与研究应运而生&#xff0c;它…

简单的图像处理算法

本笔记参考crazy_Bingo 基础&#xff1a; 图像处理都是用卷积矩阵对图像卷积计算&#xff0c;如3X3 的矩阵对640 X 480分辨率的图像卷积&#xff0c;最终会得到638 X 478 的图像。卷积过程是这样的&#xff1a; 一、中值滤波 &#xff1a; 找出矩阵中的最中间值作为像素点 中…