【论文极速读】视频检索中的模态均衡方法

【论文极速读】视频检索中的模态均衡方法
FesianXu 20231206 at Baidu Search Team

前言

传统的视频搜索系统相关性部分主要以文本匹配为基础手段,在其中引入多模态向量容易收到『模态不均衡』的问题,论文[1]尝试对其进行解决,本文进行笔记。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。

∇ \nabla 联系方式:

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用(https://www.zhihu.com/column/c_1265262560611299328)

微信公众号:机器学习杂货铺3号店


传统的视频搜索系统相关性部分主要以文本语义匹配/字面匹配为基本手段,其模型的输入基本上都是文本,并无视觉的语义向量。如果希望在这样一个纯文本的系统中加入视觉语义向量(此处的视觉语义向量可以是上游模型的产出,比如CLIP的产出),那么很容易遇到所谓的『模态不均衡』的问题,即是由于文本匹配更为简单(毕竟骨架网络都是基于文本进行过很多次迭代了),那么新引入的视觉语义向量就很容易在整个训练过程中被视为噪声,或者被忽视,其视觉本身的作用不容易建模出来。在论文[1]中,作者同样报告了这样一个现象,并且提出了通过『模态混洗(Modality-Shuffle)』的方法进行优化,整个框架被称之为MBVR(Modality-Balanced Video Retrieve)。如Fig 1.所示,对于一个文本-视觉成对的样本 < Q i , T i , V i > <Q_i, T_i, V_i> <Qi,Ti,Vi>,通过在batch内混洗视觉输入,得到难负样本 < Q i , T i , V j > , i ≠ j , i , j ∈ B <Q_i, T_i, V_j>, i \neq j, i,j \in \mathcal{B} <Qi,Ti,Vj>,i=j,i,jB,此时对于其文本检索 Q i Q_i Qi而言, Q i Q_i Qi T i T_i Ti是匹配的,但和视觉 V j V_j Vj不匹配,通过这种方法构建出的难负样本,有利于加强视觉特征的作用力度。
fig_1_framework_ms

Fig 1. 模态混洗的方式构建出文本匹配,但是视觉不匹配的难负样本。

除此之外,作者还提出用动态margin去建模,不过笔者觉得并不关键,因此就不阐述了。从整体来看,其loss如公式(1-1)所示,其中的 L b i = L q m + L m q \mathcal{L}_{bi} = \mathcal{L}_{qm} + \mathcal{L}_{mq} Lbi=Lqm+Lmq,表示Query-Doc匹配和Doc-Query匹配的损失, L v \mathcal{L}_{v} Lv表示 < Q i , V i > <Q_i, V_i> <Qi,Vi>的匹配损失,同理 L t \mathcal{L}_{t} Lt表示了 < Q i , T i > <Q_i, T_i> <Qi,Ti>的匹配损失,而 L m s \mathcal{L}_{ms} Lms即是通过模态混洗构建难负样本带来的损失,如公式(1-2)所示,其中的 M m s \mathcal{M}_{ms} Mms表示构建出来的模态混洗负样本。

L = L b i + α L v + β L t + γ L m s (1-1) \mathcal{L} = \mathcal{L}_{bi} + \alpha \mathcal{L}_v + \beta \mathcal{L}_t + \gamma \mathcal{L}_{ms} \tag{1-1} L=Lbi+αLv+βLt+γLms(1-1)

L m s = − log ⁡ exp ⁡ ( s ( q , m ) / τ ) exp ⁡ ( s ( q , m ) / τ ) + ∑ m ^ ∈ M m s exp ⁡ ( s ( q , m ^ ) / τ ) (1-2) \mathcal{L}_{ms} = -\log \dfrac{\exp(s(q,m)/\tau)}{\exp(s(q,m)/\tau)+\sum_{\hat{m} \in \mathcal{M}_{ms}} \exp(s(q,\hat{m})/\tau)} \tag{1-2} Lms=logexp(s(q,m)/τ)+m^Mmsexp(s(q,m^)/τ)exp(s(q,m)/τ)(1-2)

那么如何验证效果呢?作者进行了一些离线消融实验,并且进行了线上实验(该论文来自于快手,本方案应该是在线上进行了实验),均发现有所收益,这些常规指标就不在这里累述了。同时作者通过定向的分析,验证了模态混洗带来的优势,如公式(1-3)所示,作者定义了一个 R v t R_{vt} Rvt,其中的 F v , F t , F m \mathcal{F}_v,\mathcal{F}_t,\mathcal{F}_m Fv,Ft,Fm分别表示视觉、文本以及联合视觉文本模型的表征,那么 R v t R_{vt} Rvt指数表示了视觉在该联合模型中,占据的重要程度与文本在该联合模型中占据的重要程度的比例,这个值越高表示了视觉在模型中地位越重。(注,此处的联合模型可表示为 L m = H ( F v , F t ) \mathcal{L}_{m} = \mathcal{H}(\mathcal{F}_v,\mathcal{F}_t) Lm=H(Fv,Ft)
R v t = cos ⁡ ( F v , F m ) cos ⁡ ( F t , F m ) (1-3) R_{vt} = \dfrac{\cos(\mathcal{F}_v, \mathcal{F}_m)}{\cos(\mathcal{F}_t, \mathcal{F}_m)} \tag{1-3} Rvt=cos(Ft,Fm)cos(Fv,Fm)(1-3)

在Fig 2 (a) 中,作者对基线模型和MBVR模型的 R v t R_{vt} Rvt分布的绘制,我们可以明显看出引入了MBVR之后,视觉特征在视文联合模型 H ( ⋅ , ⋅ ) \mathcal{H(\cdot, \cdot)} H(,)中的作用力度更大了,同时作者在Fig 2 (b)和(c)中对比了正样本和难负样本在基线模型和MBVR模型中的打分分布变化,可以明显看出引入了MBVR模型之后,难负样本打分更低,和正样本打分分布产生了明显的变化。

Fig 2. (a) R值分布变化,引入了MBVR之后视觉的作用力度有明显提升;(b)基线模型中,正样本和难负样本区分度小,(c)引入了MBVR之后,正样本和难负样本有了明显的区分度。

笔者认为这篇论文对于工业界落地多模态特征还是具有一定指导意义的,模态不均衡的问题在实际落地过程中真实存在,作者提出的解决方法不失一种有效可行的手段,在构造MS难负样本这块,后续可以继续探索,构造一些更合适的难负样本应该是有一定收益空间的。同时,也可以引入类似于MLM的,某种跨模态mask机制,去建模模态间的关系,笔者认为同样可以缓解模态不均衡的问题。

Reference

[1]. Wang, Xun, et al. “Modality-Balanced Embedding for Video Retrieval.” Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/221165.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

02markdown-学习笔记

一级标题 二级标题 三级标题 四级标题 五级标题 六级标题 换行符<br>标签 写入一段测试用的正文第二段测试文本,如果要对文本进行换行可以使用<br>标签 文本修饰符 字体为斜体的修饰&#xff0c;一对星号包含 字符为粗体&#xff0c;两对星号包含 字体为…

如何定位线上OOM?

文章目录 造成OOM的原因1.一次性申请的太多2. 内存资源耗尽未释放3.本身资源不够 如何快速定位OOM&#xff1f;1.系统已经OOM了2.系统运行中还未OOM2.1导出dump文件&#xff1a;2.2.结合jvisualvm进行调试2.3 利用ArthasArthas可以做什么&#xff1f;如何使用Arthas小结 造成OO…

【带头学C++】----- 九、类和对象 ---- 9.13 运算符重载——(9.13.7-9.13.8)

❤️❤️❤️❤️❤️❤️❤️❤️❤️❤️❤️创做不易&#xff0c;麻烦点个关注❤️❤️❤️❤️❤️❤️❤️❤️❤️❤️❤️❤️ ❤️❤️❤️❤️❤️❤️❤️❤️❤️文末有惊喜&#xff01;献舞一支&#xff01;❤️❤️❤️❤️❤️❤️❤️❤️❤️❤️ 目录 9.13…

Git篇---第九篇

系列文章目录 文章目录 系列文章目录前言一、使用过git merge和git rebase吗?它们之间有什么区别?二、使用过git cherry-pick,有什么作用?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看…

GPIO模拟MDIO

背景 CPU&#xff1a;AST2500 驱动里实现GPIO模拟MDIO驱动,参考内核驱动mdio-bitbang.c和mdio-gpio.c&#xff0c;当前项目不支持设备树&#xff0c;驱动需要改成platform注册 MDIO介绍 SMI接口 SMI是MAC内核访问PHY寄存器接口&#xff0c;它由两根线组成&#xff0c;双工…

c++ qt 窗口开发中 俩按钮组合 配合 显影 已解决

在日常项目中&#xff0c;有这么需求&#xff0c;还想窗口移动&#xff0c;还想 右侧关闭 还能tab栏点击显影的需求&#xff0c;不得使用 qt模拟点击事件 进行功能优化 特大杯 大杯 控制 窗口显影&#xff0c; 咖啡 按钮 显示窗口 可乐 豆浆 不显示窗口 四个按钮的 互斥关…

Amazon SageMaker机器学习之旅的助推器

授权声明&#xff1a;本篇文章授权活动官方亚马逊云科技文章转发、改写权&#xff0c;包括不限于在 亚马逊云科技开发者社区, 知乎&#xff0c;自媒体平台&#xff0c;第三方开发者媒体等亚马逊云科技官方渠道。 一、前言 在当今的数字化时代&#xff0c;人工智能和机器学习已经…

2023一起益企广东省中小企业数字化赋能活动(深圳站)成功举办

12月12日&#xff0c;由广东工业和信息化厅指导&#xff0c;广东省中小企业服务中心、深圳市中小企业服务局主办&#xff0c;深圳联通承办的2023年“一起益企”广东省中小企业数字化赋能专项对接志愿服务活动&#xff08;深圳站&#xff09;在深圳成功举办。 本次活动涵盖中小企…

【AI底层逻辑】——“数学华尔兹”之一元线性回归

一元线性回归模型想必大家都耳熟能详&#xff0c;这里不再赘述。但在使用python中机器学习包时一定见过类似模型评价参数的输出&#xff0c;这一章我们就讲一讲回归分析里一些模型评价概念&#xff01; 一、方差分析ANOVA 方差分析是一种用于确定线性回归模型中不同变量对目标…

【改进YOLOv8】车辆测距预警系统:融合空间和通道重建卷积SCConv改进YOLOv8

1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义&#xff1a; 随着交通工具的普及和道路交通的不断增加&#xff0c;车辆安全问题日益凸显。特别是在高速公路等高速道路上&#xff0c;车辆之间的距离和速度差异较…

【论文】 虚拟机 和 Linux容器 的 最新性能比较

虚拟机 和 Linux容器 的 最新性能比较 An Updated Performance Comparison of Virtual Machines and Linux Containers 借助DeepL辅助翻译 校准 摘要 云计算广泛使用虚拟机&#xff08;VM&#xff09;&#xff0c;因为它们允许工作负载相互隔离&#xff0c;并在一定程度上控…

springboot框架的客制化键盘个性化商城网站

客制化键盘网站是从客制化键盘的各部分统计和分析&#xff0c;在过程中会产生大量的、各种各样的数据。本文以客制化键盘管理为目标&#xff0c;采用B/S模式&#xff0c;以Java为开发语言&#xff0c;Jsp为开发技术、idea Eclipse为开发工具&#xff0c;MySQL为数据管理平台&am…

西南科技大学数字电子技术实验七(4行串行累加器设计及FPGA实现)FPGA部分

一、实验目的 1、掌握基于Verilog语言的diamond工具设计全流程。 2、熟悉、应用Verilog HDL描述数字电路。 3、掌握Verilog HDL的组合和时序逻辑电路的设计方法。 4、掌握“小脚丫”开发板的使用方法。 二、实验原理 三、程序清单&#xff08;每条语句必须包括注释或在开发…

Leetcode 491 递增子序列

题意理解&#xff1a; 输入&#xff1a;nums [4,6,7,7] 输出&#xff1a;[[4,6],[4,6,7],[4,6,7,7],[4,7],[4,7,7],[6,7],[6,7,7],[7,7]] 这里不止要找一个子序列&#xff0c;还要元素保证其在原来的集合中的前后顺序&#xff0c;且应为增序。 为保证一个增序序列&#xff0c;…

刘家窑中医院王忠主任:心脑血管健康知识的传播者和实践者

为普及心脑血管健康知识&#xff0c;呼吁市民注重心脑血管健康&#xff0c;王忠主任及其科室医护人员举办进社区义诊咨询的活动。王忠主任及多名中医心脑专家和护理人员为社区居民免费进行量血压、测血糖以及健康咨询等义诊活动。 王忠主任用了全身的心血&#xff0c;学习百家吸…

LTC是什么意思?CRM怎样帮助这一流程的实现?

在现代商业环境下&#xff0c;将潜在客户转化成实际销售是公司成功的基石之一。而CRM管理系统是完成LTC的有效工具。本文将向您介绍LTC是什么&#xff1f;公司怎样企业如何通过CRM实现这一流程的&#xff1f; LTC&#xff08;从线索到现金&#xff09;是企业运营管理中的一个重…

Python 使用 openpyxl 写表格

当前环境&#xff1a;Win10 x64 MS office 2016 Python3.7 openpyxl3.0.9 1 写入表格 from openpyxl import Workbook# 创建一个 workbook workbook_w Workbook()# 获取被激活的 worksheet worksheet_w workbook_w.active# 1 批量插入数据# 设置一行数据 worksheet_w.ap…

Mo 人工智能教学实训平台年终发布会——发现意外 创造可能

发布会视频回放 –发现意外 创造可能– 在技术迅猛发展的时代里&#xff0c;人工智能教育成为推动社会进步的关键力量&#xff0c;大模型更是各行业的必备技能。为了深度探索教育与人工智能的融合&#xff0c;Mo 人工智能教学实训平台于12月12日举行线上年终发布会&#xff0…

电子烟MOS的选型与要求分析

工作原理&#xff1a; 当用户在吸嘴处抽吸时&#xff0c;气流经过进气孔&#xff0c;穿 过电路板上方的咪头&#xff0c;咪头即产生电信号&#xff0c;驱 动芯片板&#xff0c;让电池供电给雾化芯&#xff0c;雾化芯中的 发热丝将电能转化成热能&#xff0c;当温度达到雾化液 …

K8s中pod詳解

目录 Yaml语法解析 Pod pod是如何被创建的 1.创建一个pod 2.创建一个多容器pod 进入容器 3.配置节点标签 4.Pod容器的交互 4.1创建pod&#xff0c;并做本地解析 4.2pod共享进程 4.3pod共享宿主机namespace 5.钩子函数lifecycle 基础指令 # 查看对应资源: 状态 $ kubectl…