【论文笔记】Sign Language Video Retrieval with Free-Form Textual Queries

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Sign Language Video Retrieval with Free-Form Textual Queries
作者: Amanda Duarte, Samuel Albanie, Xavier Giró-i-Nieto, Gül Varol
发表: CVPR 2022
arXiv: https://arxiv.org/abs/2201.02495

基本信息

摘要

能够高效搜索手语视频集合的系统被强调为手语技术的一个有用应用。

然而,在文献中,超越单个关键词搜索视频的问题受到了有限的关注。

为了解决这一差距,本文引入了手语检索任务,该任务使用自由形式的文本查询:给定一个书面查询(例如一个句子)和一个大型的手语视频集合,目标是找到与书面查询最匹配的手语视频。

我们提出通过在最近引入的大规模How2Sign美国手语(ASL)数据集上学习跨模态嵌入来解决这一任务。

我们发现系统性能的关键瓶颈在于手语视频嵌入的质量,这受限于标记训练数据的稀缺性。

因此,我们提出了SPOT-ALIGN框架,该框架通过交替进行手语识别和特征对齐的迭代轮次来扩展可用训练数据的范围和规模。

我们通过在手语识别和提出的视频检索任务中的改进验证了SPOT-ALIGN学习稳健手语视频嵌入的有效性。

引言

Text-based sign language video retrieval

在这项工作中,我们引入了基于自由文本查询的手语视频检索,该任务是在手语视频集合中搜索与自由文本查询最佳匹配的内容,超越了单个关键词搜索。

手语检索

检索任务定义

V \mathcal{V} V 表示一个感兴趣的手语视频的数据集,并且令 t t t 表示一个自由形式的文本用户查询。手语视频检索与文本查询任务的目标是找到手语视频 v ∈ V v \in \mathcal{V} vV,其手语内容最匹配查询 t t t。我们使用文本到手语视频(T2V)作为表示来指代此任务。类似于现有跨模态检索文献中考虑的对称公式,我们也考虑反向手语视频到文本(V2T)任务,在该任务中,手语视频 v v v 用于查询文本集合 T \mathcal{T} T

跨模态检索嵌入

为了处理上述定义的检索任务,我们假设可以访问一个包含手语视频及其对应书面翻译的并行语料库。我们的目标是学习一对编码器 ϕ V \phi_{\mathcal{V}} ϕV ϕ T \phi_{\mathcal{T}} ϕT,它们将每个手语视频 v v v 和文本 t t t 映射到一个共同的实值嵌入空间中,即 ϕ V ( v ) , ϕ T ( t ) ∈ R C \phi_{\mathcal{V}}(v), \phi_{\mathcal{T}}(t) \in \mathbb{R}^C ϕV(v),ϕT(t)RC,使得 ϕ V ( v ) \phi_{\mathcal{V}}(v) ϕV(v) ϕ T ( t ) \phi_{\mathcal{T}}(t) ϕT(t) 在且仅在 t t t 对应于 v v v 中的手语内容时接近。这里 C C C 表示共同嵌入空间的维度。

为了学习这些编码器,我们采用了 Socher 等人提出的跨模态排序学习目标。具体来说,给定配对样本 { ( v n , t n ) } n = 1 N \{(v_n, t_n)\}_{n=1}^N {(vn,tn)}n=1N,我们优化最大间隔排序损失:

L = 1 B ∑ i = 1 , i ≠ j B [ η i j − η i i + m ] + + [ η j i − η i i + m ] + \mathcal{L} = \frac{1}{B} \sum_{i=1, i \neq j}^{B} [\eta_{ij} - \eta_{ii} + m]_+ + [\eta_{ji} - \eta_{ii} + m]_+ L=B1i=1,i=jB[ηijηii+m]++[ηjiηii+m]+

其中 m m m 表示间隔超参数, [ ⋅ ] + [\cdot]_+ []+ 表示铰链函数 max ⁡ ( ⋅ , 0 ) \max(\cdot, 0) max(,0) B B B 表示训练期间采样的小批量大小,而 η i j \eta_{ij} ηij 表示手语视频 v i v_i vi 和文本 t j t_j tj 之间的余弦相似度。

一旦学习完成,这些嵌入可以直接应用于 T2V(文本到手语视频)和 V2T(手语视频到文本)任务。对于前者,推理过程包括简单地计算文本查询 t t t 和每个索引手语视频 v ∈ V v \in \mathcal{V} vV 之间的余弦相似度以生成排名(反之亦然对于 V2T 任务)。

Encoder architectures 手语视频编码器 ϕ v \phi_v ϕv 首先由一个初始的手语视频嵌入 ψ v \psi_v ψv 组成,我们将其实现为一个 I3D 神经网络,该网络在 16 帧的片段上运行(因其在手语识别中的有效性而受到启发)。 ψ v \psi_v ψv 的输出在时间上聚合为一个固定大小的向量,然后投影到 C C C 维的跨模态嵌入空间中,即 ϕ v ( v ) ∈ R C \phi_v(v) \in \mathbb{R}^C ϕv(v)RC

为了实现 ϕ T \phi_T ϕT,每个文本样本 t t t 首先通过一个在大量书面文本语料库上预训练的语言模型进行嵌入。生成的词嵌入序列通过 NetVLAD 结合,并按照公式通过门控嵌入单元进行投影,以生成一个固定大小的向量 ϕ T ( t ) ∈ R C \phi_T(t) \in \mathbb{R}^C ϕT(t)RC

视频嵌入的迭代增强

如上所述,我们任务的有效跨模态嵌入需要一个好的手语视频嵌入。获得此类嵌入的一个关键挑战是用于训练的手语数据相对匮乏。例如,据我们所知,目前没有大规模公开的连续手语数据集,这些数据集包含与美国手语(ASL)对应的手语注释。

Method overview

为了解决这一挑战,我们提出了SPOT-ALIGN框架(图2a),利用该框架在How2Sign数据集上获取大量自动手语注释。该数据集提供了带有相应书面英语翻译的视频,但目前缺乏此类注释。

总之,我们首先利用近期研究中提出的采用嘴型线索和词典示例的识别技术,获取一组候选的手势标注。

我们通过以下方法补充这些稀疏的注释:迭代地增加基于字典的注释数量,重新训练我们的手语视频嵌入,并重新查询字典示例。接下来,我们将描述每个步骤。

基于嘴部动作的手语识别

首先,我们使用基于嘴部动作的手语识别框架来识别出现在书面How2Sign翻译中的单词对应的手语位置。

这种方法依赖于观察到手语有时会利用嘴部动作,除了头部运动和手动手势,它采用了关键词识别架构,并结合了Momeni等人提出的改进的P2G音素到图素关键词编码器。

我们从一个初始候选列表中搜索关键词,该列表包含12K个单词,这些单词是通过对文本进行规范化得到的(确保数字和日期转换为其书面形式,例如“7”变为“seven”),并过滤以保留至少包含四个音素的单词。

每当关键词识别模型以超过0.5(满分1分)的信心定位一个嘴部动作时,我们就记录一个注释。通过这种方法,我们从5K词汇量中获得了大约37K个训练注释。我们将这些单词过滤为出现在WLASL或MSASL词汇数据集中的单词。最终的9K训练注释覆盖了1079个单词的词汇量,这是我们用于训练手语识别模型的初始词汇表

基于词典的手语识别

接下来,我们采用了一种基于示例的手语识别方法。这种方法考虑了每个手语的一小部分视频示例,这些示例被用作视觉查询,与连续的测试视频进行比较。位置被记录为自动注释,用于查询手势在相似性最大时的时间点。这种查询和测试视频之间的相似性度量需要一个联合空间。在这项工作中,我们选择了一种更简单的机制,即联合训练一个带有I3D主干的手势识别模型,表示为 ψ v ′ \psi'_v ψv,在查询视频集上(这些视频通常来自孤立领域,如词汇词典)以及来自我们的搜索域(即从基于嘴动的定位前一步获得的How2Sign稀疏注释)的手势标注视频上。这个分类模型的潜在特征(现在大约在两个域之间对齐)随后用于计算余弦相似性。

类似于嘴动方法,我们根据字幕为每个视频选择候选查询词。然而,在使用词典定位时,我们寻找单词的原始形式和词形变化形式(去除词形变化),因为所使用的手势语言词典通常包含每个单词的一个版本(例如‘run’而不是‘running’)。

作为我们构建查询的手语示例来源,我们利用了WLASL和MSASL的训练集,这两个数据集分别包含2K和1K词汇量的孤立手语。为了联合训练,我们从它们的训练子集中选择出现在我们之前嘴动注释中的1079个手语词汇表中的样本。然而,我们在查询时使用完整的训练集,这使我们能够自动标注初始1079个手语之外的手语。我们记录所有注释,其中最大相似度(在每个手语的所有示例中)高于0.75(满分1),从而从扩展后的1887个手语词汇表中获得59K个训练注释。

通过SPOT-ALIGN进行迭代增强

从前两种方法中,我们获得了一组初始的自动标注。然而,基于字典的定位方法的效果受到How2Sign视频与用于获取示例的数据集之间的领域差距的严重限制。因此,很自然地会问,我们是否可以通过在字典示例和How2Sign领域之间实现更好的特征对齐来提高基于字典的定位效果。为此,我们引入了一个重新训练和重新查询的框架,我们称之为SPOT-ALIGN,接下来将对其进行描述。

在第 i i i 次迭代中,我们使用通过WLASL-MSASL词典和How2Sign自动标注(由第 i − 1 i - 1 i1 次迭代提供)的联合训练获得的I3D潜在特征。我们观察到效果显著提高(例如, D 2 D_2 D2 中有160K标注,而 D 1 D_1 D1 中只有59K标注),尽管使用相同的示例和相同的字幕来构建我们的查询。关键区别在于我们比较示例视频和测试视频时使用的更好对齐的嵌入。

Iterative enhancement of automatic annotations

在图3中,我们展示了在连续时间轴上对样本视频的稀疏标注结果,我们观察到随着SPOT-ALIGN迭代,标注的密度显著增加。我们用 D i D_i Di 表示应用第 i i i 次迭代后自动训练标注的集合。此过程的概述如图2a所示。

给定此过程最终迭代的标注,我们训练一个新的手语识别模型(仅在连续数据集,即How2Sign上训练),从中我们使用1887个手语的分类层之前的(1024维)潜在表示获得最终的视频手语嵌入 ψ v \psi_v ψv。如图2b所示,此嵌入支撑了我们跨模态嵌入的手语视频编码器 ϕ v \phi_v ϕv,并且还用于对单个手语进行分类,以实现基于文本的检索,接下来将对此进行描述。

通过手语识别进行基于文本的检索

用于训练手语视频嵌入 ψ v \psi_v ψv 的单个手语识别模型,如果以滑动窗口的方式应用于来自 v v v 的长手语视频,自然可以用于获得手语序列。虽然由于缺乏连续标注导致缺乏时间建模,该模型的性能预计不会很高,但预测的手语类别输出列表为我们提供了一组候选词,可用于检查与查询文本的重叠。这类似于用于口语内容检索的级联自动语音识别(ASR),但手语识别比语音识别困难得多(部分原因是缺乏训练数据)。由于手语的顺序不一定遵循翻译文本中的词序,我们简单地计算交并比(IoU)来衡量查询文本与识别的手语之间的相似度。在计算IoU之前,我们对查询词和预测词都进行词形还原。我们通过去除重复项和去除概率低于一定阈值(我们实验中为0.5)的分类来约束识别的手语集合。在实验中,我们表明这种基于文本的检索方法,虽然性能不如跨模态检索方法,但具有互补性,可以显著提高整体性能。

实验

Iteratively increasing the sign annotations

Effect of sign video embeddings

Qualitative results on text to sign language retrieval

Influence of sign video embedding aggregation strategy

Influence of the text embedding

Thresholding sign recognition probabilities

Effect of subtitle alignment

Combination of models

Retrieval performance on the PHOENIX2014T dataset

总结

在这项工作中,我们引入了基于自由文本查询的手语视频检索任务。我们在How2Sign和PHOENIX2014T数据集上提供了该任务的基线。我们还提出了SPOTALIGN框架以获得自动标注,并展示了其在生成有效的手语视频嵌入以用于检索方面的价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/892540.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

openEuler22.03系统使用Kolla-ansible搭建OpenStack

Kolla-ansible 是一个利用 Ansible 自动化工具来搭建 OpenStack 云平台的开源项目,它通过容器化的方式部署 OpenStack 服务,能够简化安装过程、提高部署效率并增强系统的可维护性。 前置环境准备: 系统:openEuler-22.03-LTS-SP4 配置&…

记录一下vue2项目优化,虚拟列表vue-virtual-scroll-list处理10万条数据

文章目录 封装BrandPickerVirtual.vue组件页面使用组件属性 select下拉接口一次性返回10万条数据,页面卡死,如何优化??这里使用 分页 虚拟列表(vue-virtual-scroll-list),去模拟一个下拉的内容…

【vue】vue的基础语法--上

目录 一、Vue的模板语法 1. 学会使用VsCode 2. 文本插值 3. 使用JavaScript表达式 4. 无效 5. 原始html 二、 属性绑定 1. 属性绑定 2.简写方案 3.布尔型Attribute 4. 动态邦定多个值 三、条件渲染 1. v-if 2. v-else 3. v-else-if 4. v-show 5. v-if VS v-sho…

【ANGULAR网站开发】初始环境搭建(SpringBoot)

1. 初始化SpringBoot 1.1 创建SpringBoot项目 清理spring-boot-starter-test,有需要的可以留着 1.2 application.properties 将application.properties改为yaml,个人习惯问题,顺便设置端口8888,和前端设置的一样 server:por…

OpenCV的对比度受限的自适应直方图均衡化算法

OpenCV的对比度受限的自适应直方图均衡化(CLAHE)算法是一种图像增强技术,旨在改善图像的局部对比度,同时避免噪声的过度放大。以下是CLAHE算法的原理、步骤以及示例代码。 1 原理 CLAHE是自适应直方图均衡化(AHE&…

1.1.2 配置静态IP和远程SSH登录

一、开放22端口 方法一:开放SSH服务(推荐,不需要改动) 查看配置文件,已经默认开放ssh服务端口了,ssh默认为22端口,所以不需要改动文件 方法二:开放22端口 (1&#xff0…

Soildworks的学习【2025/1/12】

右键空白处,点击选项卡,即可看到所有已调用的选项卡: 点击机械小齿轮选项卡,选择文档属性,选择GB国标: 之后点击单位,选择MMGS毫米单位: 窗口右下角有MMGS,这里也可以选择…

web前端第五次作业---制作菜单

制作菜单 代码: <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><style…

GAN的应用

5、GAN的应用 ​ GANs是一个强大的生成模型&#xff0c;它可以使用随机向量生成逼真的样本。我们既不需要知道明确的真实数据分布&#xff0c;也不需要任何数学假设。这些优点使得GANs被广泛应用于图像处理、计算机视觉、序列数据等领域。上图是基于GANs的实际应用场景对不同G…

分治算法——优选算法

本章我们要学习的是分治算法&#xff0c;顾名思义就是分而治之&#xff0c;把大问题分为多个相同的子问题进行处理&#xff0c;其中我们熟知的快速排序和归并排序用的就是分治算法&#xff0c;所以我们需要重新回顾一下这两个排序。 一、快速排序&#xff08;三路划分&#xf…

解决el-table表格数据量过大导致页面卡顿问题 又名《umy-ui---虚拟表格仅渲染可视区域dom的神》

后台管理系统的某个页面需要展示多个列表 数据量过多 页面渲染dom卡顿 经调研发现两个组件 pl-table和umy-ui &#xff08;也就是u-table&#xff09; 最终决定使用umy-ui 它是专门基于 Vue 2.0 的桌面端组件库 流畅渲染表格万级数据 而且他是对element-ui的表格做了二次优化…

单元测试概述入门

引入 什么是测试&#xff1f;测试的阶段划分&#xff1f; 测试方法有哪些&#xff1f; 1.什么是单元测试&#xff1f; 单元测试&#xff1a;就是针对最小的功能单元&#xff08;方法&#xff09;&#xff0c;编写测试代码对其正确性进行测试。 2.为什么要引入单元测试&#x…

Xcode 正则表达式实现查找替换

在软件开发过程中&#xff0c;查找和替换文本是一项常见的任务。正则表达式&#xff08;Regular Expressions&#xff09;是一种强大的工具&#xff0c;可以帮助我们在复杂的文本中进行精确的匹配和替换。Xcode 作为一款流行的开发工具&#xff0c;提供了对正则表达式的支持。本…

基于微信小程序的电影交流平台设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…

GAMES101学习笔记(三):Rasterization 光栅化(三角形的离散化、抗锯齿、深度测试)

文章目录 视口变换 Viewport三角形网格 Triangle Mesh采样 Sampling走样/反走样 Aliasing/Antialiasing采样频率、空间域与频率域深入理解采样、走样、反走样反走样总结深度测试 Depth testing 课程资源&#xff1a;GAMES101-现代计算机图形学入门-闫令琪 Lec5 ~ Lec6 学习笔记…

《分布式光纤传感:架设于桥梁监测领域的 “智慧光网” 》

桥梁作为交通基础设施的重要组成部分&#xff0c;其结构健康状况直接关系到交通运输的安全和畅通。随着桥梁建设规模的不断扩大和服役年限的增长&#xff0c;桥梁结构的安全隐患日益凸显&#xff0c;传统的监测方法已难以满足对桥梁结构健康实时、全面、准确监测的需求。分布式…

BUUCTF:web刷题记录(1)

目录 [极客大挑战 2019]EasySQL1 [极客大挑战 2019]Havefun1 [极客大挑战 2019]EasySQL1 根据题目以及页面内容&#xff0c;这是一个sql注入的题目。 直接就套用万能密码试试。 admin or 1 # 轻松拿到flag 换种方式也可以轻松拿到flag 我们再看一下网页源码 这段 HTML 代码…

腾讯云AI代码助手编程挑战赛-知识百科AI

作品简介 知识百科AI这一编程主要用于对于小朋友的探索力的开发&#xff0c;让小朋友在一开始就对学习具有探索精神。在信息化时代下&#xff0c;会主动去学习自己认知以外的知识&#xff0c;同时丰富了眼界&#xff0c;开拓了新的知识。同时催生了在大数据时代下的信息共享化…

大语言模型预训练、微调、RLHF

转发&#xff0c;如有侵权&#xff0c;请联系删除&#xff1a; 1.【LLM】3&#xff1a;从零开始训练大语言模型&#xff08;预训练、微调、RLHF&#xff09; 2.老婆饼里没有老婆&#xff0c;RLHF里也没有真正的RL 3.【大模型微调】一文掌握7种大模型微调的方法 4.基于 Qwen2.…

【理论】测试框架体系TDD、BDD、ATDD、MBT、DDT介绍

一、测试框架是什么 测试框架是一组用于创建和设计测试用例的指南或规则。框架由旨在帮助 QA 专业人员更有效地测试的实践和工具的组合组成。 这些指南可能包括编码标准、测试数据处理方法、对象存储库、存储测试结果的过程或有关如何访问外部资源的信息。 A testing framewo…