【论文笔记】MLSLT: Towards Multilingual Sign Language Translation

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: MLSLT: Towards Multilingual Sign Language Translation
作者: Aoxiong Yin, Zhou Zhao, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He
发表: CVPR 2022
主页: https://mlslt.github.io/

基本信息

摘要

截至目前,大部分研究集中在双语手语翻译(BSLT)。然而,此类模型在构建多语言手语翻译系统中效率低下。

为了解决这个问题,我们引入了多语言手语翻译(MSLT)任务。该任务旨在使用单个模型完成多种手语和口语之间的翻译。

随后,我们提出了MSLT的第一个模型——MLSLT,它包含两种新颖的动态路由机制,用于控制不同语言之间参数共享的程度。层内语言特定路由通过层内的软门控制从标记级别通过共享参数和语言特定参数的数据流动比例,层间语言特定路由通过层间的软门控制和学习不同语言在语言层面的数据流动路径。

为了评估MSLT的性能,我们收集了第一个公开的多语言手语理解数据集——Spreadthesign-Ten(SP-10),该数据集包含多达100个语言对,例如,CSL→en,GSG→zh。实验结果表明,MSLT的平均性能在很多情况下优于基线MSLT模型和多个BSLT模型的组合。

此外,我们还探索了手语的零样本翻译,并发现我们的模型在某些语言对上可以达到与监督BSLT模型相当的性能。数据集和更多详细信息请访问https://mlslt.github.io/。

主要贡献

  • 我们贡献了一个大规模的多语言手语理解数据集,适用于多种任务,如多语言手语翻译、多语言文本到视频手语生成和多语言视频到视频手语翻译。
  • 我们是第一个探索MSLT问题的人,并提出了一种基于动态神经网络的MSLT框架,即MLSLT。我们使用了两种新颖的动态路由机制来控制不同手语之间的参数共享。
  • 广泛的实验结果表明,我们提出的单模型在参数使用较少的情况下,性能优于MSLT基线模型和多个BSLT模型。一系列新的基线结果可以指导该领域的未来研究。

一个示例,用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性

一个示例,用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性。

方法

模型框架

模型框架

  • Sign Embedding: EfficientNet
  • Word Embedding: MultiBPEmb

Embedding

f t = C N N ( N t ) ( W 1 ) + b 1 f_t = CNN(N_t)(W_1) + b_1 ft=CNN(Nt)(W1)+b1

w m = E m b ( y m ) ( W 2 ) + b 2 w_m = Emb(y_m)(W_2) + b_2 wm=Emb(ym)(W2)+b2

IntraLSR

IntraLSR

h s = f ( e l ) W s , h u = f ( e l ) W u h = g u ( e l ) h u + ( 1 − g u ( e l ) ) h s e l + 1 = L a y e r N o r m ( h + e l ) \begin{align*} h^s &= f(e^l)W^s, h^u = f(e^l)W^u \\ h &= g_u(e^l)h^u + (1-g_u(e^l))h^s \\ e^{l+1} &= LayerNorm(h+e^l) \end{align*} hshel+1=f(el)Ws,hu=f(el)Wu=gu(el)hu+(1gu(el))hs=LayerNorm(h+el)

g u ( ⋅ ) g_u(\cdot) gu() 表示每个语言独有的门控单元,由以下公式得到:

g u ( e l ) = σ ( ( r e l u ( e l W 3 + b 3 ) + e l ) W 4 + b 4 ) g_u(e^l) = \sigma((relu(e^lW_3+b_3)+e^l)W_4+b_4) gu(el)=σ((relu(elW3+b3)+el)W4+b4)

InterLSR

InterLSR

一个示例来说明具有InterLSR模块的模型与传统模型之间的差异

α = σ ( E l a n g W 5 + b 5 ) z l + 1 = L N ( α z l + ( 1 − α ) o l + 1 ) \begin{align*} \alpha &= \sigma(E_{lang} W_5 + b_5) \\ z^{l+1} &= LN(\alpha z^l + (1-\alpha)o^{l+1}) \end{align*} αzl+1=σ(ElangW5+b5)=LN(αzl+(1α)ol+1)

E l a n g E_{lang} Elang 表示语言嵌入向量。

训练

NVIDIA RTX 2080ti GPU × 1

损失函数

带 label smoothing 的交叉熵损失:

y ^ m = y m ( 1 − ϵ ) + ϵ K L c e = − ∑ m = 1 M y ^ m l o g ( P ( y m ∣ y 1 : m − 1 , V ; θ ) ) \begin{align*} \hat{y}_m &= y_m(1-\epsilon) + \frac{\epsilon}{K} \\ \mathcal{L}_{ce} &= -\sum_{m=1}^M \hat{y}_m log(P(y_m|y_{1:m-1},V;\theta)) \end{align*} y^mLce=ym(1ϵ)+Kϵ=m=1My^mlog(P(ymy1:m1,V;θ))

ϵ = 0.2 \epsilon=0.2 ϵ=0.2

以及一个正交损失,希望IntraLSR中的share与各语言的参数尽可能正交:

L o = 1 L ∑ i = 1 L ∥ ( W s ) T W i ∥ F 2 \mathcal{L}_o = \frac{1}{L}\sum_{i=1}^L \| (W^s)^T W_i \|^2_F Lo=L1i=1L(Ws)TWiF2

总体目标:

L = λ 1 L c e + λ 2 L o \mathcal{L} = \lambda_1 \mathcal{L}_{ce} + \lambda_2 \mathcal{L}_o L=λ1Lce+λ2Lo

λ 1 = 1 , λ 2 = 0.1 \lambda_1=1, \lambda_2=0.1 λ1=1,λ2=0.1

数据集

数据集概览

10 种手语 * 10 种口语 = 100 种手语到口语的任务

Transparent: SP-10 使用 Robust Video Matting (RVM) toolbox,分割了视频背景,这允许后续通过更换背景来进行数据增强。

SP-10数据集统计结果

实验

主实验

多种手语到英语口语文本的实验结果

多种手语到英语口语文本的实验结果。

某些手语到英语指标不如BSLT模型,可能是因为那些手语与别的手语差异较大。

British Sign Language到多种口语文本的实验结果

British Sign Language到多种口语文本的实验结果。

MSLT模型在这个任务上表现太差了,作者就没写在表里。

多种手语到多种口语文本的实验结果

多种手语到多种口语文本的实验结果。

MLSLT具有更好的性能和更少的参数。

Zero-Shot 翻译

Zero-Shot 翻译。

每个Zero-Shot模型在 4 × (4 − 1) 个口语到手语的任务上训练。

消融实验

消融实验

InterLSR对训练过程的影响

总结

在这篇论文中,我们介绍了一个具有挑战性的任务——多语言手语翻译(MSLT),并提出了第一个MSLT模型,即MLSLT。

与先前的研究相比,我们试图使用单个模型来完成多个语言对之间的翻译。为了减少不同语言之间的冲突,我们提出了两种新颖的动态路由机制。它们分别从语言层面和标记层面动态调整数据流。

为了评估我们提出方法的有效性,我们创建了第一个公开的多语言手语理解数据集,SP-10。

与先前数据集相比,SP-10包含更多的语言对,不同手语之间的配对信息为多语言文本到视频生成任务和视频到视频翻译任务创造了可能性。

我们在该数据集上进行了广泛的实验,以支持未来的研究并证明我们提出方法的有效性。我们在附录中讨论了我们工作的局限性和潜在负面影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/57921.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

系统架构设计师教程 第2章 2.6 计算机语言 笔记

2.6计算机语言 ★★★★☆ 2.6.1计算机语言的组成 计算机语言 (Computer Language) 是指用于人与计算机之间交流的一种语言,是人与计算机之间传递信息的媒介。 计算机语言主要由一套指令组成,指令一般包括表达式、流程控制和集合三大部分内容。 表达…

基于JSP的高校食堂食材选购管理系统【附源码】

基于JSP的高校食堂食材选购管理系统 效果如下: 系统首页界面 用户登录页面 食材信息页面 论坛交流界面 管理员登录界面 管理员功能主界面 食材信息管理界面 订单配送管理界面 用户功能主界面 商家功能主界面 司机功能主界面 研究背景 近年来互联网技术的发展使得…

新王Claude 3.5的6大应用场景

Anthropic AI深夜发布了备受期待的Claude 3.5系列更新,包括了全新升级的Claude 3.5 Sonnet和首发的Claude 3.5 Haiku。 Claude 3.5 Sonnet能够理解细微的指令和上下文,识别并纠正自身错误,还能从复杂数据中生成深入的分析和洞察。 结合最先进…

java项目之在线考试系统设计与实现(springboot)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的在线考试系统设计与实现。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 基于JavaWeb技术…

PostgreSQL C++客户端API libpqxx的使用

PostgreSQL是一个先进的、开源的、免费的、功能强大的关系型数据库,缩写版是postgres。它使用一种客户端/服务器(C/S)的模型。一次PostgreSQL会话由下列相关的进程(程序)组成: (1).一个服务器进程,它管理数据库文件、接受来自客户端应用与数据…

C++研发笔记8——C语言程序设计初阶学习笔记6

在第一部分——课前准备的学习中,我就提到了学习C语言的过程中,练习是必不可少的环节,所以本篇笔记我们来进行记录我们学习《C语言程序设计初阶》阶段的第一篇练习文章。 题目一 下面哪个不是C语言内置的数据类型: A.char B.d…

mysql5.7.44 arm 源码编译安装

一、:下载源码:mysql官网:MySQL :: MySQL Downloads #####下载mysql安装包 : 网址:https://www.mysql.com/ 可在页面下载后上传或直接下载。 官网地址首页,拉到最底部,找到社区版本下载&#xf…

财务域——财务信息化

摘要 博文探讨了企业财务信息化相关内容。首先阐述了企业以创造价值为目标,涉及业务、管理和信息三大循环。业务循环涵盖获取 / 支付、转换、销售 / 收款等环节;管理循环包含计划、执行、控制与决策;信息循环强调数据的收集、处理、存储与输…

【Linux | IO多路复用】epoll的底层原理详解

epoll 是一种高效的 I/O 多路复用机制,广泛用于 Linux 系统中,用于处理大量并发的文件描述符。它比传统的 select 和 poll 方法具有更好的性能,特别是在处理大量并发连接时。 1.epoll的设计思路 epoll是在select 出现 N 多年后才被发明的&a…

week08 zookeeper多种安装与pandas数据变换操作-new

课程1-hadoop-Zookeeper安装 Ububtu18.04安装Zookeeper3.7.1 环境与版本 这里采用的ubuntu18.04环境的基本配置为: hostname 为master 用户名为hadoop 静态IP为 192.168.100.3 网关为 192.168.100.2 防火墙已经关闭 /etc/hosts已经配置全版本下载地址&#xff1…

软考(网工)——网络安全

文章目录 🕐网络安全基础1️⃣网络安全威胁类型2️⃣网络攻击类型 🕑现代加密技术1️⃣私钥密码/对称密码体制2️⃣对称加密算法总结3️⃣公钥密码/非对称密码4️⃣混合密码5️⃣国产加密算法 - SM 系列6️⃣认证7️⃣基于公钥的认证 🕒Hash …

MYSQL全局锁、标级锁、行级锁

一、全局锁 全局锁就是对整个数据库实例加锁。 MySQL 提供了一个加全局读锁的方法,命令是 Flush tables with read lock (FTWRL)。当你需要让整个库处于只读状态的时候,可以使用这个命令,之后其他线程的以下语句会被阻塞:数据更新…

好/坏代码实例解读:图文并茂说明

我曾经在某处读到过一句话,基本上有以下内容: “现代世界许多人的生活都依赖于软件,例如控制大型商用客机飞行系统的软件,但软件开发领域大多不受监管。任何人都可以成为自学成才的软件开发人员,并且没有像其他高风险…

python爬虫——Selenium的基本使用

目录 一、Selenium的介绍 二、环境准备 1.安装Selenium 2.安装WebDriver 三、元素定位 1.常用定位元素的方法 2. 通过指定方式定位元素 四、窗口操作 1.最大化浏览器窗口 2.设置浏览器窗口大小 3.切换窗口或标签页 切换回主窗口 4. 关闭窗口 关闭当前窗口 关闭所…

Mkdm的51单片机学习日记:实时时钟DS1302

15.2 SPI时序初步认识 单片机常用的通信协议有三种:SPI,UART,I2C SPI:Serial Peripheral Interface 串行外围设备接口,是一种全双工,同步的通信总线 常用于单片机与EEPROM,FLASH,…

如何使用JMeter进行性能测试的保姆级教程

性能测试是确保网站在用户访问高峰时保持稳定和快速响应的关键环节。作为初学者,选择合适的工具尤为重要。JMeter 是一个强大的开源性能测试工具,可以帮助我们轻松模拟多用户场景,测试网站的稳定性与性能。本教程将引导你通过一个简单的登录场…

w~自动驾驶合集6

我自己的原文哦~ https://blog.51cto.com/whaosoft/12286744 #自动驾驶的技术发展路线 端到端自动驾驶 Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A SurveyEnd-to-end Autonomous Driving: Challenges and Frontiers 在线高精地图 HDMa…

数据结构 - 散列表,初探

今天我们继续学习新的数据结构-散列表。 01定义 我们先来了解一些常见概念名词解释。 散列:散列表的实现叫做散列,是一种实现以常数级时间复杂度执行查找、插入和删除的技术; 散列值:通过散列函数对输入值(key&…

前端零基础入门到上班:【Day2】开发环境VSCode安装

VSCode 安装教程:图文保姆教程 引言 在前端开发中,选择合适的代码编辑器是提高工作效率的重要一步。Visual Studio Code(简称 VSCode)作为一款强大的开源编辑器,因其简洁易用、功能强大、扩展性好而广受开发者喜爱。…

Python 协程详解----高性能爬虫

目录 1.基本概念 asyncio和async的关系 asyncio async & await关键字 协程基本语法 多任务协程返回值 案例1 协程在爬虫中的使用 aiohttp模块基本使用 协程案例-扒光一部小说需要多久? 操作数据库 异步redis 异步MySQL 案例2: 知识星球 | 深度连接…