【论文笔记】A Token-level Contrastive Framework for Sign Language Translation

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: A Token-level Contrastive Framework for Sign Language Translation
作者: Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen, Xiaodong Shi
发表: ICASSP 2023
arXiv: https://arxiv.org/abs/2204.04916

基本信息

摘要

手语翻译(SLT)是一种有望弥合聋人与听力人士之间沟通鸿沟的技术。

最近,研究人员采用了需要大规模语料库进行训练的神经机器翻译(NMT)方法来实现SLT。

然而,公开可用的SLT语料库非常有限,这导致了token表示的崩溃和生成token的不准确。

为了缓解这一问题,我们提出了ConSLT,这是一种新的针对手语翻译的token级对比学习框架,通过将token级对比学习融入SLT解码过程来学习有效的token表示。

具体来说,ConSLT在解码过程中将每个token及其由不同dropout掩码生成的对应token视为正对,然后随机从不在当前句子中的词汇中抽取K个token来构建负例。

我们在两个基准(PHOENIX14T和CSL-Daily)上进行了全面的实验,包括端到端和级联设置。

实验结果表明,ConSLT比强大的基线实现了更好的翻译质量。

Statistics of SLT and NMT dataset. The size of SLT dataset PHOENIX14T is several orders of magnitude smaller than NMT dataset WMT18 En-De

方法

Visualization of token embeddings

Illustration of the ConSLT

对于每个token,我们通过不同的dropout噪声构建其正例,并从候选token集 C \mathcal{C} C 中随机采样 K K K 个token作为负例,其中 C ⊂ V ∖ S \mathcal{C} \subset \mathcal{V} \setminus \mathcal{S} CVS 表示在词汇表 V \mathcal{V} V 中但不在当前句子 S \mathcal{S} S 中的token。

实验

主实验

Results on PHOENIX14T

Results on CSL-Daily

消融实验

Ablation study on the PHOENIX14T test set

w/o CL 表示没有对比学习方法,S-CL 表示句子级对比学习方法,T-CL 表示token级对比学习方法。cos 表示使用余弦相似度作为距离度量,KL 表示使用KL散度作为距离度量。

BLEU scores with different sampling strategies of negative samples on the PHOENIX14T test set

总结

在这篇论文中,我们从表示学习的角度提供了一种缓解SLT低资源问题的新的见解。

我们引入了ConSLT,这是一种针对SLT的基于token的对比学习框架,旨在通过将当前句子之外的词汇中的token推远来学习有效的token表示。

值得一提的是,ConSLT可以应用于不同的模型结构。

我们还探讨了各种对比策略的影响,并提供了细粒度分析来解释我们的方法是如何工作的。

实验结果表明,对比学习可以显著提高SLT的翻译质量。

在未来,我们将进一步研究手语视频和口语文本之间的跨模态关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/62617.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ROS2教程 - 3 HelloWorld

更好的阅读体验:https://www.foooor.com 3 HelloWorld 下面从 HelloWorld 开始,讲解 ROS2 的开发。 ROS 开发主要使用 C 或 Python 实现,如果要实现的功能,对性能有要求,可以使用 C 实现,如果对性能没有…

洛谷 B3626 跳跃机器人 C语言 记忆化搜索

题目: https://www.luogu.com.cn/problem/B3626 题目描述 地上有一排格子,共 n 个位置。机器猫站在第一个格子上,需要取第 n 个格子里的东西。 机器猫当然不愿意自己跑过去,所以机器猫从口袋里掏出了一个机器人!这…

【AI】Sklearn

长期更新,建议关注、收藏、点赞。 友情链接: AI中的数学_线代微积分概率论最优化 Python numpy_pandas_matplotlib_spicy 建议路线:机器学习->深度学习->强化学习 目录 预处理模型选择分类实例: 二分类比赛 网格搜索实例&…

⭐️ GitHub Star 数量前十的工作流项目

文章开始前,我们先做个小调查:在日常工作中,你会使用自动化工作流工具吗?🙋 事实上,工作流工具已经变成了提升效率的关键。其实在此之前我们已经写过一篇博客,跟大家分享五个好用的工作流工具。…

Tree搜索二叉树、map和set_数据结构

数据结构专栏 如烟花般绚烂却又稍纵即逝的个人主页 本章讲述数据结构中搜索二叉树与HashMap的学习,感谢大家的支持!欢迎大家踊跃评论,感谢大佬们的支持! 目录 搜索二叉树的概念二叉树搜索模拟实现搜索二叉树查找搜索二叉树插入搜索二叉树删除…

Swift实现高效链表排序:一步步解读

文章目录 前言摘要问题描述题解解题思路Swift 实现代码代码分析示例测试与结果 时间复杂度空间复杂度总结关于我们 前言 本题由于没有合适答案为以往遗留问题,最近有时间将以往遗留问题一一完善。 148. 排序链表 不积跬步,无以至千里;不积小流…

【开篇】.NET开源 ORM 框架 SqlSugar 系列

.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列【数据事务…

qt QAnimationDriver详解

1、概述 QAnimationDriver是Qt框架中提供的一个类,它主要用于自定义动画帧的时间控制和更新。通过继承和实现QAnimationDriver,开发者可以精确控制动画的时间步长和更新逻辑,从而实现丰富和灵活的动画效果。QAnimationDriver与QAbstractAnim…

何时在 SQL 中使用 CHAR、VARCHAR 和 VARCHAR(MAX)

在管理数据库表时,考虑 CHAR、VARCHAR 和 VARCHAR(MAX) 是必不可少的。此外,使用正确的工具(例如dbForge Studio for SQL Server) ,与数据库相关的任务都会变得更加容易。它是针对 SQL Server 专业人员的强大的一体化解…

20241127 给typecho文章编辑附件 添加视频 图片预览

Typecho在写文章时,如果一次性上传太多张图片可能分不清哪张,因为附件没有略缩图,无法实时阅览图片,给文章插入图片时很不方便。 编辑admin/file-upload.php 大约十八行的位置 一个while 循环里面,这是在进行html元素更新操作,在合…

Linux命令系列-常见查看系统资源命令

Linux命令系列-常见查看命令 进程管理内存管理磁盘空间管理网络管理主机系统 摘要:本文将对linux系统上常见的查看系统各种资源的命令进行介绍,包括du,df,netstat等命令。所有这些命令都有相关实验截图,实验平台为ubun…

【Python网络爬虫笔记】6- 网络爬虫中的Requests库

一、概述 Requests 是一个用 Python 语言编写的、简洁且功能强大的 HTTP 库。它允许开发者方便地发送各种 HTTP 请求,如 GET、POST、PUT、DELETE 等,并且可以轻松地处理请求的响应。这个库在 Python 生态系统中被广泛使用,无论是简单的网页数…

SolarCube: 高分辨率太阳辐照预测基准数据集

太阳能作为清洁能源在减缓气候变化中的作用日益凸显,其稳定的供应对电网管理至关重要。然而,太阳辐照受云层和天气变化的影响波动较大,给光伏电力的管理带来挑战,尤其是在调度、储能和备用系统管理方面。因此,精确的太…

对拍详细使用方法

对拍的作用 对于我们在学校OJ,cf,牛客…各种只提供少量测试数据的题目,常常交上代码常常超时,能写出正确的暴力代码而题目要求的时间复杂度更低。然而这时你写出了能通过样例且时间复杂度更低的代码,但交上去就是错误…

玄机应急:Apache日志分析Mysql应急Redis应急

目录 第二章:Linux的Apache日志分析 1、提交当天访问次数最多的IP,即黑客IP 2、黑客使用的浏览器指纹是什么,提交指纹的md5 3、查看index.php页面被访问的次数,提交次数: 4、查看黑客IP访问了多少次,提…

使用easyexcel导出复杂模板,同时使用bean,map,list填充

背景 在使用easyexcel导出时,如果遇到一个模板中同时存在 一部分是实体类中的字段,另外部分是列表的字段,需要特殊处理一下,比如下面的模板: 这里面 user, addr 是实体类(或者map&#xff09…

otter 扩展

参见otter官方的说明:数据处理自定义,比如Extract , Transform的数据处理. 目前Select/Load不支持数据自定义处理。 Extract模块: 1.EventProcessor : 自定义数据处理,可以改变一条变更数据的任意内容。 2.FileResolver : 解决数…

STM32的CAN波特率计算

公式: CAN波特率 APB总线频率 / (BRP分频器 1)/ (SWJ BS1 BS2) SWJ一般为1。 例如STM32F407的,CAN1和CAN2都在在APB1下,频率是42000000 如果想配置成1M波特率,则计算公式为:

Z2400039基于Java-+ SpringBoot + vue 企业信息管理系统的设计与实现(源码 配置 PPT 文档 分享)

企业信息管理系统 1.项目描述2.项目结构后端(Spring Boot)前端(Vue.js Element UI) 2. 功能实现登录页首页系统管理岗位管理部门管理 3. 部署和运行注意事项 4.界面展示5.源码获取 1.项目描述 基于你的描述,这个项目…

hhdb数据库介绍(10-20)

监控 监控面板 监控面板为用户提供计算节点、服务器相关的监控功能,包含:计算节点服务状态、计算节点流量、计算节点服务器资源、其他服务器资源。 数据采集说明: 监控面板显示24小时内采集的数据(需要放大显示,正…