SeamlessM4T—Massively Multilingual Multimodal Machine Translation

本文是LLM系列的文章,针对《SeamlessM4T—Massively Multilingual & Multimodal Machine Translation》的翻译。

SeamlessM4T:大规模语言多模态机器翻译

  • 摘要
  • 1 引言
  • 2 多模态翻译的社会技术维度
    • 2.1
    • 2.2
    • 2.3
  • 3 SeamlessAlign:自动创建语音对齐数据
  • 4 SeamlessM4T模型
  • 5 自动和人工评估
  • 6 负责任的AI
  • 7 社会影响与结论
    • 7.1 增强世界准备度
    • 7.2 未来工作

摘要

如何创建Babel Fish,一个可以帮助个人在任何两种语言之间翻译语音的工具?虽然最近在基于文本的模型方面的突破已经将机器翻译的覆盖范围推到了200多种语言之外,但统一的语音到语音翻译模型尚未取得类似的进展。更具体地说,传统的语音到语音翻译系统依赖于由多个子系统组成的级联系统来逐步执行翻译,这使得可扩展和高性能的统一语音翻译系统遥不可及。为了解决这些差距,我们推出了SeamlessM4T——大规模多语言和多模态机器翻译——一个单一的模型,支持多达100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译和自动语音识别。为了构建这一点,我们使用了100万小时的开放式语音音频数据来学习w2v-BERT 2.0的自监督语音表示。随后,我们创建了一个多模态的自动对齐语音翻译语料库,名为SeamlessAlign。经过过滤并结合人工标记和伪标记数据(总计406000小时),我们开发了第一个能够将语音和文本从英语翻译成英语的多语言系统。在Fleurs上,SeamlessM4T为翻译成多种目标语言设定了一个新的标准,在直接语音到文本翻译方面比以前的最先进技术提高了20%的BLEU。与强级联模型相比,SeamlessM4T在语音到文本中提高了1.3个BLEU点,在语音到语音中提高了2.6个ASR-BLEU点。在CVSS上,与用于语音转换的两级级联模型相比,Seamless M4T Large的性能增强了58%。对语音到文本翻译输出的初步人类评估显示出同样令人印象深刻的结果;对于英语翻译,24种评估语言的XSTS分数始终高于4(满分5)。对于英语方向,我们发现在24种语言中有7种语言比WhisperLarge-v2的基线有了显著改进。为了进一步评估我们的系统,我们开发了Blaser 2.0,在质量估计方面,与前代系统相比,它能够以类似的精度对语音和文本进行评估。经过稳健性测试,与当前最先进的模型相比,我们的系统在语音到文本任务中对背景噪声和说话者变化的处理效果更好(平均分别提高了38%和49%)。至关重要的是,我们评估了Seamless M4T的性别偏见,并增加了毒性以评估翻译安全性。与最先进的相比,我们报告翻译输出中的附加毒性降低了63%。最后,这项工作中的所有贡献——包括模型、推理代码、由我们改进的建模工具包Fairseq2支持的微调配方,以及重新创建SeamlessAlign未经过滤的47万小时的元数据——都是开源的,可以通过https://github.com/facebookresearch/seamless_communication访问.

1 引言

2 多模态翻译的社会技术维度

2.1

2.2

2.3

3 SeamlessAlign:自动创建语音对齐数据

4 SeamlessM4T模型

5 自动和人工评估

6 负责任的AI

7 社会影响与结论

人类交流是多感官的——我们接受来自几种模式的感官输入,以动态的方式处理信息。在多语言环境中,基于文本的机器翻译的进步产生了帮助个人用熟练程度较低的语言进行交流和学习的工具。也就是说,虽然NLLB等基础模型将T2TT推向了200种语言之外,但直接语音翻译尚未取得类似的进展。为了弥补这一差距,我们创建了一个大规模的多语言和多模态机器翻译系统,为下一代语音翻译技术铺平了道路。
使用新的数据和建模方法将S2ST、S2TT、T2TT和ASR组合在一个模型中,我们的主要贡献如下。首先,我们建立了一个与我们的语言覆盖范围相一致的新LID模型,并在新构思的SONAR(一个多语言和多模式句子嵌入空间)的帮助下进行语音挖掘,以创建一个超过47万小时的自动对齐语音翻译语料库。通过融合四个构建块,(1)Seamless M4T NLLB,一个大规模多语言T2TT模型,(2)w2v BERT 2.0,一个在未标记语音音频数据上预训练的语音表示学习模型,(3)T2U,一个文本到单元序列到序列模型,和(4)HiFi GAN,一个用于从单元合成语音的多语言声码器,我们建立了一个统一的模型,涵盖了从100种语言到英语(100 eng)的S2ST,从英语到35种语言(eng-35),以及100 eng和eng-95语言的S2TT。值得注意的是,与之前在S2ST上的工作相比,SeamlessM4T能够执行从英语到35个方向的翻译,S2ST主要提供英语翻译,而不是英语翻译。在S2TT方面,SeamlessM4T在S2TT翻译方面比以前的最先进技术提高了20%的BLEU。对S2TT输出的初步人类评估显示了同样令人印象深刻的结果;对于英语翻译,24种评估语言的XSTS分数始终高于4(满分5)。对于英语方向,我们看到24种语言中有7种语言的Whisper-Large-v2的基线有了显著改进。然后,我们评估了我们的模型的稳健性,发现Seamless M4T在背景噪声和扬声器变化方面比更具稳健性。通过还包括增加毒性水平和性别偏见的结果,我们希望激励未来针对缓解努力的工作。
为了促进可访问性,我们开源了我们工作的所有贡献,包括两种规模的模型,以确保即使是计算资源有限的研究人员也能使用我们的工作。在下一节中,我们通过关注Seamless M4T的下游可能性来讨论其潜在的社会影响。

7.1 增强世界准备度

我们生活的世界从未像现在这样相互关联——互联网、移动设备、通信平台和社交媒体的全球扩散使个人接触到比以往任何时候都更多的多语言内容。当前的社会秩序对一个人的“世界准备度”提出了要求,这是衡量一个人在多语言世界中的能力的指标。世界准备度最初是在语言学习的背景下发展起来的,它强调了能够用母语以外的语言进行交流的重要性,这既有工具原因(即就业或上学),也有文化原因(即成为全球公民)。也就是说,尽管我们认为语言习得应该仍然是提高一个人对世界的准备程度的关键机制,但我们承认,这样做需要许多人可能不具备的精神和物质资源。
SeamlessM4T支持的下游应用程序可以通过简化各种环境下的多语言交换,实现按需访问,以满足世界需求。正如T2TT在衔接多语言文本理解方面所取得的成就一样,Seamless M4T也可能对语音产生同样的效果。研究表明,与母语相反,在母语中,言语比阅读或写作更自然地习得,当涉及到外语时,这种趋势发生了逆转。换言之,在外语环境中,演讲通常被认为比阅读或写作更具挑战性。Seamless M4T支持的应用程序可以作为一种协同试点机制,支持用户进行多语言对话,并增强他们对语音密集交互的信心。随着基于语音的界面(即音频助手、语音备忘录、实时转录等)和听觉内容(即播客、有声读物、短视频等)越来越多地出现在人们的生活中,SeamlessM4T支持的下游应用程序可以提供更丰富多样的多语言体验,并且比基于文本的应用程序更自然、更动态。
从包容性的角度来看,Seamless M4T对多模态的关注可能会在增强那些有无障碍需求的人和那些语言包含多个写作系统的人的世界准备能力方面产生有意义的影响(如第2节所述)。对于许多缺乏阅读或写作技能,或无法依赖视力的人(即盲人或视力障碍者)来说,语音辅助技术对于他们如何沟通和保持联系至关重要。翻译语音的能力不仅使这些群体能够更全面地获得母语之外的信息,而且能够以更适合他们交际需求的方式进行翻译。此外,认识到某些语言可能存在脚本差异,SeamlessM4T提供了可供性,有助于规避多脚本难题。对于没有标准化书写系统的语言,对语音识别和翻译的投资可能有助于防止危害。我们希望我们的努力能够为这一重要运动作出贡献。

7.2 未来工作

与大多数技术一样,收益的分配因用户人口统计和社会状况而异。虽然我们证明Seamless M4T可以通过降低跨语言交流的障碍来增强世界准备能力,但一些用户在使用我们的工作时可能会比其他用户遇到更多困难。例如,与许多其他语音技术一样,Seamless M4T的ASR性能可能因性别、种族、口音或语言而异。此外,我们的系统在翻译俚语或专有语时的表现名词在高资源语言和低资源语言之间也可能不一致。
S2ST面临的另一个挑战是,与书面语言相比,语音取决于即时接收和反馈。换句话说,说话者在确定输出质量或在现场对话中进行“编辑”的能力有限。如果没有能力在反译或母语人士的帮助下进行计划和修订,S2ST在涉及误译或毒性时可能会带来更高程度的互动风险。我们敦促使用SeamlessM4T微调或构建产品的研究人员和开发人员批判性地思考可以帮助用户规避这些潜在障碍的设计功能。与此相关的是,我们认为SeamlessM4T驱动的应用程序最好被视为一种辅助翻译的增强设备,而不是一种取代语言学习或可靠的人类口译员需求的工具。这一提醒在涉及法律或医疗决策的高风险情况下尤其重要。
最后,语音不是口语文本,它包括一套韵律(即节奏、重音和语调)和情感成分,值得进一步研究。为了创建感觉有机和自然的S2ST系统,应将更多的研究转向保持表现力的输出生成。此外,Babel Fish的完美实现需要对低延迟语音翻译的研究进行更深入的投资。开发能够进行流式传输的系统(即,在输入句子呈现时逐步翻译输入句子)可能会增加此类系统在行业或教育环境中的采用。我们希望Seamless M4T为这两个研究领域开辟新的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/68260.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

产品经理如何进行需求管理

产品经理在进行需求管理时,可以遵循以下步骤: 1. 确定需求目标:明确产品的愿景和目标,确定需求管理的方向和重点。 2. 收集需求:与利益相关者(包括用户、业务部门、技术团队等)沟通,…

Spring Boot多数据源配置运行报错:No operations allowed after connection closed连接异常的解决

上一篇文章我们讲了如何配置多数据源,但是配置在使用一段时间之后,查询数据库会发生报错:No operations allowed after connection closed。 一、问题原因: 经过排查发现是因为MySQL5.0以后针对超长时间DB连接做了一个处理&#…

语言深入理解指针(非常详细)(三)

目录 数组名的理解使用指针访问数组 一维数组传参的本质二级指针指针数组指针数组模拟二维数组 数组名的理解 在上⼀个章节我们在使用指针访问数组的内容时,有这样的代码: int arr[10] {1,2,3,4,5,6,7,8,9,10}; int *p &arr[0];这里我们使用 &am…

史上最全PMP学习资料、项目管理资料、备考经验包,3A一次通过

你是否也有过类似的经历? 为了获取备考资料,有的同学在论坛、知乎或者相关垂直类网站下载了很多的资料,这些资料大部分是机构进行获客引流的资料,没有真正的干货。 经常会看到10G、20G的资料包,感觉内容很丰富&#xf…

【LeetCode算法系列题解】第51~55题

CONTENTS LeetCode 51. N 皇后(困难)LeetCode 52. N 皇后 II(困难)LeetCode 53. 最大子序和(中等)LeetCode 54. 螺旋矩阵(中等)LeetCode 55. 跳跃游戏(中等) …

HTML <thead> 标签

实例 带有 thead、tbody 以及 tfoot 元素的 HTML 表格: <table border="1"><thead><tr><th>Month</th><th>Savings</th></tr></thead><tfoot><tr><td>Sum</td><td>$180<…

智慧电力系统

智慧电力系统依托电易云-智慧电力物联网&#xff0c;将人工智能技术、物联网技术与电力行业相结合&#xff0c;通过数据的收集、分析和应用&#xff0c;实现电力资源精准调度、安全稳定运行、智能管理的全过程解决方案。 智慧电力系统的核心理念是将科技与能源紧密结合&#x…

Ubuntu 介绍和使用

Ubuntu 介绍和使用 一.Debian&Ubuntu Ubuntu 是基于另一个 Linux 发行版 Debian 发展而来&#xff0c;在介绍 Ubuntu 前有必要 了解了解 Debian 的历史。 1.1 Debian Debian 也被称为 Debian GNU/Linux&#xff0c;是众多 Linux 发行版之一。 主要由Ian Murdock在 1993 …

pycharm创建的虚拟环境为什么用conda env list命令查询不到?

问题描述&#xff1a;pycharm创建的虚拟环境为什么用conda env list命令查询不到。 pycharm开发环境可以创建虚拟环境&#xff0c;目的是为隔绝其他环境种库带来的版本干扰&#xff0c;但是发现一个问题&#xff0c;无论是在windows终端、anaconda终端、Pycharm开发环境中的终…

【Spring】SpringBoot的10个参数验证技巧

这里写目录标题 前言1.使用验证注解2 使用自定义验证注解3 在服务器端验证4 提供有意义的错误信息5 将 i18n 用于错误消息messages.properties6 使用分组验证7 对复杂逻辑使用跨域验证8 对验证错误使用异常处理9 测试你的验证逻辑10 考虑客户端验证总结 前言 参数验证很重要&am…

第一次做接口测试用例

一、简介 在开始接口测试之前&#xff0c;我们想一下&#xff0c;接口测试的流程是什么&#xff1f;说到这里&#xff0c;有些人就会产生好奇和疑问&#xff0c;心里mmp&#xff1a;接口测试要什么流程哈&#xff1f;&#xff1f;&#xff1f;不就是参考接口文档&#xff0c;直…

C# 实现PictureBox从指定的文件夹内进行翻页操作

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System

如何通过构建遥感光谱反射信号与地表参数之间的关系模型来准确估算植被参数?植被参数光学遥感反演方法(Python)及遥感与生态模型数据同化算法

目录 专题一 植被参数遥感反演理论 专题二 植被叶片及冠层反射率模拟与处理 专题三 植被遥感模型参数敏感性分析 专题四 基于查找表(LUT)方法反演植被参数 专题五 基于优化算法反演植被参数 专题六 基于机器学习反演植被参数 专题七 遥感数据同化理论 专题八 同化遥感反…

《论文阅读》用提示和释义模拟对话情绪识别的思维过程 IJCAI 2023

《论文阅读》用提示和复述模拟对话情绪识别的思维过程 IJCAI 2023 前言简介相关知识prompt engineeringparaphrasing模型架构第一阶段第二阶段History-oriented promptExperience-oriented Prompt ConstructionLabel Paraphrasing损失函数前言 你是否也对于理解论文存在困惑?…

Ceph入门到精通-Nginx 大量请求 延迟优化

优化nginx以处理大量请求并减少延迟可以通过以下几种方法实现&#xff1a; 调整worker_processes和worker_connections参数&#xff1a;增加worker_processes值可以增加nginx的进程数量&#xff0c;提高并发处理能力。增加worker_connections参数的值可以增加每个worker进程可…

MASM32编程状态栏显示字符动画,按钮跑马灯

一、需求分析 由于sysInfo扫描的内容比较多&#xff0c;打算为它增加一点动画效果&#xff0c;提醒用户程序正在运行&#xff0c;耐心等待。 二、构建测试窗口 测试窗口上放置有一个按钮&#xff0c;按钮上的初始文字是“开始扫描”&#xff1b;并使用状态栏&#xff0c;状态…

视频垂直镜像播放,为您的影片带来新鲜感

大家好&#xff01;在制作视频时&#xff0c;我们常常希望能够给观众带来一些新鲜感和独特的视觉效果。而垂直镜像播放是一个能够让您的影片与众不同的技巧。然而&#xff0c;传统的视频剪辑软件往往无法直接实现视频的垂直镜像播放&#xff0c;给我们带来了一些困扰。现在&…

Jtti:Web Service中session和cookie如何使用

在 Web 服务中&#xff0c;会话(session)和 Cookie 是用于跟踪用户状态和维护持久性数据的两个常用机制。它们通常用于不同的用途&#xff0c;但也可以结合使用以实现更复杂的功能。以下是关于如何在 Web 服务中使用会话和 Cookie 的一些基本信息&#xff1a; 使用会话&#xf…

基于Python的IOS自动化测试环境搭建

文章目录 一、测试架构介绍1.1 WebDriverAgent原理分析1.2 tidevice原理分析二、环境安装2.1 iOS 设备安装 WebDriverAgent2.2 安装iTunes2.3 安装tidevice2.4 安装facebook-wda自动化三、操作流程四、Weditor的安装和使用一、测试架构介绍 以下为测试架构原理图 手机端的WDA…

QT C++ 基于TCP通信的网络聊天室

一、基本原理及流程 1&#xff09;知识回顾&#xff08;C语言中的TCP流程&#xff09; 2&#xff09;QT中的服务器端/客户端的操作流程 二、代码实现 1&#xff09;服务器 .ui .pro 在pro文件中添加network库 .h #ifndef WIDGET_H #define WIDGET_H#include <QWidget>…