跨语种「AI同传」颠覆语音翻译!Meta谷歌连发重大突破

Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。

就在Meta AI成立10周年之际,研究团队重磅开源了在语音翻译领域的突破性进展——「无缝交流」(Seamless Communication)模型。

图片

作为首个开源的「大一统模型」,Seamless集成了其他三款SOTA模型的全部功能(SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2),可以实时进行更自然、更真实的跨语言交流。

甚至可以说,它从本质上实现了通用语音翻译器(Universal Speech Translator)的概念。

图片

紧接着,谷歌也分享了自己在无监督语音翻译的突破——Translation 3。

通过利用SpecAugment、MUSE嵌入和反向翻译,Translatotron 3在翻译词汇的同时,更能处理停顿、语速、说话者身份等非文本语音细微差异。

不仅如此,Translatotron 3在还可以直接从单语数据学习,摆脱了对并行数据的依赖。

图片

论文地址:https://arxiv.org/abs/2305.17547

结果显示,在翻译质量、说话者相似性和语音自然度方面表现出色,Translation 3都超越了传统系统。

探索沟通的未来,Translatotron 3或将以前所未有的效率和准确性打破语言障碍。

Seamless:「无缝」语音翻译大一统

Seamless将SeamlessM4T v2的高质量和多语言、SeamlessStreaming的低延迟和SeamlessExpressive的表达一致性,全部融合到了一个统一的系统之中。

由此,Seamless也为了第一个能够同时保持声音风格和语调的流式翻译模型。

图片

SeamlessExpressive:完美保留语音语调

虽然现有的翻译工具能熟练地捕捉对话内容,但它们的输出通常依赖于单调的机器人文本到语音系统。

相比之下,SeamlessExpressive则可以保留语音的细微差别,如停顿和语速,以及声音风格和情感基调。

为了在不同语言中保留说话者的语音风格,研究人员在SeamlessM4T v2基础模型中加入了表现力编码器。这一过程可确保单元生成遵循预期的语速和节奏。

此外,将SeamlessM4T v2中的HiFi-GAN单元声码器替换为以源语音为条件的表现力单元到语音生成器,可实现音调、情感和风格的无缝传输。

图片

SeamlessStreaming:AI版「同声传译」

SeamlessStreaming是首个大规模多语言模型,其翻译延迟时间约为两秒,准确度几乎与离线模型相同。

SeamlessStreaming以SeamlessM4T v2为基础,支持近100种输入和输出语言的自动语音识别和语音到文本翻译,以及近100种输入语言和36种输出语言的语音到语音翻译。

Meta AI最先进的流模型SeamlessStreaming能够智能地决定何时有足够的语境来输出下一个目标文本或语音片段。

SeamlessStreaming学习到的读/写策略,会根据部分音频输入来决定是「写」并生成输出,还是「读」并继续等待更多输入。并且,还可以自适应不同的语言结构,从而在许多不同的语言对中发挥更强的性能。

图片

SeamlessM4T v2:更高质量、更高精度

2023年8月,Meta AI推出了第一版SeamlessM4T——一个基础多语言和多任务模型,可为跨语音和文本的翻译和转录提供SOTA的结果。

在此基础上,研究人员于11月推出了改进版的SeamlessM4T v2,作为全新SeamlessExpressive和SeamlessStreaming模型的基础。

升级后的SeamlessM4T v2采用非自回归文本到单元解码器,从而提高了文本和语音输出之间的一致性。

其中,w2v-BERT 2.0编码器是在450万小时的语音数据基础上训练出来的。相比之前,第一版的训练数据只有100万小时。

此外,SeamlessM4T v2还通过全新的SeamlessAlign,为低资源语言补充了更多数据。

评估结果显示,SeamlessM4T v2在BLEU、ASR-BLEU、BLASER 2等任务上的表现,明显优于之前的SOTA模型。

图片

SeamlessAlignExpressive

基于之前在WikiMatrix、CCMatrix、NLLB、SpeechMatrix和SeamlessM4T方面所做的工作,Meta AI推出了首个表达式语音对齐程序——SeamlessExpressive。

从原始数据开始,富有表现力的对齐程序会自动发现成对的音频片段,这些片段不仅具有相同的含义,而且具有相同的整体表现力。

基于此,Meta还创建了第一个用于基准测试的多语言音频对齐的大型基准测试数据集——SeamlessAlignExpressive。

图片

Translatotron 3:引领无监督语音翻译新时代

谷歌联合DeepMind提出的无监督语音到语音翻译架构Translatotron 3,不仅为更多语言对之间的翻译,还为停顿、语速和说话人身份等非文本语音属性的翻译打开了大门。

这种方法不用对目标语言进行任何直接的监督,而且可以在翻译过程中保留源语音的其他特征(如语调、情感等)。

图片

Translatotron 3在保留源语音其他特征(如语调、情感等)的同时,无需对目标语言进行任何直接的监督,并且还

摒弃了对双语语音数据集的需求。

其设计包含三个关键方面:

1. 使用SpecAugment将整个模型作为mask自动编码器进行预训练

SpecAugment是一种简单的语音识别数据增强方法,可在输入音频(而非原始音频本身)的对数梅尔频谱图上进行操作,从而有效提高编码器的泛化能力。

2. 基于MUSE的无监督嵌入映射

多语言无监督嵌入是在未配对的语言上进行训练的,可以让模型学习源语言和目标语言之间共享的嵌入空间。

3. 基于反向翻译的重构损失

这种方法可以完全采用无监督的方式,来训练编码器-解码器S2ST模型。

效果展示(西班牙语-英语)

输入

CommonVoice11 Input

CommonVoice11 Synthesized Input

Conversational Input

TTS合成

CommonVoice11 TTS

CommonVoice11 Synthesized TTS

Conversational TTS

Translatotron 3

CommonVoice11 Translation 3

CommonVoice11 Synthesized Translation 3

Conversational Translation 3

结构

Translatotron 3采用共享编码器对源语言和目标语言进行编码。其中,解码器由语言解码器、声音合成器(负责翻译语音的声音生成)和单一注意力模块组成。

相比于上一代Translatotron 2,Translatotron 3配备有两个解码器,一个用于源语言,另一个用于目标语言。

在训练过程中,研究人员使用单语语音-文本数据集(这些数据由语音-文本对组成;并且没有进行翻译)。

编码器

编码器的输出分为两部分:第一部分包含语义信息,第二部分包含声学信息。

其中,前半部分的输出被训练成输入语音频谱图文本的MUSE嵌入。后半部分在没有MUSE损失的情况下进行更新。

值得注意的是,源语言和目标语言共享同一个编码器。

基于MUSE嵌入的多语言性质,编码器能够学习源语言和目标语言的多语言嵌入空间。

这样一来,编码器就能将两种语言的语音编码到一个共同的嵌入空间中,而不是为每种语言保留一个单独的嵌入空间,从而更高效、更有效地对输入进行编码。

解码器

解码器由三个不同的部分组成,即语言解码器、声音合成器和注意力模块。

为了有效处理源语言和目标语言的不同属性,Translatotron 3配备有两个独立的解码器,分别用于源语言和目标语言。

训练

训练由两个阶段组成:(1)自动编码与重构;(2)反向翻译。

第一个阶段中,使用MUSE损失和重构损失对网络进行训练,从而将输入内容自动编码到多语言嵌入空间,确保网络生成有意义的多语言表征。

在第二阶段中,利用反向翻译损失进一步训练网络翻译输入频谱图。为了减轻灾难性遗忘的问题,并确保潜空间是多语言的,此阶段依然采用MUSE损失和重构损失。

为了确保编码器学习输入的有意义属性,而不是简单地重构输入,研究人员在两个阶段都对编码器输入应用了 SpecAugment。事实证明,通过增强输入数据,可以有效提高编码器的泛化能力。

- MUSE损失:MUSE损失衡量的是输入频谱图的多语言嵌入与反向翻译频谱图的多语言嵌入之间的相似性。

- 重构损失: 重构损失衡量的是输入频谱图与反向翻译频谱图之间的相似度。

图片

性能

评估中包括Common Voice 11数据集,以及从对话和Common Voice 11数据集衍生出的两个合成数据集。

其中,翻译质量是通过翻译语音的ASR(自动语音识别)转录的BLEU(越高越好)与相应的参考翻译文本进行比较来衡量的。而语音质量则通过MOS分数来衡量(越高越好)。此外,说话人相似度是通过平均余弦相似度来衡量的(越高越好)。

由于Translatotron 3是一种无监督方法,因此研究人员使用了由ASR、无监督机器翻译(UMT)和 TTS(文本到语音)组合而成的级联S2ST系统作为基准。

结果显示,Translatotron 3在翻译质量、说话者相似性和语音质量等各方面的表现都远远优于基线,在会话语料库中的表现尤为突出。

此外,Translatotron 3实实现了与真实音频样本相似的语音自然度(以MOS衡量,越高越好)。

图片

图片

图片

参考资料:

https://ai.meta.com/research/seamless-communication/

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/200137.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud NetFlix

文章目录 Spring Cloud NetFlix1 介绍2 Eureka(服务注册与发现)2.1 介绍2.2 服务注册与发现示例2.2.1 Eureka Server:springcloud-eureka2.2.2 Eureka Client:springcloud-provider2.2.3 Eureka Client:springcloud-co…

forEach与map区别及使用场景

forEach 遍历数组中的元素为每个元素执行回调无返回值 const a [1,2,3] const b a.forEach((num,index) > {// 执行 num、index 相关的代码 })// b undefined map 遍历数组中的元素 通过对每个元素调用函数,将每个元素 “ 映射(map) ” 到一个…

激光炸弹(二维前缀和)-Java版

import java.io.*;/** 题目分析:一个最大5000 * 5000 的矩阵, 爆炸范围在 [0,10e9]* 地图上的目标是随机分布,如果要暴力计算每一个区间R的权值,会很麻烦* 可以用二维前缀和先将权值存起来* for(int i 1;i < n;i ) {for(int j 1;j < m;j ) {g[i][j] g[i][j-1] g[i-1]…

二叉树的前序中序后序遍历

二叉树的前序中序后序遍历-含递归和迭代代码 前序(中左右)中序(左中右)后序(左右中) 前序(中左右) 对于二叉树中的任意一个节点&#xff0c;先打印该节点&#xff0c;然后是它的左子树&#xff0c;最后右子树 A-B-D-E-C-F //递归 const preorderTraversal (root) > {const…

C++入门【2-基本语法】

C 基本语法 C 程序可以定义为对象的集合&#xff0c;这些对象通过调用彼此的方法进行交互。现在让我们简要地看一下什么是类、对象&#xff0c;方法、即时变量。 对象 - 对象具有状态和行为。例如&#xff1a;一只狗的状态 - 颜色、名称、品种&#xff0c;行为 - 摇动、叫唤、…

11.29 知识回顾(视图层、模板层)

一、视图层 1.1 响应对象 响应---》本质都是 HttpResponse -HttpResponse---》字符串 -render----》放个模板---》模板渲染是在后端完成 -js代码是在客户端浏览器里执行的 -模板语法是在后端执行的 -redirect----》重定向 -字符串参数不是…

用友NC JiuQiClientReqDispatch反序列化RCE漏洞复现

0x01 产品简介 用友NC是一款企业级ERP软件。作为一种信息化管理工具,用友NC提供了一系列业务管理模块,包括财务会计、采购管理、销售管理、物料管理、生产计划和人力资源管理等,帮助企业实现数字化转型和高效管理。 0x02 漏洞概述 用友 NC JiuQiClientReqDispatch 接口存在…

CETN03 - The Evolution of Computers

文章目录 I. IntroductionII. First Modern Digital Computer: ENIAC (1946)III. First Generation ComputerIV. Second Generation ComputerV. Third Generation ComputerVI. Fourth Generation ComputerVII. ConclusionI. 引言II. 第一台现代数字计算机&#xff1a;ENIAC&…

rk3568 适配PCIE(二)

rk3568 适配pcie3.0 PCIe(Peripheral Component Interconnect Express)是一种用于连接计算机主板和其他设备的高速串行总线接口。PCIe 2.0和PCIe 3.0是两个不同版本的PCIe规范,它们在以下几个方面有所不同: 带宽:PCIe 2.0的理论带宽为每条通道5 Gbps,而PCIe 3.0的理论带…

很全面 影响无人机自动返航的因素总结

在无人机技术不断成熟的今天&#xff0c;自主返航技术成为保障飞行安全的一种重要工具。无人机在多种情况下能够智能判断&#xff0c;主动实施返航动作&#xff0c;为用户提供更加可靠的飞行保障。以下是一些常见的无人机自动返航场景&#xff0c;让我们深入了解这项技术背后的…

centos定时自动备份mysql

Centos定时自动备份mysql 文章目录 Centos定时自动备份mysql1.先安装相关工具2.创建dump.sh命令文件3.编写命令文件规则4.文件夹路径5.添加crontab任务6.编写cron规则 1.先安装相关工具 共两个&#xff0c;一个是cronie 一个是 mysql-client&#xff08;一般装完mysql就自带的有…

【Maven】安装和使用

1. Maven 概述 Maven 是一款用于管理和构建 java 项目的工具&#xff0c;可以进行依赖管理、统一项目结构和项目构建。 1.1 Maven 模型 项目对象模型 (Project Object Model)依赖管理模型(Dependency)构建生命周期/阶段(Build lifecycle & phases) 1.2 Maven 仓库 仓库的…

HarmonyOS与AbilitySlice路由配置

上一章我有教到鸿蒙应用开发——Ability鸿蒙应用开发的基础知识&#xff0c;那么今天我们来讲一下AbilitySlice路由配置 AbilitySlice路由配置 虽然一个Page可以包含多个AbilitySlice&#xff0c;但是Page进入前台时界面默认只展示一个AbilitySlice。默认展示的AbilitySlice是…

Unity 网格布局控件-Grid Layout Group

Unity 网格布局控件-Grid Layout Group是Unity中的UGUI控件&#xff0c;用于在 UI 中创建网格布局&#xff0c; 它的作用是&#xff1a;自动将子对象排列成网格&#xff0c;即我们可以通过该组件对子对象按行和列的形式排列&#xff0c;根据指定的约束条件自动调整它们的大小和…

前缀和列题AcWing795-Java版

import java.io.*;//前缀和:改题目要求 求一串整数数列中l~r中的数的和 //可以提前算好前n项的和s[n],然后用s[n] - s[n - 1]public class Main {static int n,m,l,r;static int N 100010;static BufferedReader in new BufferedReader(new InputStreamReader(System.in));st…

git解决冲突

记录一次 git 解决冲突的过程。 情况是前一段时间我基于本地的 master 分支上新建了一个分支比如叫做 weight_linear: git checkout -b weight_linear 然后我已经在这个分支上进行了修改并上传到 github 上了&#xff0c;比如&#xff1a; git add . git commit -m "u…

CSS总结

CSS 选择器 基础选择器 标签 div{}类名 .one{}id #two{}通用 *{}组合 div,p{}后代 ul li{} *交叉 div .one{} 伪类选择器 :hover:focus&#xff0c; 伪元素选择器 ::before::after::first-letter::first-line 属性选择器 [attrname]—拥有属性 例&#xff1a;[data-name]{}…

什么是vue的计算属性

Vue的计算属性是一种特殊的属性&#xff0c;它的值是通过对其他属性进行计算得到的。计算属性可以方便地对模型中的数据进行处理和转换&#xff0c;同时还具有缓存机制&#xff0c;只有在依赖的数据发生变化时才会重新计算值。这使得计算属性更加高效&#xff0c;并且可以减少重…

L.next与L->next

C中有两种方式访问对象的成员&#xff0c;L.next 和 L->next 。C的头歌数据结构题应该就是C&#xff0c;但因为兼容C的大部分内容所以没有感觉 L.next&#xff1a;这种方式用于直接访问对象的成员。在这里&#xff0c;L 是一个对象&#xff0c;next 是它的一个成员。所以&am…

流媒体音视频/安防视频云平台/可视化监控平台EasyCVR无法启动且打印panic报错,是什么原因?

国标GB视频监控管理平台/视频集中存储/云存储EasyCVR能在复杂的网络环境中&#xff0c;将分散的各类视频资源进行统一汇聚、整合、集中管理&#xff0c;实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等。AI智能大数据视频分析EasyCVR平台已经广泛应用在工地、工厂、园…