MetaAI语音翻译大模型Seamless登场,主打AI无缝同声传译

32803256fac24f11a4a1e3a38ac626d0.png

 

论文题目: Seamless: Multilingual Expressive and Streaming Speech Translation
论文链接: https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/
代码链接: GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation
项目主页: https://ai.meta.com/research/seamless-communication/

今年以来,以ChatGPT和GPT-4为代表的大型语言模型和视觉语言多模态大模型几乎完全引领了人工智能领域发展的潮流,在垂直领域也衍生出了一些行业专用的大模型,例如金融大模型、交通大模型和遥感大模型等。而对于数据输入的三种基本模态而言,语音信号在AI领域的重要性也不言而喻。近期,MetaAI的研究团队发布了一套全流程的语言语音大模型Seamless(”无缝沟通“),Seamless主打流畅高效的多语言无缝翻译功能,在传统翻译系统的基础上,对用户的说话方式进行快速模拟,保证翻译出的语音信号完整保留用户的语气、停顿和强调音等关键信息,帮助我们更好的传递情感和意图。需要指出的是,Seamless是由三个基础模型构成:

(1)SeamlessExpressive:旨在保留跨语言的表达方式和复杂性的模型,目前已经支持英语、西班牙语、德语、法语、意大利语和中文等语言。

(2)SeamlessStreaming:高效的流媒体翻译模型,可在大约两秒的延迟下进行语音和文本翻译。

(3)SeamlessM4T v2:是Meta在今年8月份发布的SeamlessM4T升级版本,基础的多语言和多任务模型,在接近450万小时的语音数据上进行了训练,在自动语音识别、语音转语音、语音转文本和文本转语音等多种基线任务上实现了性能提升。

Seamless一经发布就引起了广泛的关注,作为Meta首席人工智能科学家的LeCun第一时间为Seamless进行宣传。

114d6dce23cb4d0ca8bfa4ccd7561da4.png

 

此外,开源区大佬Georgi Gerganov已经开始了对Seamless的Cpp重写和推理加速工作,先前,Georgi Gerganov已经对Meta的LLaMA、OpenAI的Wisper等明星大模型开发了C++版本,其中llama.cpp在GitHub上的star数已经突破了6.5w。

07d42be0587c4d99b81576a322e765c2.png

 

01. 多任务基座模型SeamlessM4T v2

多任务预训练范式可以说是GPT系列模型的底层技术,Seamless作为语音翻译领域的统一系统,同样借鉴了这样的构建逻辑。SeamlessM4T在广泛的语种和语音翻译任务上进行了大规模预训练,作者团队在构建SeamlessM4T v2版本时,重点对其多任务预测单元UnitY进行了升级,SeamlessM4T v2将语音翻译任务分为语音到文本翻译(speech-to-text translation,S2TT)和文本到单元转换(text-to-unit conversion,T2U)两种。由于先前版本的UnitY在面对语音序列和文本序列长度不匹配情况时出现幻觉现象,作者提出了一种新的两阶段UnitY2单元,UnitY2采用了一种非自回归(non-autoregressive,NAR)的单元解码器架构,可以更好的对离散单元进行建模,基于UnitY2预测单元的SeamlessM4T v2模型整体架构如下图所示。

76c2c9b576cd4f5eb11c967cb943e264.png

 

UnitY2的更新提高了SeamlessM4T v2在各种任务上的翻译质量,目前,SeamlessM4T v2 实现了在 100 种语言上的语音到语音和语音到文本翻译的SOTA性能

7b901d8870384256b49f5a28e1946406.png

 

02. SeamlessExpressive完美攻克翻译语调保留难题

语音中的韵律在人类交流中扮演着重要的角色,它能够表现出说话者的情绪状态、态度和意图,而这一重要因素在以往的语音翻译模型和系统中却被忽视了。通常,我们会使用音调(高或低)、响度(强或弱)和持续时间(快或慢)的变化来在不同情况下表达自己的真实意图,SeamlessExpressive可以在保留语义内容不变的情况下,精确捕捉说话人的语速和停顿等信息,并使用目标语言进行转述

13a06fdc29f74642b93997b61c55055a.gif

 

下图展示了SeamlessExpressive的整体框架,从实现角度来看,SeamlessExpressive主要基于SeamlessM4T v2模型进行构建,其继承了高质量的语义翻译能力。作者团队提出了一种基于UnitY2单元的韵律感知单元Prosody UnitY2,同时提出了一种无文本的声学模型PRETSSEL,Prosody UnitY2 和 PRETSSEL 可以在传递源语言语音的表现力方面进行相互补充。具体来说,Prosody UnitY2 主要关注语音中的短语级韵律,例如语速或停顿,而 PRETSSEL 则更着重于翻译话语级的表达力,例如整体的声音风格。

927977bab3534840bb0675023db273a0.png

为了实现在多种语言之间的韵律对齐,作者通过数据调试、自动对齐和合成等手段构建了一个大规模的韵律对齐和语音对齐数据集,同时支持英语、法语、德语、意大利语、普通话和西班牙语在内的6种语言。

03. 同声传译SeamlessStreaming

在国际会议中,同声传译是一个非常关键的会议任务,人类口译员需要快速的理解说话人的含义,并根据自己的经验知识在低延迟和准确翻译之间找到一个适当的平衡,还需要留意说话人的语调、停顿和态度等信号,综合来看,该任务的难度系数非常高,SeamlessStreaming完美实现了以上列出的同声传译要点。

2a375e60214942c89e4bab44ef5492c5.gif

与传统翻译系统相比,SeamlessStreaming并不是等说话人说完句子才进行翻译,而是与说话人几乎相同的步调进行翻译,这能够实现一种接近于实时翻译的效果。目前,SeamlessStreaming 支持近 100 种输入和输出语言的自动语音识别和语音到文本翻译。

1394f072ae5b490389a4396d7211240f.png

 

SeamlessStreaming直接从SeamlessM4T v2进行初始化,其构建过程如下图所示,其继承了SeamlessM4T v2模型的多任务实时翻译能力。SeamlessStreaming的高效流推理能力主要来源于研究团队提出的新型EMMA(Efficient Monotonic Multihead Attention)多头注意力模块,EMMA是一种单调注意力方法,其中的每个注意力头都执行单独的同步策略。这使得模型能够智能地判断当前状态是否拥有足够的信息量来生成下一个语音片段或目标文本,这对于低时延的语音翻译至关重要,特别是对于长输入序列。

04. 音频水印技术

虽然目前的大模型可以帮助我们更好的进行生产生活,但同样重要的是,我们必须考虑采取一定的措施来防止这些技术被滥用到有危害的场景中,因此MetaAI研究团队针对Seamless开发了一种音频水印技术,这种水印主要基于一些人耳无法察觉的信号,但仍然可以使用检测器模型在音频中检测到。

6b92c13750f446549d3ed579fa2b3451.png

 

除了能够对生成音频进行身份信息验证之外,Seamless水印还支持抗攻击能力,例如一些破坏者可能会尝试通过添加噪声、回声或过滤某些频率来修改音频,以淡化水印来绕过检测。Seamless水印对多种攻击方式都具有良好的鲁棒性,并且可以实现精确到帧的音频片段定位效果。此外,作者提到,Seamless水印模型的成本非常低,它可以进行单独微调,而不会影响SeamlessExpressive和SeamlessStreaming的翻译效果。

05. 总结

MetaAI发布的Seamless模型为我们展现出了惊人的同声传译效果,并且支持近 100 种语言,其中的多任务基础模型SeamlessM4T v2在多个语音基线上实现了SOTA性能,Seamless Expressive可以保证翻译时保留说话人的韵律和语音风格,SeamlessStreaming中的高效多头注意力EMMA可以有针对性地实现并行低延迟翻译,而无需等待当前话语结束。作为下一代语音智能大模型,Seamless系列模型所展现出的端到端多语言、富有表现力和低时延的流媒体式翻译模式,标志着人工智能技术在语音翻译领域实现了全新的突破。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/229501.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DSP捕获输入简单笔记

之前使用stm32的大概原理是: 输入引脚输入一个脉冲,捕获1开始极性捕获,捕获的是从启动捕获功能开始计数,捕获的是当前的计数值; 例如一个脉冲,捕获1捕获上升沿,捕获2捕获下降沿;而两…

爬虫工作量由小到大的思维转变---<第十二章 Scrapy之sql存储与爬虫高效性的平衡艺术>

前言: (本文仅属于技术性探讨,不属于教文) 刚好,前阵子团队还在闲聊这个问题呢。你知道吗,在数据收集这个行当里,怎么存数据这问题就跟“先有鸡还是先有蓝”一样,没完没了的循环往复。老规矩,咱们先搞清楚我们的“鸡…

reactive数据不响应

我们知道,reactive函数用于创建对象等复杂数据的响应式代理对象,当该对象的属性发生变化时,会自动触发视图更新。 但在Vue 3中,当我们使用reactive创建的对象或数组进行赋值时,尽管能够完成正常的赋值操作&#xff0c…

Linux 系统开机启动流程

可能没有完全理解,后期整理完Linux的内容,应该理解会深入一些,试着用更简洁的方式和图形来记录,以及一些概念的完善 2023-12-14 一、开机流程 BIOS MBR/GPT 加载 BIOS 的硬件信息与进行自检,并依据设定取得第一个可…

TrustZone之调试、跟踪和分析

接下来,我们将查看系统中的调试和跟踪组件,如下图所示: 现代Arm系统包括支持调试和性能分析的广泛功能。在TrustZone中,我们必须确保这些功能不能被用来危害系统的安全性。 关于调试功能,考虑开发新的SoC。不同的开发人员被信任调试系统的不同部分。芯片公司的工程…

第十九章 : Spring Boot 集成RabbitMQ(三)

第十九章 : Spring Boot 集成RabbitMQ(三) 前言 本章节重点:RabbitMQ消息确认机制的代码示例:生产者消息确认机制、Return消息机制、消费端ACK和Nack机制3种消息确认模式。 Springboot 版本 2.3.2.RELEASE ,RabbitMQ 3.9.11,Erlang 24.2消息确认的场景 使用RabbitMQ很…

SearchWP WordPress高级网站内容搜索插件(包含所有专业扩展)

点击阅读SearchWP WordPress高级网站内容搜索插件(包含所有专业扩展)原文 SearchWP WordPress高级网站内容搜索插件是一个非常强大的工具,可以显着增强您网站的搜索功能。通过向网站访问者提供高度相关和精确的搜索结果,它可以有效地简化他们的搜索过程…

C语言使用posix正则表达式库

在C语言中&#xff0c;你可以使用 POSIX 正则表达式库&#xff08;regex.h&#xff09;来进行正则表达式的模式匹配。POSIX 正则表达式库提供了一组函数来编译、执行和释放正则表达式。 下面是使用 POSIX 正则表达式库的基本步骤&#xff1a; 包含头文件 <regex.h>&…

项目管理软件助力科研项目管理

作为一名研究人员&#xff0c;你可能会觉得你的成功取决于你的研究有多创新和你工作有多努力。实际上&#xff0c;创新和勤奋很重要&#xff0c;但聪明地工作也很重要。如果你是那种在早上打开电子邮件并开始自上而下的工作的人&#xff0c;你可能很快就会发现你的电子邮件多得…

论文降重宝同义词替换功能的优势与特点 PaperBERT

大家好&#xff0c;今天来聊聊论文降重宝同义词替换功能的优势与特点&#xff0c;希望能给大家提供一点参考。 以下是针对论文重复率高的情况&#xff0c;提供一些修改建议和技巧&#xff0c;可以借助此类工具&#xff1a; 标题&#xff1a;论文降重宝同义词替换功能的优势与特…

C# WPF上位机开发(函数运行时间分析)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 上位机除了基本功能和稳定性之外&#xff0c;还有一个要注意的就是运行效率的问题。如果我们想提高软件的运行效率&#xff0c;单位时间做更多的工…

GoLand couldn‘t start listener: listen tcp 198.18.0.45:53638

项目场景&#xff1a; 使用Goland以Debug的方式运行&#xff0c;无法启动 问题描述 GoLand couldnt start listener: listen tcp 198.18.0.45:53638按照提示去查看端口发现并没有占用清除Goland缓存重启没有用下载安装Delve还是无法启动 原因分析&#xff1a; debug的过程中…

1.新入手的32位单片机资源和资料总览

前言&#xff1a; 学了将近1年的linux驱动和uboot&#xff0c;感觉反馈不足&#xff0c;主要是一直在学各种框架&#xff0c;而且也遇到了门槛&#xff0c;比如驱动部分&#xff0c;还不能随心所欲地编程&#xff0c;原因是有些外设的原理还不够深刻、有些复杂的底层驱动的代码…

Spring Boot 测试容器支持中文文档

本文为官方文档直译版本。原文链接 Spring Boot 测试容器支持中文文档 引言在开发时使用测试容器开发时贡献动态属性导入测试容器声明类在开发时将 DevTools 与 Testcontainers 结合使用 引言 除了在集成测试中使用 Testcontainers 外&#xff0c;在开发过程中也可以使用它们。…

计算机网络:数据链路层(VLAN)

今天又学到一个知识&#xff0c;加油&#xff01; 目录 一、传统局域网的局限&#xff08;促进VLAN的诞生&#xff09; 二、VLAN简介 三、VLAN的实现 总结 一、传统局域网的局限&#xff08;促进VLAN的诞生&#xff09; 缺乏流量隔离:即使把组流量局域化道一个单一交换机中…

Python Django 连接 PostgreSQL 操作实例

更多Python学习内容&#xff1a;ipengtao.com 大家好&#xff0c;我是彭涛&#xff0c;今天为大家分享 Python Django 连接 PostgreSQL 操作实例&#xff0c;全文3500字&#xff0c;阅读大约10分钟 在Web开发中&#xff0c;使用Django连接到PostgreSQL数据库是一种常见的选择。…

06 Rust 枚举类

简单使用 enum Person {Good,Bad }let p1 Person::Good;为枚举成员添加属性 #[derive(Debug)] enum Person {Good(String), // 元组的方式描述属性Bad { name: String }, // 结构体方式描述属性, 可为属性命名 }fn main() {let p1 Person::Good("Jim"…

svn 安装

安装系统 ubuntu 22 安装命令&#xff1a; sudo apt-get install subversion 创建第一个工程&#xff1a; 创建版本库、项目 1、先创建svn根目录文件夹 sudo mkdir /home/svn 2、创建项目的目录文件夹 sudo mkdir /home/svn/demo_0 svnadmin create /home/svn/demo_0 配置&a…

Elasticsearch面试题

文章目录 为什么要使用 Elasticsearch&#xff1f;Elasticsearch 的 master 选举流程&#xff1f;Elasticsearch 集群脑裂问题&#xff1f;Elasticsearch 索引文档的流程&#xff1f;Elasticsearch 更新和删除文档的流程&#xff1f;GC 方面&#xff0c;在使用 Elasticsearch 时…

nodejs+vue+微信小程序+python+PHP邮件过滤系统的设计与实现-计算机毕业设计推荐

邮件过滤系统根据权限类型进行分类&#xff0c;主要可分为用户和管理员二大模块。 管理员模块主要根据管理员对整个系统的管理进行设计&#xff0c;提高了管理的效率和规范[11]。邮件过滤系统综合网络空间开发设计要求。该系统主要设计并完成了管理过程中的用户登录、个人信息修…