微软的人工智能语音生成器在测试中达到与人类同等水平

微软公司开发了一种新的神经编解码语言模型 Vall-E,在自然度、语音鲁棒性和说话者相似性方面都超越了以前的成果。它是同类产品中第一个在两个流行基准测试中达到人类同等水平的产品,而且显然非常逼真,以至于微软不打算向公众开放。

VALL-E 2 是神经编解码器语言模型的最新进展,它标志着零镜头文本到语音合成 (TTS) 的里程碑,首次实现了与人类平等。在其前身 VALL-E 所奠定的基础上,新的迭代版本引入了两项重大增强功能,以提高其性能: 重复感知采样(Repetition Aware Sampling)通过考虑解码历史中的标记重复,改进了原始的核采样过程。它不仅能稳定解码,还能避免在 VALL-E 中遇到的无限循环问题。分组编码建模将编解码器编码组织成组,有效缩短了序列长度,不仅提高了推理速度,还解决了长序列建模的难题。我们在 LibriSpeech 和 VCTK 数据集上进行的实验表明,VALL-E 2 在语音鲁棒性、自然度和说话人相似度方面都超过了以前的零镜头 TTS 系统。在这些基准测试中,VALL-E 2 是第一个达到人类同等水平的系统。此外,VALL-E 2 还能始终如一地合成高质量语音,即使是传统上因句子复杂或短语重复而具有挑战性的句子也不例外。

在这里插入图片描述
分组编码建模不仅能通过减少序列长度来加快推理速度,还能通过缓解长上下文建模问题来提高性能。基于解码历史中的标记重复,重复感知采样增强了解码过程的稳定性,避免了 VALL-E 中遇到的无限循环问题。

在这里插入图片描述

VALL-E 2 首次实现了人类平价零镜头 TTS 性能。在这种情况下,人类平价表示 VALL-E 2 的鲁棒性、自然度和相似度指标都超过了地面实况样本(WER(GroundTruth) - WER(VALL-E 2) >0,CMOS(VALL-E 2) - CMOS(GroundTruth) >0,SMOS(VALL-E 2) - SMOS(GroundTruth)> 0),这意味着 VALL-E 2 可以生成准确、自然、与原说话人声音完全一致的语音,其性能可与人类相媲美。值得注意的是,这一结论完全来自 LibriSpeech 和 VCTK 数据集的实验结果。

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/44405.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【每日一练】python类和对象现实举例详细讲解

""" 本节课程目的: 1.掌握类描述现实世界实物思想 2.掌握类和对象的关系 3.理解什么事面向对象 """ #比如设计一个闹钟,在这里就新建一个类 class Clock:idNone #闹钟的序列号,也就是类的属性priceNone #闹…

【开源之美】:WinMerge Files

一、引言 强大的windows端文件比较工具,跟Beyond Compare相比,更为强大。但是这里我们推荐他的原因,不仅是因为作为一个使用的工具,主要是因为他开源,可以通过调试优秀的源代码,进一步的提升C项目设计和编…

Alternative to Receptive field in Transformers and what factors impact it

题意:Transformer中感受野的替代概念及其影响因素 问题背景: I have two transformer networks. One with 3 heads per attention and 15 layers in total and second one with 5 heads per layer and 30 layers in total. Given an arbitrary set of d…

什么是数据模型?数据模型与数据治理有什么关系?

在企业数据治理的广阔领域中,首要且关键的一步是明确沟通数据治理的需求。这包括对企业所持有的数据种类、数据存储位置、以及当前数据管理的具体情况有一个清晰的了解和记录。了解企业的数据资产是制定有效数据治理策略的基础。企业需要识别和盘点所有类型的数据资…

AIGC产品经理学习路径

基础篇(课时 2 ) AIGC 行业视角 AIGC 的行业发展演进:传统模型/深度学习/大模型 AIGC 的产品设计演进:AI Embedded / AI Copilot / AI Agen AIGC 的行业产业全景图 AIGC 的产品应用全景图 AIGC 职业视角 AI 产品经理/ AIGC…

实验9 存储过程与函数的创建管理实验

一、实验目的: 理解存储过程和函数的概念。掌握创建存储过程和函数的方法。掌握执行存储过程和函数的方法。掌握游标的定义、使用方法。 二、实验内容 1.某超市的食品管理的数据库的Food表,Food表的定义如表所示, Food表的定义…

【进阶篇-Day8:JAVA中递归、异常的介绍】

目录 1、递归的介绍和使用1.1 递归的介绍1.2 案例案例一:案例二:案例三:案例四: 1.3 总结 2、异常的介绍和使用2.1 异常的介绍:(1)能够看懂异常(2)异常的体系接口和分类&…

苹果入局,AI手机或将实现“真智能”?

【潮汐商业评论/原创】 “AI应用智能手机不就是现在的AI手机。” 当被问到现阶段对AI手机的看法时,John如是说。“术业有专攻,那么多APP在做AI功能,下载用就是了,也用不着现在换个AI手机啊。” 对于AI手机,或许大多…

Windows安装和使用Doccano标注工具

简介 开源链接:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners. Open source annotation tool for machine learning practitioners. Doccano是一款开源的文本标注工具,由人工智能公司Hironsan开发并在G…

【算法】代码随想录之数组

文章目录 前言 一、二分查找法(LeetCode--704) 二、移除元素(LeetCode--27) 三、有序数组的平方(LeetCode--977) 四、长度最小的子数组(LeetCode--209) 五、螺旋矩阵II&#x…

花几千上万学习Java,真没必要!(二)

1、注释: java代码注释分3种: 单行注释://注释信息 多行注释: /*注释信息*/ 文档注释:/**注释信息*/ public class TestComments {// 这是单行注释,用于注释单行代码或解释代码功能/* 这是多行注释,用于注释多行代码…

Kotlin runCatching try-catch耗时比较

Kotlin runCatching try-catch耗时比较 fun main(args: Array<String>) {val lists arrayListOf("z")val idx 10/***纳秒统计** ns&#xff08;nanosecond&#xff09;&#xff1a;纳秒。一秒的10亿分之一&#xff0c;10的-9次方秒。*   1纳秒0.000001 毫秒…

2024年,搞AI就别卷模型了

你好&#xff0c;我是三桥君 2022年11月30日&#xff0c;OpenAI发布了一款全新的对话式通用人工智能工具——ChatGPT。 该工具发布后&#xff0c;仅用5天时间就吸引了100万活跃用户&#xff0c;而在短短2个月内&#xff0c;其活跃用户数更是飙升至1亿&#xff0c;成为历史上增…

ARP协议介绍与ARP协议的攻击手法

ARP是什么&#xff1f; ARP是通过网络地址&#xff08;IP&#xff09;来定位机器MAC地址的协议&#xff0c;它通过解析网络层地址&#xff08;IP&#xff09;来找寻数据链路层地址&#xff08;MAC&#xff09;的网络传输协议。 对个定义不能理解的话&#xff0c;可以结合 TCP/I…

《恋与深空》2.0上线肉鸽模式,乙游玩家会买账吗?

乙游和肉鸽&#xff0c;看似八竿子打不着的两个赛道&#xff0c;被叠纸给融合起来了。 根据《恋与深空》官方消息&#xff0c;即将在7月15日更新的2.0交错视界版本中&#xff0c;会上线全新常驻玩法“混沌深网”&#xff0c;配置高随机性Roguelike模式&#xff0c;并搭载了管理…

理想文档发布了~一个集合了多个优秀开源项目的在线云文档

两年前我做了一个简单的在线云文档项目&#xff0c;选择了开源的思维导图、白板、流程图、幻灯片等项目&#xff0c;在它们基础上添加了云存储的功能&#xff0c;然后写了一个简单的工作台管理文件夹和文件&#xff1a; 放在了自己的个人网站上使用&#xff0c;同时写了一篇水文…

[web]-代码审计-运维失误

打开页面可以看到如下&#xff1a; 1、查看源代码&#xff0c;发现验证码功能是正常生成的随机的&#xff0c;输入也没有过滤&#xff0c;无法采用爆破。 2、根据题目提示运维失误&#xff0c;使用dirsearch扫描&#xff0c;发现提交的地址check.php, 使用php5、.bak可以打开&…

2.The DispatcherServlet

The DispatcherServlet Spring的Web MVC框架与许多其他Web MVC框架一样&#xff0c;是请求驱动的&#xff0c;围绕一个中央Servlet&#xff08;即DispatcherServlet&#xff09;设计&#xff0c;该Servlet将请求分派给控制器&#xff0c;并提供其他功能以促进Web应用程序的开发…

程序的控制结构——if-else语句(双分支结构)【互三互三】

目录 &#x1f341; 引言 &#x1f341;if-else语句&#xff08;双分支结构&#xff09; &#x1f449;格式1&#xff1a; &#x1f449;功能&#xff1a; &#x1f449;程序设计风格提示&#xff1a; &#x1f449;例题 &#x1f449;格式2&#xff1a; &#x1f449;…

Monaco 使用 ColorProvider

Manco 中可以使用调色板对色值进行修改&#xff0c;首先看一下调色版效果。 调色板是 Monaco-Editor 中一个特别的组件&#xff0c;通过两个方法实现呼出调色板&#xff0c;provideColorPresentations 显示调色窗口&#xff0c;provideDocumentColors 监听页面的变更&#xff0…