语音合成(TTS)开源调研与测评

2023年作为AI元年,各个领域的技术都有大规模的革新,语音领域的TTS(语音合成)也有很多新技术出现,比如Bert-Vits2、OpenVoice等等,都风靡一时。

笔者由于工作需要,近一个月在调研开源TTS,由于业务需要,主要看合成音频的效果(MOS)和合成速度(RTF)这两个指标,以及克隆(Finetune)的效果,因为涉及的开源比较多,就不一一介绍模型原理了,后面会逐步发帖讲解(等我搞明白再说)。废话不多说,我们开始。

根据模型形态,TTS模型可以分为2大流派:两阶段式和端到端式。所谓两阶段式TTS,就是从文本输入到音频输出,中间经过两个模型,声学模型(Acoustic Model)和声码器(Vocoder),声学模型将文件转为梅尔频谱,声码器将梅尔频谱转化为波形,也就是我们听到的声音;端到端式TTS,顾名思义,就是一个模型搞定一切。

从时间发展上看,以2020年为界,之前可以说是两阶段式TTS的天下,声学模型主要有tacotron、tacotron2、fastspeech、fastspeech2,声码器就多了,如hifigan、melgan、waveglow、wavenet等等;自从2021年Vits出现之后,打破了两阶段式TTS的模式,毕竟谁不喜欢效果更好+训练更方便的模型。Vits作为端到端TTS的鼻祖,后续大家的研究基本都以它为基础,如Vits2、Bert-Vits2、Vits-Fast、MeloTTS 等等。

后面的讲解也分为

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/781958.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于vue2和vue3

Vue.js 是一个流行的前端框架,用于构建用户界面。Vue2 和 Vue3 是该框架的两个主要版本,它们之间存在一些关键的区别。下面我将详细介绍这两个版本的区别,并提供使用案例来说明这些区别。 响应式系统的底层实现: Vue2:…

nowcoder运维面试题集锦

TCP套接字中不会阻塞的是哪一种操作? 在TCP套接字中,不会阻塞的操作是绑定操作。具体来说,bind函数用于将特定的IP地址和端口号与套接字关联,这个操作本身并不引起阻塞。而其他一些操作,如读操作(read、rea…

京西商城——商品相关接口开发

文章目录 接口开发django原生CBV开发商品分类菜单接口继承APIView开发商品类型分类接口通过序列化器开发商品详情接口 接口开发 django原生CBV开发商品分类菜单接口 先直接给出最终的views类,先简单的解释一下: 在基于CBV(基于类视图的&am…

二维数组定义 求和,最值,求平均值 JS

定义二维数组 二维数组的求和,最值,求平均值 Eg1 // 二维数组 const matrix [[1, 2, 3],[4, 5, 6],[7, 8, 9] ];// 初始化求和、最大值和最小值 let sum 0; let max Number.MIN_VALUE; let min Number.MAX_VALUE;// 遍历二维数组 for (let i 0; i…

基于SSM的戒烟网站(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的戒烟网站(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring SpringMv…

c++20中的jthread再谈

一、介绍 在前面的C20新功能中,简单的介绍过相关的std::jthread的应用。当时觉得它虽然比std::thread方便一些,但也没有多大的优势。可在后面的不断的学习中,发现std::jthread的使用上确实有优秀之处,相对于传统的线程编程&#…

大数据学习-2024/3/30-MySQL基本语法使用介绍实例

学生信息表 create table studend(stu_id int primary key auto_increment comment 学生学号,stu_name varchar(20) not null comment 学生名字,mobile char(11) unique comment 手机号码,stu_sex char(3) default 男 comment 学生性别,birth date comment 出生日期,stu_time …

《操作系统导论》第15章读书笔记:机制:地址转换(address translation)

《操作系统导论》第15章读书笔记:机制:地址转换(address translation) —— 杭州 2024-03-30 夜 文章目录 《操作系统导论》第15章读书笔记:机制:地址转换(address translation)1.前…

正点原子imx6ull-mini不使用网络更新内核系统

参考视频:【【正点原子】Linux网络环境搭建篇】 参考文档:从正点原子官方下载 这几天在学imx6ull写网络驱动检测出网卡,但是一直ping不通ubuntu,电脑还有ubuntu、开发板都处于同一个网段,跟着正点原子的视频试了双网…

新一代信息技术元年汇总

元年汇总: 大数据 1998 区块链 2008 云计算 2012 RPA 2018 移动通信技术(5G的元年) 2019

DW1000 定位技术解析

Qorvo 的 DW1000 是一款完全集成的单芯片超宽带 (UWB) 低功耗、低成本收发器 IC,符合 IEEE 802.15.4a 标准。它可用于 2 向测距或 TDoA 定位系统,以 10 厘米的精度定位资产。它还支持速率高达 6.8 Mbps 的数据传输。DW1000 由一个包含一个接收器137和一个…

flutter Got socket error trying to find package nested at

flutter Got socket error trying to find package nested at xxx 报错信息:“Got socket error trying to find package nested at” 通常出现在Flutter尝试从pub.dev获取依赖包时,由于网络问题导致无法连接到pub.dev或者无法正确解析包的路径。 例如&…

2_1.Linux中的网络配置

#1.什么是IP ADDRESS# internet protocol ADDRESS ##网络进程地址 ipv4 internet protocol version 4 ip是由32个01组成 11111110.11111110.11111110.11111110 254.254.254.254 #2.子网掩码# 用来划分网络区域 子网掩码非0的位对应的ip上的数字表示这个ip的网络位 子网掩码0位…

S7-1500PLC与ABB机器人RobotStudio调试演示

(1)建立空工作站 (2)选择机器人、导入吸盘、托盘、传送带 (3) 将导入的吸盘变为工具 (4)创建机器人系统 布局如下 (5)创建物体 (6)设置物体本地原点 (7)创建传送带Smart组件

单例设计模式(2)

单例设计模式(2) 单例模式存在的问题 单例对 OOP 特性的支持不友好 oop的特性:封装、继承、多态、抽象;以Id生成器代码为例,如果未来某一天,我们希望针对不同的业务采用不同的 ID 生成算法。比如&#x…

通过多选按钮选择需要修改什么字段

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、代码 前言 想要更新什么字段就将该字段更新,第一想到通过多选框控制,通过一系列的尝试,做了如下的布局和功能 直接上代…

[操作系统课设]GeeKOS操作系统的研究与实现

一.GeekOS操作系统概论 1.1教学操作系统 (1)针对RISC结构MIPS处理器 操作系统:Nachos、OS/161 (2)针对CISC结构Intel IA-32 (or x86)通用处理 操作系统:MINIX、GeekOS 我们用到的是:GeekOS 1&…

二分(二段性)

本文用于记录个人算法竞赛学习,仅供参考 一.二分算法 二分算法一般用于具有二段性的问题,数据不一定具有单调性,所以单调可二分,可二分不一定就要单调。 二.整数二分 1. 模板一:将区间[l, r]划分为[l, mid] 和 [mid…

字符串(KMP)

P3375 【模板】KMP - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) #include<iostream> #include<algorithm> #include<cstdio> #include<cstring> using namespace std; #define ll long long const int N1e6100; int n0,m; char s1[N]; char s2[N];…

36.HarmonyOS鸿蒙系统 App(ArkUI) 创建第一个应用程序hello world

36.HarmonyOS App(ArkUI) 创建第一个应用程序helloworld 线性布局 1.鸿蒙应用程序开发app_hap开发环境搭建 3.DevEco Studio安装鸿蒙手机app本地模拟器 打开DevEco Studio,点击文件-》新建 双击打开index.ets 复制如下代码&#xff1a; import FaultLogger from ohos.fau…