【文字到语音的论文总结】

news/2025/11/2 6:38:25/文章来源:https://blog.csdn.net/qq_43210957/article/details/132761079

1.文字到语音的整个过程

文字到语音的一般整体结构

主要是下面这个流程，每个网络可能会把其中两者或是三者融合在一起来；
在这里插入图片描述

长度不同的问题

生成的语音可能和文字的长度并不一样，因此需要解决这个问题

Tactron使用的是交叉注意力的方式解决他们长度不同的问题
fastSpeech直接预测了输出的长度，通过将文本信息拷贝几分的方式，获得了相同的长度。

2.各种具体的网络结构

2.1WaveNet

2.1.1研究动机

原有的语音生成模型大多采用RNN这个东西太慢了，不如采用一个卷积的结构，来进行替代;
卷积是前后都感知的这不合适，因此改一下，只让其卷进去前面的部分，这样就合理了。称为“因果卷积”
既然使用了卷积，那么使用空洞卷积就自然而然了。

2.1.2结构和类型

输入输出

将声学模型和发声器全部都融合在一起了
输入处理过的字符串信息，输出语音

类型是自回归

2.1.3不能解决的问题

虽然训练的时候比较快，但是在预测的时候，开始启动时候因为空洞卷积的问题需要多轮。（这里不确定需要再确认）

2.2tactron

在这里插入图片描述

2.2.1研究动机

1.前人的融合工作还是不太够，不能真正的端到端，因此作者这里再融合一下；
2.文本序列较长的时候会导致较大的累计误差，作者使用交叉注意力机制来解决这个问题，这个貌似也是交叉注意力本身的研究动机；
3.预测较慢，由于语音信息前后比较相近，因此作者就直接一次预测三帧。

2.2.2结构和类型

输入输出

将字符串分析和声学模型融合在一起了
输入是字符串，输出是梅尔频谱

网络结构

使用机器翻译借鉴过来的模型CBHG

类型是自回归

2.2.3奇怪的点

虽然声学模块用的是自回归的，但是这个交叉注意力一进去，其实每个节点不都有全局信息了吗

2.3fastSpeech

2.3.1研究动机

采用自回归是有一定问题的，因为自回归是非常缓慢的，并且由于累计误差会在最终结果当中产生重大错误；
前人采用自回归的问题是被迫为之，主要是不知道每个文字需要说多长时间，于是本文作者发明了一个先预测每个字说多长时间再整体预测全流程该怎么说的网络结果。
想要实现这个预测说多久其实也不是很复杂，因为可以用别人训练好的TTS模型直接来进行得到。

2.3.2 结构和类型

输入输出

也是将文本分析和声学模型融合在一起
输入是文字串输出是梅尔谱

类型是非自回归

2.4fastSpeech2

之前的网络较为复杂，消除蒸馏可以更好的简化网络
之前通过长度预测可以调整输入的长度对齐，那么是否可以通过类似位置加入其他模块来增加更多语音信息（音高、能量、情感等）；

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/72702.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Vue + Element UI 前端篇（十）：动态加载菜单

Vue + Element UI 前端篇（十）：动态加载菜单

Vue Element UI 实现权限管理系统前端篇（十）：动态加载菜单动态加载菜单之前我们的导航树都是写死在页面里的，而实际应用中是需要从后台服务器获取菜单数据之后动态生成的。我们在这里就用上一篇准备好的数据格式Mock出模…

阅读更多...

vue3项目，点击分页器，列表接口请求两次的问题

vue3项目，点击分页器，列表接口请求两次的问题

接手别人做的项目，出现了一个分页器bug，vue3element plus，记录一下。点击分页器，却出现了调用两次列表接口的情况，并且第二次请求，分页器的pageNum自动变成1，这样就导致了分页器bug&#xff0…

阅读更多...

k8s部署redis 3主3从

k8s部署redis 3主3从

k8s部署redis6节点，组成3主3从集群模式一般来说，redis部署有三种模式。单实例模式，一般用于测试环境。哨兵模式集群模式后两者用于生产部署哨兵模式在redis3.0以前，要实现集群一般是借助哨兵sentinel工具来监控master节点…

阅读更多...

1.4 空间中的曲线和曲面

1.4 空间中的曲线和曲面

空间中的曲线与曲面知识点1 曲面方程定义定义1 如果曲面 S 与方程F (x,y,z ) 0 有下述关系： （1） 曲面 S 上的任意点的坐标都满足此方程 （2）不在曲面S上的点的坐标不满足此方程则F（x,y,z&#xff0…

阅读更多...

element-plus 表格-定位到指定行

element-plus 表格-定位到指定行

表格数据量一页占不下的时候，需要定位到指定的行，显示在可视区域中。采用 scrollTo滚动到一组特定坐标(options: ScrollToOptions | number, yCoord?: number) 核心代码 /** 滚动到指定行 tableScrollToRowtableElement：表格元素 instal…

阅读更多...

Redis 集群

Redis 集群

1. 是什么 1.1 定义由于数据量过大，单个Master复制集难以承担，因此需要对多个复制集进行集群，形成水平扩展每个复制集只负责存储整个数据集的一部分，这就是Redis的集群，其作用是提供在多个Redis节点间共享数据的程序…

阅读更多...

从零学算法235

从零学算法235

235.给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。百度百科中最近公共祖先的定义为：“对于有根树 T 的两个结点 p、q，最近公共祖先表示为一个结点 x，满足 x 是 p、q 的祖先且 x 的深度尽可能大（一个节点也可以是它…

阅读更多...

103.36.167.X在服务器删除、复制文件的时候会出现卡的情况，是什么原因？

103.36.167.X在服务器删除、复制文件的时候会出现卡的情况，是什么原因？

服务器硬盘在删除文件或复制文件时出现卡顿情况可能有多种原因。以下是一些常见的问题和解决方法： 硬盘性能低下：如果服务器硬盘的读写速度较慢，可能会导致卡顿现象。解决方法可以是升级到更高性能的硬盘或者使用RAID技术提升硬盘读写速度。 …

阅读更多...

K8S原理架构与实战教程

K8S原理架构与实战教程

文章目录一、背景1.1 物理机时代、虚拟机时代、容器化时代1.2 容器编排的需要二、K8S架构2.2 Worker节点三、核心概念3.1 Pod3.2 Deployment3.3 Service3.4 Volume3.5 Namespace 四、K8S安装五、kubectl常用命令六、K8S实战6.1 水平扩容6.2 自动装箱6.2.1 节点污点6.2.2 Pod…

阅读更多...

pico学习进程记录已经开发项目

pico学习进程记录已经开发项目

Pico pin脚定义 Pico 运行准备下载uf2文件 https://pico.org.cn/ （注意运行micropython的文件和运行c/c的不一样） 装载uf2文件：按住pico的按键，然后通过micro usb连接电脑（注意：如果用的线材&#xff0c…

阅读更多...

LeetCode刷题笔记【27】：贪心算法专题-5（无重叠区间、划分字母区间、合并区间）

LeetCode刷题笔记【27】：贪心算法专题-5（无重叠区间、划分字母区间、合并区间）

文章目录前置知识435. 无重叠区间题目描述参考<452. 用最少数量的箭引爆气球>, 间接求解直接求"重叠区间数量" 763.划分字母区间题目描述贪心 - 建立"最后一个当前字母"数组优化marker创建的过程 56. 合并区间题目描述解题思路代码① 如果有重合就合…

阅读更多...

打造西南交通感知新范式，闪马智能携手首讯科技落地创新中心

打造西南交通感知新范式，闪马智能携手首讯科技落地创新中心

9月4日，2023年中国国际智能产业博览会（以下简称“智博会”）在重庆拉开帷幕。大会期间，由上海闪马智能科技有限公司（以下简称“闪马智能”）与重庆首讯科技股份有限公司（以下简称“首讯科技”&…

阅读更多...

后端/DFT/ATPG/PCB/SignOff设计常用工具/操作/流程及一些文件类型

后端/DFT/ATPG/PCB/SignOff设计常用工具/操作/流程及一些文件类型

目录 1.PD/DFT常用工具及流程 1.1 FC和ICC2 1.2 LC (Library compiler) 1.3 PrimeTime 1.4 Redhawk与PA 1.5 Calibre和物理验证PV 1.6 芯片设计流程 2.后端、DFT、ATPG的一些常见文件 2.1 LEF和DEF 2.2 ATPG的CTL和STIL 2.3 BSDL 2.4 IPXCT 3.PCB设计的一些工作和工…

阅读更多...

数学建模：模糊综合评价分析

数学建模：模糊综合评价分析

🔆 文章首发于我的个人博客：欢迎大佬们来逛逛数学建模：模糊综合评价分析文章目录数学建模：模糊综合评价分析综合评价分析常用评价方法一级模糊综合评价综合代码多级模糊综合评价总结综合评价分析构成综合评价类问题的五个…

阅读更多...

【Leetcode打卡冲冲冲】

【Leetcode打卡冲冲冲】

文章目录 121.买卖股票的最佳时机 121.买卖股票的最佳时机解题思路 1.本题目的是获得利润最大。 2.根据目来设计，区间内利润最大值> 因为数据是顺序的不可逆，可以选择当前位置与历史区间的最小成本，与最大利润。 3.当处理完整个数据&…

阅读更多...

【SpringMVC]获取参数的六种方式

【SpringMVC]获取参数的六种方式

目录 1.通过ServletAPI获取 2.通过控制器方法的形参获取 3.RequestParam：将请求参数和控制器方法的形参绑定 4.RequestHeader：将请求头信息与控制器方法的形参的值进行绑定 5. CookieValue：将cookie数据和控制器方法的形参绑定 Cookie&…

阅读更多...

gitlab 点击Integrations出现500错误

gitlab 点击Integrations出现500错误

背景：在新服务器重新搭建了gitlab，并导入原来gitlab的备份，在项目中点击点击Integrations出现500错误。解决方法：1.进入新服务器，将 /etc/gitlab/gitlab-secrets.json重命名为 /etc/gitlab/gitlab-secrets.json.bak …

阅读更多...

yo！这里是进程控制

yo！这里是进程控制

目录前言进程创建 fork()函数写时拷贝进程终止退出场景退出方法进程等待等待原因等待方法 1.wait函数 2.waitpid函数等待结果（status介绍） 进程替换替换原理替换函数进程替换例子 shell简易实现后记前言学习完操作…

阅读更多...

Springboot 实践（14）spring config 配置与运用--手动刷新

Springboot 实践（14）spring config 配置与运用--手动刷新

前文讲解Spring Cloud zuul 实现了SpringbootAction-One和SpringbootAction-two两个项目的路由切换，正确访问到项目中的资源。这两个项目各自拥有一份application.yml项目配置文件，配置文件中有一部分相同的配置参数，如果涉及到修改&#xf…

阅读更多...

【前端】CSS-Grid网格布局

【前端】CSS-Grid网格布局

目录一、grid布局是什么二、grid布局的属性三、容器属性1、display①、语句②、属性值 2、grid-template-columns属性、grid-template-rows属性①、定义②、属性值1）、固定的列宽和行高2）、repeat()函数3）、auto-fill关键字4）、f…

阅读更多...

最新文章