【文字到语音的论文总结】

1.文字到语音的整个过程

文字到语音的一般整体结构

主要是下面这个流程,每个网络可能会把其中两者或是三者融合在一起来;
在这里插入图片描述

长度不同的问题

生成的语音可能和文字的长度并不一样,因此需要解决这个问题

  • Tactron使用的是交叉注意力的方式解决他们长度不同的问题
  • fastSpeech直接预测了输出的长度,通过将文本信息拷贝几分的方式,获得了相同的长度。

2.各种具体的网络结构

2.1WaveNet

2.1.1研究动机

  • 原有的语音生成模型大多采用RNN这个东西太慢了,不如采用一个卷积的结构,来进行替代;
  • 卷积是前后都感知的这不合适,因此改一下,只让其卷进去前面的部分,这样就合理了。称为“因果卷积”
  • 既然使用了卷积,那么使用空洞卷积就自然而然了。

2.1.2结构和类型

输入输出

将声学模型和发声器全部都融合在一起了
输入处理过的字符串信息,输出语音

类型是自回归

2.1.3不能解决的问题

  • 虽然训练的时候比较快,但是在预测的时候,开始启动时候因为空洞卷积的问题需要多轮。(这里不确定需要再确认)

2.2tactron

在这里插入图片描述

2.2.1研究动机

1.前人的融合工作还是不太够,不能真正的端到端,因此作者这里再融合一下;
2.文本序列较长的时候会导致较大的累计误差,作者使用交叉注意力机制来解决这个问题,这个貌似也是交叉注意力本身的研究动机;
3.预测较慢,由于语音信息前后比较相近,因此作者就直接一次预测三帧。

2.2.2结构和类型

输入输出

将字符串分析和声学模型融合在一起了
输入是字符串,输出是梅尔频谱

网络结构

使用机器翻译借鉴过来的模型CBHG

类型是自回归

2.2.3奇怪的点

虽然声学模块用的是自回归的,但是这个交叉注意力一进去,其实每个节点不都有全局信息了吗

2.3fastSpeech

2.3.1研究动机

  • 采用自回归是有一定问题的,因为自回归是非常缓慢的,并且由于累计误差会在最终结果当中产生重大错误;
  • 前人采用自回归的问题是被迫为之,主要是不知道每个文字需要说多长时间,于是本文作者发明了一个先预测每个字说多长时间再整体预测全流程该怎么说的网络结果。
  • 想要实现这个预测说多久其实也不是很复杂,因为可以用别人训练好的TTS模型直接来进行得到。

2.3.2 结构和类型

输入输出

也是将文本分析和声学模型融合在一起
输入是文字串输出是梅尔谱

类型是非自回归

2.4fastSpeech2

  • 之前的网络较为复杂,消除蒸馏可以更好的简化网络
  • 之前通过长度预测可以调整输入的长度对齐,那么是否可以通过类似位置加入其他模块来增加更多语音信息(音高、能量、情感等);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/72702.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue + Element UI 前端篇(十):动态加载菜单

Vue Element UI 实现权限管理系统 前端篇(十):动态加载菜单 动态加载菜单 之前我们的导航树都是写死在页面里的,而实际应用中是需要从后台服务器获取菜单数据之后动态生成的。 我们在这里就用上一篇准备好的数据格式Mock出模…

vue3项目,点击分页器,列表接口请求两次的问题

接手别人做的项目,出现了一个分页器bug,vue3element plus,记录一下。 点击分页器,却出现了调用两次列表接口的情况,并且第二次请求,分页器的pageNum自动变成1,这样就导致了分页器bug&#xff0…

k8s部署redis 3主3从

k8s部署redis6节点,组成3主3从集群模式 一般来说,redis部署有三种模式。 单实例模式,一般用于测试环境。 哨兵模式 集群模式后两者用于生产部署 哨兵模式 在redis3.0以前,要实现集群一般是借助哨兵sentinel工具来监控master节点…

1.4 空间中的曲线和曲面

空间中的曲线与曲面 知识点1 曲面方程定义 定义1 如果曲面 S 与方程F (x,y,z ) 0 有下述关系: (1) 曲面 S 上的任意点的坐标都满足此方程 (2)不在曲面S上的点的坐标不满足此方程 则F(x,y,z&#xff0…

Redis 集群

1. 是什么 1.1 定义 由于数据量过大,单个Master复制集难以承担,因此需要对多个复制集进行集群,形成水平扩展每个复制集只负责存储整个数据集 的一部分,这就是Redis的集群,其作用是提供在多个Redis节点间共享数据的程序…

K8S原理架构与实战教程

文章目录 一、背景1.1 物理机时代、虚拟机时代、容器化时代1.2 容器编排的需要 二、K8S架构2.2 Worker节点 三、核心概念3.1 Pod3.2 Deployment3.3 Service3.4 Volume3.5 Namespace 四、K8S安装五、kubectl常用命令六、K8S实战6.1 水平扩容6.2 自动装箱6.2.1 节点污点6.2.2 Pod…

pico学习进程记录已经开发项目

Pico pin脚定义 Pico 运行准备 下载uf2文件 https://pico.org.cn/ (注意运行micropython的文件和运行c/c的不一样) 装载uf2文件:按住pico的按键,然后通过micro usb连接电脑(注意:如果用的线材&#xff0c…

LeetCode刷题笔记【27】:贪心算法专题-5(无重叠区间、划分字母区间、合并区间)

文章目录 前置知识435. 无重叠区间题目描述参考<452. 用最少数量的箭引爆气球>, 间接求解直接求"重叠区间数量" 763.划分字母区间题目描述贪心 - 建立"最后一个当前字母"数组优化marker创建的过程 56. 合并区间题目描述解题思路代码① 如果有重合就合…

打造西南交通感知新范式,闪马智能携手首讯科技落地创新中心

9月4日&#xff0c;2023年中国国际智能产业博览会&#xff08;以下简称“智博会”&#xff09;在重庆拉开帷幕。大会期间&#xff0c;由上海闪马智能科技有限公司&#xff08;以下简称“闪马智能”&#xff09;与重庆首讯科技股份有限公司&#xff08;以下简称“首讯科技”&…

后端/DFT/ATPG/PCB/SignOff设计常用工具/操作/流程及一些文件类型

目录 1.PD/DFT常用工具及流程 1.1 FC和ICC2 1.2 LC (Library compiler) 1.3 PrimeTime 1.4 Redhawk与PA 1.5 Calibre和物理验证PV 1.6 芯片设计流程 2.后端、DFT、ATPG的一些常见文件 2.1 LEF和DEF 2.2 ATPG的CTL和STIL 2.3 BSDL 2.4 IPXCT 3.PCB设计的一些工作和工…

数学建模:模糊综合评价分析

&#x1f506; 文章首发于我的个人博客&#xff1a;欢迎大佬们来逛逛 数学建模&#xff1a;模糊综合评价分析 文章目录 数学建模&#xff1a;模糊综合评价分析综合评价分析常用评价方法一级模糊综合评价综合代码 多级模糊综合评价总结 综合评价分析 构成综合评价类问题的五个…

【SpringMVC]获取参数的六种方式

目录 1.通过ServletAPI获取 2.通过控制器方法的形参获取 3.RequestParam&#xff1a;将请求参数和控制器方法的形参绑定 4.RequestHeader&#xff1a;将请求头信息与控制器方法的形参的值进行绑定 5. CookieValue&#xff1a;将cookie数据和控制器方法的形参绑定 Cookie&…

gitlab 点击Integrations出现500错误

背景&#xff1a;在新服务器重新搭建了gitlab&#xff0c;并导入原来gitlab的备份&#xff0c;在项目中点击点击Integrations出现500错误。 解决方法&#xff1a;1.进入新服务器&#xff0c;将 /etc/gitlab/gitlab-secrets.json重命名为 /etc/gitlab/gitlab-secrets.json.bak …

yo!这里是进程控制

目录 前言 进程创建 fork()函数 写时拷贝 进程终止 退出场景 退出方法 进程等待 等待原因 等待方法 1.wait函数 2.waitpid函数 等待结果&#xff08;status介绍&#xff09; 进程替换 替换原理 替换函数 进程替换例子 shell简易实现 后记 前言 学习完操作…

Springboot 实践(14)spring config 配置与运用--手动刷新

前文讲解Spring Cloud zuul 实现了SpringbootAction-One和SpringbootAction-two两个项目的路由切换&#xff0c;正确访问到项目中的资源。这两个项目各自拥有一份application.yml项目配置文件&#xff0c;配置文件中有一部分相同的配置参数&#xff0c;如果涉及到修改&#xf…

【前端】CSS-Grid网格布局

目录 一、grid布局是什么二、grid布局的属性三、容器属性1、display①、语句②、属性值 2、grid-template-columns属性、grid-template-rows属性①、定义②、属性值1&#xff09;、固定的列宽和行高2&#xff09;、repeat()函数3&#xff09;、auto-fill关键字4&#xff09;、f…

L1-012 计算指数 C++

#include<iostream> #include<math.h> using namespace std; int main() {int n;int ret;cin >> n;if (n < 10) {ret pow(2, n);cout << "2^" << n << " " << ret<<endl;}return 0; } 所用知识点 …

suning苏宁API接入说明(苏宁商品详情+关键词搜索商品列表)

API地址:https://o0b.cn/anzexi 调用示例&#xff1a;https://api-gw.onebound.cn/suning/item_get/?keytest_api_key& &num_iid0070134261/703410301&&langzh-CN&secret 参数说明 通用参数说明 version:API版本key:调用key,测试key:test_api_keyapi_na…

轻松学会WiFi模块(ESP8266)—基于STM32,学到就是赚到!

目录 前言 一、ESP8266介绍 二、如何实现WiFi传输&#xff1f;代码详解附上 三、结果实现流程与展示 四、总结 题外话&#xff1a; 前言 哎哎哎&#xff0c;发觉好久没有更新博客了&#xff0c;最近一直事情比较多&#xff0c;也没什么时间注意博客&#xff0c;不过接下…

GPT引领前沿与应用突破之GPT4科研实践技术与AI绘图教程

详情点击链接&#xff1a;GPT引领前沿与应用突破之GPT4科研实践技术与AI绘图教程 前沿 GPT对于每个科研人员已经成为不可或缺的辅助工具&#xff0c;不同的研究领域和项目具有不同的需求。 如在科研编程、绘图领域&#xff1a; 1、编程建议和示例代码: 无论你使用的编程语言是…