语音合成是什么?如何进行语音合成TTS数据采集?

我们在上一篇讲到语音数据采集分为常见的两种语音数据采集类型,一个是语音识别数据(ASR),另一个是语音合成(TTS)。这一期中,我们将介绍语音合成技术是什么,如何采集语音合成数据和制作,帮助你快速了解语音合成的背景和基础原理。  

 

语音合成(TTS)是什么

随着人机交互的模式越来越广泛地普及我们的生活中,以扬声器和声波作为主要音频传播媒介,文本到语音的技术不断迭代更加丰富了我们的沟通方式,机器说话愈发灵动与自然,这些都离不开语音合成技术的与时俱进。 

如何进行语音合成数据采集

语音合成技术的背景

语音合成即文本转语音(text to speech)的技术,是由文字形成的计算机语音。历史上已知最早模仿人类语音的装置是Wolfgang von Kempelen在200多年前建造的。他建造的机器由一些元素构成,包括可以用来模仿人类用来产生语音的各种器官–肺部的波纹管、声道的管子、鼻孔的侧支等。对这种人类发声器官的机械模拟的兴趣一直持续到二十世纪。19世纪后半叶,赫尔姆霍尔茨等人开始通过叠加具有适当振幅的谐波波形来合成元音和其他声母。 传统的TTS主要是通过组合多个模块构成流水线来实现的,整个系统可以大致分为前端(frontend)和后端(backend)。

语音合成(TTS)技术原理

我们可以把TTS看作是一个序列对序列的问题,它包括2个主要阶段,即文本分析和语音合成。文本分析与一般的自然语言处理(NLP)步骤相当相似(尽管我们在使用深度神经网络时可能不需要Heave预处理)。例如,句子分割、单词分割、语音部分(POS)。第一阶段的输出是grapheme-to-phoneme(G2P),它是第二阶段的输入。在语音合成中,它将第一级的输出生成波形。  

语音合成(TTS)系统和数据制作

NLP自然语言处理,它将原始文本(包括标点符号、缩写、数字和符号)转换成语音转写。转录的内容包括音素(语音的一部分)以及根据文本中的提示而产生的语调(语调、节奏、语速)。 数字信号处理(DSP),它将语音表征转化为通过计算机或其他设备的音频输出的文字。DSP需要创建一个语音字库(即人类将一系列试图触及语言中每个音素组合的短语录入系统)。系统通过连接音频样本,从这个语音字库建立语音。然后,它应用算法来平滑完成的短语,并调整语音的音量和速度等方面。 过去的机器虽然能正常发声但是随着时代的发展和人机交互体验的需求增加,机器的声音就显得苍白而僵硬,无法给人类提供最生动的交互体验。如今,现代语音合成系统更关注体验至上的个性化技术产出,分为:通用性TTS、个性化TTS和情感TTS。

  • 通用TTS: 可满足商业化需求,制作过程包括:前期录音人员准备、录音场地确定、录制(数据采集)、后期数据清洗加数据标注可以得到一套完整的“商用数据库”。
  • 个性化TTS: 根据数据产品特点提供不同类型的声音进行个性化定制语音库。
  • 情感TTS: 通过XML-tagging的prosodic参数。这种预处理协助TTS系统生成合成语音,该语音含有情感线索。情感意图识别是情感TTS的重要技术之一,它也与自然语言处理有着密不可分的关系。想要更加趋于人类的真实语言,让机器被赋予情感而不只是一台冰冷的复读机,这是企业都想要产品能够达到的效果。而想要让这样一台机器生动的说话,情感合成语音技术背后的数据库也将更为丰富多样。

语音合成的常见两种方法是拼接法和参数法。

  • 拼接法:在预先录制的语料库中抽取合适的拼接单元而成。对于声音的质量要求高但是不利于商用,数据规模量级需求过高导致商用成本过高。
  • 参数法:对语料库进行参数建模,分为前段处理、建模和声码器三个模块。对数据库需求小,但声音质量会粗糙。

 

语音合成的常见应用场景

最后,作为上游技术的语音合成技术如何应用于下游AI场景中?语音合成助手、智能客服、有声读物、呼叫中心、车载娱乐设备等等都是语音合成技术常见的应用场景。为了让用户体验更为真实和丰富,许多更上游的数据采集公司都会与声优演员直接合作,让客户去挑选声音,满足他们的终端用户的需求。想象一下夜晚失眠辗转反侧的时候,当你打开博客听到的是神谷浩史的声音,会是什么感受?  

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/18684.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

亚马逊店铺的回款周期是多久?

现如今,开亚马逊店铺可是一个技术活,一旦有一个环节,或者是一件事情没有做好,对整个亚马逊店铺过程中影响都是十分巨大的,不少亚马逊卖家就吃过这方面的亏。 很多亚马逊卖家就是吃亏在这些方面,现在要想开…

OpenAI的提供的Model简要介绍

OpenAI提供的model 通过OpenAI的接口可以查看所有支持的模型(目前的账号无GPT4的权限,所以没有列举GPT4相关的模型)。 import os import openai import pandas as pd from IPython.display import displayopenai.api_key os.getenv("OPENAI_API_KEY")…

瀑布流布局columns

瀑布流布局其核心是基于一个网格的布局,而且每行包含的项目列表高度是随机的(随着自己内容动态变化高度),同时每个项目列表呈堆栈形式排列,最为关键的是,堆栈之间彼此之间没有多余的间距差存大。还是上张图…

【UI自动化测试】Jenkins配置

前一段时间帮助团队搭建了UI自动化环境,这里将Jenkins环境的一些配置分享给大家。 背景: 团队下半年的目标之一是实现自动化测试,这里要吐槽一下,之前开发的测试平台了,最初的目的是用来做接口自动化测试和性能测试&…

Django系列之DRF简单使用

基于ModelViewSets的简单使用 models.py from django.db import modelsclass AuthorDetail(models.Model):gender models.CharField(max_length8)birthday models.DateField()telephone models.BigIntegerField()addr models.CharField(max_length64)class Author(models…

FPGA项目设计:数字时钟

项目要求: 设计一个数字时钟,数码管前两位显示小时,数码管中间两位显示分钟,数码管后面两位显示秒。 项目设计: 系统框架图: 计数模块时序图: 代码实现: 计数模块: /…

AndroidStudio查看AOSP的两种方法

作者:利维亚的杰洛特 本篇文章主要分享一些自己平时工作中使用AndroidStudio查看aosp的方法,同时抛砖引玉,希望知道其它便利有效的查看调试方式技巧的大佬们能够不吝赐教,大家互相分享,共同进步。 如果直接用AndroidS…

解决一个Sqoop抽数慢的问题,yarn的ATSv2嵌入式HBASE崩溃引起

新搭建的一个Hadoop环境,用Sqoop批量抽数的时候发现特别慢,我们正常情况下是一个表一分钟左右,批量抽十几个表,也就是10分钟的样子,结果发现用了2个小时: 查看yarn日志 发现有如下情况: 主要有两…

【iOS】GCD深入学习

关于GCD和队列的简单介绍请看:【iOS】GCD学习 本篇主要介绍GCD中的方法。 栅栏方法:dispatch_barrier_async 我们有时候需要异步执行两组操作,而且第一组操作执行完之后,才能开始执行第二组操作,当然操作组里也可以包含一个或者…

HTTP——一、了解Web及网络基础

HTTP 一、使用HTTP协议访问Web二、HTTP的诞生1、为知识共享而规划Web2、Web成长时代3、驻足不前的HTTP 三、网络基础TCP/IP1、TCP/IP协议族2、TCP/IP的分层管理3、TCP/IP 通信传输流 四、与HTTP关系密切的协议:IP、TCP和DNS1、负责传输的 IP 协议2、确保可靠性的TCP…

Gartner:2022年全球IaaS公有云服务市场增长30%,首次突破1000亿美元

根据Gartner的统计结果,2022年全球基础设施即服务(IaaS)市场从2021年的928亿美元增长到1203亿美元,同比增长29.7%。亚马逊在2022年继续排在IaaS市场的第一名,其次是微软、阿里巴巴、谷歌和华为。 最新消息,…

制砖机系统比例控制阀放大器

制砖机系统是一种生产砖块的机器设备系统。该系统由多个部分组成,包括压力系统、模具和振动系统、烘干和烧制系统等。压力系统是制砖机的主要组成部分之一,它通过压力将原料压缩成一定形状和尺寸的块状,然后经过烘干和烧制等步骤,…

解决单节点es索引yellow

现象 单节点的es,自动创建索引后,默认副本个数为1,索引状态为yellow 临时解决 修改副本个数为0 永久解决 方法1、修改elasticsearch.yml文件,添加配置并重启es number_of_replicas:副本分片数,默认…

【数据结构】——线性表的相关习题

目录 题型一(顺序表的存储结构)题型二(链表的判空)题型三(单链表的建立)题型四(顺序表、单链表的插入删除) 题型一(顺序表的存储结构) 1、线性表的顺序存储结…

解决Git下载失败太慢

解决Git下载失败太慢 Git 官网下载地址: https://git-scm.com/downloads Windows 下载地址: https://git-scm.com/download/win 用官网的地址下载, 需要从github上下载, 由于国内某些原因, 下载速度缓慢, 还经常失败. 国内用户, 可以通过镜像的方式, 提高下载速度. 阿里镜…

Linux - 进程地址空间

引入 在学习C语言的时候,内存包括栈区、堆区、静态区 这个布局是内存吗? 不是!! 这是进程地址空间! 下面测试一下: 11540是bash进程 我们修改一下源程序,在观察下结果 发现父进程的g_value的值不…

gitee修改代码提交操作步骤说明

一,简介 本文主要介绍如何从gitee仓库下载文件,本地修改,本地提交,然后再push到远程服务器的操作步骤。供参考,欢迎一起讨论交流~ 二,操作步骤 总的操作步骤分为以下几步 1,远程服务器下载文…

TI的IWR6843跑3D People Tracking(3D人体检测追踪实验)demo的上手教程

1.硬件准备 1.IWR6843板子 2.两个USB转串口模块(因为我的是自己做的板子,板子上没有集成USB转串口芯片) 2.软件准备 1.最新版本的CCS,注意后缀没有THEIA https://www.ti.com/tool/CCSTUDIO?DCMPdsp_ccs_v4&HQSccs 2.最新…

Linux(三)---------网络路由命令(route路由命令)

一.route路由命令 1.什么是route路由? 计算机之间的数据传输必须经过网络,网络可以直接两台计算机,也可以通过一个一个的节点去连接。路由可以理解为互联网的中转站,网络中的数据包就是通过一个一个的路由器转发到目的地的。 路…

微信小程序 - 解析富文本插件版们

一、html2wxml 插件版 https://gitee.com/qwqoffice/html2wxml 申请使用注意事项 插件版本解析服务是由 QwqOffice 完成,存在不稳定因素,如对稳定性有很高的要求,请自行搭建解析服务,或在自家服务器上直接完成解析。对于有关插…