AI工具推荐:开源TTS(文本生成语音)模型集合

在这里插入图片描述

XTTS

TTS是一个语音生成模型,可以通过一个简短的6秒音频片段将声音克隆到不同的语言。它不需要大量的训练数据,也不需要耗费大量时间。TTS支持17种语言,可以进行声音克隆、情感和风格转移、跨语言声音克隆以及多语言语音生成等功能。XTTS-v2相比XTTS-v1有两个新语言:匈牙利语和韩语。它还有架构改进、稳定性改进、更好的韵律和音频质量。XTTS-v2支持的语言包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文、日语、匈牙利语、韩语和印地语。XTTS是根据Coqui公共模型许可证许可的。XTTS的演示空间包括XTTS空间和XTTS语音聊天,用户可以在支持的语言上观察模型的表现,并可以使用自己的参考或麦克风输入进行尝试。XTTS还提供API和命令行的使用方法。XTTS是一个强大的语音生成模型,可以克隆声音、进行情感和风格转移,实现跨语言声音克隆和多语言语音生成。

YourTTS

该模型基于VITS模型,通过多种新颖的修改实现了零唱者多语言语音合成和训练。在VCTK数据集上,该方法取得了零唱者多语音语音合成的最新成果,并在零唱者语音转换方面取得了与最新成果相媲美的结果。此外,该方法在单一语音数据集中实现了有前景的结果,为低资源语言中的零唱者多语音语音合成和零唱者语音转换系统开辟了可能性。最后,可以用不到1分钟的语音进行YourTTS模型的微调,并获得语音相似性方面的最新成果,同时保证了合理的音质。

IMS-Toucan

IMS Toucan是德国斯图加特大学自然语言处理研究所(IMS)开发的一个工具包,用于教学、培训和使用最先进的语音合成模型。它的一切都是纯Python和基于PyTorch的,旨在尽可能简单和适合初学者使用,同时又尽可能强大。IMS Toucan提供了许多演示、预训练模型以及新功能,比如多语言和多说话者音频、克隆音调等。这些功能使得用户可以尝试使用预训练的检查点,或者利用提供的预训练检查点进行模型微调。IMS Toucan还提供了一些新特性,例如改进的生成器,以及一种很稳定且音质很好的ToucanTTS架构。IMS Toucan还支持从头训练模型,并提供了一系列的安装和使用说明。

VITS

VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种端到端语音合成模型,它可以根据输入的文本序列来预测语音波形。这是一个条件变分自动编码器(VAE),由后验编码器、解码器和条件先验组成。VITS模型通过基于Transformer的文本编码器和多个耦合层组成的流模块来预测一组基于声谱图的声学特征。声谱图使用一系列转置卷积层进行解码,类似于HiFi-GAN声码器的风格。为了解决TTS问题中一个文本输入可以以多种方式发音的特性,模型还包括一个随机持续时间预测器,允许模型从相同的输入文本中合成具有不同节奏的语音。模型通过变分下界和对抗训练导出的损失的组合进行端到端训练。为提高模型的表现力,对条件先验分布应用了正则化流。在推理过程中,文本编码根据持续时间预测模块进行上采样,然后通过一系列流模块和HiFi-GAN解码器映射到波形。由于持续时间预测器的随机性,模型是非确定性的,因此需要固定的种子来生成相同的语音波形。

TorToiSe

TorToiSe是一个文本转语音程序,其优先级是:

强大的多音色能力。
高度逼真的韵律和语调。 这个程序使用PyTorch实现,支持在NVIDIA GPU上运行。

Pheme

Pheme TTS模型是一种高效和对话式语音生成模型,可以在训练时使用比VALL-E或SoundStorm(例如,数据少10倍)更少的数据。它还具有参数效率、数据效率和推理效率等特点。此外,它使用了语义和声学标记的分离以及适当的语音标记器。另外,它还可以通过第三方提供商生成的(合成的)数据进行师生训练,以提高单一说话者的质量。

EmotiVoice

EmotiVoice是一款功能强大且现代的开源文本转语音引擎,支持英语和中文,并拥有2000多种不同的发音声音。它最显著的特点是情感合成,可以让你的语音具有多种情感,包括快乐、兴奋、悲伤、愤怒等。该引擎提供了易于使用的网络界面,同时也支持脚本接口进行批量生成结果。EmotiVoice还支持声音速度调整、语音克隆等功能,并正在开发支持更多语言的特性。

StyleTTS 2

StyleTTS 2是一种文本到语音(TTS)模型,利用大型语音语言模型(SLMs)进行风格扩散和对抗训练,以实现人类级别的TTS合成。StyleTTS 2通过建模风格为潜在随机变量,通过扩散模型生成最适合文本的风格,而无需参考语音,实现了高效的潜在扩散,并从扩散模型提供的多样化语音合成中受益。此外,它还利用大型预先训练的SLM,如WavLM,作为鉴别器,并结合新颖的可微分时长建模进行端到端训练,从而提高了语音的自然度。StyleTTS 2在单说话人LJSpeech数据集上超越了人类录音,在多说话人VCTK数据集上与之匹配。此外,当在LibriTTS数据集上进行训练时,该模型的性能超过了以前公开可用的零样本说话人自适应模型。这项工作在单个和多个说话人数据集上实现了第一个人类级别的TTS合成,展示了风格扩散和对抗训练与大型SLMs的潜力。

pflowtts_pytorch

P-Flow是由NVIDIA提出的一种快速、数据高效的零参考文本到语音合成(TTS)模型。它通过语音提示进行说话者自适应,包括语音提示文本编码器和流匹配生成解码器,以实现高质量且快速的语音合成。相比最近的大规模神经编解码器语言模型,P-Flow使用了两个数量级更少的训练数据,拥有更快的采样速度,并且在发音、人类相似性和说话者相似性方面都有更好的表现。

VALL-E

VALL-E是基于EnCodec tokenizer的一个非官方PyTorch实现。它是一个神经编解码语言模型,可以进行零样本文本到语音合成。该模型的预训练版本尚未发布,需要在DeepSpeed支持的GPU上进行训练,同时需要安装CUDA或ROCm编译器。您可以通过pip安装或者从GitHub上克隆VALL-E的代码库。训练过程包括将数据量化、生成音素、自定义配置以及使用训练脚本进行模型训练。训练完成后,需要将模型导出到指定路径。最后,您可以使用VALL-E进行语音合成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/626622.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

徐州数字孪生元宇宙赋能工业智能制造,助力传统制造业数字化转型

徐州数字孪生元宇宙赋能工业智能制造,助力传统制造业数字化转型。在徐州市制造业企业数字化转型的过程中,数字孪生技术的应用已经取得了显著成效。一方面,企业的生产效率得到了显著提高,产品质量也得到了有效保障。另一方面&#…

LLM:Scaling Laws for Neural Language Models (中)

核心结论 1:LLM模型的性能主要与计算量C,模型参数量N和数据大小D三者相关,而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足: C ≈ 6ND 2. 为了提升模型性能,模型参数量N和数据大小D需要同步放大,但模型和数…

基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖微信小程序端(十二)

购物车相关 1.添加购物车1.1 需求分析和设计1.1.1 产品原型1.1.2 接口设计1.1.3 表设计 1.2 代码开发1.2.1 DTO设计1.2.2 Controller层1.2.3 Service层接口1.2.4 Service层实现类1.2.5 Mapper层 2. 查看购物车2.1 需求分析和设计2.1.1 产品原型2.1.2 接口设计 2.2 代码开发2.2.…

K8S----YAML

kubernetes中资源可以使用YAML描述(如果您对YAML格式不了解,可以参考YAML语法),也可以使用JSON。其内容可以分为如下四个部分: typeMeta:对象类型的元信息,声明对象使用哪个API版本&#xff0c…

L1-027 出租(Java)

下面是新浪微博上曾经很火的一张图: 一时间网上一片求救声,急问这个怎么破。其实这段代码很简单,index数组就是arr数组的下标,index[0]2 对应 arr[2]1,index[1]0 对应 arr[0]8,index[2]3 对应 arr[3]0&…

Android Studio安卓读取EM4100 TK4100卡卡号源码

本示例使用的读卡器&#xff1a;https://item.taobao.com/item.htm?spma1z10.5-c.w4002-21818769070.35.44005b43nb1q2h&id562957272162 <?xml version"1.0" encoding"utf-8"?> <androidx.constraintlayout.widget.ConstraintLayout xmln…

2024年【安全生产监管人员】复审考试及安全生产监管人员模拟考试题库

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 安全生产监管人员复审考试是安全生产模拟考试一点通总题库中生成的一套安全生产监管人员模拟考试题库&#xff0c;安全生产模拟考试一点通上安全生产监管人员作业手机同步练习。2024年【安全生产监管人员】复审考试及…

Unity 编辑器篇|(六)编辑器拓展EditorGUI类 (全面总结 | 建议收藏)

目录 1. 前言2. 参数3. 功能3.1 折叠菜单&#xff1a; Foldout3.2 检查 GUI 更改&#xff1a; BeginChangeCheck 、EndChangeCheck 监听值改变3.3 可禁用控件&#xff1a;BeginDisabledGroup 、EndDisabledGroup 是否禁用组中的控件3.4 下拉菜单&#xff1a;DropdownButton3.5 …

CentOS7安装MySQL 错误:软件包:akonadi-mysql-1.9.2-4.el7.x86_64 (@anaconda)

问题如图所示 运行一下命令解决 yum -y remove mariadb-libsyum install mysql-community-server

PriorityBlockingQueue概念

四、PriorityBlockingQueue概念 4.1 PriorityBlockingQueue介绍 首先PriorityBlockingQueue是一个优先级队列&#xff0c;他不满足先进先出的概念。 会将查询的数据进行排序&#xff0c;排序的方式就是基于插入数据值的本身。 如果是自定义对象必须要实现Comparable接口才可…

如何学习three.js

如何学习three.js 前言1. 基础概念场景&#xff08;Scene&#xff09;&#xff1a; three.js中所有物体的容器。你可以把它想象成一个舞台&#xff0c;在这里添加物体、光源等。相机&#xff08;Camera&#xff09;&#xff1a; 决定了哪部分场景会被渲染。最常用的是透视相机&…

MongoDB面试系列-01

1. MongoDB 是什么&#xff1f; MongoDB是由C语言编写的&#xff0c;是一个基于分布式文件存储的开源数据库系统。再高负载的情况下&#xff0c;添加更多的节点&#xff0c;可以保证服务器性能。MongoDB旨在给Web应用提供可扩展的高性能数据存储解决方案。 MongoDB将数据存储…

机器学习算法实战案例:CNN-LSTM实现多变量多步光伏预测

文章目录 1 数据处理1.1 导入库文件1.2 导入数据集1.3 缺失值分析 2 构造训练数据​3 模型训练3.1 CNN-LSTM网络3.2 模型训练 4 模型预测答疑&技术交流机器学习算法实战案例系列 1 数据处理 1.1 导入库文件 from matplotlib import pyplot as pltimport tensorflow as tf…

PHP+MySQL组合开发:微信小程序万能建站源码系统 附带完整的搭建教程

随着移动互联网的快速发展&#xff0c;微信小程序已成为企业进行移动营销的重要工具。然而&#xff0c;对于许多中小企业和个人开发者来说&#xff0c;开发一个功能完善、用户体验良好的小程序是一项复杂的任务。罗峰给大家分享一款微信小程序万能建站源码系统。该系统采用PHPM…

CMMI3.0认证的卓越方案!

CMMI3.0是软件工程和组织发展领域中的一项重要认证&#xff0c;它旨在提升组织的绩效和成熟度&#xff0c;促进卓越的软件开发和管理实践。本文将探讨CMMI3.0认证的意义、要求以及实施过程&#xff0c;并介绍一些卓越方案&#xff0c;帮助组织达到该认证。 CMMI3.0认证的意义 …

线控底盘新玩家凶猛!这家企业的ONE-BOX产品正式量产下线

高工智能汽车获悉&#xff0c;12月27日&#xff0c;威肯西科技宣布旗下ONE-BOX线控制动产品--液压解耦制动系统HDBS实现量产下线。该产品将与多个汽车品牌签署量产及定点协议&#xff0c;预计年产量达到60万套。 据了解&#xff0c;作为耀宁科技集团的一级子公司&#xff0c;威…

【正点原子】STM32电机应用控制学习笔记——8.FOC简介

FOC是适用于无刷电机的&#xff0c;而像有刷电机&#xff0c;舵机&#xff0c;步进电机是不适用FOC的。FOC是电机应用控制难度最大的部分了。 一.FOC简介&#xff08;了解&#xff09; 1.介绍 FOC&#xff08;Filed Oriented Control&#xff09;即磁场定向控制&#xff0c;…

rust获取本地ip地址的方法

大家好&#xff0c;我是get_local_info作者带剑书生&#xff0c;这里用一篇文章讲解get_local_info的使用。 get_local_info是什么&#xff1f; get_local_info是一个获取linux系统信息的rust三方库&#xff0c;并提供一些常用功能&#xff0c;目前版本0.2.4。详细介绍地址&a…

【问题记录】使用命令语句从kaggle中下载数据集

从Kaggle中下载Tusimple数据集 1.服务器环境中安装kaggle 使用命令&#xff1a;pip install kaggle 2.复制下载API 具体命令如下&#xff1a; kaggle datasets download -d manideep1108/tusimple3.配置kaggle.json文件 如果直接使用命令会报错&#xff1a; root:~# kagg…

力扣hot100 二叉树中的最大路径和 递归

Problem: 124. 二叉树中的最大路径和 文章目录 解题方法复杂度&#x1f496; Code 解题方法 &#x1f468;‍&#x1f3eb; 参考思路 复杂度 时间复杂度: O ( n ) O(n) O(n) 空间复杂度: O ( n ) O(n) O(n) &#x1f496; Code /*** Definition for a binary tree no…