AI工具推荐：开源TTS（文本生成语音）模型集合

在这里插入图片描述

XTTS

TTS是一个语音生成模型，可以通过一个简短的6秒音频片段将声音克隆到不同的语言。它不需要大量的训练数据，也不需要耗费大量时间。TTS支持17种语言，可以进行声音克隆、情感和风格转移、跨语言声音克隆以及多语言语音生成等功能。XTTS-v2相比XTTS-v1有两个新语言：匈牙利语和韩语。它还有架构改进、稳定性改进、更好的韵律和音频质量。XTTS-v2支持的语言包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文、日语、匈牙利语、韩语和印地语。XTTS是根据Coqui公共模型许可证许可的。XTTS的演示空间包括XTTS空间和XTTS语音聊天，用户可以在支持的语言上观察模型的表现，并可以使用自己的参考或麦克风输入进行尝试。XTTS还提供API和命令行的使用方法。XTTS是一个强大的语音生成模型，可以克隆声音、进行情感和风格转移，实现跨语言声音克隆和多语言语音生成。

YourTTS

该模型基于VITS模型，通过多种新颖的修改实现了零唱者多语言语音合成和训练。在VCTK数据集上，该方法取得了零唱者多语音语音合成的最新成果，并在零唱者语音转换方面取得了与最新成果相媲美的结果。此外，该方法在单一语音数据集中实现了有前景的结果，为低资源语言中的零唱者多语音语音合成和零唱者语音转换系统开辟了可能性。最后，可以用不到1分钟的语音进行YourTTS模型的微调，并获得语音相似性方面的最新成果，同时保证了合理的音质。

IMS-Toucan

IMS Toucan是德国斯图加特大学自然语言处理研究所（IMS）开发的一个工具包，用于教学、培训和使用最先进的语音合成模型。它的一切都是纯Python和基于PyTorch的，旨在尽可能简单和适合初学者使用，同时又尽可能强大。IMS Toucan提供了许多演示、预训练模型以及新功能，比如多语言和多说话者音频、克隆音调等。这些功能使得用户可以尝试使用预训练的检查点，或者利用提供的预训练检查点进行模型微调。IMS Toucan还提供了一些新特性，例如改进的生成器，以及一种很稳定且音质很好的ToucanTTS架构。IMS Toucan还支持从头训练模型，并提供了一系列的安装和使用说明。

VITS

VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种端到端语音合成模型，它可以根据输入的文本序列来预测语音波形。这是一个条件变分自动编码器（VAE），由后验编码器、解码器和条件先验组成。VITS模型通过基于Transformer的文本编码器和多个耦合层组成的流模块来预测一组基于声谱图的声学特征。声谱图使用一系列转置卷积层进行解码，类似于HiFi-GAN声码器的风格。为了解决TTS问题中一个文本输入可以以多种方式发音的特性，模型还包括一个随机持续时间预测器，允许模型从相同的输入文本中合成具有不同节奏的语音。模型通过变分下界和对抗训练导出的损失的组合进行端到端训练。为提高模型的表现力，对条件先验分布应用了正则化流。在推理过程中，文本编码根据持续时间预测模块进行上采样，然后通过一系列流模块和HiFi-GAN解码器映射到波形。由于持续时间预测器的随机性，模型是非确定性的，因此需要固定的种子来生成相同的语音波形。

TorToiSe

TorToiSe是一个文本转语音程序，其优先级是：

强大的多音色能力。
高度逼真的韵律和语调。这个程序使用PyTorch实现，支持在NVIDIA GPU上运行。

Pheme

Pheme TTS模型是一种高效和对话式语音生成模型，可以在训练时使用比VALL-E或SoundStorm（例如，数据少10倍）更少的数据。它还具有参数效率、数据效率和推理效率等特点。此外，它使用了语义和声学标记的分离以及适当的语音标记器。另外，它还可以通过第三方提供商生成的（合成的）数据进行师生训练，以提高单一说话者的质量。

EmotiVoice

EmotiVoice是一款功能强大且现代的开源文本转语音引擎，支持英语和中文，并拥有2000多种不同的发音声音。它最显著的特点是情感合成，可以让你的语音具有多种情感，包括快乐、兴奋、悲伤、愤怒等。该引擎提供了易于使用的网络界面，同时也支持脚本接口进行批量生成结果。EmotiVoice还支持声音速度调整、语音克隆等功能，并正在开发支持更多语言的特性。

StyleTTS 2

StyleTTS 2是一种文本到语音（TTS）模型，利用大型语音语言模型（SLMs）进行风格扩散和对抗训练，以实现人类级别的TTS合成。StyleTTS 2通过建模风格为潜在随机变量，通过扩散模型生成最适合文本的风格，而无需参考语音，实现了高效的潜在扩散，并从扩散模型提供的多样化语音合成中受益。此外，它还利用大型预先训练的SLM，如WavLM，作为鉴别器，并结合新颖的可微分时长建模进行端到端训练，从而提高了语音的自然度。StyleTTS 2在单说话人LJSpeech数据集上超越了人类录音，在多说话人VCTK数据集上与之匹配。此外，当在LibriTTS数据集上进行训练时，该模型的性能超过了以前公开可用的零样本说话人自适应模型。这项工作在单个和多个说话人数据集上实现了第一个人类级别的TTS合成，展示了风格扩散和对抗训练与大型SLMs的潜力。

pflowtts_pytorch

P-Flow是由NVIDIA提出的一种快速、数据高效的零参考文本到语音合成（TTS）模型。它通过语音提示进行说话者自适应，包括语音提示文本编码器和流匹配生成解码器，以实现高质量且快速的语音合成。相比最近的大规模神经编解码器语言模型，P-Flow使用了两个数量级更少的训练数据，拥有更快的采样速度，并且在发音、人类相似性和说话者相似性方面都有更好的表现。

VALL-E

VALL-E是基于EnCodec tokenizer的一个非官方PyTorch实现。它是一个神经编解码语言模型，可以进行零样本文本到语音合成。该模型的预训练版本尚未发布，需要在DeepSpeed支持的GPU上进行训练，同时需要安装CUDA或ROCm编译器。您可以通过pip安装或者从GitHub上克隆VALL-E的代码库。训练过程包括将数据量化、生成音素、自定义配置以及使用训练脚本进行模型训练。训练完成后，需要将模型导出到指定路径。最后，您可以使用VALL-E进行语音合成。