大家好,最近ChatTTS文字生成语音项目挺火。只需要输入一段文字,就可以生成一段非常逼真的声音。声音的效果非常不错。它支持英文和中文两种语言。我在原版的基础上做了一些改动,整合包分享给大家。
功能介绍
除了基础的文本生成音频功能以外。这个版本我还添加了额外的功能。
音频增强
在生成的过程中发现有的音频会有高频噪音,音质不是很好的情况。于是增加了一个增强功能用于解决这个问题。
关于具体的每个参数怎么用,界面上写的很清楚了,这里我不过多解释。默认的音频增强参数已经够用。
开启音频增强/降噪会增加生成时间,这个大家应该也能明白,毕竟处理多了一步。
文本切割
用于解决ChatTTS长文本时音频异常的问题。文本切割和批量是不能同时打开的。
当你文本内容很多时,可以勾选此选项。
默认是50字符进行切割,可改变此选项来调节切割长度。
批量功能
上传一个txt文本,生成时程序会批量读取文本内容,生成切分音频。
这个功能是最后加上的,本来其他功能都已经做完了,准备打包了,一位群友找到我问能不能做ChatTTS项目,并且有没有可能加上批量?那不正好一拍即合了,于是我加班加点安排上了。
为什么选择txt?因为剪映正好可以导出txt文本,所以按照剪映的格式来了。后续考虑增加更多格式支持。
下面是文本的示例,会按照每行进行切分生成。
音频合成
开启后会在长文本或者txt处理完成后合成一整段音频。
如果你开了音频增强或者降噪。会分别生成合成后的原音频、合成后并增强的音频。
输出路径
单段音频生成路径:output_audio/audioclip/segment_0.wav
单段增强音频生成路径:output_audio/audioclip/enhanced_segment_0.wav
合成音频生成路径:output_audio/concatenated_audio.wav
合成增强音频生成路径:output_audio/concatenated_enhanced_audio.wav
配置管理
由于ChatTTS生成的音色是随机的,所以做了个配置界面方便管理音色种子、以及其他参数的设置。
不同的音频种子参数生成的音色也不一样。你可以随机抽取一个你觉得还行的音色。
- 取一个配置文件名字。
- 点击保存音色配置。会将界面上的设置、音色种子等参数都保存下来。
- 提示保存成功。
- 刷新下配置列表,可以看到刚才保存的配置文件。
- 选择配置文件。
- 应用配置文件的参数。
配置要求
以下是整合包运行所需配置
WIN
- Windwos10/11操作系统
- 支持CPU/GPU
MAC
- Apple Silicon M系列芯片、Intel 芯片
- MacOS 10.13以上版本
关于显存,这里引入一段官方原话
对于30s的音频, 至少需要4G的显存. 对于4090, 1s生成约7个字所对应的音频. RTF约0.3.
需要注意
模型稳定性似乎不够好, 会出现其他说话人或音质很差的现象.
这是自回归模型通常都会出现的问题. 说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免. 可以多采样几次来找到合适的结果.
整合包获取
👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻
关注公众号,发送【ChatTTS】关键字获取整合包。
如果发了关键词没回复你!记得看下复制的时候是不是把空格给粘贴进去了!
制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!