目录
写在前面
一、使用ChatTTS
二、优点
三、局限
写在前面
最像人声的AI来了!语音开源天花板ChatTTS火速出圈,3天就斩获9k个star。截至发稿前,已经25.9k个star了。这是专门为对话场景设计的语音生成模型,用于LLM助手对话任务、对话语音、视频介绍等,仅支持中英文。硬件要求低,甚至不需要GPU,一台普通PC就能运行。
主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。开源的版本是4 万小时基础模型。
项目地址:https://github.com/jianchang512/ChatTTS-ui,这是原项目ChatTTS的地址,不用下,我们要使用的是ChatTTS-ui,是给ChatTTS增加了UI,并打好了包,开包即用。
一、使用ChatTTS
废话不多少,先玩起来。
1.下载ChatTTS-ui:https://github.com/jianchang512/chatTTS-ui/releases
2.解压缩并运行app.exe
3.等一会会自动打开默认浏览器,就可以开始生成音频啦!!
使用也很简单,输入文字点击立即合成,等待一会下方就会出现结果,下面介绍一下参数:
(1)文本:如果哪里断句不好,可以加一个[break_1];如果想调整口语程度可以加[oral_0],数字越大,越口语化;如果想加笑声可以加[laugh_1],但经我测试,加了laugh废话变多了。
(2)选择音色:一共10000个音色,每个音色有一个csv的特征文件,这里下载全部10000个音色。
(3)音色值:如果懒得下载10000个音色文件,也可以在这里输入1-10000的数字,值得注意的是,一旦这里输入,前面的csv就没用了。音色试听在这里。
(4)text seed:扩散模型嘛,肯定要有一个控制噪声的随机种子。
(5)Prompt:现在支持三个值,是全局的,oral控制口语程度数字越大,越口语化,例如[oral_0]就接近朗读的口气;langh会使说话过程中插入笑声,经我测试数越大,与文本无关的废话越多;break控制断句,数越大,断句越干脆。
(6)跳过refine text:如果正文中加入了[uv_break]二效果不好,可以勾上试试。
(7)infer token:推理最大token数,默认就行。
(8)refine token:预处理的时候,会对文本进行优化,使之更适合口语,这个是调整的token数量,也不用动。
(9)语速:数越大,语速越快,但是变化并不是太明显。
(10)temperature:数越大语气、音色、声调等随机性越大。
(11)top_p:控制生成多样性的参数,数越小,多样性越强。比如0.3,那下一个预测token的概率只要大于0.3就有可能被选中,当然也要配合下面的top_k使用。
(12)top_k:同样控制生成多样性的参数,数越大,多样性越强。比如9,那下一个预测token的会选前9个概率最大的,当然也要配合上面的top_p使用。
二、优点
1.ChatTTS针对基于对话的任务进行了优化,实现了自然而富有表现力的语音合成,很接近人声。
2.模型可以加入韵律特征,包括笑声、停顿和叹词。
3.硬件要求低,虽然是扩散模型,但是在CPU上也能流畅使用
三、局限
1.音色文件的提取方式作者没有开源,所以现在不能定制自己的声音。
2.使用扩散模型,仍然需要抽卡,尤其对于长文本,不好控制,商用会有问题。
ChatTTS的使用就简单介绍到这里,关注不迷路(*^▽^*)
关注订阅号了解更多精品文章
交流探讨、商务合作请加微信