ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具(TTS)本地一键整合包下

先介绍下ChatTTS

和之前发布的 Fish Speech 类似,都是免费开源的文本生成语音的AI软件,但不同的是,ChatTTS测试下来,对于人类情感语调的模仿,应该是目前开源项目做的最好的,是一款高度接近人类情感、音色、语调的文本语音合成项目。不像其他的语音合成项目,出来的音调很生硬,一听就知道是合成的。ChatTTS的合成效果,高度模仿人类情感,不仔细听,根本分不清是真人还是合成。关键是开源免费。目前只支持中英两种语言。

本地一键整合包下载地址:ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具(TTS)本地一键整合包

项目地址:https://github.com/2noise/ChatTTS/
今天分享这个项目的一键整合包,解压即用。显卡要求也不高,4G显存就可以用,但速度慢了些,做自媒体的朋友必备神器。

这次发布的改良版 WebUI 来自民间大佬,大佬GitHub主页 GitHub - craii/ChatTTS_WebUI: WebUI for ChatTTS
如上图,新增更多详细的调参设置,最大的亮点就是新增了 固定音色 保存功能,相比之前的版本,每次生成的音色都不固定,听起来有点不协调。这次的版本,可以手动保存固定的音色,方便同一个素材使用相同的音色。

具体使用方法:


输入文本和参数后,按照上图操作,输入一个音色名称,点保存。

保存音色后,需要重启服务,即关闭任务栏黑色启动窗口,重新运行一键启动即可。

重启进入页面后,就可以在音色下拉列表里找到上一次保存的音色,这样就可以统一音色了。

下面看下官方的介绍

ChatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本.


先说下ChatTTS的主要特点
对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。


最后说说使用
使用很简单,双击一键启动,等待自动跳转到WebUI界面,输入一段需要转换的文字,选择男声或者女生,最后点合成即可。
可以在合成文字里加入情感控制词,比如常见的笑声,直接在需要加入笑声的文字后插入[laugh]即可。


软件使用常见问题
我要多少显存? Infer的速度是怎么样的?

对于30s的音频, 至少需要4G的显存. 对于4090D, 1s生成约7个字所对应的音频. RTF约0.65.

模型稳定性似乎不够好, 会出现其他说话人或音质很差的现象.

这是自回归模型通常都会出现的问题. 说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免. 可以多采样几次来找到合适的结果.

除了笑声还能控制什么吗? 还能控制其他情感吗?

在现在放出的模型版本中, 只有[laugh]和[uv_break], [lbreak]作为字级别的控制单元. 在未来的版本中我们可能会开源其他情感控制的版本

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/21228.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WordPress中借助Table of Contents Plus+Widget Options插件,实现仅在文章侧边栏显示文章目录的功能

本文转自博主的个人博客:https://blog.zhumengmeng.work,欢迎大家前往查看。 原文链接:点我访问 序言:今天心血来潮,写了一篇文章,忽然发现自己的文章极少有目录,这对于长文章的阅读来说是十分不利的&#…

【自动驾驶】针对低速无人车的线控底盘技术

目录 术语定义 一般要求 操纵装置 防护等级 识别代号 技术要求 通过性要求 直线行驶稳定性 环境适应性要求 功能安全要求 信息安全要求 故障处理要求 通信接口 在线升级(OTA) 线控驱动 动力性能 驱动控制响应能力 线控制动 行车制动 制动响应能力 线控转向 总体要求 线控…

车联网安全入门——ICSim模拟器使用

文章目录 车联网安全入门——ISCim模拟器使用介绍主要特点:使用场景: 安装使用捕获can流量candumpcansnifferwiresharkSavvyCAN主要特点:使用场景: 重放can报文cansendSavvyCAN 总结 车联网安全入门——ISCim模拟器使用 &#x1…

SQL刷题笔记day8——SQL进阶——表与索引操作

目录 1 创建一张新表 2 修改表 3 删除表 4 创建索引 5 删除索引 1 创建一张新表 我的答案 create table if not exists user_info_vip (id int(11) primary key auto_increment Comment自增ID, # 有了主键就不用写not nul了 uid int(11) unique not null Comment用户ID, …

272 基于matlab的形态滤波和局域值分解(LMD)的齿轮故障诊断

基于matlab的形态滤波和局域值分解(LMD)的齿轮故障诊断,GUI交互界面。通过形态滤波对一维信号进行降噪处理,并通过LMD局部均值分解提取故障信号,最后提取处故障频率。程序已调通,可直接运行。 272 形态滤波…

微信小程序的服务调取

微信小程序的服务调取概述 微信小程序允许开发者通过网络请求与服务器进行交互,从而实现数据的上传和下载。这是通过小程序提供的API,如wx.request、wx.downloadFile、wx.uploadFile等来完成的。这些API使得小程序可以从远程服务器获取数据,…

Java+SVNCloud+Mysql课程设计

文章目录 1、主要内容2、所需准备3、与sql访问的中间类:SqlMessage4、窗口界面5、main方法 1、主要内容 课程设计,主要通过Javas wing创建窗口,jdbc连接云端mysql数据库进行基本操作,支持随机生成数据并用动态展示数据结果。 先…

一种最大重叠离散小波包特征提取和支持向量机的ECG心电信号分类方法(MATLAB 2018)

目前小波分析算法常采用Mallat快速算法。该算法由与滤波器卷积、隔点采样和隔点插零等三个环节组成。由于实际使用的滤波器并不具有理想频域特性,使得在标准二进小波算法中存在着频率混叠和小波系数失真等缺点,在标准二进小波包算法中还存在频带错乱现象…

展现市场布局雄心,ATFX再度亮相非洲峰会,开启区域市场新篇章

自2023年全球市场营销战略部署实施以来,ATFX在全球各区域市场取得了丰硕成果,其品牌实力、知名度、影响力均有大幅提升。在这场全球扩张的征程中,非洲市场日益成为集团关注的焦点。自2023年首次踏上这片充满潜力的市场以来,ATFX持…

列表标签 ul+ol/li

04-07、列表标签 ulol/li 概述 列表标签:无序列表ulli、有序列表olli和定义列表 dl dt dd 三种,在网页制作中应用非常广泛,列表就是信息资源的一种展示形式。 特点: 它们都是块元素,可以受到宽度,高度&…

springboot 实现kafka多源配置

文章目录 背景核心配置自动化配置类注册生产者、消费者核心bean到spring配置spring.factoriesyml配置使用 源码仓库 背景 实际开发中,不同的topic可能来自不同的集群,所以就需要配置不同的kafka数据源,基于springboot自动配置的思想&#xf…

SwiftUI知识点(一)

前言: Swift知识点,大至看完了,公司项目是Swift语言写的,后续苹果新出的SwiftUI,也需要学习一下 不知觉间,SwiftUI是19年出的,现在24年,5年前的东西了 学习的几个原因: …

Android Media Framework(一)OpenMAX 框架简介

学习开源代码最快的方式是先阅读它的文档,再查看它的头文件,最后研读代码实现并进行编译调试。Android早期引入OpenMAX IL作为使用音视频编解码器的标准接口,了解Android Media框架的底层运行原理要从OMX IL开始。在这一节,我们将…

本机安装深度学习库cuda11.8,cudnn8.6和tensorRT8.5

https://blog.csdn.net/qq_46107892/article/details/131453019 首先是安装cuda11.8 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pinsudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600wg…

44-3 waf绕过 - WAF绕过方法

环境准备: 43-5 waf绕过 - 安全狗简介及安装-CSDN博客然后在安装pikachu靶场:构建完善的安全渗透测试环境:推荐工具、资源和下载链接_渗透测试靶机下载-CSDN博客一、首先验证云WAF是否存在于靶场(老师的靶场是部署在阿里云) 靶场地址:http://127.0.0.1/pikachu-master/v…

游戏找不到steam_api64.dll如何解决,全面解析原因及解决方法

在现代游戏中,Steam平台已经成为了玩家们下载、安装和玩游戏的主要渠道之一。然而,有些玩家可能会遇到一个问题,即游戏找不到steam_api64.dll文件。这个问题可能会导致游戏无法正常运行或启动。本文将详细介绍如何解决这个问题,帮…

23、linux系统文件和日志分析

linux文件系统与日志分析 文件时存储在硬盘上的,硬盘上的最小存储单位是扇区,每个扇区大大小是512字节。 inode:元信息(文件的属性 权限,创建者,创建日期等) block:块&#xff0c…

ZDH-数据管理模块

目录 主题 项目源码 预览地址 安装包下载地址 数据管理服务 数据资源管理 数据资源权限 数据资源血缘 总结 感谢支持 主题 本篇文章主要介绍ZDH-数据管理服务及应用场景 项目源码 zdh_web: GitHub - zhaoyachao/zdh_web: 大数据采集,抽取平台 预览地址 后台管理…

Mac安装pytorch(二)

书接上回,配置好了pytorch环境后,看看是否真的能用 终端输入一下代码: import torch xtorch.rand(3,4) print(x) 出现这些后表明安装完成,可使用 接下来在pycharm中使用 打开设置

JavaScript数组应用

检测数据类型 1.typeof()可以检测基本数据类型,但是在检测null时会返回object。另外它不能检测负责的数据类型,如正则表达式对象 2.constructor可以检测绝大部分数据的类型,但是不能检测null和underfined的数据类型 3.toString()方法&#x…