ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具(TTS)本地一键整合包下

先介绍下ChatTTS

和之前发布的 Fish Speech 类似,都是免费开源的文本生成语音的AI软件,但不同的是,ChatTTS测试下来,对于人类情感语调的模仿,应该是目前开源项目做的最好的,是一款高度接近人类情感、音色、语调的文本语音合成项目。不像其他的语音合成项目,出来的音调很生硬,一听就知道是合成的。ChatTTS的合成效果,高度模仿人类情感,不仔细听,根本分不清是真人还是合成。关键是开源免费。目前只支持中英两种语言。

本地一键整合包下载地址:ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具(TTS)本地一键整合包

项目地址:https://github.com/2noise/ChatTTS/
今天分享这个项目的一键整合包,解压即用。显卡要求也不高,4G显存就可以用,但速度慢了些,做自媒体的朋友必备神器。

这次发布的改良版 WebUI 来自民间大佬,大佬GitHub主页 GitHub - craii/ChatTTS_WebUI: WebUI for ChatTTS
如上图,新增更多详细的调参设置,最大的亮点就是新增了 固定音色 保存功能,相比之前的版本,每次生成的音色都不固定,听起来有点不协调。这次的版本,可以手动保存固定的音色,方便同一个素材使用相同的音色。

具体使用方法:


输入文本和参数后,按照上图操作,输入一个音色名称,点保存。

保存音色后,需要重启服务,即关闭任务栏黑色启动窗口,重新运行一键启动即可。

重启进入页面后,就可以在音色下拉列表里找到上一次保存的音色,这样就可以统一音色了。

下面看下官方的介绍

ChatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本.


先说下ChatTTS的主要特点
对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。


最后说说使用
使用很简单,双击一键启动,等待自动跳转到WebUI界面,输入一段需要转换的文字,选择男声或者女生,最后点合成即可。
可以在合成文字里加入情感控制词,比如常见的笑声,直接在需要加入笑声的文字后插入[laugh]即可。


软件使用常见问题
我要多少显存? Infer的速度是怎么样的?

对于30s的音频, 至少需要4G的显存. 对于4090D, 1s生成约7个字所对应的音频. RTF约0.65.

模型稳定性似乎不够好, 会出现其他说话人或音质很差的现象.

这是自回归模型通常都会出现的问题. 说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免. 可以多采样几次来找到合适的结果.

除了笑声还能控制什么吗? 还能控制其他情感吗?

在现在放出的模型版本中, 只有[laugh]和[uv_break], [lbreak]作为字级别的控制单元. 在未来的版本中我们可能会开源其他情感控制的版本

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/21228.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MYSQL学习笔记-基础篇

一、SQL 1、DDL 2、DML 3、DQL 4、DCL 主要包括用户管理和权限控制 1)DCL-管理用户 --查询用户 use mysql select * from user;--新增用户 CREATE USER 用户名主机名 IDENTIFIED BY 密码eg: create user hahalocalhost identied by 123; cre…

ppo-clip的本质以及它为什么是另一种ppo-KL-penalty

显然&#xff0c;clip在优势函数A>0且重采样比例过大时截断了上限&#xff0c;在优势函数A<0且重采样比例过小时也截断了负值的上限。 我以第一种情况解释clip的作用。 首先&#xff0c;所有选择的action都是RL中你希望增大概率的action。 当A>0时&#xff0c;说明这…

WordPress中借助Table of Contents Plus+Widget Options插件,实现仅在文章侧边栏显示文章目录的功能

本文转自博主的个人博客&#xff1a;https://blog.zhumengmeng.work,欢迎大家前往查看。 原文链接&#xff1a;点我访问 序言&#xff1a;今天心血来潮&#xff0c;写了一篇文章&#xff0c;忽然发现自己的文章极少有目录&#xff0c;这对于长文章的阅读来说是十分不利的&#…

【自动驾驶】针对低速无人车的线控底盘技术

目录 术语定义 一般要求 操纵装置 防护等级 识别代号 技术要求 通过性要求 直线行驶稳定性 环境适应性要求 功能安全要求 信息安全要求 故障处理要求 通信接口 在线升级(OTA) 线控驱动 动力性能 驱动控制响应能力 线控制动 行车制动 制动响应能力 线控转向 总体要求 线控…

车联网安全入门——ICSim模拟器使用

文章目录 车联网安全入门——ISCim模拟器使用介绍主要特点&#xff1a;使用场景&#xff1a; 安装使用捕获can流量candumpcansnifferwiresharkSavvyCAN主要特点&#xff1a;使用场景&#xff1a; 重放can报文cansendSavvyCAN 总结 车联网安全入门——ISCim模拟器使用 &#x1…

SQL刷题笔记day8——SQL进阶——表与索引操作

目录 1 创建一张新表 2 修改表 3 删除表 4 创建索引 5 删除索引 1 创建一张新表 我的答案 create table if not exists user_info_vip (id int(11) primary key auto_increment Comment自增ID, # 有了主键就不用写not nul了 uid int(11) unique not null Comment用户ID, …

发现真正的诉求

在不久前&#xff0c;我在负责一个项目&#xff0c;设计了一个方案。但是&#xff0c;与我一同合作的同事对其中的一个设计点持有异议。我们尝试讨论解决&#xff0c;但似乎没有找到共识。然而&#xff0c;尽管双方的观点没有达成一致&#xff0c;我们都清楚地表达了自己的想法…

272 基于matlab的形态滤波和局域值分解(LMD)的齿轮故障诊断

基于matlab的形态滤波和局域值分解&#xff08;LMD&#xff09;的齿轮故障诊断&#xff0c;GUI交互界面。通过形态滤波对一维信号进行降噪处理&#xff0c;并通过LMD局部均值分解提取故障信号&#xff0c;最后提取处故障频率。程序已调通&#xff0c;可直接运行。 272 形态滤波…

[AIGC] DAG模型在任务调度中有什么优势?

DAG(Directed Acyclic Graph&#xff0c;有向无环图)在任务调度中的应用带来了以下优势&#xff1a; 清晰的任务依赖关系&#xff1a;在DAG模型中&#xff0c;任务以节点的形式存在&#xff0c;任务间的依赖关系通过有向边来表示。这使得任务关系清晰明了&#xff0c;易于理解和…

Mysql学习经验总结(一)

Mysql的简介&#xff1a; MySql是一个开源的关系型数据库管理系统&#xff0c;广泛应用于Web应用程序的数据存储和管理。它支持多用户并发访问&#xff0c;具有高性能、稳定可靠、易于使用和管理的特点。 MySql官网提供了详细的文档、下载、社区等资源&#xff0c;官网的地址…

微信小程序的服务调取

微信小程序的服务调取概述 微信小程序允许开发者通过网络请求与服务器进行交互&#xff0c;从而实现数据的上传和下载。这是通过小程序提供的API&#xff0c;如wx.request、wx.downloadFile、wx.uploadFile等来完成的。这些API使得小程序可以从远程服务器获取数据&#xff0c;…

文档智能开源软件

文档智能介绍&#xff1a; 文档智能通常指的是利用人工智能技术来处理和分析文档内容&#xff0c;以实现自动化、智能化的文档管理。文档智能的应用领域非常广泛&#xff0c;包括但不限于&#xff1a; 1. **文档识别**&#xff1a;使用OCR&#xff08;光学字符识别&#xff0…

Java+SVNCloud+Mysql课程设计

文章目录 1、主要内容2、所需准备3、与sql访问的中间类&#xff1a;SqlMessage4、窗口界面5、main方法 1、主要内容 课程设计&#xff0c;主要通过Javas wing创建窗口&#xff0c;jdbc连接云端mysql数据库进行基本操作&#xff0c;支持随机生成数据并用动态展示数据结果。 先…

一种最大重叠离散小波包特征提取和支持向量机的ECG心电信号分类方法(MATLAB 2018)

目前小波分析算法常采用Mallat快速算法。该算法由与滤波器卷积、隔点采样和隔点插零等三个环节组成。由于实际使用的滤波器并不具有理想频域特性&#xff0c;使得在标准二进小波算法中存在着频率混叠和小波系数失真等缺点&#xff0c;在标准二进小波包算法中还存在频带错乱现象…

matlab误差估计扩展卡尔

在MATLAB中实现扩展卡尔曼滤波&#xff08;Extended Kalman Filter, EKF&#xff09;时&#xff0c;误差估计是一个关键步骤。EKF是一种用于非线性系统状态估计的算法&#xff0c;它通过线性化非线性系统模型&#xff0c;并利用卡尔曼滤波的框架进行状态估计和误差估计。以下是…

展现市场布局雄心,ATFX再度亮相非洲峰会,开启区域市场新篇章

自2023年全球市场营销战略部署实施以来&#xff0c;ATFX在全球各区域市场取得了丰硕成果&#xff0c;其品牌实力、知名度、影响力均有大幅提升。在这场全球扩张的征程中&#xff0c;非洲市场日益成为集团关注的焦点。自2023年首次踏上这片充满潜力的市场以来&#xff0c;ATFX持…

【TB作品】MSP430 G2553 单片机口袋板,读取单片机P1.4电压显示,ADC

功能 读取P1.4电压&#xff0c;显示到口袋板显示屏&#xff0c;电压越高亮灯越多。 部分程序 while (1){ADC10CTL0 | ENC ADC10SC; // Sampling and conversion startLPM0;adcvalue ADC10MEM; //原始数据 0到1023adtest (float) adcvalue / 1024.…

PKCS #8的原理及作用

标签: PKCS #8的原理及作用; PKCS #8;PKCS8 PKCS #8的原理及作用 概述 PKCS #8(Public-Key Cryptography Standards #8)是由RSA实验室发布的一种标准,用于存储私钥信息。它定义了私钥的语法,包括如何对私钥进行编码和加密,以确保其安全性和可移植性。 英文原文: I…

【大模型应用开发极简入门】构建新闻稿生成器:提示词的使用与基于事实的提示词

文章目录 一. 提示词怎么写二. 完整代码三. 基于事实的prompt GPT-4和ChatGPT等LLM专用于生成文本。我们可以使用GPT-4和ChatGPT在各种场景中生成文本&#xff0c;举例如下。 电子邮件合同或正式文档创意写作逐步行动计划头脑风暴广告职位描述 对于本项目&#xff0c;我们将创建…

列表标签 ul+ol/li

04-07、列表标签 ulol/li 概述 列表标签&#xff1a;无序列表ulli、有序列表olli和定义列表 dl dt dd 三种&#xff0c;在网页制作中应用非常广泛&#xff0c;列表就是信息资源的一种展示形式。 特点&#xff1a; 它们都是块元素&#xff0c;可以受到宽度&#xff0c;高度&…