ChatTTS增强版V2,批量导出srt,语速控制,情感控制,支持朗读数字,问题修复

ChatTTS增强版最新版本已经发布,本次更新我主要增加了多文本批量、SRT导出、语速控制、情感控制、停顿控制等新功能,并针对上一版本中存在的数字读音异常、随机uv_break等问题进行了修复。

视频版本

【ChatTTS增强版V2,批量导出srt,语速控制,情感控制,支持朗读数字,问题修复】 https://www.bilibili.com/video/BV17T421e76w/?share_source=copy_web&vd_source=09316244e4ff3a9793930d67cf748288

37b5fdae63cc1122302a0aa6f1c114d4.png

更新内容

批量txt

新增支持多个txt文本批量导入,会针对每个txt文本进行处理。

3755762243cdb3ae1053b2ac86dd3daa.png

听取大家的建议,批量处理后的txt会按照文件名来保存。

导出路径为:output_audio/你的txt名/

d3cb5ee04d7e5aa30e909216a5fe9315.png

每个文件夹内分别存放着合并后的音频、音频切片、增强后的音频切片。

导出的完整的音频路径为:output_audio/你的txt名/合并/

导出的音频切片路径为:output_audio/你的txt名/切片/

导出的增强音频切片路径为:output_audio/你的txt名/增强切片/

9caf434bd66e3802bc51b2fd3414654a.png

SRT导出

批量模式下支持导出srt文件。会针对每个txt文本合成的音频生成对应的srt文件。

46d27627d1aba2bb7388b6ef3659aab5.png

srt会导出路径:output_audio/你的txt名/你的txt名.srt

6ac6912b18f43c4e3c2a6c4a8b60003a.png

srt文本内容

eda6f43f4900e757f7f8b6f324ae56e4.png

这里说下,srt某些情况下会有误差,需检查下时间戳。

数字转换

由于ChatTTS不能很好的去朗读数字,这里做了一个转换。

2ee1d08097e975e4760ea51c40e14376.png

比如这句话:我有10块4090显卡,今天出门丢了1块,很难受,今天是2024年。

34100bd6d6564ceaf5ff2c25eddfbc0d.png

读出来就是:

(音频)

开启数字转换后:

(音频)

这里还是把4090显卡型号以及年份读错了。因为数字转换在特殊情况下还是不能很好的去识别,这里最好的办法就是加空格

修改后的文字:我有10块4 0 9 0显卡,今天出门丢了1块,很难受,今天是2 0 2 4年。

e31a260ef666cea6b0963409aa53ef76.png

在你想要单独读的数字组合里添加空格隔开。再开启数字转换后的效果:

(音频)

语速调整

增加了语速调节。默认值为0。最高是10,建议调到5或者6,10的话会有奇怪的英文读音混进去。

cb774ec49bb8aa85f5b1bdcfbea73cd6.png

口语化调整

这里对这个参数的理解就是口语化,或者是说话的自然程度。

fe161160ac9cf686c4dd46c61641ebfc.png

比如还是刚才那句:我有10块4 0 9 0显卡,今天出门丢了1块,很难受,今天是2 0 2 4年。

其他参数相同,oral为0的效果:

(音频效果)

oral为5的效果:

(音频效果)

可以听到,在oral为5的情况下自动添加了:就、啊等语气或者连接词来让音频更加自然。

笑声调整

控制音频的笑声程度。

6c73ddd404f965947a2528b871b50608.png

当然你也可以在文字中输入[laugh]来手动添加笑声。

e831e777b4efe4db4be86457cb5221d2.png

生成的效果:

(音频效果)

停顿调整

ddf19404b6487e88bb45484ea91ade77.png

停顿为0

(音频效果)

停顿为4

(音频效果)

这个参数也可以在文本中输入[uv_break]来手动添加停顿。

08c71674f2b3f451bfab1f3ee818084e.png

(音频效果)

问题修复

uv_break问题

首先说下上次最大的问题,好多朋友反馈说会读u_break的问题。这里跟大家说声抱歉,那是个我漏掉的bug。

这个版本我针对这个问题做了调整,大家可以试下。

如果还有这个问题可以将break调整为0,关闭提炼文本尝试下。

f0867328fa9dd6edd45e2d41c1546a8f.png

380adda7307d14aba8fed7ae7c47936d.png

IP端口问题

V1版本的ip和端口号是固定的,有些朋友电脑上8080端口是禁用的,造成访问不了网页的问题,或者是开了代理进不去的问题。

这个版本默认ip是127.0.0.1,端口号是自动获取本机开放空闲的端口。

如果你想要自定义ip或端口号,可在整合包根目录下找到config.ini文件。

0ed4f6669d6bb5cf54e0635140e4b76f.png

修改custom_server的值为True表示开启自定义ip、端口号。False为关闭自定义ip、端口号。

ip和端口修改为你想要设定的值即可。

f869d07bf1220f35d8084a3809417183.png

实验性选项

51092df61729600d6a0d5ccdafd4f8bb.png

这里是开发中的一个测试选项,还不完善。可自行测试音色固定程度,如果开启后生成的结果无效果,或异常,关掉即可。

⚠️已知的是开启后会导致N卡用户音频增强过程变得极慢!!!慎重开启

配置要求

以下是整合包运行所需配置

WIN

  • Windwos10/11操作系统
  • 支持CPU/GPU

MAC

  • Apple Silicon M系列芯片、Intel 芯片
  • MacOS 10.13以上版本

云端版本

适用于机器配置低的朋友,云端镜像一键部署。

云端一键部署镜像

关于显存,最低4G显存(不开启音频增强的情况下)

Mac 由于cuda原因目前只支持cpu进行推理。

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

关注公众号,发送【ChatTTSV2】关键字获取整合包。

c9d252d6c546419798a870adf532fec3.png

如果发了关键词没回复你!记得看下复制的时候是不是把空格给粘贴进去了!

写在最后

还有很多朋友的建议,比如增加标点符号分割、克隆用户音色等,这些想法都很不错,我也会在后续的版本中进行更新。

最后非常感谢大家对这个项目的支持。如果您有更多的想法或建议,欢迎通过私信或在评论区留下你们的意见。

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/24795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android AAudio——C API控制音频流(四)

上一篇文章我们介绍了 C API 中音频流的创建流程,以及打开音频流操作,这里我们再来看一下音频流的其他操作流程 一、音频流操作介绍 1、操作流程图 下图是状态变化流程图,虚线框表示瞬时状态,实线框表示稳定状态。 2、操作函数 上图中主要包含下面几个操作函数: aaudio…

2022 hnust 湖科大 javaweb课设 数据库课设 报告+源代码+流程图文件+课设指导书+附赠数据库课堂实验指导书

2022 hnust 湖科大 javaweb课设 数据库课设 报告源代码流程图文件课设指导书附赠数据库课堂实验指导书 描述 湖南科技大学大二下学期先后开展java web和数据库课程设计,两个课设项目可以通用,老师一般会允许自拟选题,所以在此统一打包&…

批量高效调整图片像素:自定义缩小bmp图片,画质优先,一键实现高效优化

图片已经成为我们生活中不可或缺的一部分。无论是社交媒体分享,还是工作文件传输,图片总是扮演着重要的角色。然而,有时候,我们可能会面临一个问题:图片像素过大,不仅占用过多的存储空间,还可能…

Linux编译器-gcc或g++的使用

一.安装gcc/g 在linux中是不会自带gcc/g的,我们需要编译程序就自己需要安装gcc/g。 很简单我们使用简单的命令安装gcc:sudo yum install -y gcc。 g安装:sudo yum install -y gcc-c。 我们知道Windows上区分文件,都是使用文件…

如何使用Python的Turtle模块绘制小猪

一、前置条件 在开始学习如何使用Python的Turtle模块进行绘画之前,请确保你的电脑已安装Python环境。如果尚未安装Python,你可以从Python官网下载并安装最新版本。 Turtle模块是Python内置的一个用于绘图的库,通常不需要额外安装。如果你发…

反转链表 (oj题)

一、题目链接 https://leetcode.cn/problems/reverse-linked-list/submissions/538124207 二、题目思路 1.定义三个指针,p1先指向NULL p2指向头结点 p3指向第二个结点 2.p2的next指向p1。然后移动指针,p1来到p2的位置,p2来到p3的位置&…

中缀表达式和前缀后缀

在中缀表达式中,操作数可能与两个操作符相结合 但是,想要不带括号无歧义,且不需要考虑运算符优先级和结合性 所以考虑 前缀表达式,波兰表达式 后缀表达式 逆波兰表达式 对于人来说,中缀表达式是最容易读懂的。但是对于…

基于JSP技术的网络视频播放器

你好呀,我是计算机学长猫哥!如果有相关需求,文末可以找到我的联系方式。 开发语言:Java 数据库:MySQL 技术:JSP技术 工具:IDEA/Eclipse、Navicat、Maven 系统展示 首页 管理员界面 用户界…

Live800:客户服务团队的力量,塑造企业的服务之魂

在数字化时代,企业的竞争已经不仅仅是产品和价格的竞争,更是服务质量的竞争。这里将探讨客户服务团队的力量如何塑造企业的服务之魂,以及这一团队如何成为企业不可或缺的一部分。 一、客户服务团队的重要性 客户服务团队是企业与客户之间的重…

毫米波SDK使用2

5.5 毫米波SDK-TI组件 毫米波SDK功能分解成组件将在接下来的几小节中解释。有关这些模块的详细文档&#xff0c;请参阅位于mmwave_mcuplus_sdk_<ver>/docs/mmwave_sdk_module_document .html的顶层文档。 5.5.1 演示 5.5.1.1 毫米波演示 这个演示位于mmwave_mcuplus_sd…

基于协同过滤推荐的在线课程选修系统

基于协同过滤推荐的在线课程选修系统 demo 网站查看 http://course.qsxbc.com/all_course/ 点我查看 效果 功能 登录注册、点赞收藏、评分评论&#xff0c;课程推荐&#xff0c;热门课程&#xff0c;个人中心&#xff0c;可视化&#xff0c;后台管理&#xff0c;课程选修 …

python文件:py,ipynb, pyi, pyc, pyd, pyo都是什么文件?

1、Python文件类型介绍 &#x1f4c1; 1.1 .py 文件&#xff1a;源代码基础 .py 文件是 Python 最基本的源代码文件格式&#xff0c;用于存储纯文本形式的 Python 代码。它是开发者编写程序的主要场所&#xff0c;包含函数、类、变量定义以及执行逻辑。Python 解释器直接读取…

高考后的职业规划:学习LabVIEW开发前景广阔

在今天的高考后&#xff0c;选择学习LabVIEW开发为未来职业规划将大有可为。LabVIEW以其图形化编程、强大的数据处理和硬件集成功能&#xff0c;广泛应用于工程、科研、自动化测试等领域。掌握LabVIEW开发技能&#xff0c;不仅就业前景广阔&#xff0c;还能参与前沿技术应用&am…

SQL进阶day10————多表查询

目录 1嵌套子查询 1.1月均完成试卷数不小于3的用户爱作答的类别 1.2月均完成试卷数不小于3的用户爱作答的类别 ​编辑1.3 作答试卷得分大于过80的人的用户等级分布 2合并查询 2.1每个题目和每份试卷被作答的人数和次数 2.2分别满足两个活动的人 3连接查询 3.1满足条件…

Linux 35.5 + JetPack v5.1.3@FC-Planner编译安装

Linux 35.5 JetPack v5.1.3FC-Planner编译安装 1. 源由2. 编译&安装Step 1&#xff1a;依赖库安装Step 2&#xff1a;克隆工程Step 3&#xff1a;编译工程Step 4&#xff1a;LKH编译Step 5&#xff1a;安装工程 3. 问题汇总3.1 Killed signal terminated program cc1plus3…

【Unity】 HTFramework框架(五十一)代码片段执行器

更新日期&#xff1a;2024年6月8日。 Github源码&#xff1a;[点我获取源码] Gitee源码&#xff1a;[点我获取源码] 索引 Code Snippet Executer 代码片段执行器使用 Code Snippet Executer打开 Code Snippet Executer动态执行&#xff08;代码片段&#xff09;静态执行&#x…

MySQL——C语言连接数据库

MySQL Connection ​ 连接数据库的客户端除了命令行式的还有图形化界面版本&#xff0c;网页版本&#xff0c;当然也包括语言级别的库或者是包&#xff0c;能够帮助我们直接连接数据库&#xff1b; 一、语言连接库下载 方式一&#xff1a;不建议使用&#xff0c;需要自己配置…

记录项目使用ts时引入js文件后导致项目运行空白问题

主要原因&#xff1a; 使用ts后开启了eslint检测&#xff0c;而js压缩文件引入的位置在eslint检测的文件内。导致eslint检测认为该文件为很大的文件&#xff0c;或eslint认为此文件内存在无法处理的语法结构等问题。 解决方法&#xff1a; 1、把文件移到eslint检测外的文件引入…

R语言数据探索和分析23-公共物品问卷分析

第一次实验使用最基本的公共物品游戏&#xff0c;不外加其他的treatment。班里的学生4人一组&#xff0c;一共44/411组。一共玩20个回合的公共物品游戏。每回合给15秒做决定的时间。第十回合后&#xff0c;给大家放一个几分钟的“爱心”视频&#xff08;链接如下&#xff09;&a…

物证管理系统|DW-S404实现物证科学化管理

随着社会的进步和科技的发展&#xff0c;信息化和数字化已经成为各个行业的必然趋势。在众多领域中&#xff0c;物证管理系统逐渐受到广泛的关注和应用。 物证是公安机关处理案件的关键凭证&#xff0c;针对过去物证管理分散、损毁遗失等严重问题&#xff0c;集驰电子JIONCH推…