GPT-SoVits:语音克隆,语音融合

img

首发网站 https://tianfeng.space

前言

  • 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
  • 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
  • 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
  • WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。

使用

安装

https://github.com/RVC-Boss/GPT-SoVITS?tab=readme-ov-file

img

同时下载权重文件放入相应文件夹img

img

如果网速不好,怕麻烦,百度网盘:

链接: https://pan.baidu.com/s/1jeub2AzO6SeGge_YTimirQ 提取码: 2qkp

准备数据

虽然几分钟即可训练,但是声音数据半个小时到一个小时更好,吐字清晰,格式最好WAV

解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI

img

来到页面,勾选开启UVR5,自动跳转webui(如果你的数据有杂音和伴奏)

img

去伴奏

填入你音频文件路径或拖拽你的文件,HP2伴奏分离,然后依次是人声与伴奏声保存路径,导出格式WAV

img

然后文件就在改路径下vocal(人声)

img

去混响延时

输入去玩伴奏的人声音频路径,输出依然是哪个文件夹下带vocal(人声)

img

xiaoqi_train.wav我改名的去伴奏去混响最终文件

img

分割音频

关闭UVR5,切分音频,填入文件路径,其他默认

img

降噪

输入切分的文件夹路径

img

ASR

输入降噪后音频文件,中文选达摩,英文whisper

img

数据清洗

勾选webui,输入ASR输出文件路径

img

主要这几个就够用了,修改文字对应音频,删除一些杂乱语音,合并一些过短语音,最后保存退出

img

训练集格式化

填入实验名和路径,其他默认

img

点击一键三连,一次全部运行(E:\BaiduNetdiskDownload\GPT-SoVITS-beta0306fix2\logs\xiaoqi生成五个文件)img

微调训练

8G显存,按照我这个设置,时长几分钟,SOVITS训练轮数25以下够了,时长抄半小时,语音吐字清晰,训练轮数100,200都可以,学习率权重适当降低,否则默认,显卡大于8G,batch size可以加大,GPT训练25轮一般效果不错

img

训练上线无法超过25问题解决,编辑器打开webui.py

img

大概830行左右,修改200即可

img

模型路径

img

推理

勾选TTS webui

img

来到

img

GPT25轮效果不错,SOVITS选择轮数最高的,因为我音频大概35分钟,训练久点效果更好

如果参考音频选择训练音频则推理出的声音更符合训练集音色,如果看看音频为非训练集音频,则为音频融合(音色融合),切分方式我感觉凑四句一切效果较好

还可以输入日文转英语,有那味了,

其他更多有待自己尝试了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/10399.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

信息收集方法合集 第1期

前言 在工作中,经常被问到某个文件怎么下载,原文来自哪里。索性把我知道的所有信息收集方法全部整理一遍,希望对大家有用,如果有帮助到你,非常荣幸,我会坚持分享我的学习、工作经验。 信息种类&#xff1…

如何用java编写一个猜数字游戏

我想到用c能编出一个猜数字游戏,于是我就尝试用java编写一个 代码如下: import java.util.Scanner; import java.util.Random;public class GuessTheNumber {public static void main(String[] args) {Scanner scanner new Scanner(System.in);Random…

云启未来:“云计算与网络运维精英交流群”与“独家资料”等你来探索“

作者简介:一名云计算网络运维人员、每天分享网络与运维的技术与干货。 公众号:网络豆云计算学堂 座右铭:低头赶路,敬事如仪 个人主页: 网络豆的主页​​​​​ 🚀 云计算与运维精英交流群诚邀您的加入…

搭建Docker私服镜像仓库Harbor

1、概述 Harbor是由VMware公司开源的企业级的Docker Registry管理项目,它包括权限管理(RBAC)、LDAP、日志审核、管理界面、自我注册、镜像复制和中文支持等功能。 Harbor 的所有组件都在 Dcoker 中部署,所以 Harbor 可使用 Docker Compose 快速部署。 …

PermissionError: [Errno 13] Permission denied: ‘xx.xlsx‘的解决办法

我在转换文件的时候遇到这个报错,原因是文件名与已有文件名重复了 解决办法很简单,如下图把" " 里的名字换成不重复的,再次允许代码,会恢复正常

ue引擎游戏开发笔记(37)——实现敌人接收攻击伤害,并作出反应

1.需求分析: 现在已经显示造成实际伤害,但敌人对实际伤害并未产生反馈,例如还击,或者死亡倒地等等,实现敌人对于受击的反馈。 2.操作实现: 1.思路:在动画蓝图中添加死亡动画,并通过…

【姿态解算与滤波算法】

姿态解算 一、主线 姿态表示方式:矩阵表示,轴角表示,欧拉角表示,四元数表示。 惯性测量单元IMU(Inertial Measurement Unit):MPU6050芯片,包含陀螺仪和加速度计,分别测…

winhex工具,将文件转换为16进制数据放入代码。

今天介绍winhex工具,可以将任何内容读取读取为16进制数据。下面看下效果。 下载链接: WinHex: Hex Editor & Disk Editor, Computer Forensics & Data Recovery Software 一、WinHex打开文件 我们要打开的文件: 打开后: 我…

服务器远程桌面局域网连接不上的解决方法

在企业网络环境中,服务器远程桌面局域网连接不上是一个常见且棘手的问题。这种问题可能导致工作效率下降,甚至影响业务运营。因此,我们需要采取专业的方法来解决这一问题。 服务器远程桌面局域网连接不上的解决方法: 1、确保服务器…

SQL注入-通达OA SQL注入漏洞【CVE-2023-4166】原理及检测思路分析

1、漏洞描述 通达OA中发现一个漏洞,并被列为严重漏洞。该漏洞影响文件general/system/seal_manage/dianju/delete_log.php的未知代码。对参数 DELETE_STR 的操作会导致 sql 注入。 2、影响范围 通达OA版本11.10之前 3、复现环境 FOFA搜索:app"TDX…

解锁网站SEO优势,百度站长工具助您一臂之力(百度站长平台还提供了哪些工具供seo人员使用?)

在当今数字化时代,网站已经成为企业宣传、产品销售、信息发布的主要渠道之一。有着再好的网站,如果在百度等搜索引擎中无法被用户搜索到,那就等于白搭。因此,网站的SEO优化显得尤为重要。而作为国内最大的搜索引擎,百度…

LoRa模块学习

什么是LoRa调制 LoRa(Long Range,远距离)是一种调制技术,与同类技术相比,提供更长的通信距离。调制是基于扩频技术,线性调制扩频(CSS)的一个变种,具有前向纠错&#xff…

安装SQL Server详细教程_sql server安装教程

一,SQL Server数据库安装 1.首先,下载安装程序 (1)从网盘下载安装exe 点击此处直接下载 (2)从官网下载安装exe文件 在官网选择Developer进行下载 2.开始安装 双击安装程序,开始安装 这里直…

python-pytorch seq2seq+attention笔记0.5.00

python-pytorch seq2seq+attention笔记0.5.00 1. LSTM模型的数据size2. 关于LSTM的输入数据包含hn和cn时,hn和cn的size3. LSTM参数中默认batch_first4. Attention机制的三种算法5. 模型的编码器6. 模型的解码器7. 最终模型8. 数据的准备9. 遇到的问题10. 完整代码1. LSTM模型的…

PHP数值数组讲解,for循环及函数 遍历数组获取元素

源码 <?phpheader("Content-Type:text/html;Charsetutf8");//创建数值数组$arr1 array();//简化创建语法 $arr2 [];//通过索引为数组添加不同类型的元素$arr1[0] "zhangsan" ;//也可以乱序添加元素$arr1[2] 12 ;$arr1[1] true ; //true输出为1 f…

搭建vue3组件库(四): 样式库搭建

文章目录 1. 样式目录文件架构2. SCSS 样式变量2.1 设置颜色 SCSS 变量2.2 设置多种类型主题2.3 生成全局类型主题 SCSS 变量2.4 分组生成 SCSS 变量 1. 样式目录文件架构 packages/theme-chalk 目录结构&#xff1a; ├── packages │ ├── theme-chalk │ │ ├─…

excel表格里,可以把百分号放在数字前面吗?

在有些版本里是可以的&#xff0c;这样做&#xff1a; 选中数据&#xff0c;鼠标右键&#xff0c;点击设置单元格格式&#xff0c;切换到自定义&#xff0c;在右侧栏输入%0&#xff0c;点击确定就可以了。 这样设置的好处是&#xff0c;它仍旧是数值&#xff0c;并且数值大小没…

说一下 hibernate 的缓存机制?

Hibernate 的缓存机制是为了提高应用程序的性能&#xff0c;通过减少对数据库物理数据源的访问频次而设计的。Hibernate 的缓存主要可以分为两个级别&#xff1a;一级缓存&#xff08;也称为 Session 级别的缓存&#xff09;和二级缓存&#xff08;也称为 SessionFactory 级别的…

Veeam - 数据保护和管理解决方案_Windows平台部署备份还原VMware手册

Veeam - - 数据保护和管理解决方案 Veeam Backup & Replication Console Veeam Data Platform Veeam Backup & Replication是一款强大的虚拟机备份、恢复和复制解决方案 安全备份、干净恢复和数据弹性 — 即时交付 在混合云中随时随地管理、控制、备份和恢复您的所有数…

ARM时钟树结构(GD32)

时钟树的简易框图 初始化配置系统时钟 配置系统初始化时钟&#xff08;参考手册&#xff09; 对应hal库函数 使用72MHz的系统时钟 do -----------while&#xff08;0&#xff09;的使用方法 系统时钟 #include <stdint.h> #include "gd32f30x.h"int main(void)…