GPT-SoVITS音色克隆-模型训练步骤

GPT-SoVITS音色克隆-模型训练步骤

  • GPT-SoVITS模型源码
  • 一个简单的TTS后端项目 基于
  • 模型部署和训练教程,语雀
    模型部署和训练教程

启动模型训练的主页面

1. 切到模型路径

/psycheEpic/GPT-SoVITS
  • 进入Python虚拟环境,并挂起执行python脚本
conda activate GPTSoVits
nohup python ./webui.py >>./webui.log &
  • 查看日志 tail -500f webui.log

2. uvr5人声分离和去混响处理

  • 切换到路径
cd /psycheEpic/GPT-SoVITS/tools/uvr5
  • 启动uvr5操作web界面
  • 在这里插入图片描述
python webui.py "cuda" True 15666 True

3. 人声分离操作

在浏览器进入界面:https://73de21d131614dd42e.gradio.live,这个地址每次启动都会变得

先用HP2模型处理一遍(提取人声),然后将输出的干声音频再用onnx_dereverb最后用DeEcho-Aggressive(去混响),输出格式选wav。输出的文件默认在GPT-SoVITS-beta\GPT-SoVITS-beta\output\uvr5_opt这个文件夹下,建议不要改输出路径,到时候找不到文件谁也帮不了你。处理完的音频(vocal)的是人声,(instrument)是伴奏,(No Reverb)的没混响的,(Reverb)的是混响。(vocal)(No Reverb)才是要用的文件,其他都可以删除。结束后记得到WebUI关闭UVR5节省显存。

1)第一步先提前人声,人声和背景音乐分离,HP2模型

在这里插入图片描述

2)第二步将上一步分离出来的人声,上传作为输入,再使用onnx_dereverb提前一次人声

在这里插入图片描述

3)第三步将上一步的人声作为输入,去混响,使用DeEcho-Aggressive(去混响)

在这里插入图片描述

4. 将长视频进行切割

进入主页面操作:

在这里插入图片描述

5.给切割好的视频作为输入,给对路径,调用模型进行打标

为什么要打标:打标就是给每个音频配上文字,这样才能让AI学习到每个字该怎么读。这里的标指的是标注

这步很简单只要把刚才的切分文件夹输入,如果你音频降噪过,那么默认是output/slicer_opt文件夹,如果你切分了没有降噪,那么默认是output/slicer_opt文件夹。然后选择达摩ASR或者fast whisper。达摩ASR只能用于识别中文,效果也最好。fast whisper可以标注99种语言,是目前最好的英语和日语识别,模型尺寸选large V3,语种选auto自动就好了。然后点开启离线批量ASR就好了,默认输出是output/asr_opt这个路径,建议不要改输出路径,到时候找不到文件谁也帮不了你。ASR需要一些时间,看着控制台有没有报错就好了。

在这里插入图片描述

6. 标注校验

在这里插入图片描述

7.GPT-SoVITS-TTS-训练集格式化工具-填好参数一键三连

在这里插入图片描述

在这里插入图片描述

8. 微调训练

在这里插入图片描述

9. 模型推理,刷新模型

在这里插入图片描述

  • 执行脚本,打开推理页面
进入Python环境
conda activate GPTSoVits
cd /psycheEpic/GPT-SoVITS/GPT_SoVITS/
nohup python inference_webui.py >>./inference_webui.log &

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/710793.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习(II)--样本不平衡

现实中,样本(类别)样本不平衡(class-imbalance)是一种常见的现象,如:金融欺诈交易检测,欺诈交易的订单样本通常是占总交易数量的极少部分,而且对于有些任务而言少数样本更…

Linux信号【产生-保存-处理】

目录 前言: 1、进程信号基本概念 1.1、什么是信号? 1.2、信号的作用 2、键盘键入 2.1、ctrlc 终止前台进程 2.1.1、signal 注册执行动作 3、系统调用 3.1、kill 函数 3.2、模拟实现 myKill 3.3、raise 函数 3.4、abort 函数 4、软件条件信号…

人工智能福利站,初识人工智能,图神经网络学习,第五课

🏆作者简介,普修罗双战士,一直追求不断学习和成长,在技术的道路上持续探索和实践。 🏆多年互联网行业从业经验,历任核心研发工程师,项目技术负责人。 🎉欢迎 👍点赞✍评论…

nginx设置缓存时间、日志分割、开启多进程、网页压缩、配置防盗链

一、设置缓存时间 当网页数据返回给客户端后,可针对静态网页设置缓存时间,在配置文件内的http段内server段添加location,更改字段expires 1d来实现:避免重复请求,加快访问速度 第一步:修改主配置文件 #修…

Vulnhub靶机:basic_pentesting_2

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.4) 靶机:basic_pentesting_2(10.0.2.7) 目标:获取靶机root权限和flag 靶机下载地址:https://download.vulnhub.c…

如何选择O2OA(翱途)开发平台的部署架构?

概述 O2OA(翱途)开发平台[下称O2OA开发平台或者O2OA]支持公有云,私有云和混合云部署,也支持复杂的网络结构下的分布式部署。本篇主要介绍O2OA(翱途)开发平台支持的部署环境以及常用的集群部署架构。 软硬件环境说明 支持的云化平台: 华为云…

分布式概念:编码一个简单分布式系统

分布式系统是由多台计算机组成的系统,它们通过网络连接并共同完成任务。以下是一个简单的分布式系统的编码示例: 定义系统架构 首先,需要定义系统的架构。包括确定系统中的计算节点、通信机制和任务分配方式等。 编写计算节点代码 每个计算节…

算法简介:递归

递归 1. 递归1.1 基线条件和递归条件 2. 栈2.1 调用栈2.2 递归调用栈 1. 递归 循环和递归可以实现相同的功能,如: 循环 def look_for_key(main_box)pile main_box.make_a_pile_to_look_thorugh()while pile is not empty:box pile.grab_a_box()for …

LLM 聊天对话界面chatwebui 增加实时语音tts功能

类似豆包聊天,可以实时语音回复 1、聊天界面 streamlit页面 参考界面:https://blog.csdn.net/weixin_42357472/article/details/133199866 stream_web.py 2、 增加实时语音tts功能(接入melotts api服务) 参考:https://blog.csdn.net/weixin_42357472/article/detai…

vue3学习 ref和reactive的使用

使用ref声明一个响应式对象并使用 <script lang"ts" setup> import { ref } from vue; const message ref("HelloWorld") message.value"被修改了啊~~" </script> <template>{{ message }} </template>ref() 接收参数…

Docker容器与虚拟化技术:OpenEuler 使用 docker-compose 部署 LNMP

目录 一、实验 1.环境 2.OpenEuler 部署 docker-compose 3.docker-compose 部署 LNMP 二、问题 1.ntpdate未找到命令 2.timedatectl 如何设置时区与时间同步 3.php网页显示时区不对 一、实验 1.环境 &#xff08;1&#xff09;主机 表1 主机 系统架构版本IP备注Lin…

docker启动容器报错:ERRO[0000] error waiting for container: context canceled,解决方法

系统环境&#xff1a;ubuntu16.04&#xff0c;已安装docker 执行命令&#xff1a;sudo docker run -it --privileged --shm-size128g -v /home:/home docker-image /bin/bash 报错 docker: Error response from daemon: could not select device driver "" with …

Android PMS实战——Hook技术介绍(十四)

在了解了 PMS 的调用流程之后,都有那些用处呢?首先帮助了解 Android 包管理系统原理,还有就是配合 AMS 通过 Hook 技术,实现热更新、插件化等功能。 我们可以通过反射获取到 PackageParser 对象,再反射调用它的 parsePackage() 传入 apk 路径完成解析获取到 Package 对象,…

厚膜电阻与薄膜电阻相比,特点是什么?

厚膜电阻与薄膜电阻是两种常见的电阻器件&#xff0c;它们之间的特点主要有以下几个方面&#xff1a; 1. 厚度不同&#xff1a;厚膜电阻的膜层厚度较大&#xff0c;一般在几微米到几十微米之间&#xff0c;而薄膜电阻的膜层厚度较薄&#xff0c;一般在几纳米到几微米之间。 2. …

单片机精进之路-9ds18b20温度传感器

ds18b20复位时序图&#xff0c;先将b20的数据引脚拉低至少480us&#xff0c;然后再将数据引脚拉高15-60us&#xff0c;再去将测传感器的数据引脚是不是变低电平并保持60-240us&#xff0c;如果是&#xff0c;则说明检测到温度传感器&#xff0c;并正常工作。需要在240us后才能检…

xss高级靶场

一、环境 XSS Game - Ma Spaghet! | PwnFunction 二、开始闯关 第一关 看看代码 试一下直接写 明显进来了为什么不执行看看官方文档吧 你不执行那我就更改单标签去使用呗 ?somebody<img%20src1%20onerror"alert(1)"> 防御&#xff1a; innerText 第二关…

Codeforces Round 930 (Div. 2) (A~B)

比赛&#xff1a;Codeforces Round 930 (Div. 2) (A~B) 目录&#xff1a;A B A题&#xff1a;Shuffle Party 标签: 模拟 题目大意 给你一个数组 a1,a2,…,an。最初&#xff0c;每个 1 ≤ i ≤ n都有 ai i&#xff0c;整数 k ≥ 2的运算 swap(k)定义如下&#xff1a; 设 d是…

Python图像形态学处理:腐蚀、膨胀、礼帽、黑帽……

文章目录 二值形态学灰度形态学 python图像处理教程&#xff1a;初步&#x1f4f7;插值变换 最基础的形态学操作有四个&#xff0c;分别是腐蚀、膨胀、开计算和闭计算&#xff0c;【scipy.ndimage】分别实现了二值数组和灰度数组的这四种运算。而针对灰度图像&#xff0c;【sc…

Office/WPS 好用的PPT插件-智能选择布局

软件介绍 PPT大珩助手是一款全新设计的Office PPT插件&#xff0c;它是一款功能强大且实用的PPT辅助工具&#xff0c;能够轻松帮助您修改、优化和管理幻灯片。凭借丰富的功能和用户友好的界面&#xff0c;PPT大珩助手能够助力您打造出精美而专业的演示文稿。我们致力于为用户提…

Flutter学习7 - Dart 泛型

1、泛型类 //泛型类 class Cache<T> {final Map<String, T> _cache {};void saveData(String key, T value) {_cache[key] value;}//泛型方法T? getData(String key) {return _cache[key];} }void main() {Cache<int> cache1 Cache();const String name…