DDSP-SVC-3.0完全指南:一步步教你用AI声音开启音乐之旅

本教程教你怎么使用工具训练数据集推理出你想要转换的声音音频,并且教你处理剪辑伴奏和训练后的音频合并一起,快来试试看把!

1.使用的工具

要想训练ai声音,首先需要有各种工具,还需要我们提供你需要训练的声音,当然声音需要没有噪音存干声,如果要是歌曲就需要分离歌曲的背景和声音,然后将音频文件切分,切分的目的是为了保证训练不卡,否则音频文件太大,所以你知道我们需要什么工具了把!以下揭晓

Adobe Audition :我主要用这个提取mp4的音频文件,后期可以用这个剪辑将伴奏和音频合起来

UVR5:这个是专门背景与人生分离的软件,一键安装就可以

Audio Slicer(音频切分):这个可以不用专门下软件自己操作了,大神在webui里集成了,按一下自动切分。

DDSP-SVC-3.0:最重要的工具,启动后是个webui界面,然后呢我们需要在里边训练自己的声音,转换声音等操作。

2.素材准备

2.1 AU提取音频

将mp4提取音频文件,用AU操作,操作如下:

我是要把我在bilibili录制的视频下载下来的,需要借助bilibili的一些工具才能下载下来视频,我用的是这个在线解析bilibili视频的还是蛮方便的,链接在这里。

哔哩哔哩(bilibili)视频解析下载 - 保存B站视频到手机、电脑

然后得到的视频可以拖到如下的位置,

然后点击这个文件右键将音频提取到文件,然后点击新出的音频文件再点击最上面的菜单文件保存或另存为然后就得到音频文件了。

2.2 UVR5提取干声

下面提取说明按需去取。

音频如果比较纯的声音无噪音则直接可以切分音频了,如果不纯的化可以处理下,打开url5,

这个是处理伴奏和人声分离的。

伴奏人声分离以后可以去听听纯声,发现其实会有一些和声和混响的,我们要去去掉这个和声混响,根据下面操作。

如果不是唱歌而是干声去噪也可以使用如下这种方式处理看看效果,我是纯的背景有点噪音,然后用了去和声混响处理的,也是有点效果的。

3.启动DDSP-SVC

声音部分都处理完了,就可以启动webui了,进入DDSP-SVC-3.0目录,双击启动启动WebUI,然后弹出来一个cmd弹框,

复制这个路径打开webui 

webui的界面是这样的

3.1 音频切分

这时就可以音频切分了,按照下面的说明去处理。

切分后的文件。 

找到切分后的输出目录然后全部将块音频全部复制到此目录下:DDSP-SVC-3.0\data\train\audio

然后就需要到webui界面下,这时需将DDSP-SVC-3.0\data\train里的音频以100:1的比例放入到此目录下:DDSP-SVC-3.0\data\val\audio,100:1就是100个文件里取一个这样的比例,也可以不用你自己挑,程序帮你挑完自己放入对应的校验集里也就是val目录下,程序操作如下:

3.2 数据预处理 

数据预处理,这里也很快,按下面的说明进行填写,填写哪些都有注释,点击数据预处理就可以了。

3,3 训练前的参数设置

设置要训练的参数,其实都默认就行,但是配置低的要进行相应的更改,否则训练过程中会失败。然后点击写入配置文件就可以了,此时输出信息说写入配置完成就OK了。

 

3.4 开始训练

3.4.1 DDSP模型训练

然后就开始训练了, 一般是先训DDSP这个是比较重要的,第一次训练的化需要选择从头开始训练,如果训练过程中取消了,那么想要继续训练就选择继续上一次的训练进度,然后取消模型训练时一定要按照这个倍数取消“每隔多少步(steps)验证并保存一次模型(2000步)”,否则可能没保存上,

然后弹出cmd,一直在迭代步数中,代表训练中

 观察loss值,无明显趋势觉得不需要训练就可以按取消了,ctrl+c就会取消训练

训练完了就可以训练扩散模型了,报如下错需要修改fp16需要改成fp32了。

 

 可以看训练趋势图,启动Tensorboard,按下面这个操作就可以了,倒时会告诉你地址。

就会出现这样的界面

3.4.2 扩展模型训练

DDSP训练完毕,我们开始训练扩散模型。如下方式这样就可以了,cmd和上面的ddsp是一样的,感觉差不多了就取消训练。都训练完毕了就到推理环节了。

训练好的模型在这里会出现,此目录:DDSP-SVC-3.0\exp

DDSP的在这个目录下,可以看到模型训练的步数

 扩散训练的在这个地方

4.模型推理 

兄弟们最后一步了,坚持住啊!

推理就选择我们自己训练的模型,选择音频,按下面的图片的步骤走,按顺序来就行。

 4.1 音频转换

重点来了,开始声音替换 ,我第一次处理时间巨长,也看不到日志后来关掉重启,重试关掉重启几次,突然出现了日志,以及处理过程,然后很快就推理完成了,听了下,效果还行,我的数据集还行,40分钟差不多,训练步数7500步也不多,然后我的声音全部是说话,没有唱歌声音,最后出现的这个效果还行,有一点点感觉到ai的感觉,不知道是不是这个哥以及歌手唱腔的原因。

推理过程。

 5.让AI唱歌

我的音频是《慢慢喜欢你》这首歌的干声,然后把我的声音替换上去,转换了以后《慢慢喜欢你》就是我的声音了,接下来就需要把伴奏和我处理后的声音合在一起,打开AU这个软件就可以了

选择多轨道

然后将伴奏文件和处理好的音频拖入进来,干声放入第一轨道,伴奏放入第二轨道,对齐就好

 然后点击文件导出-多轨混音-整个会话就可以了。记得自己指定输出目录哦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/202707.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Avalonia中如何将View事件映射到ViewModel层

前言 前面的文章里面我们有介绍在Wpf中如何在View层将事件映射到ViewModel层的文章,传送门,既然WPF和Avalonia是两套不同的前端框架,那么WPF里面实现模式肯定在这边就用不了,本篇我们将分享一下如何在Avalonia前端框架下面将事件…

陀螺仪LSM6DSV16X与AI集成(2)----姿态解算

陀螺仪LSM6DSV16X与AI集成.2--姿态解算 概述视频教学样品申请完整代码下载欧拉角万向节死锁四元数法姿态解算双环PI控制器偏航角陀螺仪解析代码上位机通讯加速度演示陀螺仪工作方式主程序演示 概述 LSM6DSV16X包含三轴陀螺仪与三轴加速度计。 姿态有多种数学表示方式&#xff…

多人聊天室

多人聊天包 由于要先创建服务面板,接收客户端连接的信息,此代码使用顺序为先启动服务端,在启动客户端,服务端不用关,不然会报错。多运行几次客户端,实现单人聊天 1.创建服务面板 package yiduiy;import j…

【计算机二级MS Office】word(上)

这里写目录标题 文件选项卡保存和另存为属性检查文档 开始选项卡字体更改字体和字号设置中文和英文为两种不同字体的快捷方式介绍其余图标文本效果突出颜色如何挑选字体颜色字符底纹带圈字符字体对话框(隐藏) 段落 插入选项卡设计选项卡布局选项卡引用选…

【头歌系统数据库实验】实验6 SQL的多表查询-2

目录 第1关:查询每个选手的信息及其提交的解答信息,没做题的选手不显示 第2关:查询做了1001题且耗时大于500(time)的选手信息 第3关:查询所有选手信息及其提交的解答信息,没做题的选手也要显…

力扣每日一题:2646. 最小化旅行的价格总和(2023-12-06)

力扣每日一题 题目:2646. 最小化旅行的价格总和 日期:2023-12-06 用时:30 m 14 s 时间:8ms 内存:42.98MB 思路:先统计旅行中每个节点路过的次数(dfs方法),再计算减半后的…

项目中使用之Maven BOM

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏: 工具教程 ✨特色专栏: MyS…

Linux文件部分知识

目录 认识inode 如何理解创建一个空文件? 如何理解对文件写入信息? 如何理解删除一个文件? 为什么拷贝文件的时候很慢,而删除文件的时候很快? 如何理解目录 ​编辑 文件的三个时间 ​编辑 Access: …

Linux系统调试课:网络性能工具总结

文章目录 一、网络性能指标二、netstat三、route四、iptables沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇章一起了解下网络性能工具。 一、网络性能指标 从网络性能指标出发,你更容易把性能工具同系统工作原理关联起来,对性能问题有宏观的认识和把握。这样,…

【LeetCode刷题-链表】--92.反转链表II

92.反转链表II /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int val) { this.val val; }* ListNode(int val, ListNode next) { this.val val; this.next next; }* }*/ cla…

前端JavaScript入门-day08-正则表达式

目录 介绍 语法 元字符 边界符 量词 字符类: 修饰符 介绍 正则表达式(Regular Expression)是用于匹配字符串中字符组合的模式。在 JavaScript中,正则表达式也是对象,通常用来查找、替换那些符合正则表达式的…

书-用数组存储高于60低于70的人单独存起来

#include<stdio.h> # define N 10 //书-用数组存储高于60低于70的人单独存起来 int main(){float s[N]{68.2,62.3,63.4,34.5,45.6,56.7,67.8,78.9,89.0,100};int i;float diyu[100];int j0;for(i0;i<N;i){if(s[i]>60 && s[i]<70)diyu[j]s[i];//这里的范…

【数据结构】——二叉树特点

前言&#xff1a;我们前面已经了解了二叉树的一些概念&#xff0c;那么我们今天就来了解下二叉树的遍历实现和一些性质。 二叉树的遍历方式有三种&#xff1a;前序&#xff0c;中序&#xff0c;后序。 前序&#xff1a;先根节点&#xff0c;再左子树&#xff0c;最后右子树。 中…

绘制6层及以上PCB板,需要明白PCB板的结构和叠层

PCB主要由PP半固化片和core芯板压合而成&#xff0c;其中core芯板两面都有铜箔&#xff0c;是PCB板的导电介质&#xff1b;PP半固化片是绝缘材料&#xff0c;用于芯板的粘合。 在PP半固化片被层压后&#xff0c;其环氧树脂被挤压开来&#xff0c;将core芯板粘合在一起。 PCB的叠…

Python代码将txt里面多行json字符串转成excel文件

python 代码 将txt里面的多行json字符串转成excel history.txt文件json代码样例 Json转换Excel代码 import json import pandas as pddef json_out(file_path,excel_path):all_list[]with open(file_path, "r", encodingutf-8) as f:for line in f:all_list.append…

Tuxera NTFS2024安装包下载教程

在听到小凡的电话说“Tuxera NTFS for Mac软件安装失败&#xff0c;怎么办”的时候&#xff0c;小编心里真像有一万头草泥马在奔腾——苹果软件还能安装失败&#xff01;&#xff1f; 挥手把一万头草泥马赶走&#xff0c;脑补着苹果软件的安装&#xff0c;小编对着电话吼道&am…

配置主机与外网时间服务器同步时间

目录 NTP服务简介 时间管理命令 第一步&#xff1a;更改当前主机所在地的时间 方法一&#xff1a;使用tzselect命令查询需要的时区 1、使用tzselect命令查询需要的时区 2、添加变量到 ~/.bash_profile 文件中&#xff0c;即追加类似的内容&#xff1a; 3、重新连接一个…

LLM大语言模型(一):ChatGLM3-6B本地部署

目录 前言 本机环境 ChatGLM3代码库下载 模型文件下载 修改为从本地模型文件启动 启动模型网页版对话demo 超参数设置 GPU资源使用情况 &#xff08;网页对话非常流畅&#xff09; 前言 LLM大语言模型工程化&#xff0c;在本地搭建一套开源的LLM&#xff0c;方便后续的…

深入了解UUID:生成、应用与优势

一、引言 在当今数字化时代&#xff0c;唯一标识一个对象的能力变得越来越重要。UUID&#xff08;Universally Unique Identifier&#xff0c;通用唯一标识符&#xff09;应运而生&#xff0c;作为一种保证全球唯一性的标识方法&#xff0c;广泛应用于各种场景。本文将详细介绍…

HTML程序大全(2):通用注册模版

一、正常情况效果 二、某项没有填写的效果 三、没有勾选同意项的效果 四、代码 <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>注册</title><style>body {font-family: Arial, sans-serif;background-color…