一、MVSEP-MDX23简介
模型GitHub网址:MVSEP-MDX23-music-separation-model/README.md 在 main ·ZFTurbo/MVSEP-MDX23-音乐分离模型 ·GitHub 上
在音视频领域,把已经发布的混音歌曲或者音频文件逆向分离一直是世界性的课题。音波混合的物理特性导致在没有原始工程文件的情况下,将其还原和分离是一件很有难度的事情。MVSEP-MDX23音乐分离模型是基于 Demucs4、MDX 神经网络架构和 Ultimate Vocal Remover 项目中的一些 MDX 权重。该模型在MultiSong 数据集上执行的最佳分离模型进行质量比较,发现该模型在SDR(信噪比)中比Demucs HT 4、Demucs 3、MDX B模型效果好。该模型有图形用户界面,web界面,本容器主要运用web界面,如下图所示:
将对上传的音频文件进行声音分离及显示频谱信息,分为人声、仪器、器乐、低音、鼓、其他六部分,以及相应的频谱图:
二、模型搭建流程
1.容器镜像一键使用
在“租用实例”页面进入应用社区,选择MVSEP-MDX23
(2)选择3090或其他性能优于3090的显卡,点击“立即创建”
2.进入创建的实例
在“项目实例”页面点击对应实例的“Web SSH”操作
以下命令均在该页面进行:
· 打开项目文件所在位置
cd MVSEP-MDX23-music-separation-model
· 激活ck虚拟环境
conda activate ck
· 更新gradio
pip install --upgrade gradio
· 指定端口即可启动项目,启动命令如下:
export GRADIO_SERVER_NAME=0.0.0.0
export GRADIO_SERVER_PORT=8080
python web-ui.py
出现以下页面代表运行成功:
3.开启外部访问获取访问链接
返回“项目实例”列表,选择并点击对应实例的“开放端口”操作。
有两种访问方式可以选择:本地私密访问和对外开放端口
(1)本地私密访问:选择 ssh 工具访问,登录之后填写各选项,点击“开启代理”
(2)对外开放端口:请按照下图操作
4.进入 webUI 界面后即可操作
将复制的访问网址粘贴到新网页即可开始 ui 界面的使用。注意:上传音频时长过长,处理过程容易报错,需要修剪到8秒左右。另外需要勾选“使用单个ONNX”才能运行成功
以上就是在算家云搭建 MVSEP-MDX23 的流程,具体使用方式可进入算家云应用社区查看该模型的使用说明。
点击容器中心 算家云,选择模型,一键开启 AI 之旅!