音源分离|Music Source Separation in the Waveform Domain

一、文章摘要

        本文中,比较了两种时域结构。首先将最初为语音源分离而开发的卷积tasnet应用于音乐源分离任务。虽然ConvTasnet击败了许多现有的频域方法,但正如人类评估所显示的那样,它存在明显的artifacts。本文提出了一种新的时域模型Demucs,它具有U-Net结构和双向LSTM。

        在MusDB数据集上的实验表明,通过适当的数据增强,Demucs击败了所有现有的最先进的架构,包括convt - tasnet,平均为6.3 SDR,(在150首额外的训练歌曲中达到6.8 SDR,甚至超过了bass源的IRM oracle)。使用模型量化的最新发展,Demucs可以压缩到120MB而不会损失任何精度。我们还提供了人类的评估,表明Demucs在音频的自然度方面有很大的优势。然而,它存在一些泄露问题,特别是在人声和其他源之间。

二、本文方法 

2.1 Conv-Tasnet方法适配到音源分离任务

        原始的conv - tasnet架构[Luo和Mesgarani, 2018]由一个学习的前端组成,该前端在以8 kHz采样的输入单音混合波形和以1 kHz采样的128通道过完整表示之间来回转换,使用卷积作为编码器和转置卷积作为解码器,两者的核大小为16,步幅为8。通过残块堆叠构成的分离网络对高维表示进行屏蔽。

        整个的分离思路按照公式(1)进行,一句话概括:最小化各个重建源加和的误差

        其中:g表示训练的模型,x表示各个源,L表示重建误差,S表示各个源的编号(假设1=bass、2=voval等),D表示训练用的数据(dataset)。

2.2 Demucs方法

        Demucs将立体声混合作为输入,并输出每个源的立体声估计(C = 2)。它是一个编码器/解码器架构,由卷积编码器、双向LSTM和卷积解码器组成,编码器和解码器通过跳跃连接相连。与图像[Karras等人,2018,2017]和声音[dsamfosez等人,2018]生成中的其他工作类似,我们没有使用批处理归一化[Ioffe和Szegedy, 2015],因为我们的早期实验表明它不利于模型性能。

三、实验结果

        我们注意到通过convt - tasnet分离的音频上有很强的伪像,特别是对于鼓和低音源:1到2 kHz之间的静态噪声,中空乐器攻击或缺失音符,如图1所示。

        

        我们在波形域中试验了两种音乐源分离架构:Demucs和convt - tasnet。我们表明,通过适当的数据增强,Demucs在波形或频谱域中超过所有最先进的架构至少0.3 dB的SDR。然而,波形和谱图域模型之间没有明显的赢家,因为前者似乎在低音和鼓源中占主导地位,而后者在人声和其他源上获得最佳表现,这是通过客观指标和人类评估来衡量的。我们推测,谱图域模型在内容主要是谐波和快速变化时具有优势,而对于没有谐波的源(鼓)或具有强烈和强调的攻击机制(低音),波形域将更好地保留音乐源的结构

        在训练和架构方面,我们确认了使用音高/节奏变换增强的重要性(尽管卷积- tasnet架构似乎并没有从中受益),以及使用LSTM进行长距离依赖,以及具有1x1卷积和GLU激活的强大编码和解码层。

        当使用额外的数据进行训练时,Demucs首次超过了用于低音源的IRM oracle。另一方面,Demucs仍然遭受比其他架构更大的泄漏,特别是对于人声和其他来源,我们将在未来的工作中尽量减少。

【原文链接】https://arxiv.org/pdf/1911.13254

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/11897.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙内核源码分析 (协处理器篇) | CPU 的好帮手

本篇很重要,对CP15协处理所有16个寄存器一一介绍,可能是全网介绍CP15最全面的一篇,鸿蒙内核的汇编部分(尤其开机启动)中会使用,熟练掌握后看汇编代码将如虎添翼。 协处理器 协处理器 (co-processor) 顾名思义是协助主处理器完成…

韵搜坊(全栈)-- 前后端初始化

文章目录 前端初始化后端初始化 前端初始化 使用ant design of vue 组件库 官网快速上手:https://www.antdv.com/docs/vue/getting-started-cn 安装脚手架工具 进入cmd $ npm install -g vue/cli # OR $ yarn global add vue/cli创建一个项目 $ vue create ant…

社交媒体数据恢复:默往

如果你在默往社交软件中丢失了重要的数据,不要着急,以下是一些步骤可以帮助你进行数据恢复: 登录账号:首先,你需要登录默往社交软件账号,确保你已经登录了正确的账号,因为如果你登录了错误的账号…

弘君资本策略:股指预计保持震荡上扬格局 关注公用事业、电网设备等板块

弘君资本指出,周一A股商场探底上升、小幅震动收拾,早盘股指低开后震动回落,沪指盘中在3126点附近取得支撑,午后股指企稳上升,盘中电网设备、公用事业、电力以及工程建造等职业体现较好;半导体、互联网以及软…

PXE+Kickstart无人值守安装安装Centos7.9

文章目录 一、什么是PXE1、简介2、工作模式3、工作流程 二、什么是Kickstart1、简介2、触发方式 三、无人值守安装系统工作流程四、实验部署1、环境准备2、服务端:关闭防火墙和selinux3、添加一张仅主机的网卡4、配置仅主机的网卡4.1、修改网络连接名4.2、配IP地址4…

差异基因散点图绘制教程

差异基因散点图绘制教程 本期教程 小杜的生信笔记,自2021年11月开始做的知识分享,主要内容是R语言绘图教程、转录组上游分析、转录组下游分析等内容。凡事在社群同学,可免费获得自2021年11月份至今全部教程,教程配备事例数据和相…

最新版Ceph( Reef版本)块存储简单对接k8s(上集)

当前ceph 你的ceph集群上执行 1.创建名为k8s-rbd 的存储池 ceph osd pool create k8s-rbd 64 642.初始化 rbd pool init k8s-rbd3 创建k8s访问块设备的认证用户 ceph auth get-or-create client.kubernetes mon profile rbd osd profile rbd poolk8s-rbd部署 ceph-rbd-csi c…

快速学习SpringAi

Spring AI是AI工程师的一个应用框架,它提供了一个友好的API和开发AI应用的抽象,旨在简化AI应用的开发工序,例如开发一款基于ChatGPT的对话应用程序。通过使用Spring Ai使我们更简单直接使用chatgpt 1.创建项目 jdk17 引入依赖 2.依赖配置 …

同城组局同城活动找搭子小程序JAVA源码面芽组局的实现方案

功能概述 基于微信小程序开发的一款软件,支持用户动态发布、私信聊天关注、礼物充值打赏、发起活动组局、用户报名参与、支持商家入驻,对接广告功能等。 活动发布:用户可以在平台上发布各种类型的活动,如户外徒步、音乐会观赏、…

AI应用案例:会议纪要自动生成

以腾讯会议转录生成的会议记录为研究对象,借助大模型强大的语义理解和文本生成等能力,利用指令和文本向量搜索实现摘要总结、要点提取、行动项目提取、会议纪要生成等过程,完成会议纪要的自动总结和生成,降低人工记录和整理时间成…

React 第三十章 React 和 Vue 描述页面的区别

面试题:React 和 Vue 是如何描述 UI 界面的?有一些什么样的区别? 标准且浅显的回答: React 中使用的是 JSX,Vue 中使用的是模板来描述界面 前端领域经过长期的发展,目前有两种主流的描述 UI 的方案&#xf…

Q1季度电饭煲家电行业线上市场(京东天猫淘宝)销售数据排行榜

鲸参谋监测的2024年Q1季度线上电商平台(天猫淘宝京东)电饭煲家电销售数据已出炉! 今年Q1季度,电饭煲销售成绩不如预期。根据鲸参谋数据显示,今年Q1季度在线上电商平台(淘宝天猫京东)电饭煲销量…

三种有效方法:快速将视频格式转换mp4格式

在当今数字化时代,视频文件的格式多种多样,而将视频转换为MP4格式是一种常见的需求。MP4格式具有广泛的兼容性,适用于多种设备和平台,因此经常被选择作为视频文件的输出格式。 无论是为了在移动设备上观看视频,还是为…

照妖镜api接口,查询旺旺的降权、黑号举报数据(全网实时更新)

照妖镜api接口,查询旺旺的降权、黑号举报数据(全网实时更新) 照妖镜查号功能说明: 1.照妖镜查号功能的打标信息为商家主动共享,不对相关使用效果或纠纷承担责任; 2.本功能于查询互联网用户防止电信诈骗&…

NSS【web】刷题

[SWPUCTF 2021 新生赛]jicao 类型&#xff1a;PHP、代码审计、RCE 主要知识点&#xff1a;json_decode()函数 json_decode()&#xff1a;对JSON字符串解码&#xff0c;转换为php变量 用法&#xff1a; <?php $json {"ctf":"web","question"…

YOLOV8实战-和平精英敌我检测

YOLOV8实战&#xff0c;从环境配置、数据准备、数据标注、模型训练、模型导出到源码分享 前言&#xff1a;效果展示图片展示视频展示 简介&#xff1a;**【YOLOV8是啥&#xff1f;】****【YOLOV8能干啥&#xff1f;有啥应用场景&#xff1f;】** 一、环境准备1、新建一个虚拟环…

Linux中的网络隔离功能 netns

Network Namespace&#xff08;netns&#xff09; 是Linux内核提供的一项实现网络隔离的功能&#xff0c;它能隔离多个不同的网络空间&#xff0c;并且各自拥有独立的网络协议栈。通过 namespace 可以隔离容器的进程 PID、文件系统挂载点、主机名等多种资源&#xff0c;它可以为…

vscode调试Electron+ts

调试Electronjs 调试Electronjs: https://www.electronjs.org/zh/docs/latest/tutorial/debugging-vscode 调试Electronts 首先看一下&#xff0c;我的目录结构。目录结构决定了launch.json中的路径部分。我将在项目根目录下进行调试&#xff0c;项目根目录下包含electron代码…

数据可视化(十一):Pandas餐饮信息表分析——交叉表、离群点分析,多维分析等高级操作

Tips&#xff1a;"分享是快乐的源泉&#x1f4a7;&#xff0c;在我的博客里&#xff0c;不仅有知识的海洋&#x1f30a;&#xff0c;还有满满的正能量加持&#x1f4aa;&#xff0c;快来和我一起分享这份快乐吧&#x1f60a;&#xff01; 喜欢我的博客的话&#xff0c;记得…

golang创建式设计模式------单例模式

目录导航 1.单例模式1)什么是单例模式 2)使用场景3)实现方式1.懒汉式单例模式2.饿汉式3.双重检查式4.sysc.Once式 4)实践案例5)优缺点分析 1.单例模式 1)什么是单例模式 单例模式(Singleton Pattern)是一种常用的设计模式。单例模式的类提供了一种访问其唯一对象的方法&#…