音源分离|Music Source Separation in the Waveform Domain

一、文章摘要

        本文中,比较了两种时域结构。首先将最初为语音源分离而开发的卷积tasnet应用于音乐源分离任务。虽然ConvTasnet击败了许多现有的频域方法,但正如人类评估所显示的那样,它存在明显的artifacts。本文提出了一种新的时域模型Demucs,它具有U-Net结构和双向LSTM。

        在MusDB数据集上的实验表明,通过适当的数据增强,Demucs击败了所有现有的最先进的架构,包括convt - tasnet,平均为6.3 SDR,(在150首额外的训练歌曲中达到6.8 SDR,甚至超过了bass源的IRM oracle)。使用模型量化的最新发展,Demucs可以压缩到120MB而不会损失任何精度。我们还提供了人类的评估,表明Demucs在音频的自然度方面有很大的优势。然而,它存在一些泄露问题,特别是在人声和其他源之间。

二、本文方法 

2.1 Conv-Tasnet方法适配到音源分离任务

        原始的conv - tasnet架构[Luo和Mesgarani, 2018]由一个学习的前端组成,该前端在以8 kHz采样的输入单音混合波形和以1 kHz采样的128通道过完整表示之间来回转换,使用卷积作为编码器和转置卷积作为解码器,两者的核大小为16,步幅为8。通过残块堆叠构成的分离网络对高维表示进行屏蔽。

        整个的分离思路按照公式(1)进行,一句话概括:最小化各个重建源加和的误差

        其中:g表示训练的模型,x表示各个源,L表示重建误差,S表示各个源的编号(假设1=bass、2=voval等),D表示训练用的数据(dataset)。

2.2 Demucs方法

        Demucs将立体声混合作为输入,并输出每个源的立体声估计(C = 2)。它是一个编码器/解码器架构,由卷积编码器、双向LSTM和卷积解码器组成,编码器和解码器通过跳跃连接相连。与图像[Karras等人,2018,2017]和声音[dsamfosez等人,2018]生成中的其他工作类似,我们没有使用批处理归一化[Ioffe和Szegedy, 2015],因为我们的早期实验表明它不利于模型性能。

三、实验结果

        我们注意到通过convt - tasnet分离的音频上有很强的伪像,特别是对于鼓和低音源:1到2 kHz之间的静态噪声,中空乐器攻击或缺失音符,如图1所示。

        

        我们在波形域中试验了两种音乐源分离架构:Demucs和convt - tasnet。我们表明,通过适当的数据增强,Demucs在波形或频谱域中超过所有最先进的架构至少0.3 dB的SDR。然而,波形和谱图域模型之间没有明显的赢家,因为前者似乎在低音和鼓源中占主导地位,而后者在人声和其他源上获得最佳表现,这是通过客观指标和人类评估来衡量的。我们推测,谱图域模型在内容主要是谐波和快速变化时具有优势,而对于没有谐波的源(鼓)或具有强烈和强调的攻击机制(低音),波形域将更好地保留音乐源的结构

        在训练和架构方面,我们确认了使用音高/节奏变换增强的重要性(尽管卷积- tasnet架构似乎并没有从中受益),以及使用LSTM进行长距离依赖,以及具有1x1卷积和GLU激活的强大编码和解码层。

        当使用额外的数据进行训练时,Demucs首次超过了用于低音源的IRM oracle。另一方面,Demucs仍然遭受比其他架构更大的泄漏,特别是对于人声和其他来源,我们将在未来的工作中尽量减少。

【原文链接】https://arxiv.org/pdf/1911.13254

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/11897.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙内核源码分析 (协处理器篇) | CPU 的好帮手

本篇很重要,对CP15协处理所有16个寄存器一一介绍,可能是全网介绍CP15最全面的一篇,鸿蒙内核的汇编部分(尤其开机启动)中会使用,熟练掌握后看汇编代码将如虎添翼。 协处理器 协处理器 (co-processor) 顾名思义是协助主处理器完成…

服务器渲染和客户端渲染:解析服务器渲染(SSR)和客户端渲染(CSR)的概念,各自的优点和缺点,并比较如Next.js, Nuxt.js等解决方案

首先从概念上区分,服务器渲染(Server-side Rendering,简称 SSR)和客户端渲染(Client-side Rendering,简称 CSR)主要的区别在于页面的渲染地点不同: 服务器渲染,即 SSR&am…

韵搜坊(全栈)-- 前后端初始化

文章目录 前端初始化后端初始化 前端初始化 使用ant design of vue 组件库 官网快速上手:https://www.antdv.com/docs/vue/getting-started-cn 安装脚手架工具 进入cmd $ npm install -g vue/cli # OR $ yarn global add vue/cli创建一个项目 $ vue create ant…

社交媒体数据恢复:默往

如果你在默往社交软件中丢失了重要的数据,不要着急,以下是一些步骤可以帮助你进行数据恢复: 登录账号:首先,你需要登录默往社交软件账号,确保你已经登录了正确的账号,因为如果你登录了错误的账号…

邦芒简历:如何恰当呈现跳槽经历在简历中

在职业生涯中,跳槽往往伴随着个人的成长与选择。然而,频繁或不当的跳槽记录可能会给HR留下不稳定的印象。因此,在撰写简历时,如何恰当地呈现跳槽经历就显得尤为重要。 1、短期工作经历的处理 对于短期工作经历(尤其是…

弘君资本策略:股指预计保持震荡上扬格局 关注公用事业、电网设备等板块

弘君资本指出,周一A股商场探底上升、小幅震动收拾,早盘股指低开后震动回落,沪指盘中在3126点附近取得支撑,午后股指企稳上升,盘中电网设备、公用事业、电力以及工程建造等职业体现较好;半导体、互联网以及软…

掌握社交的这二十个心理技巧

1.自信:这一点说起来容易做起来难,但就算是假装出来的自信,通过你的肢体语言表现出来。在很大程度也可以帮助你留下很好的第一印象。人们喜欢自信的人。因为他们更可靠,更值得信赖,更具吸引力。 2.当你第一次见到某人…

PXE+Kickstart无人值守安装安装Centos7.9

文章目录 一、什么是PXE1、简介2、工作模式3、工作流程 二、什么是Kickstart1、简介2、触发方式 三、无人值守安装系统工作流程四、实验部署1、环境准备2、服务端:关闭防火墙和selinux3、添加一张仅主机的网卡4、配置仅主机的网卡4.1、修改网络连接名4.2、配IP地址4…

差异基因散点图绘制教程

差异基因散点图绘制教程 本期教程 小杜的生信笔记,自2021年11月开始做的知识分享,主要内容是R语言绘图教程、转录组上游分析、转录组下游分析等内容。凡事在社群同学,可免费获得自2021年11月份至今全部教程,教程配备事例数据和相…

最新版Ceph( Reef版本)块存储简单对接k8s(上集)

当前ceph 你的ceph集群上执行 1.创建名为k8s-rbd 的存储池 ceph osd pool create k8s-rbd 64 642.初始化 rbd pool init k8s-rbd3 创建k8s访问块设备的认证用户 ceph auth get-or-create client.kubernetes mon profile rbd osd profile rbd poolk8s-rbd部署 ceph-rbd-csi c…

List集合的复制方式

List集合的复制方式主要有以下几种: 使用构造器复制 创建一个新的List集合,并将原始List集合作为参数传递给它的构造器。例如,List<String> newList = new ArrayList<>(originalList)。这种方式会创建一个新的List对象,并将原始List的所有元素复制到新List中…

快速学习SpringAi

Spring AI是AI工程师的一个应用框架&#xff0c;它提供了一个友好的API和开发AI应用的抽象&#xff0c;旨在简化AI应用的开发工序&#xff0c;例如开发一款基于ChatGPT的对话应用程序。通过使用Spring Ai使我们更简单直接使用chatgpt 1.创建项目 jdk17 引入依赖 2.依赖配置 …

同城组局同城活动找搭子小程序JAVA源码面芽组局的实现方案

功能概述 基于微信小程序开发的一款软件&#xff0c;支持用户动态发布、私信聊天关注、礼物充值打赏、发起活动组局、用户报名参与、支持商家入驻&#xff0c;对接广告功能等。 活动发布&#xff1a;用户可以在平台上发布各种类型的活动&#xff0c;如户外徒步、音乐会观赏、…

AI应用案例:会议纪要自动生成

以腾讯会议转录生成的会议记录为研究对象&#xff0c;借助大模型强大的语义理解和文本生成等能力&#xff0c;利用指令和文本向量搜索实现摘要总结、要点提取、行动项目提取、会议纪要生成等过程&#xff0c;完成会议纪要的自动总结和生成&#xff0c;降低人工记录和整理时间成…

React 第三十章 React 和 Vue 描述页面的区别

面试题&#xff1a;React 和 Vue 是如何描述 UI 界面的&#xff1f;有一些什么样的区别&#xff1f; 标准且浅显的回答&#xff1a; React 中使用的是 JSX&#xff0c;Vue 中使用的是模板来描述界面 前端领域经过长期的发展&#xff0c;目前有两种主流的描述 UI 的方案&#xf…

Q1季度电饭煲家电行业线上市场(京东天猫淘宝)销售数据排行榜

鲸参谋监测的2024年Q1季度线上电商平台&#xff08;天猫淘宝京东&#xff09;电饭煲家电销售数据已出炉&#xff01; 今年Q1季度&#xff0c;电饭煲销售成绩不如预期。根据鲸参谋数据显示&#xff0c;今年Q1季度在线上电商平台&#xff08;淘宝天猫京东&#xff09;电饭煲销量…

三种有效方法:快速将视频格式转换mp4格式

在当今数字化时代&#xff0c;视频文件的格式多种多样&#xff0c;而将视频转换为MP4格式是一种常见的需求。MP4格式具有广泛的兼容性&#xff0c;适用于多种设备和平台&#xff0c;因此经常被选择作为视频文件的输出格式。 无论是为了在移动设备上观看视频&#xff0c;还是为…

照妖镜api接口,查询旺旺的降权、黑号举报数据(全网实时更新)

照妖镜api接口&#xff0c;查询旺旺的降权、黑号举报数据&#xff08;全网实时更新&#xff09; 照妖镜查号功能说明&#xff1a; 1.照妖镜查号功能的打标信息为商家主动共享&#xff0c;不对相关使用效果或纠纷承担责任&#xff1b; 2.本功能于查询互联网用户防止电信诈骗&…

NSS【web】刷题

[SWPUCTF 2021 新生赛]jicao 类型&#xff1a;PHP、代码审计、RCE 主要知识点&#xff1a;json_decode()函数 json_decode()&#xff1a;对JSON字符串解码&#xff0c;转换为php变量 用法&#xff1a; <?php $json {"ctf":"web","question"…

YOLOV8实战-和平精英敌我检测

YOLOV8实战&#xff0c;从环境配置、数据准备、数据标注、模型训练、模型导出到源码分享 前言&#xff1a;效果展示图片展示视频展示 简介&#xff1a;**【YOLOV8是啥&#xff1f;】****【YOLOV8能干啥&#xff1f;有啥应用场景&#xff1f;】** 一、环境准备1、新建一个虚拟环…