睡眠音频分割及识别问题(三)

文献一:PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition

[摘要] 音频模式识别是机器学习领域的一个重要研究课题,包括音频标注、声场景分类、音乐分类、语音情感分类和声音事件检测等多项任务。最近,神经网络已被应用于解决音频模式识别问题。但是,以前的系统建立在持续时间有限的特定数据集上。最近,在计算机视觉和自然语言处理中,在大规模数据集上预训练的系统已经很好地推广到了几个任务。然而,在用于音频模式识别的大规模数据集上的预训练系统的研究有限。在本文中,我们提出了在大规模 AudioSet 数据集上训练的预训练音频神经网络 (PANN)。这些 PANN 被转移到其他与音频相关的任务中。我们研究了由各种卷积神经网络建模的 PANN 的性能和计算复杂性。我们提出了一种称为 Wavegram-Logmel-CNN 的架构,使用 log-mel 频谱图和波形作为输入特征。我们最好的 PANN 系统在 AudioSet 标记上实现了 0.439 的最先进的平均精度 (mAP),优于之前最好的系统 0.392。我们将 PANN 转移到六个音频模式识别任务中,并在其中几个任务中展示了最先进的性能。


文献二:Towards Duration Robust Weakly Supervised Sound Event Detection

> [1]

引言部分

SOUND event detection (SED) research classifies and localizes particular audio events (e.g., dog barking, alarm ringing) within an audio clip, assigning each event a label along with a start point (onset) and an endpoint (offset).
声音事件检测 (SED) 研究对音频剪辑中的特定音频事件(例如,狗吠、警报响起)进行分类和定位,为每个事件分配一个标签以及起点(开始)和终点(偏移)。 
Label assignment is usually referred to as tagging, while the onset/offset detection is referred to as localization.
标签分配通常称为标记,而起始/偏移检测称为定位。 
SED can be used for query-based sound retrieval [1], smart cities, and homes [2], [3], as well as voice activity detection [4].
SED 可用于基于查询的声音检索 [1]、智能城市和家庭 [2]、[3],以及语音活动检测 [4]。 
Unlike common classification tasks such as image or speaker recognition, a single audio clip might contain multiple different sound events (multi-output), sometimes occurring simultaneously (multi-label).
与图像或说话人识别等常见分类任务不同,单个音频剪辑可能包含多个不同的声音事件(多输出),有时同时发生(多标签)。 
In particular, the localization task escalates the difficulty within the scope of SED, since different sound events have various time lengths, and each occurrence is unique.
特别是定位任务在 SED 范围内升级了难度,因为不同的声音事件具有不同的时间长度,并且每次发生都是独一无二的。 
Two main approaches exist to train an effective localization model: Fully supervised SED and weakly supervised SED (WSSED).
训练有效定位模型的主要方法有两种:全监督 SED 和弱监督 SED (WSSED)。 
Fully supervised approaches, which potentially perform better than weakly supervised ones, require manual time-stamp labeling.
完全监督的方法可能比弱监督的方法表现得更好,需要手动标记时间戳。 
However, manual labeling is a significant hindrance for scaling to large datasets due to the expensive labor cost. 
然而,由于昂贵的劳动力成本,手动标记是扩展到大型数据集的重大障碍。
This paper primarily focuses on WSSED, which only has access to clip event labels during training yet requires to predict onsets and offsets at the inference stage.
本文主要关注 WSSED,它只能在训练期间访问剪辑事件标签,但需要在推理阶段预测开始和偏移。 
Challenges such as the Detection and Classification of Acoustic Scenes and Events (DCASE) exemplify the difficulties in training robust SED systems.
声学场景和事件的检测和分类 (DCASE) 等挑战体现了训练稳健 SED 系统的困难。 
DCASE challenge datasets are real-world recordings (e.g., audio with no quality control and lossy compression), thus containing unknown noises and scenarios. 
DCASE 挑战数据集是真实世界的录音(例如,没有质量控制和有损压缩的音频),因此包含未知的噪音和场景。 
Specifically, in each challenge since 2017, at least one task was primarily concerned with WSSED. Most previous work focuses on providing single target task-specific solutions for WSSED on either tagging-, segment- or event-level. 
具体而言,在 2017 年以来的每项挑战中,至少有一项任务主要与 WSSED 相关。 以前的大部分工作都集中在为 WSSED 提供标记、段或事件级别的单一目标任务特定解决方案。 
Tagging-level solutions are often capable of localizing event boundaries, yet their temporal consistency is subpar to segment- and event-level methods. 
标记级解决方案通常能够定位事件边界,但它们的时间一致性低于段级和事件级方法。 
This has been seen during the DCASE2017 challenge, where no single model could win both tagging and localization subtasks.
这已经在 DCASE2017 挑战中看到了,在那里没有一个模型可以同时赢得标记和本地化子任务。 
Solutions optimized for segment level often utilize a fixed target time resolution (e.g., 1 Hz), inhibiting fine-scale localization performance (e.g., 50 Hz).
针对分段级别优化的解决方案通常使用固定的目标时间分辨率(例如 1 Hz),从而抑制精细定位性能(例如 50 Hz)。 
Lastly, successful event-level solutions require prior knowledge about each events’ duration to obtain temporally consistent predictions.
最后,成功的事件级解决方案需要关于每个事件持续时间的先验知识,以获得时间上一致的预测。 
Previous work in [5] showed that successful models such as the DCASE2018 task 4 winner are biased towards predicting tags from long-duration clips, which might limit themselves from generalizing towards different datasets (e.g., deploy the same model on a new dataset) since new datasets possibly contain short or unknown duration events.
[5] 之前的工作表明,成功的模型,例如 DCASE2018 任务 4 获胜者倾向于从长持续时间的剪辑中预测标签,这可能会限制自己对不同数据集的泛化(例如,在新数据集上部署相同的模型),因为 新数据集可能包含短时间或未知持续时间的事件。
In contrast, we aim to enhance WSSED performance, specifically in duration estimation regarding short, abrupt events, without a pre-estimation of each respective event’s individual weight.
相比之下,我们的目标是提高 WSSED 性能,特别是在关于短暂、突然事件的持续时间估计方面,而不预先估计每个事件的单独权重。 

相关工作
Most current approaches within SED and WSSED utilize neural networks, in particular convolutional neural networks [6], [7] (CNN) and convolutional recurrent neural networks [4], [5] (CRNN). 
SED 和 WSSED 中的大多数当前方法都利用神经网络,特别是卷积神经网络 [6]、[7](CNN)和卷积循环神经网络 [4]、[5](CRNN)。
CNN models generally excel at audio tagging [8], [9] and scale with data, yet falling behind CRNN approaches in onset and offset estimations [10].
CNN 模型通常在音频标记 [8]、[9] 和数据规模方面表现出色,但在开始和偏移估计方面落后于 CRNN 方法 [10]。 
Apart from different modeling methods, many recent works propose other approaches for the localization conundrum.
除了不同的建模方法外,许多最近的工作还为定位难题提出了其他方法。 
A plethora of temporal pooling strategies are proposed, aiming to summarize frame-level beliefs into a single clip-wise probability.
提出了大量的时间池策略,旨在将帧级信念总结为单个剪辑概率。 
Contribution: 
In our work, we modify and extend the framework of [5] further towards other datasets and aim to analyze the benefits and the limits of duration robust training. 
贡献:
在我们的工作中,我们将 [5] 的框架进一步修改和扩展到其他数据集,旨在分析持续时间稳健训练的好处和限制。
Our main goal with this work is to bridge the gap between real-world SED and research models and facilitate a common framework that works well on both tagging and localization-level without utilizing dataset-specific knowledge.
我们这项工作的主要目标是弥合现实世界 SED 和研究模型之间的差距,并促进一个通用框架,该框架在标记和本地化级别上都能很好地工作,而无需利用特定于数据集的知识。 
Our contributions are: 
A new, lightweight, model architecture for WSSED using L4-norm temporal subsampling. 
我们的贡献是:
使用 L4 范数时间子采样的 WSSED 新的轻量级模型架构。
A novel thresholding technique named triple threshold, bridging the gap between tagging and localization performance. 
一种名为三重阈值的新阈值技术,弥合了标记和定位性能之间的差距。
Verification of our proposed approach across three publicly available datasets, without the requirement of manually optimizing towards dataset-specific hyperparameters.
在三个公开可用的数据集上验证我们提出的方法,无需手动优化特定于数据集的超参数。

 
参考文献


[1]: Paper is https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9335265
[2]: Source code is available https://github.com/RicherMans/CDur

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507738.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对应oracle生成java对象,Java学习笔记(十三)——通过Netbeans开发环境生成oracle数据库中表的对应hibernate映射文件...

【前面的话】身体慢慢已经快好了,感觉真好,哈哈。这篇文章要通过Hibernate对数据库进行操作,而Netbeans可以直接通过数据库逆向生成对应的映射文件。基础文章,选择性阅读。【步骤】1、 在netbeans中选择服务,点击数据库…

qt如何实现backspace的功能_如何实现知识星球列表拖拽功能

本 篇讲解一下如何实现在知识星球中星球列表的拖拽,各位可能都知道,我创建了一个星球【Hi Android】,所以最近使用这个软件比较多,之前也写过关于这个软件如何生成分享卡的文章,就是那篇文章有小伙伴建议我写一个星球的…

睡眠音频分割及识别问题(五)--YAMNet进一步分析

简介 YAMNet 是一个经过预训练的深度网络,可基于 AudioSet-YouTube 语料库 预测 521 种音频事件类别,并采用Mobilenet_v1深度可分离卷积架构。 输入 模型训练所使用的音频特征计算方式如下: 所有音频均重采样为 16 kHz 单声道。 通过长度…

vb.net调用oracle存储过程,vbnet2008连接oracle增删改查学习笔记(经典crud_含存储过程).doc...

vbnet2008连接oracle增删改查学习笔记(经典crud_含存储过程).doc 我的VBNETORACLE增删改查学习笔记(本源码在VBNET2008下测试通过)学习VBNET有一段时间了,之前一直学习VB60。过度到NET后发现与之前所学习的有了相当大的变化。于是将编程经常用到的增删改查代码提炼出…

睡眠音频分割及识别问题(六)--输入输出及方案讨论

简介 2021年7月13日,我和我的三个研究生一起拜访了玉米树,和王总等一起针对睡眠音频分割及识别问题进行了深入的讨论,达成了如下共识。 输入 由于保存整个晚上的睡眠音频所需要的存储空间过大,目前拟采用每隔30分钟&#xff08…

python文件独特行数_python——文件和数据格式化练习题:文件独特行数

描述 统计附件文件中与其他任何其他行都不同的行的数量,即独特行的数量。 问题分析 这道题是python123课程里面的一道题,我先说一下我的分析过程: 要实现问题找到不同行数,那就要用每一行分别和出它以外剩余所有行比较&#xff0c…

睡眠音频分割及识别问题(七)--接口输入输出讨论

简介 关于接口输入输出的讨论。 输入 1、音频文件路径,类型为:字符串; 2、预测多标签类型的排名,前n名,类型为:整型。 处理 1、将输入的音频分割为多个以1s为时间单位的音频片段; 2、利用P…

dhcp工具_网络分析之DHCP服务闯入QinQ二层隧道引发故障

一、Wireshark显示过滤器和QinQ二层隧道简述1.本段主要简述什么是Wireshark显示过滤器。显示过滤器是在现有的数据包中通过过滤条件,筛选想要查看的对象,不会丢失数据包,只是为了增强用户阅读而将一部分数据包隐藏起来。在“应用显…

php redis存储位置,redis数据保存在哪里

redis的数据是存在内存里吗?首先要明白redis是一个数据库,redis是一个内存数据库,所有数据基本上都存在于内存当中,会定时以追加或者快照的方式刷新到硬盘中。 (推荐学习:Redis视频教程)由于redis是一个内存数据库&…

python 多条件 选择 算法_浅析Python中的多条件排序实现

多条件排序及itemgetter的应用曾经客户端的同事用as写一大堆代码来排序,在得知Python排序往往只需要一行,惊讶无比,遂对python产生浓厚的兴趣。 之前在做足球的积分榜的时候需要用到多条件排序,如果积分相同,则按净胜球…

推荐系统: 数据、问题与算法

网络的迅速发展带来了信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,导致信息超载(information overload)问题。 解决信息超载问题一个非常有潜力的办…

python字典遍历 没有顺序_Python中字典的顺序问题(为什么实践发现字典的遍历和方法popitem并不是随机的?)...

据称,字典的遍历是没有一定顺序的,但是我在实践中发现,它总是从第一组元素开始依次遍历到最后一个元素。 my_dict dict.fromkeys(range(10**5)) i 0 for k, v in my_dict.items(): ... if k ! i: ... print(k, i) ... print("字典的遍…

linux内核优化策略,linux系统调优小结

关于安全系统的调优:1、关闭selinux安全策略sed -i s#SELINUXenforcing#SELINUXdisabled#g /etc/sysconfig/selinuxfor oldboy in chkconfig --list|grep "3:on"|awk {print $1}|grep -vE "crond|network|sshd|rsyslog";do chkconfig $oldboy o…

睡眠音频分割及识别问题(八)--数据采集

问题 在采用PANN或者YAMNet框架进行学习的时候,没有梦话、磨牙等睡眠音频数据,在一些公开数据集上也没有找到(如果有哪位读者知道,麻烦给我在评论区留言,万分感谢)。 公开数据集包括: &#xf…

旋转矩阵公式生成器_坐标变换(8)—复特征值与旋转

1.共轭复特征值设是的实矩阵,假设是的特征值,为对应的特征向量,则同样是的特征值,而是对应的特征向量,所以,当是的实矩阵,它的复特征值以共轭复数对出现。2. rotation-scaling matrix假如,为实数…

睡眠音频分割及识别问题(九)--Android下的YAMNet

部署PANNs模型面临的问题 加载模型出错 在使用PANNs模型时,在PC端可以较好的运行,可是在Android端运行的时候,编译过程提示缺少libpytorch_jni.so文件,导致无法加载模型,无法预测。(如果有读者可以解决这个…

linux终端如何打开文件夹,如何从终端打开文件夹(带GUI)?

问题描述我想在我的统一面板(ubuntu 12.10)中放置一个链接/快捷方式/启动器。我在handytutorial.com上按照this tutorial创建了一个自定义启动器并将其拖到面板上。我只需要知道我必须输入哪个命令。这可能吗?最佳解决方案gnome-open在12.04对我不起作用&#xff0c…

linux 打开上一级目录,linux开机启动过程、PATH、过滤一级目录、cd的参数、ls -lrt、命令切割日志...

第二波命令正向我方来袭 :开机启动过程、PATH、过滤一级目录、cd的参数、ls -lrt、命令切割日志1.1 linux开机启动过程1.1.1 开机自检(BIOS)-- MBR引导-- GRUB菜单--加载内核(kernel)--运行INIT进程--读取/etc/inittab配置文件--执行/etc/rc.sysinit脚本(初始化脚本…

睡眠音频分割及识别问题(十)--Java读取wav文件

简介 Waveform Audio File Format(WAVE,又或者是因为扩展名而被大众所知的 wav),是微软与 IBM公司所开发在个人电脑存储音频流的编码格式。 由于项目需要从 wav 文件中读取音频数据,现有许多框架的 API 文档参差不齐&…

python 开发板 i2s_[Craftor原创] I2S总线接口设计(Verilog)

本文有Craftor原创,转载请保留出处。 I2S是数字音频的接口,这里不用多说,请读者自己查阅相关资料。 本文中要设计的是FPGA与数字音频芯片的I2S接口时序。简单点说,就是通过FPGA向音频芯片写数据,通过的是I2S总线&#…