DCASE2013挑战赛介绍

简介

  • 2013 年起,为了评测现有的环境声音检测方法,电子与电气工程师学会音频和声学信号处理协会(Institute of Electrical and Electronics Engineers Audio and Acoustic Signal Process, IEEE AASP )开始举办声学场景和事件的检测与分类挑战赛(Detection and Classification of Acoustic Scenes and Events, DCASE)

  • 关于挑战赛信息的介绍

挑战赛结果

  • DCASE 2013挑战赛的结果在下面的期刊文章中得到了详细的描述:

    D. Stowell, D. Giannoulis, E. Benetos, M. Lagrange and M. D. Plumbley, Detection and Classification of Audio Scenes and Events. IEEE Transactions on Multimedia 17(10), 1733-1746, 2015.

  • 比赛的总体结果

    • 场景识别结果

    • 事件检测 - 办公室现场结果

    • 事件检测 - 办公室综合结果

数据库及相关代码

公共可用的数据

  • 下面是挑战赛的所有任务的简单描述,以及数据的规格和一些样本文件。请记住,由于任务目前正在开发中,示例只提供了任务如何听起来的第一印象,它们可能不一定与最后的任务类似。

  • 公开可用的数据集,其中包括场景识别、事件检测任务1和任务2的相关数据。

    • 场景分类(SC)挑战将解决识别和分类声场和声景的问题。

      • 场景分类任务的数据集中,每种声场由30秒录音组成。数据集将由2个部分组成,每个部分由每个场景(类)的6个音频记录组成。将作为开发组发送给参与者,第二个将被保密,用于火车/测试场景分类任务。场景列表是:繁忙的街道,安静的街道,公园,露天市场,公共汽车,地铁列车,餐厅,商店/超市,办公室,地铁站10个类别。

      • 用于该任务的记录装置是一组专门制作的Soundman双耳麦克风,以便它们模仿用户可佩戴的一对入耳式耳机。录制的建议规范是:PCM,44100 Hz,16位(CD质量)。

    • 事件检测

      • 事件探测挑战将解决识别声音场景中突出的单个声音事件的问题。两个不同的实验将采取,一个简单的声学场景没有重叠的声音,另一个使用复杂的场景在一个复调场景。该任务将使用三个数据集。

      但是,现在这些数据下载不了

相关源代码

  • 一些已经提交的系统的源代码

    • 1)Event Detection: Gemmeke et al

      • 简介:用于音频事件检测的基于示例的NMF方法。

      • 出版的文章:J. F. Gemmeke, L. Vuegen, B. Vanrumste, and H. V. Hamme, “An exemplar-based NMF approach for audio event detection,” 2013.

      • Manager: Dan Stowell, Emmanouil Benetos, Jort Gemmeke, Mark Plumbley

    • 2)Event Detection: Vuegen et al

      • 简介:该提案探讨了用于声学事件检测和分类的从Mel频率倒谱系数(MFCC)估计的高斯混合模型(GMM)。 为了限制静音的影响,使用了共享的背景模型。

      • 出版的文章:L. Vuegen, B. V. D. Broeck, P. Karsmakers, J. F. Gemmeke, B. Vanrumste, and H. V. Hamme, “An MFCC-GMM approach for event detection and classification,” 2013.

      • Manager: Dan Stowell, Emmanouil Benetos, Mark Plumbley

    • 3)Scene Classification: Chum et al

      • 简介:这里开发了两种算法:第一种是基于隐马尔可夫模型(HMM)和高斯混合模型(GMM)。 所使用的特征包括短时傅立叶变换,响度和光谱稀疏度。 第二种算法在基于帧的层面上应用支持向量机(SVM)。

      • 源代码

      • 出版文章,M. Chum, A. Habshush, A. Rahman, and C. Sang, “IEEE AASP scene classification challenge using hidden Markov models and frame based classification,” 2013.

      • Manager: Dan Stowell, Emmanouil Benetos, Mark Plumbley

    • 4)Scene Classification: Geiger et al

      • 简介:这是对声学场景分类的IEEE AASP挑战的贡献。 从30秒长的高可变录音中,提取频谱,倒谱,能量和声音相关的音频特征。 使用滑动窗口方法来获得短段上低级特征的统计学特征。 SVM用于对这些短段进行分类,并采用多数投票方案来获得整个记录的决策。 关于挑战的官方发展,实现了73%的准确性。 使用t统计量的特征分析表明,主要的Mel谱是最相关的特征。

      • 无源代码

      • 出版文章1,J. T. Geiger, B. Schuller, and G. Rigoll, “Recognising acoustic scenes with large-scale audio feature extraction and SVM,” 2013.

      • 出版文章2,J. T. Geiger, B. Schuller, and G. Rigoll, “Large-Scale Audio Feature Extraction and SVM for Acoustic Scene Classification,” in WASPAA, 2013, p. 4.

      • Manager: Dan Stowell, Emmanouil Benetos, Jürgen Geiger, Mark Plumbley

    • 5)Scene Classification: Olivetti

      • 简介:我们提出一种将一般对象(如音频样本)有效地嵌入到矢量特征空间中的方法,适用于分类问题。从实践的角度来看,采用提出的方法的研究者只需要提供两个成分:这些对象的高效压缩器,以及将两个对象组合成新对象的方式。所提出的方法基于两个主要元素:不相似性表示和归一化压缩距离(NCD)。不相似性表示是欧几里德嵌入算法,即将通用对象映射到向量空间中的过程,其需要在对象之间定义距离函数。所产生的嵌入的质量严格依赖于该距离的选择。 NCD是基于Kolmogorov复杂性概念的对象之间的距离。在实践中,NCD基于两个构建块:压缩函数和将两个对象组合成新对象的方法。我们声称,一旦良好的压缩机和有意义的组合两个对象的方法可用,则可以构建分类算法可以准确的有效特征空间。作为我们向IEEE AASP挑战提交的文件,我们在声场分类的上下文中展示了所提出的方法的实际应用,其中压缩器是自由和开源的Vorbis有损音频压缩器,并且两个音频样本的组合是它们的简单连接。

      • 无源代码

      • 出版文章,E. Olivetti, “The wonders of the normalized compression dissimilarity representation,” 2013.

      • Manager: Dan Stowell, Emmanouil Benetos, Mark Plumbley

    • 6)Scene Classification: Roma et al

      • 简介:该代码使用重复量化分析(RQA)功能进行场景分类任务。 这些特征是通过从MFCC特征的窗口计算出的阈值相似度矩阵来计算的。 增加了传统的MFCC统计,它们在使用标准SVM分类器时提高了准确性。

      • 源代码

      • 出版文章,G. Roma, W. Nogueira, and P. Herrera, “Recurrence Quantification Analysis for auditory scene classification,” 2013.

      • Manager: Dan Stowell, Emmanouil Benetos, Mark Plumbley

  • 基线系统的源代码:音频场景识别、事件检测

比赛相关介绍:

  • 介绍

    • 我们邀请信号处理,机器学习等领域的研究人员参与我们的挑战,其中包括一系列关于声场和声学事件的自动检测和分类的相关任务。

    • 任务落在计算听觉场景分析(CASA)领域。人类能够在复杂的音频环境中轻松跟踪特定的声源,并且试图模拟这种行为的系统的发展是一个开放的问题,特别是在重叠的声音事件的情况下。

    • 确认参加挑战的截止日期为2013年3月31日(请发送电子邮件至aasp-challenge-owner@eecs.qmul.ac.uk与参与者名称/附属机构)。提交代码的截止日期是2013年4月14日。

    • 结果将在2013年WASPAA特别会议上提交;邀请与会者在特别会议上张贴海报。此外,鼓励小说作家的作者在2013年WASPAA上作为常规论文提交作品。

  • 提交说明

    • 请务必阅读技术报告,说明挑战的动机、数据集和度量标准。

    • 请务必阅读您将参与的任务的规范(以下链接)

      • 场景分类规范(PDF)

      • 事件检测(办公室现场)规范(PDF)

      • 事件检测(办公室综合)规范(PDF)

    • 使用公开可用的挑战数据集开发系统。您可以使用度量函数来测试系统的性能。

    • 写一个扩展的摘要概述你的提交完成情况(下面的链接)

      • 扩展摘主要为其他人提供了对每个提交作品完成内容的一般理解。扩展的摘要不需要在出版材料之前是最新的。鼓励参与者提交新的工作作为在waspaa 2013会议上的文章。
      • 在结果公布后,作者可以修改扩展摘要。我们将在挑战网站上发布扩展摘要的最终版本。
      • 挑战赛摘要要求:
        • 应该是2-3页长
        • 必须遵循以下模板指南: LaTeX模板、word模板
        • 必须以PDF格式提交。
        • 可以包括对您工作的其他出版物的引用(如果存在)
    • 验证您的代码使用的AASP挑战Linux系统的图像(非matlab文件)

      这个链接目前是打不开的

    • 3月31日前通过电子邮件确认您参与挑战赛。

    • 4月14日前使用电子邮件或通过下载链接提交您的代码和扩展摘要。

    • 在waspaa 2013挑战海报会议展示公告。

  • 组织者

    • 这个挑战是由数字音乐中心和IRCAM组织的音声信号处理的主持下(AASP)的IEEE信号处理学会技术委员会。点击这里获取原始的挑战提案文件。

    • 组织者:

      • Dimitrios Giannoulis(QMUL)

      • Emmanouil Benetos(伦敦城市大学/ QMUL)

      • Dan Stowell(QMUL)

      • Mathias Rossignol(IRCAM)

      • Mathieu Lagrange(IRCAM)

      • Mark D. Plumbley(QMUL)(University of Surrey萨里大学?)

      在AASP挑战

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/242789.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DCASE挑战赛原始提案文件(详细信息)

本文是根据DCASE2013挑战赛的提案文件,加上个人的理解做了相应的翻译,可能有不对的地方,在之后的会慢慢改善。 背景在过去的十年里,人们对在代码公布和公共评估中提出方法的语音和音频处理社区的兴趣越来越浓厚。公共评估可以作为…

Number of 1 Bits

https://leetcode.com/problems/number-of-1-bits/ Write a function that takes an unsigned integer and returns the number of ’1’ bits it has (also known as the Hamming weight). For example, the 32-bit integer ’11’ has binary representation 0000000000000…

信号分析方法介绍

从开始的ICA,到稀疏表示,然后2001年发明NMF。 利用矩阵分解来解决实际问题的分析方法很多,如PCA(主成分分析)、ICA(独立成分分析)、SVD(奇异值分解)、VQ(矢量量化)等。在所有这些方法中,原始的大矩阵V被近似分解为低秩的VWH形式。…

文件目录类

文件目录类 enter表示查看下一行;空格键表示查看下一页

Counting Bits

https://leetcode.com/problems/counting-bits/ Given a non negative integer number num. For every numbers i in the range 0 ≤ i ≤ num calculate the number of 1’s in their binary representation and return them as an array. Example: For num 5 you should …

Detection and Classification of Acoustic Scenes and Events(DCASE2013详细介绍)

在DCASE 2013官网上,了解到在本篇文章中,详细描述了DCASE2013挑战赛的结果。下面加上个人的理解做了相应的翻译,可能有不对的地方,在之后的会慢慢改善。 摘要对于智能系统来说,使用音频形态是最好的,重点在…

MarkDown编辑器常用语法

分割线三个或更多-_*,必须单独一行,可含空格,如---、 ***、 ___。 效果如下: 如果上面的符号是紧挨着上文的文字,就是细线,否则就是上面显示的粗线。 图片链接![图片的名称](图片的本地连接或网络连接)&…

时间日期类和搜索查找类

时间日期类 搜索查找类

基于智能计算的降维技术研究与应用

《基于智能计算的降维技术研究与应用》皋军著(2013) 前言特征降维的需求随着社会信息化的发展,在具体的只能识别过程中需要处理的数据越来越多地呈现出高位特征,比如图像处理、文本分类、视频检索、计算机视觉、微阵列数据基因选择…

Add Binary

https://leetcode.com/problems/add-binary/ Given two binary strings, return their sum (also a binary string). For example, a “11” b “1” Return “100”. 计算过程类似Verilog的全加器。 char* addBinary(char* a, char* b) {int i;int l1, l2, l3, temp;…

SG仿真常用模块

workspace交互配合gateway in/out,实现信号仿真与workspace的互联。 滤波器可与FDATool同时使用,直接关联FDATool的参数,而不必输入FDATool的滤波器系数。 也可调用Workspace中的变量,假设滤波器系数设计并量化后,为My…

DCASE三次挑战赛概览

资料来源:http://www.cs.tut.fi/sgn/arg/dcase2017/dcase 所有对环境声音分类和检测方面感兴趣或研究工作的研究人员都应邀通过DCASE社区与同行分享想法、问题和意见。 这个研究领域正在迅速发展,在国际信号处理会议(如ICASSP或EUSIPCO&#…

常用矩阵运算

作者:桂。 时间:2017-09-09 12:48:45 链接:http://www.cnblogs.com/xingshansi/p/7498175.html 一、复数相乘 可以表示为分块的形式: 二、范数 A-范数基本定义 p 0,0范数,对应非零元素个数; …

文件及目录实际案例

文件及目录实际案例 可以通过命名从jack用户切换到root用户。从低权限用户到高权限用户需要输入用户密码。 su - rootr(读权限):代表是否能使用ls w(写权限):代表在目录下创建和删除文件 x(执行权限):代表可以进入到目录,例如cd

Power of Three

https://leetcode.com/problems/power-of-three/ Given an integer, write a function to determine if it is a power of three. Follow up: Could you do it without using any loop / recursion? 3的次方数没有显著的特点,最直接的方法就是不停地除以3&…

DCASE 2013任务1(声学场景分类)参赛作品相关信息

本文资料来源于DCASE 2013以及上面下载的各个参赛组的技术报告(应该就是扩展摘要) 参赛者及其作品: 注意:图中的参考文献[46-56]就是对应的参赛者提交作品的技术报告(也就是扩展摘要)。 (1&…

空间谱专题06:宽带信号处理思路

作者:桂。 时间:2017-09-09 20:04:22 链接:http://www.cnblogs.com/xingshansi/p/7413139.html 前言 目前分析的问题,仍然限定在布阵的环节,暂不涉及后处理及硬件实现。 一、宽带处理的一般方式 前面分析的阵列信号模…

定时任务调度:crond任务调度

定时任务调度:crond任务调度 可以先写一个脚本,在调用这个脚本