DCASE 2017声场分类任务描述——数据集及基线系统

前言

  DCASE 2017继续通过比较使用公共可用数据集的不同方法来支持计算场景和事件分析方法的开发。

  声音带有大量有关我们日常环境和身体事件的信息。我们可以感受到我们所在的声音场景(繁忙的街道,办公室等),并且识别出各种声源(汽车通过,脚步声等)。开发用于自动提取信息的信号处理方法在多个应用中具有巨大的潜力,例如基于其音频内容搜索多媒体,使上下文感知移动设备,机器人,汽车等以及智能监控系统识别其环境中的活动使用声学信息。然而,仍然需要大量的研究来可靠地识别现实声音中的声音场景和个体声源,其中多个声音通常同时存在并被环境扭曲。

音频场景识别概述

  音频场景识别的目标:将测试记录(输入)分类为所提供的预定义类别之一,其描述了记录环境的一个环境,例如“park”,“home”,“office”。

task1_overview

音频数据集

  TUT声学场景2017数据集将用作任务的开发数据。数据集由来自各种声场的记录组成,具有不同的记录位置。 对于每个记录位置,捕获了3-5分钟的长音频记录。 然后将原始记录分割成长度为10秒的段。 这些音频段在单独的文件中提供。

  • 声场任务(15):

    • 公共汽车 - 乘汽车在城市(车辆)
    • 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内)
    • 汽车驾驶或作为乘客旅行,在城市(车辆)
    • 市中心(室外)
    • 森林小径(户外)
    • 杂货店 - 中型杂货店(室内)
    • 家(室内)
    • 湖畔沙滩(室外)
    • 图书馆(室内)
    • 地铁站(室内)
    • 办公室 - 多人,典型工作日(室内)
    • 住宅区(室外)
    • 火车(行车,车辆)
    • 电车(行车,车辆)
    • 城市公园(室外)

      详细的数据集描述见DCASE 2016 任务1页面

  • 数据集说明

    • 该数据集于2015年6月至2017年1月期间由坦佩雷理工大学在芬兰收集。数据收集已获得欧洲研究理事会的资助。
    • 记录和注释程序
      对于所有的声场,记录被捕获在不同的位置:不同的街道,不同的公园,不同的家园。录音使用Soundman OKM II Klassik /演播室A3,驻极体双耳麦克风和使用44.1 kHz采样率和24位分辨率的Roland Edirol R-09波形录音机进行。麦克风专门用于看起来像戴耳机的耳机。因此,记录的音频与到达佩戴设备的人的人体听觉系统的声音非常相似。

    • 记录数据的后处理涉及与记录个人隐私有关的方面。对于在私人场所录制的音像材料,所有相关人员均获得书面同意。记录在公共场所的材料不需要同意,但内容被筛选,隐私侵权细分被淘汰。麦克风故障和音频失真被注释,并且注释被提供有数据。基于DCASE 2016的实验,消除训练中的误差区域不会影响最终的分类精度。评估集不包含任何此类音频错误。

  • 下载

    • 如果您使用提供的基线系统),则不需要下载数据集,因为系统将自动为您下载所需的数据集。

    • 开发数据集:https://zenodo.org/record/400515。或者使用单独文件方式分别下载

  • 任务设置

    • TUT声场2017数据集由两个子集组成:开发数据集和评估数据集。开发数据集由完整的TUT Acoustic Scenes 2016数据集(2016年挑战的开发和评估数据)组成。将数据划分为子集是基于原始记录的位置完成的,因此评估数据集包含类似音频场景的记录,但是来自不同的地理位置。从相同原始记录获得的所有段都包含在单个子集中 - 开发数据集或评估数据集。对于每个声场,开发数据集中有312段(52分钟的音频)。有关数据记录和注释程序的详细说明。

    • 开发数据集:为开发数据集提供了交叉验证设置,以使结果报告与此数据集统一。该设置由四个折叠组成,根据位置分配可用段。折叠在目录评估设置中提供数据集。所提供的设置的折叠1通过使用2016开发集作为训练子集和2016评估集作为测试子集来再现DCASE 2016挑战设置。

      重要提示:如果您没有使用提供的交叉验证设置,请注意从相同原始录制中提取的段。确保对于每个给定的折叠,来自相同位置的所有段必须在测试子集中的训练子集OR中。

    • 评估数据集:没有实质的评估数据集将在提交截止日期前一个月公布。完整的实地元数据将在DCASE 2017挑战和研讨会结束后公布。

  • 评估

    • 声场分类的得分将基于分类精度:正确分类的段数占总段数的比例。每个段被认为是独立的测试样本。评估在基线系统中自动完成。使用sed_eval toolbox进行评估。

基线系统

  基线系统旨在实现声场分类的基本方法,并在开发系统时为参与者提供一些比较点。所有任务的基准系统共享代码库,为所有任务实现非常相似的方法。当使用默认参数运行时,基准系统将下载所需的数据集并生成下面的结果

  基线系统基于使用对数梅尔带能量作为特征的多层感知器架构。使用5帧上下文,导致特征向量长度为​​200。使用这些特征,一个神经网络包含两层致密的50层隐藏单元和20%个辍学(dropout)单元,训练了200次。分类决策是基于softmax类型的网络输出层。基准系统文档中提供了详细的描述。基准系统包括使用精度作为度量的结果评估。

  基线系统使用Python(2.7和3.6版)实现。允许参与者在给定的基准系统之上构建系统。该系统具有数据集处理,存储/访问特征和模型所需的所有功能,并且对结果进行评估,使自己的需求更加容易。基线系统也是入门级研究人员的良好起点。

ResultsforTUTAcousticscenes2017

运行基线系统的运行结果

  • 基线系统指导手册和教程

基线系统介绍

  • 基准系统旨在降低参与DCASE挑战的障碍。它提供了一个简单的入门级方法,但是与现有技术系统相对较接近,为所有任务提供合理的性能。高端的表现让参与者找到挑战。

  • 在基线中,使用特定于应用程序的扩展,可以在任务间共享一个单一的低级方法。其主要思想是展示任务设置中的并行性,以及在系统开发过程中如何轻松地在任务之间跳转。

  • 主要基准系统实施以下方法:

    • 声学特征:在40ms窗口中提取具有20ms跳跃尺寸的熔融能量。

    • 机器学习:使用多层感知器(MLP)类型网络的神经网络方法(每层有50个神经元的2层,层间差异20%)。

    • 除此之外,还包括基于高斯混合模型的系统进行比较。

  • 该系统是为Python 2.7和Python 3.6开发的,它可以在Linux,Windows和Mac平台上使用。

系统框图:

system_approach

基于多感知机的系统,DCASE 2017基线系统

  • 说明:选择基于多感知器的系统作为DCASE2017的基准系统。该系统的主要结构与现有的基于循环神经网络(RNN)和卷积神经网络(CNN)的现有技术系统相近,为进一步开发提供了良好的起点。该系统是围绕Keras实现的,这是一个用Python编写的高级神经网络API。Keras在多个计算后端之间工作,其中选择了Theano作为该系统。

  • 系统细节:

    • 声学特征:在具有20ms跳跃尺寸的40ms窗口中提取对数梅尔带能量。
    • 机器学习:使用多层感知器(MLP)类型网络的神经网络方法(2层,每层有50个神经元,层间差异20%)。
    • 系统参数

      Systemhyperparameters

基于GMM的方法

  • 基于高斯混合模型的辅助(secondary)系统也包括在基线系统中,以便与文献中提出的传统系统进行比较。基于GMM的系统的实现非常类似于DCASE2016挑战任务1和任务3中使用的基准系统。有关DCASE2016所用系统的更多详细信息:

    Annamaria Mesaros, Toni Heittola, and Tuomas Virtanen, “TUT database for acoustic scene classification and sound event detection”. In 24th European Signal Processing Conference 2016 (EUSIPCO 2016). Budapest, Hungary, 2016.。

  • 系统细节:

  声学特征:20个MFCC静态系数(包括第0个)+ 20个增量MFCC系数(一阶导数)+ 20个加速度MFCC系数(二阶导数)= 60个值,在具有50%跳跃尺寸的40ms分析窗口中计算。
  机器学习:高斯混合模型,每类模型16个高斯(16 Gaussians per class model)。

  • 系统参数

    GMMbasedapproachSystemhyperparameters

  • 流程图

    system_processing_blocks

    详见网页中关于框图的详细介绍

  • 应用

    • 文件分类的平均准确度。
OverallFolds
systemAccuracy1234
基于多感知机系统,2017年基线74.8%75.2%75.3%77.3%71.3%
基于GMM 系统74.1%74.0%76.0%73.1%73.2%

   场景分类结果

senceClassifiedResult

  • 安装(下载地址)

  该系统是为Python 2.7,Python 3.5和Python 3.6开发的。 该系统经过测试,可在Linux,Windows和MacOS平台上工作。可以安装官方CPython或使用一些基于它的Python发行版。 推荐使用新用户使用Anaconda Python发行版。

  在Windows上使用系统:基线系统使用相当长的目录路径,因为它将系统参数的32个字符的MD5哈希存储到目录名中。 某些Windows系统具有路径长度限制(最低260个字符),这是导致问题的。 为了避免与此相关的问题,请将系统尽可能靠近驱动器根目录安装。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/242768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

空间谱专题07:干涉仪仿真思路

作者:桂。 时间:2017-09-09 20:35:57 链接:http://www.cnblogs.com/xingshansi/p/7499247.html 前言 主要验证信道化前后,测向的有效性。相比空间谱的思路,干涉仪需要的信息更少,从干涉仪入手进行分析&am…

统计学习概论

统计学习的定义统计学习(statistical learning):关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。 统计学习的特点特点 统计学习以计算机机网络为平台,是建立在计算机…

Linux磁盘分区,挂载

Linux磁盘分区,挂载 保存退出:wq

空间谱专题09:阵列信号建模方法

作者:桂。 时间:2017-09-11 22:22:57 链接:http://www.cnblogs.com/xingshansi/p/7507616.html 前言 干涉仪、空间谱或者基于Beamforming的信号接收,都会面临窄带(或连续波-点频)、宽带的问题&#xff0c…

比幅测向及圆锥效应

作者:桂。 时间:2017-09-19 05:15:59 链接:http://www.cnblogs.com/xingshansi/p/7549461.html 一、比幅测向原理 以三波束比幅为例,其中轴线角度分别为 则天线n与左右相邻的天线波束可表述为 分别取对数运算(L、R原…

兔耳效应

作者:桂。 时间:2017-09-19 06:17:41 链接:http://www.cnblogs.com/xingshansi/p/7533286.html 前言 兔耳效应(double-pulse effect / rabbit-ears effect) )主要指矩形脉冲信号能量将扩散到与真实载频所在信道相邻的…

Linux网络不可用(Linux网络设置)

Linux网络不可用(Linux网络设置) 出现如下情况时 首先进行问题排查 在终端输入 ping www.baidu.com 如果能够ping通则可能是Firefox没有配置好,配置一下自动连接网络即可。 如果ping不通则可能就是虚拟机网络配置问题。 解决方法 &#x…

子空间分析方法

作者:桂。 时间:2017-09-19 20:44:54 链接:http://www.cnblogs.com/xingshansi/p/7554200.html 前言 空间谱中的MUSIC借助了子空间的思想,梳理一下子空间算法。 一、信号模型 假设观测矩阵A含有观测噪声: 定义相关矩…

空间谱专题10:MUSIC算法

作者:桂。 时间:2017-09-19 19:41:40 链接:http://www.cnblogs.com/xingshansi/p/7553746.html 前言 MUSIC(Multiple Signal Classification)算法通常用来进行到达角(DOA,Direction of arriva…

磁盘情况查询

磁盘情况查询 注意需要在联网的情况下

Linux网络配置原理图

Linux网络配置原理图 会发现你的Linux系统的IP和你的主机IP是在同一个网段 设计主机名和hosts映射

进程管理(重点)

进程管理(重点)

服务(service)管理

服务(service)管理 按q退出

空间谱专题11:子阵平滑与秩亏缺

作者:桂。 时间:2017-09-29 21:20:18 链接:http://www.cnblogs.com/xingshansi/p/7612984.html 前言 主要分析在解相干算法中,子阵平滑的有效性。 一、前向平滑 以均匀线阵(ULA)为例,第l个接收…

空间谱专题12:二维测向的基本方法

作者:桂。 时间:2017-10-01 16:50:08 链接:http://www.cnblogs.com/xingshansi/p/7617442.html 前言 圆阵、面阵、L阵、十字阵、V形阵,都是直接地二维求解,复杂度较高,这里梳理复杂度较低的求解算法。 一…

使用有限状态机(FSM)解释shell 命令

一、有限状态机(Finite State Machine,FSM)是表示有限个状态及在这些状态之间的转移和动作等行为的数学模型,在计算机领域有着广泛的应用。FSM一个常见的应用就是用来负责Parser复杂的数据结构,比如解释URI协议&#x…

搭建JAVAEE环境

搭建JAVAEE环境 ./表示在当前目录下查找文件所以需要配置环境变量 在Linux下下载 或者在window下传输

小数延迟滤波器

作者:桂。 时间:2017-10-10 22:38:46 链接:http://www.cnblogs.com/xingshansi/p/7648274.html 前言 阵列信号处理中,经常用到小数延迟(fractional delay,FD)的思路,例如Beamformi…