在DCASE 2013官网上,了解到在本篇文章中,详细描述了DCASE2013挑战赛的结果。下面加上个人的理解做了相应的翻译,可能有不对的地方,在之后的会慢慢改善。
摘要
对于智能系统来说,使用音频形态是最好的,重点在于他们不仅能识别作为特定的任务研究过的语言音乐,而且能识别日常环境中的一般声音。为了激励这个领域的研究,我们进行了一项公共研究挑战赛:IEEE AASP(音频和声学信号处理技术委员会)对声学场景分类与事件检测(DCASE)的挑战赛。本文中,我们报告了自动音频场景分类的技术状态,自动检测和分类音频事件。我们调查了以前的工作以及来自各研究小组所提出的挑战所代表的技术水平。我们还提供有关组织挑战的详细信息,以便我们作为挑战主持人的经验可能对组织类似领域的挑战有帮助。 我们为挑战创造了新的音频数据集和基准系统; 这些以及一些提交的系统可以在公开许可证下公开提供,作为进一步研究通用机器监听的基准。
关键字:音频数据库,事件检测,机器智能,模式识别
前言
自动语音识别(ASR)的进步已经整合到工作的工业系统中[1],这个算法的前景可以预见,分类和翻译各种声音近在咫尺。 在ASR中,研究人员继续提高识别质量,在具有挑战性的音频条件下,如针对嘈杂背景远处的语音[2]。此外,在音乐信息检索(MIR)的进步给我们带来了可以录制的音符和和弦音乐[3],或从低质量的声音片段[4]识别曲名和歌手系统。然而,语音和音乐只是在典型的室内或室外环境中可以听到的许多类型的声音中的两种。部署在各种可以听到声音的环境的机器越来越多,它们可以是手机,助听器或者自主机器人,但是他们能听懂他们听到什么吗?
声音通常能对诸如视频之类的模式提供有用的补充,其中携带不存在如来自语音和鸟鸣的信息。声音也可以更方便地收集,例如,在手机上 。从语义音频分析收集的信息有助于做如机器人导航,用户警报或分析和预测事件模式的进一步处理[5]。 除了收听设备之外,相同的技术在音频文档分类/搜索中也有应用,数字收藏在近几十年中已经大大增长[6]。 音频档案通常包含丰富多样的语音,音乐,动物声音,城市音乐,民族志记录等等,但是它们的可访问性目前落后于文本档案。
为了促进机器对一般音频环境听觉的研究,在2012-2013年期间,我们在IEEE AASP主持下组织了一个研究挑战:声场和事件检测与分类(DCASE)挑战赛。 这个挑战集中在具体但相对通用的一般机器听系统将执行的任务类型:识别一般环境类型(声学“场景”),以及检测和分类场景内发生的事件。
这些描述为“机器侦听”的任务也可以被认为属于计算机听觉场景分析(CASA)[7]。 这个命名法回顾了Bregman在人类“听觉场景分析”能力方面的有影响力的工作[8],因此CASA经常被认为是一种旨在平行于人类听觉的处理阶段的方法,和/或模拟人类听觉观察现象(可能包括如“失去本质”的幻想,)[7,第1章]。这些以人为中心的目标并不直接反映我们在这里的目标,即开发可以从音频数据中提取其周围环境的语义信息的系统。
本文的目的是对这一挑战进行全面的描述,其目的有两个:首先让读者熟悉机器听觉中的最新技术,其次为以后进行研究挑战的人员提供有益的指导和经验。接下来,我们首先给出一些研究背景,以及在相近领域组织的以往挑战。然后我们详细介绍我们设计的任务的实验设计,评估方法以及我们为任务收集的数据。我们也考虑在挑战中采取一些实际行动。在第五节中,我们给出了每个任务在挑战中的结果,这些结果首先在IEEE WASPAA 2013会议上提出[9]。我们讨论从结果中出现的问题,如任务难度级别,特别是我们比较我们的事件检测挑战的“现场”和“合成”变体。最后,我们考虑到挑战的机器倾听前景:技术状况,未来发展方向以及这一挑战的贡献。我们还会考虑到与可再生性和可持续性等问题相关的这一挑战和其他挑战的组织结构。
- 背景
在本节中,我们将简要介绍场景中声场分类和声音事件检测的任务,两者都在最近的文献中进行了研究。我们讨论与其他机器侦听任务的关系,并概述所采取的标准方法。然后,我们将讨论机器听力方面的最新评估竞赛,这为我们自己的竞赛设定了背景。
声场分类旨在通过为其选择语义标签来表征音频流的声学环境[10]。它可以被认为是广泛的单标签分类范例内的机器学习任务,其中提供了一组类标签,并且系统必须为任何给定的输入准确地选择一个[11,第1章]。因此,它与音乐类型识别[12]或说话人识别[13]等音频分类任务相似,并且与其他基于时间的媒体(如视频)进行分类的任务相似。当对基于时间的媒体进行分类时,一个关键问题是如何分析时间结构化的数据( temporally-structured data),以便产生一个表示媒体对象的标签。文献中有两个主要的策略。一种是使用一组“BOF(bag-of-frames)”方式的低级特征,将这种场景视为单一对象,目的是将其表示为某些局部频谱特征的长期统计分布。该方法的不同特征之中的主要特征是已经发现表现相当好的梅尔频率倒谱系数(MFCC)[10]。 Foote [14]是一个早期的例子,通过矢量量化(VQ)比较MFCC分布。从那时起,比较分布的标准方法是通过为每个实例或每个类构造一个高斯混合模型(GMM)[10]。另一个策略是在分类之前使用中间表示,使用一组通常由“声原子”(acoustic atoms)的词汇或词典捕获的较高级别的特征来建模场景。这些原子通常表示非先验的场景中的声学事件或流,因此以无监督的方式从数据中学习。可以采用稀疏性或其他约束来得到更有识别性表征,从而简化分类过程。一个例子是使用非负矩阵因子分解(NMF)提取的主要成分,随后转换为MFCC以获得紧凑性,并用于对火车站场景的数据集进行分类[15]。基于这种方法,在[16]中的作者通过带有时间约束的移位不变概率潜在分量分析(SIPLCA)和隐马尔可夫模型(HMM)来提高性能。在文献[17]中,提出一种使用匹配追踪算法(MP)获得有效的时频特征选择的系统,其随后用作MFCC的附加以执行环境声音分类。
声学事件检测的目标是标记音频记录中的时间区域,从而产生符号描述,使得每个注释给出特定事件类型的单个实例的开始时间,结束时间和标签。它在精神上与自动音乐翻译有关[3],而且还与说话人分类(speaker diarization)相似,它恢复了时间段的结构化注释,但集中于语音“转”而不是个别事件[18]。事件检测中的大多数工作将声音信号视为单声道,一次只能检测到一个事件[19],[20]。在一般的音频场景中,事件很可能共同发生,因此可以进行复音事件检测(允许重叠的事件区域)。然而,突出事件可能相对较少地发生,即使在单声道检测中也有价值。已经有一些将系统扩展到复调检测的工作[21]。事件检测可能是比场景分类要求更高的任务,但与此同时又是相互交织的。例如,来自场景分类的信息可以为事件检测提供补充的上下文信息[22]。许多提出的方法可以在文献中找到,其中频谱分解技术(spectrogram factorization techniques)倾向于作为常规选择。在[23]中,提出了概率潜在语义分析(PLSA)系统,与NMF密切相关的方法来检测重叠的声音事件。在[20]中,在检测非重叠声音事件测试中,将卷积NMF算法应用于Mel频谱。最后,一些提出的系统着重于从诸如语音[24],鸟鸣[25],乐器和其他谐波声音[26],色情声音[27]等环境音频场景的特定声音事件的检测和分类事件[28]。
复音的问题与上述任务相关,因为音频场景通常是多音(多源)。与音乐一样,可以对整个音频信号进行一些分析,而不考虑复音,尽管考虑组成信号的组件源可能会获得一些好处。这种分量分析类似于Bregman人类听觉模型中发生的听觉流。在语音识别应用中,通常可以假设有一个主要来源应该成为分析的焦点[24],但一般的音频场景不是这样。处理复音信号的一个策略是执行音频源分离,然后分别分析结果信号[29],[21]。然而,请注意,听觉流的计算等效性并不一定要求单个音频信号的重建–Bregman并不声称人类听众这样做 - 而是可以使用一些中级表示,如多源概率模型[30] 。通用音频的源分离距离解决问题还有很长的路要走[31]。例如,用于“多源环境中的语音识别”的最近挑战中的评估不需要提交的算法来执行音频源分离:对语音转录输出进行评估。提交的算法通常不涉及源分离步骤,许多使用空间或频谱噪声抑制来集中于一个源,而不是分离所有源[32]。
在机器听觉中,系统的公共评估和基准测试具有宝贵的作用。它可以在各种提出的系统之间进行客观比较,也可以用于研究多年来的性能改进。许多这样的挑战集中于语音。例如,DARPA EARS Rich Transcription评估(2002-2009)侧重于演讲者的讲解任务,适用于广播新闻和会议记录[18]。 MIREX挑战(2005年至今)评估了MIR系统在特定音乐任务中的表现,如旋律转录或节奏跟踪[33]。 SiSEC挑战(2007年至今)着重于语音混合和音乐的音频源分离算法[31]。CHiME挑战(2011年,2013年)侧重于嘈杂的多源声音环境中的语音识别[2]。上述挑战都不直接涉及我们在这里考虑的通用机器侦听任务。他们中的一些使用大致相似的任务轮廓(例如,分类,diarization),但是经常使用特定领域的评估措施(例如语音转录准确度,音频分离质量)。他们也吸引了专门针对特定音频领域的贡献。为了目前的目的,2006年和2007年期间发生了最密切的挑战,作为CHIL项目期间进行的CLEAR评估的一部分[34]。提出了仅音频,仅视频或多模态跟踪和事件检测的几个任务,其中包括“声音事件检测和分类”的评估。这些数据集在几次互动研讨会中被记录,并包含与研讨会(演讲,掌声,椅子移动等)相关的活动。从为评估创建的数据集中,隔离会议室声学事件的“FBK-Irst数据库”已广泛应用于事件检测文献;然而,上述数据集仅包含非重叠事件。 CLEAR评估虽然在当时很有前途和创新,但随着CHIL项目的结束而停止。
在未来的视听研究的另一个相关挑战是TRECVID多媒体事件检测,其重点是录像中的视听,多模式事件检测[35]。 一些研究人员使用从视听TRECVID数据中提取的音频来评估其系统; 然而,为音频挑战而明确开发的数据集将提供更好的评估框架,因为它将在音频方面变化多得多。
挑战赛介绍
在本节中,我们将描述评估设计我们面临的挑战任务。在此之前,我们将描述需求收集我们进行的过程,以及考虑到进入我们的最终设计。
这部分内容见“DCASE挑战赛原始提案文件(详细信息)”
- 需求获取
如上所述,在这个挑战中考虑的任务涉及以前的实验研究中探索的任务,在某种程度上与之前的评估运动中探讨的那些有关。因此,有一系列文献从中吸取潜在的任务设计。然而,重要的是,任务设计是通过一段社区讨论开发的,主要通过公共电子邮件列表。这对于确保设计与当前研究具有广泛的相关性,并且不会不公平地惩罚潜在参与者。后者的一个例子是选择事件检测的评估措施:有关哪些评估措施最合适的问题以及框架评估中适当的粒度级别等问题。正是这个讨论导致决定报告三个不同的事件检测评估措施(见第III-C3节)。讨论的其他问题包括注释数据格式,合成序列的性质和其他现有数据集的使用。
我们的目的是设计挑战性的任务,以反映与日常音频环境相关的有用的通用推论,与广泛的机器听觉应用程序相关。 我们的重点是除了语音和音乐的日常声音,因为后者已经被深入研究。 我们也希望设计可以提高性能的任务,而不必过分依赖其他处理组件,如高质量源分离或ASR。我们决定使用与城市和办公环境相关的数据,单独设计挑战任务,用于场景分类和事件检测和分类。
机器听觉的许多应用涉及在诸如移动电话或机器人的固定硬件设置中体具体的处理。 这与诸如音频归档分析的应用不同,其中系统必须鲁棒,以便通过麦克风的变化和整个数据集的预处理引起的信号修改[36]。 对于具体的机器听力,麦克风频率响应等方面将是常数因素,而不是随机因素。 我们选择使用固定配置的录音设备来设计我们的任务。
一个相关的问题是现有数据是否可以用于我们的评估,还是创建新的数据集是至关重要的。以前的研究使用了相对较小的数据集;此外,其中一些不公开。另外,诸如Freesound这样的在线档案也能保存大量的声音数据。然而,录音条件,录音质量和文件格式差异很大[6],[37],因此不适用于我们用一致的音频前端运行评估系统的实验目标。因此,制作新的录音是重要的。这给了我们各种各样的优势:以及允许我们控制声音类型平衡的条件,这也意味着我们能够创建所有参与者看不到的私人测试数据,以确保没有意外的过度使用细节的任务数据。相反,这意味着我们可以在自由的开放内容许可证下发布公共数据,作为研究界的资源,甚至超出了我们的直接关注点。
考虑到日常的声音环境是复音 - 多个声音事件可以同时发生 - 具有不同程度的密度,并且考虑到通用音频源分离仍然是一个困难的问题,重要的是设计事件检测任务,使得我们可以探索复调对事件检测系统的影响。这样的系统可能被设计成具有简化的单声道假设;源分离用于进行多重单声道分析;或用全和弦推理。几乎没有数据可用来表明这些不同的策略如何随着事件密度的变化而发挥作用。为了对事件密度进行实验控制,我们选择了两种并行方法来创建事件检测音频数据。一方面,我们在受控环境中录制了脚本化单声道事件序列。另一方面,我们对各种事件进行了现场录音,并将这些(以及环境背景记录)合成为具有参数控制复音的合成混合。我们在第III-C节进一步描述这些方法。
2012年12月,我们对潜在参与者进行了一项调查,以表征他们首选的软件平台。这表明大多数参与者希望使用Matlab,Python,R或C/C++来创建他们的提交。但是,所有这些框架在多个操作系统中都有多个版本,可能难以确保在一个系统上运行的代码在另一个系统上正常运行。为了最小化这些问题的风险,我们创建并发布了一个参与者可以在开发过程中使用的Linux虚拟机,并且它也是用于运行提交评估的环境。为此,我们使用了所有常见操作系统上运行的VirtualBox软件,以及基于Xubuntu 12.10 Linux(或者这个链接)的磁盘映像。通过将公共数据集添加到主文件夹中,还可以通过安装Python,R和C/C++,以及每个环境的一些常见的音频处理工具箱。所得到的磁盘映像可从我们的研究库在线获取.3由于软件许可限制,我们无法将Matlab包括在磁盘映像中,因此我们分别处理了基于Matlab的虚拟机提交的内容。
我们接下来描述场景分类任务的最终设计和数据收集以及事件检测任务。
- 场景分类任务(SC)
音频场景分类可视为单标签分类任务(见第二部分)。 替代设计是可能的,例如分级标签[38],无监督的音频场景聚类,或多标签“自动标记”[39]。 然而,单标签分类是现有文献中在声场识别中最常见的设计[14] - [17],[10],也适用于明确的评估措施。 因此,我们将SC任务设计为训练/测试分类任务,与以前的音频分类评估类似设计[33]。
我们在预先选定的场景类型列表中创建了数据集,代表了伦敦地区室内/室外场景的平衡:巴士,公交,办公室,露天市场,公园,安静街,餐厅,超市,管道和管道。 对伦敦地区的限制是参与者所熟知的务实选择。 我们确保在伦敦各地的中心和外部地点进行抽样,以便在实际限制的情况下最大限度地提高广泛性。 为使参与者进一步探索机器识别是否可以从人类听众可用的立体声信息中获益[7,第5章],我们使用Soundman OKM II入耳式麦克风录制双声道立体声格式。
对于每个场景类型,三个不同的录音师(DG,DS,EB)在几个月(2012年夏季和秋季)中访问了大伦敦的各种场所,并且在每个场景中录制了几分钟的音频。 我们确保录音中没有系统的变化与场景类型相关:所有录音都是在中等天气条件下进行的,每天,每周和每年的时间不同,每个录音师记录每个场景类型。
然后,我们审查了录像,选择了30秒的片段,这些片段没有移动电话干扰或麦克风处理噪声等问题(总共约占记录持续时间的50%),并将这些片段整理成两个单独的数据集:一个用于公开发布, 和一个私人集合来评估提交。30秒的持续时间与本主题的其他数据集相当,被认为足够长,原则上包含足够的信息来区分类。段被存储为30秒WAV文件(16位,立体声,44.1 kHz),文件名中给出了场景标签。 每个数据集包含10个场景类型的10个示例,每个数据集共有50分钟的音频。 公共数据集在知识共享CC-BY许可下在线发布。
对于场景分类(SC)任务,系统用5层分层交叉验证进行评估。我们的数据集被构造为包含类标签的平衡,因此分类准确性是一个适当的评估指标[40]。计算每种算法的原始分类(识别)精度和标准差,以及混淆矩阵,以便更详细地检查算法性能。
1)场景分类基准系统:对音频分类的“bag-offrames”MFCC+GMM方法(参见第二部分)相对简单,并且由于它所引起的假设被诟病[41]。 然而,它广泛适用于各种音频分类任务。 Aucouturier和Pachet [10]特别声称,该方法足以识别城市音乐,但不能用于和弦音乐(由于音乐中的时间结构的重要性)。已广泛应用于其他识别任务中的场景分类,作为进一步修改的基础[17]。 因此,该模型是“场景分类”任务的理想基准。
以前已经为Matlab提供了框架模型的代码。然而,为了最大的重现性,我们希望以广泛使用的编程语言提供简单易读的代码。 Python语言被广泛使用,可在所有常见平台上免费使用,并且着重于强调生成可被其他人读取的代码。 因此,我们创建了一个体现分类工作流的Python脚本,可以在开放源代码许可下公开提供,并且旨在简化易用性[42]。
事件检测任务 (OL, OS)
- 记录数据集(OL)
- 合成数据集(OS)
- 度量标准
上面的相关信息,可以在《DCASE挑战赛原始提案文件(详细信息)》中看到
挑战组织
挑战组织的全部时间表见表一。时间表中包括的一些项目对于外部观察员来说将是显而易见的。 然而,我们认为值得强调的时间表和工作量有一些方面,如下所列。
DCASE挑战组织的时间轴。时间轴被划分为主要阶段,重要事件被突出显示,下表是时间安排表(Table1):
提交系统
总体而言,11个系统提交到场景分类(SC)任务,7个系统提交到办公室(OL)事件检测任务,3个系统提交到办公室合成(OS)事件检测任务。 允许每个系统的变体增加了一些系统的总数。
场景分类任务的提交系统列于表2,以及每个系统的简短说明。引用的是扩展摘要,提供关于每个提交的进一步的技术细节。场景分类的方法在教程文章[64]中进一步讨论,而在第V-A节中,我们将在考虑哪些方法导致强大的性能时扩展场景分类方法的某些方面。
事件检测提交任务的系统列于表3,以及每个系统的简短说明。引用的是扩展的摘要,提供关于每个提交的进一步的技术细节。图1显示了提交算法采用的处理链。 主要处理节点是考虑各种实现的特征计算和分类。 可选地,可以预先处理音频数据以减少可以平滑背景噪声的影响以及分类器给出的决策,以减少事件之间的不真实的过渡。
场景识别提交系统(Table2):
事件检测提交系统(Table3):
下面描述了每个事件检测提交的系统设计:
1)CPS:CPS提交遵循一种结合分割,特征提取和分类的方案。 首先,提取各种基于频率和时间的特征。 音频流随后使用基于能量的特征的语音分割器进行分段。 然后使用广义似然比检验分类器将每个段分配给一个类。
2)DHV:DHV提交是为OL和OS任务创建的。 它遵循使用具有多维特比通道的HMM的生成分类方案。 首先,将MFCC作为特征提取,并用作连续密度HMM的输入(每个状态对应于事件类,包括背景噪声)。 通过执行维特比算法的连续通过来实现复音检测。
3)GVV:GVV提交使用基于字典的模型使用NMF。 首先,使用来自训练集(称为样本)的样本,使用梅尔幅度谱图作为时间 - 频率表示来创建词典。 输入光谱图使用Kullback-Leibler分歧使用NMF投影到词典上。 使用包含每个事件的单个状态的HMM对所得到的事件概率估计进行后处理。
4)NVM:NVM提交遵循两步分类方案。在第一步,将捕获信号的时间,频谱或自相关属性的各种各样的音频特征馈送到两个分类器:两层HMM和随机森林分类器。然后使用另一个HMM来组合预测。
5)NR2:NR2提交遵循用支持向量机(SVM)实现的区分性分类方案。馈送分类器使用原始信号或噪声减少的MFCC计算的MFCC。然后将来自分类版本的决策合并并平滑以减少短暂的转换。
6)SCS:SCS提交遵循具有2层HMM解码的生成分类方案。分类器采用二维Gabor特征(时间/频率),允许敲击事件被良好地建模。在特征计算之前,使用估计噪声功率谱密度并在频域中去除它的噪声抑制方案来增强音频信号。
7)VVK:VVK提交遵循具有GMM解码的生成分类方案。首先对每类事件和背景的GMM模型进行了MFCC训练。接下来重新估计事件模型,以减少背景框架对模型可能性的影响。在解码时,使用移动平均滤波器对似然值进行平滑,并被阈值以产生预测。
基线:第III-C节给出了基线系统的详细描述。
比赛结果
- 场景分类的结果
图2显示了场景分类任务提交的系统的整体性能。基准系统达到55%的准确度。大多数系统都能够改进,尽管我们的重要性测试能够显示出比基线最大的四个系统的显着改进。结果表明,该任务的难度级别是适当的:领先的系统能够在基准线上显着改善,但对于任何提交的系统来说,任务并不是微不足道的。此外,错误栏的大小表明五个折叠中的性能大致一致,表明数据集不是过分异质的。然而,统计测试没有显示各种系统之间的显着差异(由图2中的盒子的大重叠所描绘),这意味着较大的数据集可能使系统的细粒度排序更加细化。这篇SC任务的结果在教程文章[64]中进一步分析。因此,我们在这里简要讨论SC任务成果中反映的技术状态,从而使我们能够在下一节中进一步扩展OL/OS任务的结果。
大多数提交的系统使用有识别性的训练,许多强大的执行者使用SVM作为最终的分类器。此外,大多数领先的结果是由那些在分类特征中捕获中期时间信息的人获得的。五个最高评分系统中有四个做到了这一点:罗马等人 [56]捕获时间重复和使用“复发定量分析”相似性(captured temporal repetition and similarity using “recurrence quantification analysis”); Rakotomamonjy和Gasso [55]使用图像处理的梯度特征(HOG); 盖革等人[48]随着时间的推移,线性回归提取特征; Chum等[46]训练了一个HMM。这些都是时间演化的通用统计模型,其拟合参数然后可以用作分类的特征。
从CASA的角度来看,值得注意的是,没有一个提交的系统使用任何类型的每个音频场景分解成听觉流。我们建议这不是由于分解音频场景的固有困难,因为自动分类不需要这种预处理的“听力质量”输出。相反,似乎很可能设计一种利用结构化场景分析输出的分类工作流程,其分析工作可以是例如标记间隔集,而不是时间序列统计。两个提交使用事件检测作为预处理的一部分,这确实产生了音频场景的结构解析[51],[52]。那些作者然后使用事件检测的密度/强度的摘要统计作为特征。我们建议,进一步完善和发展这一战略可能是未来工作的一个富有成效的领域,也许可以通过更复杂的时间性总结统计数据,如上文所述。
另外值得注意的是,有更具感知动机的特征——听觉频谱图[54]和耳蜗图[49]的提交系统没有得到最好的结果。[51]的无监督功能学习也没有。音频功能设计的各种方式 - 感知,声学,统计学 - 各有其优点。基于目前的评估,我们只注意到更复杂的音频特征并没有比简单特征产生决定性的优势。
也就是说,听觉感知特征和复杂的特征对于音频场景分类的性能并没有很明显的提升。
我们从SC提交的池中测试了一个简单的多数投票分类器,通过将音频记录分配给其他方法最常返回的标签来构建。这得到了强劲的效果,在图中显示为“MV”:77%的准确性,略好于领先的个人提交。鉴于其简单性,该元分类器的强大性能是特别显着的,所有系统都以相等的权重组合。它表明,对于大约77%的声音,一些算法做出了正确的决策,使得不正确分类的算法并不都符合一个特定的错误标签。这允许将决策组合成相对鲁棒的元分类器。 (注意,我们没有测试MV和其他结果之间的比较的重要性,因为MV输出不是独立于单个提交的输出。)更复杂的元分类可能会进一步扩展这种性能。
综合混乱矩阵用于场景分类所有提交。行是真理,列是推断出标签。值以百分比表示四舍五入到最接近整数(tableIV):
表IV显示了场景标签的混淆矩阵(confusion matrix),作为所有提交的所有混淆矩阵之和的圆百分比。混乱主要集中在分享诸如公园/安静的街道和地铁/地铁站一些声学特性的类别。我们的标签包含五个室内和五个户外位置,两种类型的算法难度相似。
- 时间检测(OL/OS)结果:略
思考与建议
在总结之前,我们希望从上述结果和我们管理DCASE挑战的经验中得出一些反思,并就未来的评估挑战提出一些建议。 我们的挑战来自IEEE AASP协调的一系列挑战,例如与遥远和有回声的语音相关的挑战。
我们的挑战赛设计涉及参赛者提交代码,组织者对私有数据集执行(此处应该是组织组使用参赛者提交的代码,使用私有数据集对系统进行性能测试)。这种设计与MIREX音乐音频挑战[33]相同,因为主持人必须花时间来运行提交资源,才会产生资源成本。它还需要保留一些私有数据,这些私有数据无法立即在社区中开放。然而,它具有如下优点:确保参与者不会超过测试数据,并确保结果在经验验证所提交的软件可由第三方运行的意义上可重现。
通过Kaggle网站运行如2013年SABIOD机器侦听挑战类似挑战赛提供一个相对有趣的观点。这些挑战以动物声音的自动分类为中心。在这种情况下,交互模式不是提交代码,而是提交系统输出。此外,参赛者可以迭代地修改其代码并提交更新的输出,以验证数据集的结果形式获得反馈。这确实存在过度适应挑战细节的风险,并且具有较少的直接再现性,尽管获奖作品需要由开源人士和主持人确认。相对于DCASE,SABIOD挑战似乎鼓励更多来自独立机器学习专业人员的特别参与,这可能是由于在线系统可能产生的即时反馈循环。DCASE和SABIOD挑战代表的工作流程各有其自身的优点和缺点,我们期待着进一步完善公共评估方法。
我们列举了运行DCASE挑战所涉及的步骤,特别是强调了承担这些挑战的资源影响。数据集收集和注释是员工时间的主要要求。这个挑战没有任何项目明确提供资金,如果没有大型研究组提供的资源(参见致谢)就不可能。 这包括工作人员和博士生作为核心组织者,数据注释者,帮助代码和虚拟机等问题的程序员以及代码和数据托管设施等基础设施。
在第三节D中,我们描述了我们采取的各种步骤,以确保挑战能够顺利运行,例如发布形式任务规范,基准代码和虚拟机。 这样做减少了,但并不意味着消除了所接收的代码提交运行和排除故障所需的时间。 从这种经验出发的一个明确的建议是,对提交的代码进行正式测试将在提交时运行将有很大的帮助。 这可以以自动化单元测试的形式应用,或者更简单地由挑战组织者使用公共数据运行提交,并确认获得的结果与提交者在其自己的系统上获得的结果相匹配。
社区参与对于成功应对这一挑战至关重要,特别是讨论任务规范,也是谈判后勤提交和讨论最终结果。 IEEE AASP技术委员会和IEEE WASPAA 2013大会委员会的支持帮助我们组建了这个社区。
结论
随着DCASE挑战,我们旨在为日常音频制定一套通用机器聆听任务,以便对基础技术进行基准测试,激励进一步的工作,并在语音和音乐领域的机器聆听中发展研究团体。挑战结果说明我们为此设计的任务具有适当的困难程度:对于任何提交的系统,任何任务都不是微不足道的,并且通过一系列的分数可以比较系统的优缺点。来自不同研究组的强大参与程度表明,这些任务与目前的研究相关。
对于场景分类(SC)任务,领先系统的结果显着高于基准线,与人类听众的平均结果相当。许多最强系统使用的策略是使用捕获关于声场的中等规模时间信息(capture medium-scale temporal information)的特征表征。然而,除了最高评分系统之外,还有改进的余地; 我们展示了这样一个简单的多数表决会话分类器可以聚合提交的系统,说明音频中还存在可以在将来推动更强的性能的信息。 在未来几轮中改进SC任务的最佳方式是通过更大的数据集大小来得出关于系统性能差异意义的更为明确的结论。
对于事件检测(OL/OS)任务,领先的系统实现了相对较强的性能,尽管有很大的改进。这在复调OS任务中尤其明显,表明音频场景中的复音仍然是机器聆听系统的关键难题,并且在该领域需要更多的开发。然而,对结果的分类分析也表明,即使在单声道OL任务中,一些事件类型也比其他事件类型更难以检测,表明一个系统检测到广泛的声音类型的能力也是一个关键的挑战。进一步的社区对评估指标及其与实际需求的关系的关注可以改进未来的事件检测挑战。评估系统的性能与场景中的复音水平之间的相关性也可能是有价值的。
关于围绕这个研究课题形成的社区,我们受到很强的参与程度的鼓舞,以及各组织决定将提交的系统作为开放源代码发布。这些与我们发布的资源(开源基准系统;开放数据集;虚拟机磁盘映像)为希望在这一领域工作的其他人提供了丰富的资源(开发的数据集下载地址)。社区已经设定了一个基准,建立了领先的技术 能够从日常的声音场景中提取大量的语义细节,但在未来有明显的改善空间。
致谢
作者要感谢IEEE AASP技术委员会认可和支持这项工作,以及所有挑战参与者 - 不仅是为了提交意见,而且他们的社区参与塑造挑战,以及他们在IEEE WASPAA 2013上的演讲。他们也将 感谢IEEE WASPAA 2013大会委员会组织特别会议的支持。
文献来源:D. Stowell, D. Giannoulis, E. Benetos, M. Lagrange and M. D. Plumbley, Detection and Classification of Audio Scenes and Events. IEEE Transactions on Multimedia 17(10), 1733-1746, 2015.