SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

摘要

我们提出了SpecAugment，这是一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入（即滤波器组系数）。增强策略包括对特征进行变形、遮蔽频道块和遮蔽时间步块。我们在端到端语音识别任务中将SpecAugment应用于Listen、Attend和Spell网络。我们在LibriSpeech 960h和Swichboard 300h任务上实现了最先进的性能，胜过了所有先前的工作。在LibriSpeech上，我们在测试集test-other上实现了6.8%的词错误率（WER），没有使用语言模型，通过与语言模型进行浅层融合，WER为5.8%。这与先前最先进的混合系统7.5%的WER相比。对于Switchboard，我们在Hub5'00测试集的Switchboard/CallHome部分上实现了7.2%/14.6%的WER，没有使用语言模型，在进行浅层融合后为6.8%/14.1%，这与先前最先进的混合系统8.3%/17.3%的WER相比。

1.引言

深度学习已成功应用于自动语音识别（ASR）[1]，研究的主要重点是设计更好的网络架构，例如DNNs [2]、CNNs [3]、RNNs [4]和端到端模型 [5, 6, 7]。然而，这些模型往往容易过拟合，需要大量的训练数据 [8]。

数据增强已被提出作为生成额外训练数据用于ASR的方法。例如，在[9, 10]中，为低资源语音识别任务增强了人工数据。声道长度归一化已在[11]中用于数据增强。在[12]中，通过将清晰音频与嘈杂音频信号叠加合成嘈杂音频。在[13]中，对原始音频进行速度扰动用于LVSCR任务。在[14]中，探讨了声学房间模拟器的使用。在[15, 16]中研究了关键词检测的数据增强。在训练多流ASR系统时采用了特征丢失 [17]。更一般地，学习的增强技术探索了不同的增强转换序列，在图像领域取得了最先进的性能 [18]。

受到语音和视觉领域增强技术最近取得的成功的启发，我们提出了SpecAugment，这是一种对输入音频的log mel频谱图进行操作的增强方法，而不是直接对原始音频进行操作。这种方法简单且计算成本低，因为它直接作用于log mel频谱图，就像处理图像一样，并且不需要额外的数据。因此，我们能够在训练过程中在线应用SpecAugment。SpecAugment包括对log mel频谱图的三种变形。第一种是时间扭曲，即在时间方向对时间序列进行变形。另外两种增强方法受到计算机视觉[19]领域中提出的“Cutout”启发，分别是时间遮罩和频率遮罩，其中我们遮蔽一块连续的时间步长或mel频率通道。

这种方法虽然基础，但非常有效，使我们能够训练端到端的自动语音识别网络，称为Listen Attend and Spell (LAS)[6]，超越更复杂的混合系统，在LibriSpeech上取得最先进的结果，甚至在没有使用语言模型（LMs）的情况下也能做到。在LibriSpeech上[20]，我们在测试干净集上实现了2.8%的词错误率（WER），在测试其他集上实现了6.8%的WER，而没有使用LM。通过与在LibriSpeech LM语料库上训练的LM进行浅融合[21]，我们能够提高性能（在测试干净集上的WER为2.5%，在测试其他集上的WER为5.8%），相对于测试其他集，我们的性能提高了22%。在Switchboard 300h（LDC97S62）[22]上，我们在Hub5’00（LDC2002S09、LDC2003T02）测试集的Switchboard部分获得了7.2%的WER，在CallHome部分获得了14.6%的WER，而没有使用LM。通过与在Switchboard和Fisher（LDC200{4,5}T19）[23]语料库的组合文本上训练的LM进行浅融合，我们在Switchboard/Callhome部分获得了6.8%/14.1%的WER。

2.增强策略

我们的目标是构建一个作用于对数梅尔频谱图的增强策略，从而帮助网络学习有用的特征。受到这一目标的启发，即这些特征应该对时间方向上的变形、部分频率信息丢失以及语音小片段的部分丢失具有鲁棒性，我们选择了以下变形来构成一个策略。

时间扭曲通过tensorflow的sparse image warp函数实现。给定一个具有τ个时间步长的log mel频谱图，我们将其视为一幅图像，其中时间轴是水平的，频率轴是垂直的。在图像中通过中心点的水平线上，在时间步长（W，τ−W）内选择一个随机点，将其沿该线左右扭曲一个距离w，距离w在0到时间扭曲参数W的均匀分布中选择。我们在边界上固定了六个锚点——四个角点和垂直边缘的中点。
频率遮罩被应用，以便遮蔽f个连续的mel频率通道[f0，f0 + f)，其中f首先从0到频率遮罩参数F的均匀分布中选择，f0从[0, ν − f)中选择。这里ν是mel频率通道的数量。
时间遮罩被应用，以便遮蔽t个连续的时间步长[t0，t0 + t)，其中t首先从0到时间遮罩参数T的均匀分布中选择，t0从[0,τ − t)中选择。我们引入了一个时间遮罩的上限，以便时间遮罩不能超过时间步长的n倍。

图1显示了应用于单个输入的各种增强示例。log mel频谱图被标准化为零均值，因此将遮蔽值设置为零相当于将其设置为均值。我们可以考虑应用多个频率和时间遮罩的策略。这些多重遮罩可能会重叠。

我们可以考虑采用多频率和时间掩模的策略。这些多个掩模可能会重叠。在本工作中，我们主要考虑一系列手工制定的策略，包括LibriSpeech基础版（LB）、LibriSpeech双倍版（LD）、Switchboard轻度版（SM）和Switchboard强度版（SS），它们的参数总结在表1中。在图2中，我们展示了一个使用LB和LD策略增强的对数梅尔频谱图的示例。

3.方法

我们在语音识别任务中使用Listen, Attend and Spell (LAS)网络[6]。这些模型是端到端的，训练起来比较简单，并且具有良好记录的基准测试[24, 25]，我们可以借鉴这些基准测试结果来获得我们的结果。在本节中，我们回顾LAS网络，并引入一些标记来对其进行参数化。我们还介绍了用于训练网络的学习率调度，因为它们最终是决定性能的重要因素。最后，我们回顾了浅层融合[21]，我们已经使用它来整合语言模型，以进一步提高性能。

3.1 LAS网络结构

我们使用Listen, Attend and Spell (LAS)网络[6]进行端到端语音识别，参考了[25]中的研究，其中我们使用记法LAS-d-w。输入的log mel频谱图通过一个具有最大池化和步长为2的2层卷积神经网络（CNN）进行处理。CNN的输出通过一个编码器，该编码器由d个堆叠的双向LSTM组成，每个LSTM的细胞大小为w，产生一系列注意力向量。这些注意力向量被馈送到一个具有细胞维度w的2层RNN解码器中，用于生成转录的标记。文本使用Word Piece Model (WPM) [26]进行分词，LibriSpeech使用16k词汇量的WPM，Switchboard使用1k词汇量的WPM。对于LibriSpeech 960h，WPM是使用训练集的转录构建的。对于Switchboard 300h任务，训练集的转录与Fisher语料库的转录合并以构建WPM。最终的转录结果是通过束搜索（beam search）获得，束大小为8。与[25]进行比较时，我们注意到他们的“large model”在我们的记法中是LAS-4-1024。

3.2学习率调度

学习率调度在确定语音识别网络性能时起着重要作用，尤其是在使用数据增强时更为重要。在这里，我们引入了两种训练调度的目的。首先，我们使用这些调度来验证较长的调度是否提高了网络的最终性能，特别是在使用数据增强时（见表2）。其次，基于此，我们引入了非常长的调度，用于最大化网络的性能。

我们使用学习率调度，其中我们逐渐增加学习率，保持一段时间，然后按指数衰减，直到达到最大值的1/100。在此之后，学习率保持不变。这个调度由三个时间戳（ $s_r,s_i,s_f$ ）参数化，分别代表从零学习率完成的增加阶段，指数衰减开始的阶段，以及指数衰减结束的阶段。

在我们的实验中还有另外两个因素引入了时间尺度。首先，我们在步骤 $s_{noise}$ 启用了标准差为0.075的变分权重噪声[27]，并在整个训练过程中保持不变。权重噪声是在学习率的高平台期间 $(s_r,s_i)$ 引入的。

其次，我们引入了不确定性为0.1的均匀标签平滑[28]，即正确的类别标签被赋予0.9的置信度，而其他标签的置信度相应增加。正如后面再次评论的那样，标签平滑可能会使较小的学习率的训练不稳定，因此我们有时选择只在训练开始时打开它，并在学习率开始衰减时关闭。

我们使用的两种基本计划如下：

1. 基本计划（B）：( $s_r, s_{noise}, s_i, s_f$ ) = (0.5k, 10k, 20k, 80k)
2. 双倍计划（D）：( $s_r, s_{noise}, s_i, s_f$ ) = (1k, 20k, 40k, 160k)

正如在第5节中进一步讨论的那样，我们可以通过使用更长的计划来提高已训练网络的性能。因此，我们引入以下计划：
3. 长计划（L）：( $s_r, s_{noise}, s_i, s_f$ ) = (1k, 20k, 140k, 320k)，我们使用它来训练最大的模型以提高性能。
在使用长计划（L）时，对于 LibriSpeech 960h，我们在时间步骤 < $s_i$ = 140k 时引入了不确定性为0.1的标签平滑，然后将其关闭。对于 Switchboard 300h，标签平滑在整个训练过程中都保持开启状态。

3.3浅融合与语言模型

虽然我们能够通过数据增强获得最先进的结果，但通过使用语言模型，我们可以进一步提高性能。因此，我们通过浅融合为两个任务引入了一个RNN语言模型。在浅融合中，解码过程中的“下一个标记” $y^*$ 由以下公式确定：

$y^*=argmax(logP(y|x)+\lambda logP_{LM}(y))$

即通过同时对使用基础ASR模型和语言模型评分的标记进行打分来确定 $y^*$ 。我们还使用了覆盖惩罚c[29]。

对于 LibriSpeech，我们使用了一个在LM中使用的嵌入维度为1024的双层RNN，该模型在LibriSpeech LM语料库上进行训练。我们在整个过程中使用了与[25]中相同的融合参数（λ = 0.35和c = 0.05）。

对于 Switchboard，我们使用了一个在 Fisher 和 Switchboard 数据集的合并转录上训练的嵌入维度为256的双层RNN。我们通过在RT-03（LDC2007S10）上测量性能来通过网格搜索找到融合参数。我们将在第4.2节中讨论各个实验中使用的融合参数。

4.实验

在本节中，我们描述了在LibriSpeech和Switchboard上使用SpecAugment进行的实验。我们报告了最先进的结果，这些结果胜过了经过精心设计的混合系统。

4.1 LibriSpeech

对于LibriSpeech，我们采用了与[25]相同的设置，其中我们使用了80维的滤波器组合，包括delta和delta-delta加速度，以及一个16k词片模型[26]。

LAS-4-1024、LAS-6-1024和LAS-6-1280这三个网络是在LibriSpeech 960h上训练的，采用了一组增强策略（None、LB、LD）和训练计划（B/D）。在这些实验中没有使用标签平滑技术。实验采用了峰值学习率为0.001和批量大小为512，在32个Google Cloud TPU芯片上运行了7天。除了增强策略和学习率计划，所有其他超参数都固定，没有进行额外的调整。我们在表2中报告了由dev-other集验证的测试集数据。我们发现增强策略始终能够提高训练网络的性能，并且更严格的增强策略下，较大网络和更长的学习率计划的好处更加明显。

我们选择最大的网络LAS-6-1280，并使用计划L（训练时间约为24天）和策略LD来训练网络以最大化性能。我们在时间步<140k时打开了标签平滑技术，如前所述。通过评估具有最佳dev-other性能的检查点，报告了测试集性能。即使没有语言模型，LAS-6-1280模型也取得了最先进的性能。我们可以通过浅融合引入语言模型来进一步提高性能。结果见表3。

4.2 Switchboard

对于Switchboard 300h，我们使用Kaldi [40]的“s5c”配方来处理我们的数据，但我们改变了配方，使用了80维的滤波器组合，包括delta和delta-delta加速度。我们使用一个1k WPM [26]来对输出进行分词，该分词是使用Switchboard和Fisher语料库的结合词汇构建而成的。

我们使用策略（None、SM、SS）和计划B来训练LAS-4-1024。与之前一样，我们将峰值学习率设置为0.001，总批量大小设置为512，并使用32个Google Cloud TPU芯片进行训练。这里的实验有和没有标签平滑两种情况。由于没有一个规范的开发集，我们选择在训练计划的最后一个检查点进行评估，我们选择将计划B的步骤设为100k。我们注意到，在衰减计划完成后（步骤sf），训练曲线会放松，网络的性能变化不大。表4展示了Switchboard 300h的各种增强策略在有无标签平滑的情况下的性能。我们可以看到，标签平滑和增强对于这个语料库具有累加效果。

与LibriSpeech 960h一样，我们使用计划L（训练时间约为24天）在Switchboard 300h训练集上训练LAS-6-1280，以获得最先进的性能。在这种情况下，我们发现在整个训练过程中打开标签平滑有利于最终性能。我们报告了在训练时间结束时（340k步）的性能。我们在表5中将我们的结果与其他工作放在一起进行展示。我们还使用在Fisher-Switchboard上训练的语言模型进行浅融合，其融合参数是通过在RT-03语料库上评估性能得到的。与LibriSpeech的情况不同，融合参数在不同训练的网络之间不能很好地传递——表5中的三个条目分别是通过使用融合参数（λ，c）=（0.3，0.05）、（0.2，0.0125）和（0.1，0.025）获得的。

5.讨论

时间扭曲对于提高性能有一定贡献，但并不是主要因素。在表6中，我们分别呈现了三个训练结果，其中关闭了时间扭曲、时间屏蔽和频率屏蔽。我们可以看到，尽管时间扭曲的效果很小，但仍然存在。在本文讨论的增强方法中，时间扭曲既是最昂贵的，又是影响最小的，所以在任何预算限制下，应该首先取消时间扭曲增强。

标签平滑会引入训练的不稳定性。我们注意到，当在LibriSpeech中应用增强时，使用标签平滑会导致不稳定的训练次数比例增加。当学习速率被衰减时，这一现象更加明显，因此我们在LibriSpeech训练中引入了一个标签平滑计划，其中标签只在学习速率计划的初始阶段进行平滑处理。
增强将过拟合问题转化为欠拟合问题。从图3中网络的训练曲线可以观察到，当网络在增强训练集上训练时，不仅对损失和词错误率欠拟合，而且在训练集本身上也出现了欠拟合现象。这与通常情况下网络倾向于对训练数据过拟合的情况形成鲜明对比。这是使用增强训练的主要好处，如下所解释的那样。

解决欠拟合的常见方法带来了改进。通过采用标准方法缓解欠拟合问题——扩大网络规模和延长训练时间，我们能够在性能上取得显著进展。当前报告的性能是通过递归过程获得的，首先应用严格的增强策略，然后扩展更宽、更深的网络，并使用更长的训练计划来解决欠拟合问题。

相关工作的评论。我们注意到，在CNN声学模型的研究中曾对类似频率屏蔽的增强进行了研究[49]。在其中，相邻频率块被预先分组成箱，每个小批量随机地将其中一些频率置零。另一方面，SpecAugment中的频率屏蔽的大小和位置选择是随机的，对于每个小批量输入都不同。有关在谱图中结构上省略频率数据的更多想法已在文献中讨论过[50]。

6.结论

SpecAugment极大地提高了语音识别网络的性能。通过使用简单手工制定的策略增强训练集，我们能够在端到端LAS网络上获得LibriSpeech 960h和Switchboard 300h任务的最新成果，甚至在没有语言模型的帮助下超越混合系统的性能。SpecAugment将ASR从过拟合问题转变为欠拟合问题，我们能够通过使用更大的网络和更长时间的训练来提高性能。

致谢：我们要感谢Yuan Cao、Ciprian Chelba、Kazuki Irie、Ye Jia、Anjuli Kannan、Patrick Nguyen、Vijay Peddinti、Rohit Prabhavalkar、Yonghui Wu和Shuyuan Zhang的有益讨论。我们还要感谢György Kovács介绍给我们文献[49, 50]的工作。