语音识别学习日志 2019-7-13 语音识别基础知识准备 1{语音基础知识}

线性预测

线性预测(linear prediction)根据随机信号过去的p个已知抽样值序列为Sn-1，Sn-2，…Sn-p，预测现时样值Sn的估计值的方法。预测公式是一个线性方程，所以这种预测称为线性预测。

声音的构成

声音频率决定音调；声音振幅决定大小；声音谐波决定音色。之所以能分辨出不同乐器和不同人，只因为声音中谐波成份不同。

音强

声音的强度是一个客观的物理量，其常用单位为“分贝（db）”。声音强度由振动幅度的大小决定，以能量来计算称声强，以压力来计算表示声压，声强(I)与声压（P）的关系为:I=(p^2)/(pv) (此时P为有效值，若P为幅值，则I=（P^2）/(2PV),其中p为介质密度，v-声速。

谐波

谐波是指对周期性非正弦交流量进行傅里叶级数分解所得到的大于基波频率整数倍的各次分量，通常称为高次谐波，而基波是指其频率与工频(50Hz)相同的分量。

声道

Sound Channel，是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

源-过滤器模型、元音、辅音

参考人声的产生，气流从肺部出来，通过声带产生震动，形成声源激励。声源路经由声道构成的过滤器，输出最终的语音信号。声带只有在输出浊音时才震动，此时声源激励为准周期信号，也称为声门脉冲，其频谱呈单调递减的趋势。声道的频谱特性可由共振峰表征，在频谱上表现为各峰值。输出语音的频谱特性为前两者频谱的叠加。

上述的语音产生模型也称为源-过滤器模型（Source-Filter Model），声带震动产生的准周期信号为源，声道为过滤器。然而在真实的语音产生过程中，声带具有震动和不震动两种模式。当声带震动时，产生浊音（voiced sound），此时声源为准周期脉冲信号，模拟声带的周期震动，元音多为此类；当声带不震动时，产生清音（unvoiced sound），此时声源为白噪声随机信号，模拟气体紊流与摩擦，辅音多为此类。

听感音高（声音音高）

音高指各种不同高低的声音，即音的高度，音的基本特征的一种。音的高低是由振动频率决定的，两者成正相关关系：频率（即单位时间内振动次数的多少）高则音"高"，反之则"低"。

听觉响度（声音响度）

又称音量。人耳感受到的声音强弱，它是人对声音大小的一个主观感觉量。响度的大小决定于声音接收处的波幅，就同一声源来说，波幅传播的愈远，响度愈小；当传播距离一定时，声源振幅愈大，响度愈大。响度的大小与声强密切相关，但响度随声强的变化不是简单的线性关系，而是接近于对数关系。当声音的频率、声波的波形改变时，人对响度大小的感觉也将发生变化。

共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道的物理特征。

共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数，已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般认为谱包络中的最大值就是共振峰。

基音、复音、纯音

基音是每个乐音中频率最低的纯音，其强度最大。

一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，由它发出的音就是基音，其余为泛音。

纯音（pure tone）是单一声调的音。具有音高和响度两个基本特征。前者主要取决于发音体振动的频率，后者主要取决于振动的振幅。自然界很少有纯音。不同频率的纯音只是实验室内常用的声音信号。音叉和声频信号发生器可产生不同频率的纯音

复音，指的是由许多纯音组成的声音

音色

声音谐波决定音色，之所以能分辨出不同乐器和不同人，只因为声音中谐波成分不同。所谓谐波，当分音的频率是整数倍基音频率的时候，这些频率就叫谐波。另外，所有的谐波是按照一定顺序排列的，这意味着，基音频率是第一谐波，第一泛音就是第二谐波，第二泛音就是第三谐波，以此类推。

基频

基音的频率即为基频，决定整个音的音高，在声音中，基频是指一个复音中基音的频率。在构成一个复音的若干个音中，基音的频率最低，强度最大。基频的高低决定一个音的高低。平常所谓语音的频率，就是指基音的频率。基频用符号FO表示。

声调

声调，是指声音的高低升降的变化

语调

语调（intonation），即说话的腔调，就是一句话里声调（pitch）高低抑扬轻重的配制和变化。

频谱

频谱是频率谱密度的简称，是频率的分布曲线。

LPC

LPC是线性预测编码（linear predictive coding，LPC）是一种非常重要的编码方法。从原理上讲，LPC是通过分析话音波形来产生声道激励和转移函数的参数，对声音波形的编码实际就转化为对这些参数的编码，这就使声音的数据量大大减少。在接收端使用LPC分析得到的参数，通过话音合成器重构话音。合成器实际上是一个离散的随时间变化的时变线性滤波器，它代表人的话音生成系统模型。时变线性滤波器既当作预测器使用，又当作合成器使用。分析话音波形时，主要是当作预测器使用，合成话音时当作话音生成模型使用。随着话音波形的变化，周期性地使模型的参数和激励条件适合新的要求。

拟人类的发声原理，通过分析声道短管级联的模型得到的。假设系统的传递函数跟全极点的数字滤波器是相似的，通常用12-16个极点就可以描述语音信号的特征。所以对于n时刻的语音信号，我们可以用之前时刻的信号的线性组合近似的模拟。然后计算语音信号的采样值和线性预测的采样值。并让这两者之间达到均方的误差（MSE）最小，就可以得到LPC。

其核心思想是利用输入信号u和历史输出信号s的线性组合来估计输出序列s(n)。

LPCC

线性预测系数(LPCC)：很好的模拟语音信号，语音信号是由声带振动发出的，声带可以不振动也可以有周期的振动，分别对应清音（consonants）和浊音（vowels），每一段声管则对应一个 LPC 模型的极点。通常极点个数在 12-16 个左右，即可清晰地描述信号的特征了。

基于声道模型的重要特征参数。LPCC是丢弃了信号生成过程中的激励信息。之后用十多个倒谱系数可以代表共振峰的特性。所以可以在语音识别中取得很好的性能

MFCC

MFCC：Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征，MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算精度随之下降。因此，在应用中常常只使用低频MFCC，而丢弃中高频MFCC。