声学建模中用于构音障碍语音识别的特征选择意义
原文:Significance of Feature Selection for Acoustic Modeling in Dysarthric Speech Recognition
引言
背景
- 构音障碍是由运动言语系统的神经损伤引起的,导致发音不清晰。
- 自动语音识别系统对构音障碍语音无效,因其声学差异性大。
- 本文基于HMM构建音素模型,分析不同特征集的识别准确率。
相关工作
特征提取方法
PLP与MFCC的应用
- 使用12个PLP系数和速度、加速度系数形成39维声学特征向量。
- MFCC结合能量、速度和加速度系数用于构音障碍语音识别。
- 传统12个MFCC系数在无速度和加速度特征时提供最佳精度。
其他研究
- RASTA-PLP方法应用于帧长为25ms、重叠为10ms的构音障碍语音。
- 比较基于倒谱特征和感知线性预测系数的不同参数性能。
- 研究节奏指标区分健