语音音频压缩
- 语音音频基础知识
- 物理世界的声音——语音
- 语音音频编码方法
- 波形编码
- 波形编码原理
- 常用波形编码技术
- 脉冲编码调制PCM
- 差分脉冲编码调制DPCM
- 自适应差分脉冲编码调制ADPCM
- 子带ADPCM
- 参数编码
- 感知编码
- 语音音频编码框架
- 语音编码框架
- 音频编码框架
- 混合编码框架
- 语音音频编码标准
- 语音音频质量评价
- 空间音频编码
- 多声道编码
- 三维音频系统
语音音频基础知识
物理世界的声音——语音
语音短时平稳性:人在说话时,声道形状会随口腔肌肉运动而进行相应变化,肌肉运动频率相对于语音变化频率而言要相对缓慢,在一个短时间间隔(20~40ms)内,可以认为声道及其输入是近似平稳的。
语音信号分析帧:假设语音信号短时平稳,为便于语音信号处理,会将语音信号进行分帧处理,语音信号的处理帧长为20ms。
听觉感知
语音音频编码方法
波形编码
波形编码原理
波形编码:将时域波形信号采样、量化和编码形成数字语音信号,恢复的音频信号与原始信号波形基本上相同。
波形编码技术特点:高话音质量、压缩比低、码率通常在20kb/s以上、适用于高清高真语音编码。
-
采样
将时间连续信号变成时间离散信号。语音通信中采样频率通常为fs=8kHz,为了避免混叠,采样频率至少为连续信号频率的两倍。(奈奎斯特采样定理:采样频率至少应为信号最高频率的两倍)
-
量化
将采样后的信号按幅度划分成有限个区段,把落入某个区段内的样值赋于相同的量化值。
-
编码
将每个采样点赋值为量化单位的整数倍m(四舍五入),再对m进行二进制编码。
常用波形编码技术
脉冲编码调制PCM
脉冲编码调制(Pulse Code Modulation, PCM):只对模拟音频采样量化。优点:方法简单,重构信号与原始信号几乎没有差别,代表了数字音频最佳保真水准,被广泛用于素材保存及音乐欣赏,CD、DVD文件中。缺点:实质上并没有进行压缩,编码后数据量大。
最高频率为20KHz双声道模拟音频信号,若采样频率为44.1KHz,量化位数为16位,采用PCM编码后数据带宽(数据传输率)为:44.1 × 16 × 2 = 1411.2𝐾𝑏𝑝s
- 均匀量化方法
- 非均匀量化方法