1、声音的相关概念
模拟声音信号:声波在时间和幅度上都是连续的模拟信号。
1.1 声音的组成
幅度:声波的振幅。计量单位是分贝(dB)
频率:声波每秒变化的次数,用Hz表示。人耳能听到的声音信号的频率范围20Hz~20KHz。该范围内的信号称为音频信号。小于20Hz称为亚音信号。高于20KHz称为超声波。根据声音包含的频率成分的构成特征可以分为音乐和噪音。
2、声音信号的数字化
声音信号属于模拟信号,计算机需要把它转换为数字信号才能进行处理。需要用二进制数字的编码形式来表示声音。声音信号数字化要经历:采样、量化、编码三个步骤。
采样:就是把时间连续的模拟信号在时间轴上离散化的过程。在某些特定时刻获取声音信号幅值称为采样。
量化:量化处理就是把在幅度上连续取值(模拟量)的每一个样本转换为离散值(数字量)来表示。量化后的数据使用二进制的数来表示的,二进制数位数的多少反映了度量声音波形幅度的精度,称为量化精度或者量化分辨率。量化精度越高,声音质量越高,占用的存储空间也就越大。
编码:为了便于计算机的存储、传输、处理,需要按照一定的格式进行数据编码,再按照某种规定的格式将数据组织成文件。也可以采用方法对数据进行压缩,减少对存储空间的占用。
3、数字声音的主要参数
采样频率:表示每秒的采样数。3个标准频率为:44.1kHz、22.05kHz、11.05kHz。
量化位数:声音波形幅度的精度,一般是8位、12位、6位。
声道数组:单声道、双声道。
数据率:每秒数据量,一般用bps为单位。
压缩比:单位时间内的未压缩音频数据量与压缩后的数据量之比。
4、波形声音
4.1 波形声音介绍
波形声音是对声音信号直接采用的数据。
数据传输速率(bps)=采样频率(Hz)*量化位数(bit)*声道数
声音信号数据量(Byte)=数据传输速率(bps)*持续时间(s)/8
声音波形的数据量非常大。在编码的时候常常要进行压缩从而减少存储空间的占用和传输速率。
4.2 波形编码技术
可以直接对波形采样数据进行压缩的处理方法。常用的有差分脉冲编码调制(DPCM)、自适应差分脉冲编码调制(ADPCM)和子带编码(SBC)等。
波形编码特点:通用性强,对所有波形表示的数字声音都有效、声音质量很高、但很难有高压缩比。
4.3 感知声音编码
感知声音编码也是一种常用的编码技术,它利用波形本身的相关性和人类的听觉系统特性来 达到压缩声音的目的。MPEG系列的音频压缩编码就是典型的感知编码。
5、声音合成
5.1 语音合成
目前主要是针对文本转语音的合成。
流程:文本→文本分析→韵律处理→语音合成→波形声音
常用的合成技术:发音参数合成、声道模型参数合成、波形编辑合成
5.2 音乐合成
音乐是用乐谱进行描述而由乐器演奏而成的。乐谱基本组成单元是音符。现代音乐体系中基本音阶7个音组成、常用音符88个、电子乐器支持128个。
数字音乐合成方法:数字调频(FM)合成法、波表法。目前电子音乐合成基本都采用波表法。
6、MIDI
MIDI 是指乐器数字接口国际标准。
7、常用的声音文件格式
1、Wave 文件 (wav):“微软操作系统标准音频格式属于波形文件。质量非常高,文件数据量很大。
2、Sound文件(.snd):NeXT Computer公司推出的数字声音格式,支持压缩。
3、Audio文件(.au):用于UNIX系统的数字声音文件格式。
4、AIFF文件(.aif):MAC OS 标准的音频文件格式。
5、Voice文件(.voc):Creative公司的波形音频文件格式。
6、MP3:最常用的声音文件格式
7、RealAudio(.ra):具有较高压缩比。
8、MIDI文件(.mid .rmi):用于存储和交换MIDI消息的一种数字音乐文件,.rmi格式是Windows中对MIDI文件格式的简单扩展格式。