语音识别学习日志 2019-7-13 语音识别基础知识准备 1{语音基础知识}

 线性预测

线性预测(linear prediction)根据随机信号过去的p个已知抽样值序列为Sn-1,Sn-2,…Sn-p,预测现时样值Sn的估计值的方法。预测公式是一个线性方程,所以这种预测称为线性预测。

 

 声音的构成

声音频率决定音调;声音振幅决定大小;声音谐波决定音色。之所以能分辨出不同乐器和不同人,只因为声音中谐波成份不同。

 

 音强

声音的强度是一个客观的物理量,其常用单位为“分贝(db)”。声音强度由振动幅度的大小决定,以能量来计算称声强,以压力来计算表示声压,声强(I)与声压(P)的关系为:I=(p^2)/(pv) (此时P为有效值,若P为幅值,则I=(P^2)/(2PV),其中p为介质密度,v-声速。

 

 谐波

谐波是指对周期性非正弦交流量进行傅里叶级数分解所得到的大于基波频率整数倍的各次分量,通常称为高次谐波,而基波是指其频率工频(50Hz)相同的分量。

 

 声道

Sound Channel,是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

 

 源-过滤器模型、元音、辅音

参考人声的产生,气流从肺部出来,通过声带产生震动,形成声源激励。声源路经由声道构成的过滤器,输出最终的语音信号。声带只有在输出浊音时才震动,此时声源激励为准周期信号,也称为声门脉冲,其频谱呈单调递减的趋势。声道的频谱特性可由共振峰表征,在频谱上表现为各峰值。输出语音的频谱特性为前两者频谱的叠加。

上述的语音产生模型也称为源-过滤器模型(Source-Filter Model),声带震动产生的准周期信号为源,声道为过滤器。然而在真实的语音产生过程中,声带具有震动和不震动两种模式。当声带震动时,产生浊音(voiced sound),此时声源为准周期脉冲信号,模拟声带的周期震动,元音多为此类;当声带不震动时,产生清音(unvoiced sound),此时声源为白噪声随机信号,模拟气体紊流与摩擦,辅音多为此类。

 

 听感音高声音音高

音高指各种不同高低的声音,即音的高度,音的基本特征的一种。音的高低是由振动频率决定的,两者成正相关关系:频率(即单位时间内振动次数的多少)高则音"高",反之则"低"。

 

 听觉响度(声音响度)

又称音量。人耳感受到的声音强弱,它是人对声音大小的一个主观感觉量。响度的大小决定于声音接收处的波幅,就同一声源来说,波幅传播的愈远,响度愈小;当传播距离一定时,声源振幅愈大,响度愈大。响度的大小与声强密切相关,但响度随声强的变化不是简单的线性关系,而是接近于对数关系。当声音的频率、声波的波形改变时,人对响度大小的感觉也将发生变化。

 

共振峰

共振峰是指在声音的频谱能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道的物理特征。

共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰。

 

基音、复音、纯音

基音是每个乐音中频率最低的纯音,其强度最大

一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。

 

纯音(pure tone) 是单一声调的音。具有音高和响度两个基本特征。前者主要取决于发音体振动的频率,后者主要取决于振动的振幅。自然界很少有纯音。不同频率的纯音只是实验室内常用的声音信号。音叉和声频信号发生器可产生不同频率的纯音

复音,指的是由许多纯音组成的声音

 

音色

声音谐波决定音色,之所以能分辨出不同乐器和不同人,只因为声音中谐波成分不同。所谓谐波,当分音的频率是整数倍基音频率的时候,这些频率就叫谐波。另外,所有的谐波是按照一定顺序排列的,这意味着,基音频率是第一谐波,第一泛音就是第二谐波,第二泛音就是第三谐波,以此类推。

 

 

基频

基音的频率即为基频,决定整个音的音高在声音中,基频是指一个复音中基音的频率。在构成一个复音的若干个音中, 基音的频率最低, 强度最大。 基频的高低决定一个音的高低。 平常所谓语音的频率, 就是指基音的频率 基频用符号FO表示。

 

声调

声调,是指声音高低升降的变化

 

语调

语调(intonation),即说话的腔调,就是一句话里声调(pitch)高低抑扬轻重的配制和变化。

 

频谱

频谱是频率谱密度的简称,是频率的分布曲线。

 

 LPC

LPC是线性预测编码(linear predictive coding,LPC)是一种非常重要的编码方法。从原理上讲,LPC是通过分析话音波形来产生声道激励转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,这就使声音的数据量大大减少。在接收端使用LPC分析得到的参数,通过话音合成器重构话音。合成器实际上是一个离散的随时间变化的时变线性滤波器,它代表人的话音生成系统模型。时变线性滤波器既当作预测器使用,又当作合成器使用。分析话音波形时,主要是当作预测器使用,合成话音时当作话音生成模型使用。随着话音波形的变化,周期性地使模型的参数和激励条件适合新的要求。

拟人类的发声原理,通过分析声道短管级联的模型得到的。假设系统的传递函数跟全极点的数字滤波器是相似的,通常用12-16个极点就可以描述语音信号的特征。所以对于n时刻的语音信号,我们可以用之前时刻的信号的线性组合近似的模拟。然后计算语音信号的采样值和线性预测的采样值。并让这两者之间达到均方的误差(MSE)最小,就可以得到LPC。

其核心思想是利用输入信号u和历史输出信号s的线性组合来估计输出序列s(n)。

 

 LPCC

线性预测系数(LPCC):很好的模拟语音信号,语音信号是由声带振动发出的, 声带可以不振动也可以有周期的振动,分别对应清音(consonants)和浊音(vowels),每一段声管则对应一个 LPC 模型的极点。通常极点个数在 12-16 个左右,即可清晰地描述信号的特征了。

基于声道模型的重要特征参数。LPCC是丢弃了信号生成过程中的激励信息。之后用十多个倒谱系数可以代表共振峰的特性。所以可以在语音识别中取得很好的性能

 

 MFCC

MFCC:Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。

在sphinx中也是用MFCC特征的,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。

Sphinx

CMU Sphinx(简称Sphinx)是美国卡内基梅隆大学开发的一系列语音识别系统的总称。在2000年,卡内基梅隆的Sphinx小组致力于开源几个语音识别器组件,包括Sphinx 2和后来的Sphinx 3(2001年)。 语音解码器带有声学模型和示例应用程序。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/508933.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【转载保存】mysql不设置主键使用自增长ID方法

MySQL 每张表只能有1个自动增长字段,这个自动增长字段即可作为主键,也可以用作非主键使用,但是请注意将自动增长字段当做非主键使用时必须必须为其添加唯一索引,否则系统将会报错。例如: 1.将自动增长字段设置为主键。…

【工作】python识别不同国家语言类型

优秀文章推荐: 地址:Python使用谷歌langdetect检测语言 地址:Python3:语言探测工具langdetect和langid 支持的语言类型: 支持检测55种语言: af, ar, bg, bn, ca, cs, cy, da, de, el, en, es, et, fa, f…

语音识别学习日志 2019-7-14 语音识别基础知识准备2 {EM算法与混合高斯模型(Gaussian mixture model, GMM)}

https://blog.csdn.net/lin_limin/article/details/81048411会对GMM和EM做详细介绍 本文参考: http://www.ituring.com.cn/article/497545(GMM模型) https://blog.csdn.net/xmu_jupiter/article/details/50889023(GMM模型) http://www.cnblogs.com/wjy-lulu/p/7…

【爬虫】爬取带有cookie才能获取网页内容的新闻网站

工作任务: 今天老大让我跑取一个新闻网站:https://www.yidaiyilu.gov.cn/ 采坑记录: https协议,如果利用http协议去请求会报出如下信息: 错误:SSLHandshake错误就知道了,客户端与服务端进行连…

语音识别学习日志 2019-7-14 语音识别基础知识准备3 {Kmean算法分析与HMM(Hidden Markov Model)模型}

Kmean算法 聚类算法 对于"监督学习"(supervised learning),其训练样本是带有标记信息的,并且监督学习的目的是:对带有标记的数据集进行模型学习,从而便于对新的样本进行分类。而在“无监督学习”(unsupervised learni…

【使用注意】Boolean是final类型,值初始化后不能被更改

由于服务代码逻辑需要在map中的value存储Boolean,后面的代码逻辑 中我想更改Boolean的值发现更改不了,后来查找资料才发现原来Boolean实现类是定义为final,还是对原理不了解呀,以后多注重原理。 测试代码(final类&…

语音识别学习日志 2019-7-15 语音识别基础知识准备4 {Baun-Welch算法}

HMM 前向算法(Forward Algorithm)详细解释参考: http://www.52nlp.cn/hmm-learn-best-practices-five-forward-algorithm-1 http://www.52nlp.cn/hmm-learn-best-practices-five-forward-algorithm-2 http://www.52nlp.cn/hmm-learn-best-practices-five-forward-algorithm-3…

【转载保存】B+树索引原理以及应用案例

地址:https://www.jianshu.com/p/486a514b0ded 利用c/c实现基于b树小型关系型数据库:https://github.com/enpeizhao/duck_db 利用java实现的基于b树的数据库案例:https://github.com/liumengjun/BPlusTreeIndex 1.什么是索引? …

语音识别学习日志 2019-7-16 语音识别基础知识准备5 {决策树算法(ID3、 C4.5、 CART)}

决策树算法(ID3、 C4.5、 CART) 决策树的定义 决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处,熵值为0。其具有可读性、分类速度快的优点,是一种有监督学习。 决策树呈…

【使用注意】文件内容突然消失

最近在写一个搜索,然后做单元测试时候发现只要启动搜索模块,文件内容就会全部消失了。 然后检查是不是文件流的问题,最后定位到是因为利用BufferedWriter中的FileWriter默认是文件覆盖操作,因此在初始化FileWriter的时候会先将文…

语音识别学习日志 2019-7-17 语音识别基础知识准备6 {维特比算法(Viterbi Algorithm)}

HMM 维特比算法(Viterbi Algorithm)详细解释参考:http://www.52nlp.cn/hmm-learn-best-practices-six-viterbi-algorithm-1 http://www.52nlp.cn/hmm-learn-best-practices-six-viterbi-algorithm-2 http://www.52nlp.cn/hmm-learn-best-practices-six-viterbi-algorithm-3 …

【使用注意】文件写入不全

如果是利用缓冲流,切记要刷新!!!

语音基础知识-基本语音知识,声谱图,log梅普图,MFCC,deltas详解

基本语音知识: https://www.cnblogs.com/liaohuiqiang/p/9916352.html 语音特征提取基本知识: https://www.cnblogs.com/liaohuiqiang/p/10159429.html 动态时间规整DTW(Dynamic Time Warping)介绍: 作用:求解两个不同的时间…

基于包围盒算法的三维点云数据压缩和曲面重建matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 包围盒构建 4.2 点云压缩 4.3 曲面重建 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ...........................................…

【使用注意】以后定义变量类型利用父类定义

今天在改以前项目出现的bug把HashMap改成ComcurrentHashMap时,很多类的方法参数都需要改动,如果直接定义时候利用父类可以方便下次修改,切记!!!

数据集总结

包含图像语音数据集及项目总结: https://www.jianshu.com/p/d0baf4326ff2 各种免费的数据集: https://www.cnblogs.com/genghenggao/p/9625450.html

【使用注意】多线程导致解码混乱的情况

并发情况下公有变量的文件流操作一定要注意加上synchronized 最近在写搜索引擎发现遇到一个编码问题还有数据乱了等情况,后来查找原因是由于并发情况对文件操作没有考虑用同步方法原因,切记

机器学习中的熵、条件熵、相对熵和交叉熵(为何使用交叉熵作为损失函数)

信息熵,条件熵,相对熵,交叉熵的定义与意义: https://blog.csdn.net/u013569304/article/details/82595548 数据压缩与信息熵: http://www.ruanyifeng.com/blog/2014/09/information-entropy.html

【搜索引擎】lucene事务

本文分两部份,第一部份为译:是对是对于lucene事务的一篇佳作《Transactional Lucene》的翻译。第二部份为解:是本人对一文中提到一些概念在源码层次的一些理解分析,参考lucene源码版本为4.10.4。《Transactional Lucene》中还提到…

语音之特征参数提取

https://blog.csdn.net/w_manhong/article/details/78977833 线性预测分析(LinearPredictionCoefficients,LPC) 感知线性预测系数(PerceptualLinearPredictive,PLP) Tandem特征和Bottleneck特征 基于滤…