利用函数wavread对语音信号进行采样_AI大语音(一)——语音识别基础(深度解析)...

e5af4c4276bf75aa111cc1c9fe15c14c.png

1 声音特性​

声音(sound)是由物体振动产生的声波。是通过介质传播并能被人或动物听觉器官所感知的波动现象。最初发出振动的物体叫声源。声音以波的形式振动传播。声音是声波通过任何介质传播形成的运动。

频率:是每秒经过一给定点的声波数量,它的测量单位为赫兹,1千赫或1000赫表示每秒经过一给定点的声波有1000个周期,1兆赫就是每秒钟有1,000,000个周期,等等。

音节:就是听觉能够自然察觉到的最小语音单位,音节有声母、韵母、声调三部分组成。一个汉字的读音就是一个音节,一个英文单词可能有一个或多个音节构成,并且按照音节的不同,可以分为不同的种类。

音素:它是从音节中分析出来的最小语音单位,语音分析到音素就不能再分了。比如,“她穿红衣服”是5个音节,而“红”又可进一步分为3个音素--h,o,ng。音素的分析需要一定的语音知识,但是,如果我们读的慢一点是还可以体会到的。

音位:是指能够区分意义的音素,比如bian,pian,bu,pu就是靠b,p两个音素来区分的,所以b,p就是两个音位。

人耳能听到的音频范围:20HZ--20KHZ。人说话的声音频率:300HZ--3.4KHZ。乐器的音频范围:20HZ--20KHZ。

2 语音时域特性

语音信号有时变特性,是一个非平稳的随机过程。但在一个短时间范围内其特性基本 保持不变,即语音的“短时平稳性”。

在时域,语音信号可以直接用它的时间波形表示出来。其中,清音段类似于白噪声,具有较高的频率,但振幅很小,没有明显的周期性;而浊音都具有明显的周期性,且幅值较大,频率相对较低。语音信号的这些时域特征可以通过短时能量、短时过零率等方法来分析。

2.1 短时能量

由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著。因此,对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变化情况。

定义n时刻某语音信号的短时平均能量为:

bd22a0aa4d93bb13fc6fe04fa03cc426.png

式中,N为窗长,可见短时能量为一帧样点值的加权平方和。特殊地,当窗函数为矩形窗时,有

dfbc0a056be9c507bcc4518259ac00b6.png

2.2 短时幅度

短时能量的一个主要问题是对信号电平值过于敏感。由于需要计算信号样值的平方和,在定点实现时很容易产生溢出。为了克服这个缺点,可以定义一个短时平均幅度函数来衡量语音幅度的变化:

c037c07ca006d47742e9f9ee091cd4e8.png

上式可以理解为w(n)对|x(n)|的线性滤波运算,实现框图如下。与短时能量比较,短时平均幅度相当于用绝对值之后代替了平方和,简化了运算。

2.3 短时过零率

短时平均过零率是语音信号时域分析中的一种特征参数。它是指每帧内信号通过零值的次数。

①对有时间横轴的连续语音信号,可以观察到语音的时域波形通过横轴的情况。

②在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零,因此可以计算过零的次数。

单位时间内过零的次数就称为过零率。一段长时间内的过零率称为平均过零率。如果是正弦信号,其平均过零率就是信号频率的两倍除以采样频率,而采样频率是固定的。因此过零率在一定程度上可以反映信号的频率信息。短时平均过零率的定义为:

6b80e00a060e49122caa6d3122b83d24.png

c3ba44b67f2a30b7972fefe606b86d98.png

3 语音频域特性

d02959b18bf1121e1d4303bc844aef61.png

3.1 信号分类

计算信号能量(作用在单位电阻上的电压信号 释放的能量)可以将信号分为:

功率信号:能量无限,不能用能量表示,所以用平均功率表示;

能量信号:能量有限,平均功率为0;

da9132f3e80838f213ed16782a2bacb6.png

3.2 频谱

功率信号的频谱(离散):

60fea4db3b5beebd4c2819020f642831.png

含义: 周期功率信号幅值(频率为f0)经过傅里叶级数展开,被多个离散倍频nf0表征,各频点的幅值C(nf0)也即该频点的贡献权系数。

3.3 功率谱密度

功率信号的功率谱密度(连续):

ed3a3cee3f59efc086f4c8896d2ed13a.png

含义:

将信号的功率按照频点贡献铺在频谱之上;

因其能量是无穷的,所以不能把能量铺上去,只能用有限的功率;

对功率谱密度进行积分,能得到局部频段承载的功率;

相比功率信号的频谱突出各频点对功率信号的信号幅值的贡献,功率谱密度突出各频点对功率信号的功率的贡献。

3.4 频谱密度

能量信号的频谱密度(连续):

12c559b62fd82a684c56fa59e01983a4.png

含义:

通过傅里叶变换将能量信号转换到连续频域上;

但因能量有限,不能使用离散贡献频点权系数(几乎为0),只能使用频谱密度来表征。

3.5 能量谱密度

能量信号的能量谱密度(连续):

0a8b582044fe7e046e74fce77a770cf0.png

含义:

将信号能量铺在频谱之上;

对能量谱密度进行局部积分,能得到局部频段承载的能量;

相比能量信号的频谱密度突出连续频点对功率信号的信号幅值的贡献,能量谱密度突出连续频点对能量信号的能量的贡献。

(AI大语音:语音信号时间上有限,且幅值有限,即是能量有限,频率为0,应该是能量信号,不能计算功率谱。我们实际上做了一个假设,把语音分帧,每一帧都是某一个周期信号的一个周期,所以它是周期信号,周期信号就是功率信号。也就是在未分帧之前的确是能量信号。分帧后在做FFT的时候又在负无穷到正无穷上进行了周期扩长,所以才是功率信号。)

4 语音识别过程

d02959b18bf1121e1d4303bc844aef61.png

b72b838c68dbfe929bff4cc1b7c24006.png

所谓语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作,将需要分析的音频信号从原始信号中合适地提取出来;特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。

预处理:1. 首尾端的静音切除,降低对后续步骤造成的干扰,静音切除的操作一般称为VAD。2. 声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧,使用移动窗函数来实现,不是简单的切开,各帧之间一般是有交叠的。

特征提取:主要算法有线性预测倒谱系数(LPCC)和Mel 倒谱系数(MFCC),目的是把每一帧波形变成一个包含声音信息的多维向量。

声学模型(AM):通过对语音数据进行训练获得,输入是特征向量,输出为音素信息。

字典:字或者词与音素的对应, 简单来说, 中文就是拼音和汉字的对应,英文就是音标与单词的对应。

语言模型(LM):通过对大量文本信息进行训练,得到单个字或者词相互关联的概率。

解码:就是通过声学模型,字典,语言模型对提取特征后的音频数据进行文字输出。

语音识别流程的举例(只是形象表述,不是真实数据和过程):

1. 语音信号:PCM文件等(我是机器人)

2. 特征提取:提取特征向量[1 2 3 4 56 0 ...]

3. 声学模型:[1 2 3 4 56 0]-> w o s i j i q i r n

4. 字典:窝:w o;我:w o;是:s i;机:j i;器:q i;人:r n;级:j i;忍:r n;

5. 语言模型:我:0.0786, 是:0.0546,我是:0.0898,机器:0.0967,机器人:0.6785;

6. 输出文字:我是机器人;

附录(魔鬼写手)

047d24cedc4c7934e52d12ab93327375.png

df1b856ad04da2fd68da54f2307453c3.png

a50a4a3ec42c2c54c9fce0f69fa7c566.png

349849d7c1020dfe2865bde7539aa409.png

252c2a45a6cf09169bfb081958cd0fb0.png

——————

浅谈则止,细致入微AI大道理

扫描下方“AI大道理”,选择“关注”公众号

561d5d9e88ec3cbadf3ae54ae00eab4f.png

欢迎加入!

c8390c4a1026285755132c3e4c6e4a09.png

▼下期预告▼AI大语音——预处理

往期精彩回顾▼

留你心,言你想

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521323.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PostgreSQL PostGIS 的5种空间距离排序(knn)算法

摘要: 标签 PostgreSQL , PostGIS , operator , ops , knn 背景 PostgreSQL GiST索引支持排序接口,可以支撑空间、标准、数组、文本向量、文本等类型的排序。 标签 PostgreSQL , PostGIS , operator , ops , knn 背景 PostgreSQL GiST索引支持排序接口…

程序员为什么爱穿格子衫和卫衣?

点击上方蓝色字关注我们~兢兢业业宵衣旰食写代码造福网友承受着发际线后退和眼神涣散的双重折磨这就是程 序 员为什么这么多的程序员都爱连帽卫衣呢?在我们的卫衣上市之前,我们调查了一下,小编认为也许有以下四点原因——01小肚腩连帽卫衣的宽…

Alios Things的Flash划分规则

摘要: 为了方便大家移植Alios Things,本文给出了关于Alios Things Flash划分规则,及注意事项。 Alios Things简介 AliOS Things发布于2017年杭州云栖大会, 是 AliOS 家族旗下的、面向IoT领域的、高可伸缩的物联网操作系统,于201…

如何解决数组下标越界异常

如何解决数组下标越界异常 今天在写接口的时候运行发现有一个数组的下标越界异常了, 检查了一下发现实在上面的数组中有一些字符串没有大写,造成跟下面的数组字符串不一样,所以导致了数组下标越界异常。

centos7 yum安装ifconfig

centos7 yum安装ifconfig yum install net-tools

华为表示年内没有推出搭载鸿蒙操作系统手机的计划;OpenStack或被抛弃?iPhone至少还要三年可苹果自研5G调制解调器……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 每周三次,打卡即…

获取控件enable状态_Android自定义组合控件数字加减(适用于购物车)

大家好,我是小黑,一个还没秃头的程序员~~~独学而无友,则孤陋而寡闻--《礼记学记》今天的内容是自定义一个数组加减的控件,可以应用于购物车的数量选择,效果如下:自定义实现了控件的默认值、最大值、最小值、…

IPv6转换服务正式发布

摘要: IPv6时代已来,阿里云IPv6转换服务帮忙您使现有IPv4业务快速提供IPv6访问能力 什么是IPv6转换服务 IPv6转换服务(IPv6 Translation Service)是阿里云提供的一种有状态的IPv6和IPv4网络地址和协议转换服务。 通过IPv6转换服…

【角度刁钻】如果把线程当作一个人来对待,秒懂

戳蓝字“CSDN云计算”关注我们哦!作者 | 编程新说李新杰责编 | 阿秃多线程的问题都曾经困扰过每个开发人员,今天将从全新视角来解说,希望读者都能明白。强烈建议去运行下文章中的示例代码,自己体会下。问题究竟出在哪里&#xff…

时间序列数据卡尔曼滤波_使用Highcharts和InfluxDB可视化时间序列数据

实时绘制大量带时间戳的数据往往是一项棘手的任务,需要相当多的技巧和过多的耐心。幸运的是,我们已经有了InfluxData平台来为我们提供开箱即用的许多困难。我们可以高效,安全地收集和存储数据,构建可视化,甚至设置警报…

AI又破案!衢州城市大脑这回抓了一个抢劫犯

摘要: 浙江衢州再次上演AI破案的神迹:两周时间内,衢化西路、巨化西路连续发生两起金项链抢劫案。受案发现场条件限制,视频侦查问题重重。在衢州城市大脑的帮助下,警方最终锁定犯罪嫌疑人马某并进行逮捕。经查&#xff…

用javascript进行一个简单的机器学习小实例

摘要: 本篇文章教你如何使用JavaScript在浏览器中完整地定义、训练和部署机器学习算法。 虽然它可能不是机器学习传统选择的开发语言,但是JavaScript正在证明有能力完成这样的工作——即使它目前还不能与主要的机器学习语言Python竞争。在进一步学习之前…

梳子刻字刻什么好_校园石阶上被人刻了1700多个字?!这次网友却说好

在公共场合刻字,是不是听上去不太文明?但凡事都有例外!在云南怒江的一个小学,一个支教老师在学校的石砖上刻下了上千个字,他为的不是“到此一游”,而是将汉字知识永远传承下去...△视频来源:看看…

腾讯Blade Team发现云虚拟化平台逃逸漏洞 积极护航云生态安全

随着云技术的快速发展和迭代更新,各行各业都在“云”中快速成长,安全性显得尤为重要。而云时代软硬件的“云交互”,对安全来说也意味着新的挑战。 近日,腾讯Blade Team团队在针对云上虚拟化安全研究中,发现了主流虚拟…

机器学习应用中的UI个性化

摘要: 在这篇文章中,我们看看关于机器学习应用中的UI个性化问题,谈一谈为什么在应用程序开发的过程中交流和沟通是成功的关键。 EdgVerve推出了基于AI的业务应用平台的新一代集成人工智能平台-Infosys Nia使你的企业能够管理特定的业务领域&a…

zookeeper集群部署 精简版本

文章目录1. zookeeper下载2. 解压3. 重命名4. 创建dataDir目录和dataLogDir日志目录5. 更新备份配置文件6. 添加数据目录和日志文件目录7. 添加集群信息7.1. ip配置 方式017.2. 域名配置 方式02(推荐使用)8. 在服务器上分别创建myid,各自写入…

物联网火爆,入门却太难了!

近几年来,物联网发展迅速:据中商产业研究院《2016——2021年中国物联网产业市场研究报告》显示,预计到2020年,中国物联网的整体规模将达2.2万亿元,产业规模比互联网大30倍。我们可以看到,物联网的前景广阔。…

感知器算法的基本原理和步骤_很多情况下,深度学习算法和人脑相似

人脑模拟  深度学习背后的主要原因是人工智能应该从人脑中汲取灵感。此观点引出了“神经网络”这一术语。人 脑中 包含 数 十亿个神经元,它 们 之间有 数 万个 连 接。很多情况下,深度学习算法和人脑相似,因为人脑和深度学习模型都拥有大量…

打印时候复选框勾选不见了_checkbox 选中未显示对号勾选的问题

今天同事 让帮忙调试一个checkbox只选中一个的方法,代码如下:ID平台代码平台名称选项2选项2选项3选项4varEleInput$("[name ptcode]:checkbox")//;$("#table_platform input") ;EleInput.each(function(index, element) {$(element…