Chapter1-1_Speech_Recognition(Overview)

文章目录

    • 1 古人看语音辨识
    • 2 什么是语音辨识
      • 2.1 输出部分 - Token
      • 2.2 输入部分 - 声音信号特征
    • 3 数据集
    • 4 模型

本文为李弘毅老师【Speech Recognition - Overview】的课程笔记,课程视频youtube地址,点这里👈(需翻墙)。

下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。

文章索引:

下篇 - 1-2 LAS

总目录

1 古人看语音辨识

50年前的人们是如何看待语音辨识的?有一位比较有权威的人物认为语音辨识就像是把水变成汽油,从海底捞金,治愈癌症或者登上月球。该观点也让那个时代的许多人放弃了进行语音辨识方向的相关研究。
ch1-1-1
而如今,已经无需置疑语音辨识的可行性,几乎每一只手机里都有着语音辨识。

2 什么是语音辨识

简而言之,语音辨识就是输入一段声音信号,经过模型处理后,输出对应的文字信息。
ch1-1-2
其中的输入的声音信号是由TTT个长度为ddd的vector组成,而输出的文本则是NNN个token,token的种类会被限制,种类的数量为vvv,可以理解为一个大小为vvv的词库。通常来说,TTT要远大于NNN

2.1 输出部分 - Token

目前被使用的token可以归为五类:

  • Phoneme: 发音的基本单元
  • Grapheme: 书写的基本单元
  • Word: 词
  • Morpheme: 语义的基本单元
  • Byte: 字节😲

Phoneme可以看成是音标,比如英文可以转化成如下的样子。在深度学习还不怎么流行的时候,Phoneme是一个不错的选择,因为它和声音的关系十分直接,但它有一个缺点就是在模型得到Phoneme之后,还需要将其再转换成word,这需要额外的语言学知识。
ch1-1-3
Grapheme是书写的基本单元,比如在英文当中就是字母。当然,对于模型来说,只有字母是不够的,还需要有空白符,甚至需要一些标点符号。在中文当中,Grapheme就是方块字,中文和英文不同的在于,中文不需要空白符。Grapheme有一个好处就是,它不需要额外的语言学知识,模型的输出即是最终的结果。不过,Grapheme对模型来说也是一个挑战,因为它和声音信号之间没有直接的关系。
ch1-1-4
Word就是词汇,对于英文来说,用空格分隔的就是一个Word,但对中文来说就不太好分了。用Word来做是一个不推荐的选择,因为对于语言来说Word实在是太多了!
ch1-1-5
Morpheme是可以传达语义的最小单位,它比Word要小,比Grapheme要大。如下图就是几个例子,但Morpheme的定义也比较模糊,局限性很大。
ch1-1-6
还有一种很狂的方法,就是直接用Byte!比如所有的语言都用UTF-8来表示,这样就不需要考虑是什么语言了。个人认为这是一种特殊的Grapheme。
ch1-1-7
李宏毅老师的助教们收集了2019年INTERSPEECH’19, ICASSP’19, ASRU’19中超过100篇论文中使用token的比例,如下图所示,感谢助教们!👍
ch1-1-8

2.2 输入部分 - 声音信号特征

通常利用滑窗法将声音信号变为一个T×dT \times dT×d的向量。如下图所示,我们使用长度为25ms的窗口,在一个16KHz的的声音信号上进行滑动,每次滑动的间隔为10ms,得到的截片被称为是frame,那么一个1s的声音信号就可以被分为100个frames(T=100T=100T=100)。每个frame中有400个采样点,可以直接使用这400个点的数值作为这个frame的特征(d=400d=400d=400),但不推荐这样做。目前都会采用MFCC(d=39d=39d=39)或者filter bank output(d=80d=80d=80)的方法将这个原始信号进行转换。
ch1-1-9
声音信号在进行特征抽取时,需要进行多个变换,每一个步骤得到的结果都可以直接被用于模型的输入。离散傅里叶变换将原始声音信号转换成频谱图,据李老师说,可以用人眼从频谱图中看出来这个信号是什么🙈!得到频谱图后,对其进行采样,经过多个设计过的filter,得到了filter bank output的特征结果,一般会取一个log。log的结果再进行离线余弦变换后可以得到MFCC的特征结果。
ch1-1-10
同样地,辛勤的助教们也在2019年INTERSPEECH’19, ICASSP’19, ASRU’19中统计了使用的输入信号特征的结果。再次感谢助教们!👍
ch1-1-11

3 数据集

语音辨识的一些公开数据集如下图所示,用于商业的模型使用的数据集是远大于下面的数据集的。
ch1-1-12

4 模型

本课程会介绍的语音辨识模型有如下几种:

  • Listen, Attend, and Spell (LAS) (2015)
  • Connectionist Temporal Classification (CTC) (2006)
  • RNN Transducer (RNN-T) (2012)
  • Neural Transducer (2016)
  • Monotonic Chunkwise Attention (MoChA) (2018)

而目2019年的论文中,各个模型的使用情况如下如所示:
ch1-1-14

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/470712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Swift]loadNibNamed方法

我们自定义UITableViewCell的时候,经常会创建一个xib文件。 (注意:选择创建文件要继承于cocoa touch class,而不是cocoa class,否则你是选不了创建xib的!!!) 然后我们可以…

python做硬件自动化测试-用python做自动化测试--Python实现远程性能监控

http://blog.csdn.net/powerccna/article/details/8044222 在性能测试中,监控被测试服务器的性能指标是个重要的工作,包括CPU/Memory/IO/Network,但大多数人估计都是直接在被测试服务器的运行监控程序。我们开始也是这样做的。但这样做带来一…

Express Cookie 的基本使用

一、Cookie 简介 ● cookie 是存储于访问者的计算机中的变量。可以让我们用同一个浏览器访问同一个域 名的时候共享数据。 ● HTTP 是无状态协议。简单地说,当你浏览了一个页面,然后转到同一个网站的另一个页 面,服务器无法认识到这是同一个…

Chapter1-2_Speech_Recognition(LAS)

文章目录1 内容简述2 模型详述2.1 ListenRNN Encoder1D-CNN EncoderSelf-attentinon EncoderDown Sampling2.2 Attend2.3 Spell2.4 Beam Search2.5 Training2.6 Back to Attention本文为李弘毅老师【Speech Recognition - Listen, Attend, Spell】的课程笔记,课程视…

js 日期天数相加减,格式化yyyy-MM-dd

参数格式: date :2016-03-02 days:-3(2)当为负数的时候日期往前推,为正数,日期往后推 function addDate(date, days) { var d new Date(date); d.setDate(d.getDate() days); var m d.getMo…

智能车的转弯部分_江西智能搬运平板车铁路轨道运输车-厂家直销

本公司致力发展搬运设备,从公司成立至今一直在做电动平车的研发,从几十千克自动化物流车到成百上千吨都能自行研发制造,取得了优异的业内好评和广大消费者的肯定! BWP型无轨平板车是一种使用特殊的行走机构,能够在较小…

Express Session 的基本使用

一、 Session 简单介绍 session 是另一种记录客户状态的机制,不同的是 Cookie 保存在客户端浏览器中,而 session 保存在服务器上。 Cookie 数据存放在客户的浏览器上,Session 数据放在服务器上。Session 相比 Cookie 要 更安全一些。由于 Ses…

Chapter1-3_Speech_Recognition(CTC, RNN-T and more)

文章目录1 CTC2 RNN-T3 Neural Transducer4 Monotonic Chunkwise Attention5 小结本文为李弘毅老师【Speech Recognition - CTC, RNN-T and more】的课程笔记,课程视频youtube地址,点这里👈(需翻墙)。 下文中用到的图片均来自于李宏毅老师的…

java商城_基于Java,jfinal web框架开发出微信商城,微信分销商城源码分享

项目简介:专门针对微信服务号开发的一套微信商城,微信分销商城,支持商品多规格,支持按地区设置邮费,支持限时打折,订单返现,满减送,满包邮,支持订单打印,订单…

Express 路由模块化以及 Express 应用程序生成器

一、 Express 路由模块化 https://expressjs.com/en/guide/routing.html Express 中允许我们通过 express.Router 创建模块化的、可挂载的路由处理程序。 1、新建一个 user.js 配置如下代码 var express require(express) var router express.Router() router.get(/, fun…

qscrollarea 设置滚动位置_爱剪辑:影视剧滚动字幕片尾,效果竟然如此高端精美...

大家好今天教大家制作滚动字幕片尾这种效果经常在影视剧和自媒体中看到不仅好看精美,而且还高大上快来学习吧~视频教程:爱剪辑:影视剧滚动字幕片尾教程https://www.zhihu.com/video/1174030334688632832移动视频的位置导入视频后&…

iOS 测试三方 KIF 的那些事

一: KIF 三方库的配置 今天的广州天气还不错,原本想试试UI测试的,前几天也了解到很多公司都在用 KIF 这这三方框架!!今天也就试着做做,可就跪在了这个安装上,我用cocopods 导入了 KIF&#xf…

Chapter1-4_Speech_Recognition(HMM)

文章目录1 HMM用在哪里2 HMM的state3 改造成DNN3.1 Tandem3.2 DNN-HMM Hybrid本文为李弘毅老师【Speech Recognition - HMM (optional)】的课程笔记,课程视频youtube地址,点这里👈(需翻墙)。其中也涉及到了部分李琳山老师关于HMM的详解&#…

Express 结合 multer 上传图片

一、 Multer 模块介绍 Multer 是一个 node.js 中间件,用于处理 multipart/form-data 类型的表单数据,它主要用 于上传文件。 它是写在 busboy 之上非常高效。 注意: Multer 不会处理任何非 multipart/form-data 类型的表单数据。 https://www.npmjs.com…

ad19pcb设置恢复默认_条码打印机-斑马产品常用恢复出厂设置

当我们手上拿到条码打印机,遇到一下无法挽回的时候,我们可以选择恢复下出厂设置,这样使打印机还原到出厂,或许是很好的选择,接下来我们看下斑马条码打印机操作方法如下:Zebra 条码打印机恢复出厂1、有面板的…

请求头和响应头

1 HTTP Request Header 请求头2 Header 解释 示例 3 Accept 指定客户端能够接收的内容类型 Accept: text/plain, text/html 4 Accept-Charset 浏览器可以接受的字符编码集。 Accept-Charset: iso-8859-5 5 Accept-Encoding 指定浏览器可以支持的web服务器返回内容压缩编码类型。…

Chapter1-5_Speech_Recognition(Alignment of HMM, CTC and RNN-T)

文章目录1 为什么需要Alignment2 穷举所有的alignment2.1 HMM的对齐2.2 CTC的对齐2.3 RNN-T的对齐3 小结本文为李弘毅老师【Speech Recognition - Alignment of HMM, CTC and RNN-T (optional)】的课程笔记,课程视频youtube地址,点这里👈(需翻…

mongoose 入门以及 mongoose 实现数据 的增、删、改、查

一、mongoose 介绍 Mongoose 是在 node.js 异步环境下对 mongodb 进行便捷操作的对象模型工具。Mongoose 是 NodeJS 的驱动,不能作为其他语言的驱动。 Mongoose 有两个特点 : 1、通过关系型数据库的思想来设计非关系型数据库 2、基于 mongodb 驱动&…

64位处理器_电脑操作系统的32位和64位有什么区别

想买个新电脑,不知道买 64 位还是 32 位?买了一套视频剪辑软件,发现电脑根本安装不了?这些到底是为什么?对于 Windows7 及以上版本,我们能够很明显知道自己电脑操作系统是 64 位还是 32 位。如果你还不知道…

rename

批量去掉字母b: [rootbogon ~]# ls a_b_1.txt a_b_2.txt a_b_3.txt a_b_4.txt a_b_5.txt a_b_6.txt [rootbogon ~]# rename "b" "" *.txt [rootbogon ~]# ls a__1.txt a__2.txt a__3.txt a__4.txt a__5.txt a__6.txt 转载于:https://…