训练与解码

BW算法是对某一个HMM(一个音素)进行训练,需要该HMM对应的观察向量(一段音频),如何让一段文本中的某个音素找到对应一整段音频中的一小段音频?需要用到对齐来找到所有的[音素-音频]的配对。

   

训练时也需要解码

1,设训练的一句话有n个音素,即n个HMM,即3n个状态。将这句话对应的音频平均地切分为n个片段(无环回的HMM),每个片段有3个状态(无环回,否则一个HMM大于三个状态)

2,使用k-means算法,将每个状态对应的所有特征向量聚类为M个簇(这句话有3nM个簇)

3,为状态i中的每个簇计算均值、协方差矩阵和混合权重(即计算一个GMM,这句话有3nMGMM)

4,用3中计算好的所有GMMs(3nM个)将这一段音频解码(维特比解码)为多个状态,多个HMM

5,重复上述2-4步直至收敛

   

hmm_chinese.pdf p59

在训练时用的是Viterbi算法,在识别时则用状态Viterbi算法处理状态级数据,用词汇Viterbi算法处理词汇级数据

   

识别过程

不考虑句法时,识别过程很类似连接词识别中的一次通过算法

将词汇表中所有词对应的所有音素的所有状态排成一排,读入一个待识别句子的语音数据,由维特比算法可得到一个最佳状态序列。得到状态序列后,可通过类似编译原理中的文法来得到对应的HMM序列。

   

声学模型(HMMs)表示的是各词内状态之间的转移

语言模型(n-gram)表示的是词之间的转移概率关系

   

解码时需要用到状态Viterbi算法和词汇Viterbi算法

   

一句话的识别过程需要在状态层与词汇层之前不断切换,状态层:为当前状态选择概率最大的几个下一状态,直至词的最后状态处;词汇层:为当前词选择概率最大的几个下一词。这样直至这句话的结尾,就得到了多条路径,每条路径包含两个信息:累积概率和回溯路径,选择多条路径中累积概率最大的那条路径,使用其回溯路径进行回溯,就得到了该句子的识别结果。

转载于:https://www.cnblogs.com/JarvanWang/p/7499575.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/253443.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CMOS 图像传感器——Color Filter Array

在介绍CMOS图像传感器的工作原理时候说道,像点(Sensor感光的基本单元叫做“像点”)吸收入射光后会有一定概率激发出电子,这个过程叫做光电转换。光子激发出电子会被像点下方的电场捕获并存储起来备用。像点的作用可以类比成一个盛水的小桶,它可以在一定范围内记录其捕获的…

我的一点企业做云经验

最近,经常有朋友问我在企业做云的经验,也有人问我OpenStack二次开发项目经验。正好这方面也有点经历,那现在就把我过往有关经历整理整理,总结出几条心得体会,分享给大家。 技术:我们OpenStack二次开发做了什…

【leetcode】910. Smallest Range II

题目如下: 解题思路:我的思路是先找出最大值。对于数组中任意一个元素A[i]来说,如果A[i] K 是B中的最大值,那么意味着从A[i1]开始的元素都要减去K,即如果有A[i] K > A[-1] - K,那么A[i] K 就可以作为…

CMOS图像传感器架构的演变

01、 引言 图像传感器目前用于多种应用。自 1969 年电荷耦合器件 (CCD) 发明以来,固态图像传感器已蔓延到各种消费市场,例如小型摄像机和数码相机。自 2005年以来已成为主流固态图像传感器的 CMOS 图像传感器在为 CCD 开发的技术的基础上不断发展。除了…

Python判断变量的数据类型的两种方法

2019独角兽企业重金招聘Python工程师标准>>> 1、isinstance(变量名,类型) def varargsql(self, sql, *args):if isinstance(args, tuple):self.cursor.execute(sql, args)self.conn.commit() 2、通过与其他已知类型的常量进行对比(type()&…

基于事件的视觉传感器

在之前的文章里 人工智能与图像传感器_沧海一升的博客-CSDN博客_人工智能和传感器的关系第一类是图像传感器与人工智能计算相结合,即图像传感器模组除了可以输出图像之外,还可以直接输出人工智能算法计算的结果。另一类智能图像传感器则是为人工智能应用专门设计的图像传感器…

RocketMQ多Master多Slave模式部署

每个 Master 配置一个 Slave,有多对Master-Slave,HA采用同步双写方式,主备都写成功,向应用返回成功。 优点:数据与服务都无单点,Master宕机情况下,消息无延迟,服务可用性与数据可用性…

codeforces 1045 D. Interstellar battle

题目大意:一颗树,给定每个点消失的概率,求出连通块的期望值。要求支持修改消失概率的操作并且给出每次修改过后的期望值。注意被破坏的点不能算入连通块中。 数据范围,时限1S。 传送门 D. Interstellar battle 我们考虑做有根树的…

Cookie中文存储页面500问题

前段时间做cookie存储,直接用的菜鸟教程中的cookie设置方法,方法如下: function setCookie(cname,cvalue,exdays) {var d new Date();d.setTime(d.getTime()(exdays*24*60*60*1000));var expires "expires"d.toGMTString();docum…

IC Compiler指南——数据准备

一、概述 ICC数据设置的文件关系框图如图: 后端工具在数据设置阶段需要对两大类数据进行设置,包括从前端设计继承的综合数据 以及后端设计需要的物理数据。 综合数据主要包括前端逻辑综合已经设置过的逻辑与时序库文件、设计约束文件sdc以 及综合网表文…

iOS Xcode全面剖析

前言 前几天在公司内部做了一次关于iOS的入门分享,听众有PHP、Web、Android、测试、产品、UI等,主旨是力求不懂iOS的人能了解iOS的开发流程,听后都能创建一个iOS项目并打印HelloWorld。(这是背景)你想想就这么点需求&a…

VS2013编译OBS源码

obs源码来之:https://sourceforge.net/projects/obsproject/ 下载源码之后直接打开sln索引文件就行 项目打开之后 obs作为启动项 直接编译就行,正常应该一下就能编译成功。 在运行的时候可能会报错: 这个问题就需要制定一下编译输出路径&…

js图片切换

1.不同方式的图片切换 功能点:   1.页面默认循环切换,循环切换按钮获得焦点   2.点击顺序切换时,顺序切换按钮获得焦点     点击上一张时,当图片为第一张时,图片不再进行切换,图片张数和描述也不在变动;     点击下一张时,当图片为最后一张时,图片不再进行切换,图片…

CIS关键工艺技术概览

相机作为一种媒介,可以记录光所体现的物体,使人们能够主观或客观地表达各种情感和思想。当代人类身处于一个所谓的“数字游牧时代”,人们携带各类移动数码设备,生活不受时空的限制。在当今时代,相较于胶片相机&#xf…

1215 - Cannot add foreign key constraint

2019独角兽企业重金招聘Python工程师标准>>> 参考网页 https://blog.csdn.net/yiwangxiblog/article/details/52269527 https://blog.csdn.net/ytm15732625529/article/details/53729155 原因--亲测 两张表的存储引擎不一致。主键所在表和外键所在表的存储引擎改成一…

Css3实现波浪线效果1

一、波浪线 ,常用 .info::before {content: ;position: absolute;top: 30px;width: 100%;height: 0.25em;background:linear-gradient(135deg, transparent, transparent 45%, #008000, transparent 55%, transparent 100%),linear-gradient(45deg, transparent, tr…

dm368ipnc 重写架构中的swosd 实现中文osd

appro的ipnc中只实现了英文的osd叠加,就连小小的ascii码表都没有覆盖全,而且该swosd架构灰常凌乱。 其实无非就是两个功能,一是叠加文字,而是叠加图片,由于考虑到兼容不同的分辨率的视频流,所以处理的分支相…

dubbo系列(一)

进入官网之后,找到 http://dubbo.apache.org/en-us/docs/user/quick-start.html 有一个链接跳转到这里 http://dubbo.apache.org/en-us/docs/admin/install/provider-demo.html 使用git将项目下载下来 修改如下Service实现类 1 /*2 * Licensed to the Apache Softw…

基于Flask实现后台权限管理系统 - 表设计

1.1. 设计 1.1.1. 用户表 用户表记录系统中的所有用户,是权限管理系统最基本的部分,和其他权限表都有一定的关联关系,同时,一个还有一个重要的功能:系统登陆。 名称 数据类型 允许空值 默认值 描述 ID VARCHAR …

DM8168的McSPI/McASP/McBSP接口

McSPI接口 SPI管脚: 管脚 类型 描述 SPI_SCLK I/O SPI串行时钟(MASTER时:输出;SLAVE:输入) SPI_D0 I/O 能被配置为输入或输出(MOSI:master out,slave in或MISO&…