语音识别:基于HMM

HMM语音识别的解码过程

从麦克风采集的输入音频波形被转换为固定尺寸的一组声学向量:

\mathbf{Y}_{1:T} = \mathbf{y}_{1}, \mathbf{y}_{2}, ..., \mathbf{y}_{T}

其中\mathbf{y}_{t}, t=1,2, ...,TD维的语音特征向量(例如MFCC)。

解码器尝试去找到上述特征向量序列对应的单词(word)的序列:

\mathbf{w}_{1:L} = w_{1}, w_{2},...,w_{L}

单词序列的长度是L

也即是解码器尝试寻找模型产生\mathbf{Y}的那个最有可能的单词序列\mathbf{w}

\widehat{\mathbf{w}} = \underset{\mathbf{w}}{arg max}{P(\mathbf{w} | \mathbf{Y})}

经过贝叶斯公式:

\widehat{\mathbf{w}} = \underset{\mathbf{w}}{arg max}\left \{ P(\mathbf{Y} | \mathbf{w}) P(\mathbf{w}) \right \}

似然概率P(\mathbf{Y} | \mathbf{w})是语音识别的声学模型,先验概率P(\mathbf{w})是语音模型。

P(\mathbf{Y}|\mathbf{w}) = \underset{\mathbf{Q}}{\sum_{}}P(\mathbf{Y|Q})P(\mathbf{Q}|\mathbf{w}))

\mathbf{Q} = \mathbf{q}^{(w_{1})}, \mathbf{q}^{(w_{2})}, ..., \mathbf{q}^{(w_{L})}

\mathbf{q}^{(w_{l})} = q_{1}, q_{2}, ...,q_{K_{w_{l}}}是一个单词由基本音素组成的发音序列(也就是单词的音标),

\mathbf{Q}是该句子的一个可能发音序列,由该句子的每个单词的基本音素拼接而成。

这里的求和是使用了全概率公式,因为一个单词可能由多个发音,所以句子的发音序列也是多个。

对于该句子的一个可能发音序列\mathbf{Q},可得

P(\mathbf{Q}|\mathbf{w}) = \prod_{l=1}^{L}P(\mathbf{q}^{(w_{l})}|w_{l})

剩下就是计算P(\mathbf{Y|Q})了。

P(\mathbf{Y|Q}) = \underset{\mathbf{S} }{\sum}P(\mathbf{S}, \mathbf{Y} | \mathbf{Q})

给定发音序列,对每一个可能的状态序列\mathbf{S}求句子HMM的概率。

\mathbf{S} = S_0, S_1, ... , S_{T+1}是特征序列对应的一个候选的状态序列。

P(\mathbf{S}, \mathbf{Y} | \mathbf{Q}) = a_{S_{0}S_{1}}\prod_{t=1}^{T}b_{S_{t}}(\mathbf{y}_t)a_{S_{t}S_{t+1}}

解码过程不需要计算所有可能状态序列的似然概率,我们只需要使用维特比(Viterbi)算法获取概率最大的那个状态序列路径。

P^{*}(\mathbf{Y}|\mathbf{Q}, \lambda ) = \underset{\mathbf{S}}{max}P(\mathbf{S}, \mathbf{Y}|\mathbf{Q}, \lambda )

模型参数:

HMM语音识别声学模型的训练过程(单音素)

R个语料片段,每个语料片段对应的特征向量序列为\mathbf{Y}^{(r)},r = 1, 2, ..., R\mathbf{Y}^{(r)}序列的长度为T^{(r)}

HMM的训练(选择正确的参数)意味着:找到模型的参数(如转移概率和发射概率),使得给定的所有输入语料\mathbf{Y}^{(r)},r = 1, 2, ..., R的概率最大:

关于\lambda

Maximize \sum_{r=0}^{R}\underset{\mathbf{S}}{\sum }p(\mathbf{Y}^{(r)}, \mathbf{S}|\lambda )

E-step

前向概率:

\alpha _{t}^{(rj)} = P(\mathbf{Y}_{1:t}^{(r)}, S_{t} = j;\lambda )

即对\mathbf{Y}^{(r)}的前t个特征向量与t时刻的状态为j的联合概率;

后向概率:

\beta _{t}^{(rj)} = P(\mathbf{Y}_{t+1:T^{(r)}}^{(r)},|S_{t} = i;\lambda )

给定t时刻的状态为i,模型生成t+1到T^{(r)}之间的特征向量序列的条件概率。

给定前向和向后的概率,对于任何给定的语料r,模型在时间t时占据状态j的概率是

其中,P^{r} = p(Y^{(r)};\lambda )可通过前向概率或者后向概率的递推公式获得,等于t = T^{(r)}+1时刻的前向概率,也等于t = 0时刻的后向概率。

M-step

对于所有的语料,给定初始的模型参数\lambda _{0}(均值,方差,转移概率),可通过如下的公式迭代参数

注意,这里使用的是单个高斯分布建模观察概率b_{j}(\mathbf{y}_{t}^{(r)}) = N(\mathbf{y}_{t}^{(r)}, \mu _{j}, \Sigma _{j})而不是GMM。

Kaldi中使用的HMM声学模型训练方法

因为转移概率对识别结果的影响很小,甚至有时候可以忽略。Kaldi中一般是将转移概率固定不变,不在训练中更新转移概率。声学模型包含的信息主要是状态定义和各个状态的观察概率(发射概率)分布。

使用从左到右的线性HMM模型结构(只有向右跳转和自跳转),训练过程中只更新每个状态的高斯混合模型(GMM)参数。

上面介绍的HMM训练方法是经典的训练HMM的方法(baum welch算法),该算法就是在给定一个初始的模型参数,通过不断的E-step,M-step迭代模型的参数。一种更加实际的方法是使用Viterbi训练方法:

1、给定初始的参数\lambda^{0}

2、使用维特比算法和当前的参数\lambda ^{k}找到能够解释\mathbf{Y}^{(r)}, r = 1, 2,..., R的最可能的状态序列\mathbf{Z}^{*},这样就得到了每一帧\mathbf{y}^{(r)}_{t}对应的状态。这个过程也叫做对齐(Align)或者强制对齐(Forced alignment),目的是获取每一帧对应的状态。

3、使用统计公式更新模型的参数\lambda ^{k+1}。因为此时已经有大量已知隐藏状态和特征(观察值)的帧,所以可以更新每个状态对应的发射概率分布(GMM)的均值和协方差以及权重等参数(可能会用到GMM的EM算法估计GMM的参数)

4、重复步骤2、3,直到状态序列不再更新(收敛)。

参考:

[1] Gales and Young (2007). “The Application of Hidden Markov Models in Speech Recognition”, Foundations and Trends in Signal Processing , 1 (3), 195–304: section 2.2.\
[2]《Kaldi语音识别实战》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/790138.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【大数据存储】实验4 NoSQL数据库

实验4 NoSQL数据库 NoSQL数据库的安装和使用实验环境: Ubuntu 22.04.3 Jdk 1.8.0_341 Hadoop 3.2.3 Hbase 2.4.17 Redis 6.0.6 mongdb 6.0.12 mogosh 2.1.0 Redis 安装redis完成 新建终端启动redisredis-server新建一个终端redis-cli 建表操作 尝…

超越传统时序!多模态+时间序列8个创新方案,刷新SOTA

传统时间序列无法有效捕捉数据中复杂的非线性关系,导致在处理具有复杂动力学特性的系统时效果不佳。为解决此问题,研究者提出了多模态时间序列。 在预测任务中,多模态时间序列能够整合来自不同类型数据源的信息,从而提供更全面的洞…

笔记: JavaSE day15 笔记

第十五天课堂笔记 数组 可变长参数★★★ 方法 : 返回值类型 方法名(参数类型 参数名 , 参数类型 … 可变长参数名){}方法体 : 变长参数 相当于一个数组一个数组最多只能有一个可变长参数, 并放到列表的最后parameter : 方法参数 数组相关算法★★ 冒泡排序 由小到大: 从前…

JavaScript(六)---【回调、异步、promise、Async】

零.前言 JavaScript(一)---【js的两种导入方式、全局作用域、函数作用域、块作用域】-CSDN博客 JavaScript(二)---【js数组、js对象、this指针】-CSDN博客 JavaScript(三)---【this指针,函数定义、Call、Apply、函数绑定、闭包】-CSDN博客 JavaScript(四)---【执…

并发编程之线程池的应用以及一些小细节的详细解析

线程池在实际中的使用 实际开发中,最常用主要还是利用ThreadPoolExecutor自定义线程池,可以给出一些关键的参数来自定义。 在下面的代码中可以看到,该线程池的最大并行线程数是5,线程等候区(阻塞队列)是3,即…

数据挖掘|关联分析与Apriori算法详解

数据挖掘|关联分析与Apriori算法 1. 关联分析2. 关联规则相关概念2.1 项目2.2 事务2.3 项目集2.4 频繁项目集2.5 支持度2.6 置信度2.7 提升度2.8 强关联规则2.9 关联规则的分类 3. Apriori算法3.1 Apriori算法的Python实现3.2 基于mlxtend库的Apriori算法的Python实现 1. 关联分…

window中如何在Anaconda虚拟环境中安装compressai

1, 进入CompressAI的Github代码页下载压缩包并解压到自己的项目路径 2,打开anaconda的prompt命令行,激活需要安装的虚拟环境,然后进入compressai文件夹,比如下操作: 3,输出安装命令行 pip install -e . -…

企业必备! 防员工偷懒神器,工作状况一目了然

在当前企业管理中,员工的工作状态和工作效率一直是管理者们关注的焦点。为了更加有效地监管员工的工作微信使用情况,微信管理系统成为了企业必备的神器。 这款系统不仅可以实时监控员工的工作微信,还具有多种实用功能,帮助企业管…

查看图片某点亮度

一背景 光强度的评价通常涉及对光源发出的光的量进行测量和描述。这种评价可以通过多种方式进行,但最常见的是使用光强单位“坎德拉”(candela,cd)来表示。坎德拉是国际单位制(SI)中光强度的单位&#xff…

2024 蓝桥打卡Day31

递归与辗转相除法 递归(Recursion)辗转相除法(Euclidean Algorithm)总结 递归(Recursion) 递归是指一个函数在执行过程中调用自身的过程。在编程中,递归函数在遇到满足某个条件时会停止调用自身…

蓝桥杯真题:货物摆放

import java.util.ArrayList;public class Main {public static void main(String args[]) {//常规思路/*long num 2021041820210418l;int count 0;for ( long i 1 ; i < num ; i ){for ( long j 1 ; j < num ; j ){for ( long k 1 ; k < num ; k ){if ( i * j *…

超详细工具Navicat安装教程

Navicat是一款功能强大的数据库管理工具&#xff0c;可用于管理多种类型的数据库&#xff0c;包括MySQL、MariaDB、SQL Server、SQLite、Oracle和PostgreSQL等。以下是Navicat工具的一些主要特点和功能&#xff1a; 一.功能介绍 跨平台支持 多种数据库支持 直观的用户界面 数据…

go连接数据库(原生)

根据官网文档 Go Wiki: SQL Database Drivers - The Go Programming Language 可以看到go可以连接的关系型数据库 ​ 常用的关系型数据库基本上都支持&#xff0c;下面以mysql为例 下载mysql驱动 打开上面的mysql链接 GitHub - go-sql-driver/mysql: Go MySQL Driver i…

YUNBEE云贝-技术分享:PostgreSQL分区表

引言 PostgreSQL作为一款高度可扩展的企业级关系型数据库管理系统&#xff0c;其内置的分区表功能在处理大规模数据场景中扮演着重要角色。本文将深入探讨PostgreSQL分区表的实现逻辑、详细实验过程&#xff0c;并辅以分区表相关的视图查询、分区表维护及优化案例&#xff0c;…

【TB作品】STM32单片机读取MAX30102心率传感器,血氧传感器,稳定数值输出,stm32f103c8t6

文章目录 连接MAX30102心率传感器读取的数值源代码获取请看&#xff1a; 连接 MAX30102心率传感器 读取的数值 stm32f103c8t6读取&#xff0c;加上一定稳定算法&#xff0c;可见读取很稳定&#xff1a; 算法取自这里&#xff1a; https://github.com/HJ29/maxrefdes117-energ…

关于搭建电商独立站跨境电商接入主流电商平台API商品接口对于商品功能模块的巨大应用

功能设计 首先我们来看下mall项目中商品功能的设计&#xff0c;主要包括商品管理、添加\编辑商品、商品分类、商品类型、品牌管理等功能&#xff0c;这里的功能同时涉及前台商城和后台管理系统。 商品管理【接入主流电商平台商品API接口丰富自建商城商品】 在mall项目的后台管…

业绩的非线性特征——TM模型所衡量的真的只是择时能力吗?

摘要及声明 1&#xff1a;本文主要介绍Treynor-Mauzy&#xff08;TM&#xff09;模型&#xff0c;将TM模型所衡量的择时能力延伸到业绩非线性特征上&#xff1b; 2&#xff1a;本文主要为理念的讲解&#xff0c;模型也是笔者自建&#xff0c;文中假设与观点是基于笔者对模型…

C++取经之路(其二)——函数重载,引用。

目录 含数重载: 为什么只有c支持&#xff1f; 引用&#xff1a; 权限放大&#xff1a; 引用的应用&#xff1a; 引用总结&#xff1a; 引用和指针的不同点: 含数重载: 函数重载是指&#xff1a;在c中&#xff0c;在同一作用域&#xff0c;函数名相同&#xff0c;形参列表…

【Java】Thread详解

&#x1f352;前言 本文将从以下几方面来展开对Thread的介绍。 1.线程创建 2.线程中断 3.线程等待 4.线程休眠 在前面的文章中&#xff0c;已经总结了关于Thread的一些理解。 在阅读本文之前&#xff0c;最好对其有一些基础的了解。 文章链接: 【JavaSE】进程是什么&#xff1f…

【Java】线程的状态

在之前的文章中&#xff0c;已经介绍了关于线程的基础知识。 我的主页: &#x1f346;&#x1f346;&#x1f346;爱吃南瓜的北瓜 文章目录 ✍绪论&#x1f350;1.NEW&#x1f350;2.TERMINATED&#x1f350;3.RUNNABLE--------------------&#x1f350;4.WAITING&#x1f350…