语音识别概述

语音识别概述

一.什么是语音?

语音是语言的声学表现形式,是人类自然的交流工具。

在这里插入图片描述
图片来源:https://www.shenlanxueyuan.com/course/381


二.语音识别的定义

语音识别(Automatic Speech Recognition, ASR 或 Speech to Text, STT)是将语音转换为文本的任务。其主要目标是解决机器“听清”问题,处理声学和(部分)语言上的混淆,确保每个人的语音都能被正确识别为文本。

1.主要解决的问题:
  1. 将语音转换成文本。
  2. 解决机器“听清”问题。
  3. 处理声学和部分语言上的混淆。
  4. 确保不同人的语音都能被正确识别。
2.不解决的问题:
  1. 说话人识别。
  2. 副语言信息的分析与识别(如发音、质量、韵律、情感)。
  3. 语言理解。
3.评估标准:
  1. Accuracy(准确率):

    • 音素错误率(Phone Error Rate, PER)
    • 词错误率(Word Error Rate, WER)
    • 字错误率(Character Error Rate, CER)
    • 句错误率(Sentence Error Rate, SER)
  2. Efficiency(效率):

    • 实时率(Real-time Factor, RTF)
4.错误率计算实例:
Ref:  THE CAT IN       THE        HAT
Hyp:      CAT IS   ON  THE  GREEN HATDEL     SUB  INS       INS

在这个例子中:

  • 第一行为正确的抄本(Ref)。
  • 第二行为识别结果(Hyp)。
  • 错误类型:第一列为删除错误(DEL),第三列为替换错误(SUB),第四列和第六列为插入错误(INS)。

错误率计算公式:Error rate=100×(1S+1D+2I)/5=80

计算过程中关注三种错误:插入错误、替换错误和删除错误。实际计算时,错误率有可能超过100%。

5.语音识别系统分类:
  1. 说话人:特定人、非特定人
  2. 语种:单一语种、多语种
  3. 词汇量:大词汇量、中词汇量、小词汇量
  4. 设备:云端、端侧
  5. 距离:近距离、远距离

三.语音识别的重要性

语音识别(ASR,Automatic Speech Recognition)是一项极具挑战性的技术,被誉为“镶嵌在人工智能皇冠上的明珠”。它在现代技术和应用中占有重要地位,主要体现在以下几个方面:

1. 快速、便捷、无接触的优点
  • 快速:语音输入的速度通常比键盘输入更快,使信息传递更加高效。
  • 便捷:用户只需说话,无需学习复杂的输入方法,使用门槛低。
  • 无接触(Hands-Free):特别适用于开车、做家务等需要双手操作的场景,提升了用户的便利性和安全性。
2. 音频内容分析与理解的基础
  • 文字转写:语音识别是将音频内容转化为文本的第一步,这一过程是进一步分析与理解音频内容的基础。
  • 文本分析:转写后的文本可以进行情感分析、主题识别等处理。
  • 数据存档:转写文本便于存储和检索,提升了数据的可用性。
3. AIoT和智能服务的入口
  • AIoT(人工智能物联网):语音识别是AIoT设备的主要交互方式,用户可以通过语音控制智能家居、可穿戴设备等。

    • 智能家居:语音助手控制灯光、温度、家电等。
    • 可穿戴设备:语音识别用于健康监测、运动记录等。
  • 智能服务:语音识别在智能客服、自动翻译等领域有广泛应用。

    • 智能客服:自动应答用户问题,提高客服效率。
    • 自动翻译:实时翻译语音内容,打破语言障碍。
4. 满足自然人机交互和内容理解与生成的需求
  • 自然人机交互:语音识别使人机交互更加自然,用户可以通过语音指令与设备进行交流,提升用户体验。

    • 虚拟助手:如Siri、Alexa、Google Assistant等通过语音识别实现自然对话。
    • 导航系统:通过语音输入目的地,提高驾驶安全性。
  • 内容理解与生成:语音识别技术与自然语言处理(NLP)结合,实现内容的理解与生成。

    • 语音搜索:用户通过语音进行信息搜索,快速获取答案。
    • 语音生成:将文本转化为自然语音,实现双向交流。
5. 技术与应用的广泛性
  • 医疗领域:医生通过语音输入病历,提高工作效率,减少误诊。
  • 教育领域:语音识别用于语言学习、课堂记录等,提高学习效果。
  • 安防领域:通过语音识别进行身份验证和监控,提高安全性。

四.语音交互

在这里插入图片描述
图片来源:http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain


五.语音生成

语音生成(Speech Production)是指通过大脑指挥神经系统发出肌肉命令,进而控制发音器官运动,最终产生声音的过程。

1.语音生成过程
  • 大脑指挥:大脑发出神经信号,控制肌肉运动。

  • 神经肌肉命令:神经系统将命令传递到发音器官。

  • 发音器官运动:发音器官(如声带、口腔、鼻腔等)根据神经信号进行运动,产生声音。

2.发音的基本原理
  • 声门运动:声门的快速打开与关闭产生不同的声音。
  • 基本频率:声门震动的快慢决定声音的基本频率。
  • 口腔、鼻腔、舌头的位置及嘴型:这些因素共同决定声音的内容。
  • 肺部空气压力:肺部压缩空气的力量决定音量。
2.声音类型
  • 浊音(Voiced Sounds):由声带震动引起,波形具有明显的周期性,人们可以感受到稳定的高音。

  • 清音(Unvoiced Sounds):声带不震动,波形类似白噪声,人们无法感受到稳定的高音。

3.语音单元
  1. 音素(Phonemes):

    • 音素是语言中语音的最小单元,分为辅音(consonants)和元音(vowels)。
    • 音素的数量因语言而异。
    • 同位异音(Allophone):音素的声学实现受到上下文影响,一个音素可能有不同的实现。
  2. 词素(Morpheme):语言中最小的具有语义的结构单元。

  3. 音节(Syllable):

    • 由元音和辅音结合构成。
    • 音节头(声母):元音之前的辅音。
    • 韵母:音节头后的元音及随后的辅音。
      • 音节核:韵母中的元音。
      • 音节尾:随后的辅音。
    • 在中文中,一个汉字的读音为一个带调音节(如普通话约1300多个带调音节,去掉声调后约400个基础音节)。
4.声学特征
  1. 共振峰(Formants):

    • 在声音的频谱中,能量相对集中的区域。
    • 共振峰决定音质,反映声道的物理特征,不同元音会产生不同种类的共振。
  2. 协同发音(Coarticulation):

    • 发音过程中,每个音素会受到前后音素的影响。
    • 协同发音使得音素的声学实现与上下文强相关,因此语音识别中常建立上下文相关模型。
5.音素抄本

音素抄本(Phonetic Transcription)是一段语音对应的音素列表,可以带或不带边界。音素抄本提供时间信息,可以通过人工标注或自动对齐获得。它在语音识别的声学建模中非常重要。


六.语音感知

语音感知(Speech Perception)是指人耳将外界声音信号传递到大脑,并由大脑进行处理和理解的过程。该过程包括外耳、中耳和内耳的协同工作,以及声音的物理特性与人耳听觉特性之间的关系。

1.人耳结构
  1. 外耳

    • 功能:声源定位,对声音进行放大。
    • 组成:耳廓和外耳道。
  2. 中耳

    • 功能:进行声阻抗变换,放大声压,保护内耳。
    • 组成:鼓膜和听小骨(锤骨、砧骨、镫骨)。
  3. 内耳

    • 功能:将声压刺激转化为神经冲动,发送到大脑。
    • 组成:耳蜗和听神经。
2.物理特性与听觉特性

语音感知涉及声音的物理量和感知量之间的关系。下表总结了这些关系:

物理量 (Physical Quantity)感知量 (Perceptual Quantity)
声强 (Intensity)响度 (Loudness)
基频 (Fundamental Frequency)音高或音调 (Pitch)
频谱形状 (Spectral Shape)音色或音品 (Timbre)
起始/结束时间 (Onset/offset time)时间感知 (Timing)
双耳听觉的相位差 (Phase difference in binaural hearing)定位 (Location)
3.声音三要素
  1. 响度(Loudness):

    • 响度是人主观感受到的声音强度,与声音的频率成分有关。
    • 闻阈:人耳刚好能听见的最小响度。
    • 痛阈:声音使人耳感到疼痛时的响度。

在这里插入图片描述

图片来源:https://www.shenlanxueyuan.com/course/381

  1. 音高或音调(Pitch):

    • 音调是人耳对声音频率的感知,是非线性的,近似对数函数。

    • 音调和频率的近似关系:𝑇𝑚𝑒𝑙=2595log10⁡(1+𝑓7000)。

      𝑓为物理频率,𝑇𝑚𝑒𝑙为音调,单位是美(Mel)

  2. 音色或音品(Timbre):

    • 音色由声音波形的谐波频谱和包络决定。
    • 基音:声音波形的基频产生的最清楚的音。
    • 泛音:各次谐波的微小震动产生的音。
    • 纯音:单一频率的音。
    • 复音:具有谐波的音。
    • 不同声源的音色特征由声音波形各次谐波的比例和随时间的衰减大小决定。
4.掩蔽效应

掩蔽效应(Masking)是指一个较强声音掩蔽附近较弱声音,使其不易被察觉的现象。分为两种情况:

  • 同时掩蔽(Simultaneous Masking):一个强纯音会掩蔽其附近频率同时发生的弱纯音。

  • 异时掩蔽(Temporal Masking):在时间上相邻的声音之间的掩蔽现象。

掩蔽阈值是时间、频率和声压级的函数。


七.语音识别的挑战性

语音识别(Automatic Speech Recognition, ASR)是一个非常具有挑战性的任务,其在众多方面表现出强大的可变性。以下是影响语音识别性能的主要因素及其可变性:

1.主要影响因素及其可变性
因素可变性描述
规模词表大小、复杂度/困惑度、书面化或口语化
说话人是否特定说话人、适应特定说话人的特性
声学环境噪声、干扰人声、信道条件(麦克风、传输空间、空间声学)
讲话风格连续或孤立词、有计划或即兴对话、大声或轻声细语
口音/方言是否能识别各种口音
语种中文、英文、超过5000种语言、语言混杂
信道特性不同麦克风、不同采样率、传输编码等
环境影响距离衰减、噪声、混响、干扰人声
2.语音识别中的变异性
  • 说话人之间的变异性:不同说话人的口音、语速、发音方式、语调等各不相同。适应多种说话人的特性是语音识别的一个重要挑战。

  • 说话人之内的变异性:同一个人在不同时间、不同情绪状态、不同健康状态下,语音特性也会有所不同。不同讲话方式(如大声、轻声、低语)对语音识别系统的要求也各不相同。

  • 信道变异性:不同麦克风的性能、采样率和传输编码会影响语音信号的质量。在不同传输条件下,信号可能会受到干扰或衰减。

  • 环境变异性:环境噪声、回声、混响以及干扰人声等都会影响语音信号的清晰度。距离衰减效应,尤其在远讲场景下,语音信号会显著衰减。

3.特殊场景挑战

CHiME-5场景: 多说话人完全自由对话。现实生活中的家居声学场景。远讲情况下的语音识别。说话人移动及语音交叠。


八.语音识别的发展历史

1.早期阶段(1950-1960年代)

在语音识别研究的初期,研究人员主要集中于提出一些基础的方法和引入关键的思想与概念。由于受限于方法、计算能力和数据量,这一阶段的研究主要针对小词表的语音识别,且缺乏大规模测试。主要特点包括:

  • 初步探索:提出个别方法和概念。
  • 小词表研究:主要集中在小范围词汇的语音识别。
  • 技术限制:计算能力和数据量的限制使得研究进展缓慢。
2.现代语音识别的诞生(1970-1980年代)

这个阶段标志着语音识别从基础研究进入了统计学习时代,几乎忽略了语音学和语言学的专家知识,转而使用数据驱动的方法。关键技术和方法在此期间得以发展,包括:

  • 统计学习方法:将语音识别视为统计学习任务。
  • 关键技术:引入了EM算法、N-gram等。
  • 中大词表尝试:开始尝试中大词表的语音识别系统。
3.平稳发展期(1990-2000年代)

在这一阶段,GMM-HMM(高斯混合模型-隐马尔科夫模型)框架成为主导,语音识别系统得以进一步发展。主要进展包括:

  • GMM-HMM框架:成为语音识别的主流框架。
  • 上下文相关建模:声学建模开始考虑基于上下文相关的模型。
  • n-gram语言模型:使用大量文本统计概率关系。
  • 数据和任务复杂度增加:数据量和任务复杂度逐步增加。
  • 判别式学习:引入区分性训练技术推动进步。

尽管技术不断进步,但语音识别的准确率在这一时期鲜有显著提升。

3.深度学习时代(2006年至今)

2006年是语音识别历史上的一个重要转折点,标志着深度学习技术的引入和广泛应用。在此之后,语音识别的准确率显著提升,主要特点包括:

  • 深度神经网络(DNNs):深度学习模型的应用大幅提升了语音识别的性能。
  • 大规模数据和计算能力:利用更大的数据集和更强的计算能力进行训练。
  • 持续改进:技术不断进步,推动语音识别系统向更高的准确率和更广泛的应用场景发展。

九.现代语音识别框架

现代语音识别框架主要分为两类:统计模型和端到端系统。

1.统计模型

统计模型的核心思想是通过计算最有可能的单词序列来进行语音识别。假设有一个声学特征向量(观测向量)的序列 X,表示一个单词序列 W,那么最有可能的单词序列可以通过以下公式计算得出:
W ^ = arg ⁡ max ⁡ W P ( W ∣ X ) \hat{W} = \arg\max_W P(W|X) W^=argWmaxP(WX)
应用贝叶斯定理,这一公式可以进一步推导为:
P ( W ∣ X ) = p ( X ∣ W ) P ( W ) p ( X ) ∝ p ( X ∣ W ) P ( W ) P(W|X) = \frac{p(X|W)P(W)}{p(X)} \propto p(X|W)P(W) P(WX)=p(X)p(XW)P(W)p(XW)P(W)
其中:

  • p(X∣W) 是 声学模型,用于计算给定单词序列 W 下的声学特征向量 X的概率。
  • P(W) 是 语言模型,用于计算单词序列 W的先验概率。

通过组合声学模型和语言模型,统计模型可以通过给定的声学特征向量 X获取最有可能的词序列。

现代的统计模型通常使用三大组件:

  • 声学模型:用于计算声学特征向量的概率分布。

  • 语言模型:用于计算单词序列的先验概率。

  • 发音词典:提供单词与其发音之间的映射。
    在这里插入图片描述

    图片来源:https://www.shenlanxueyuan.com/course/381

2.端到端系统

端到端系统使用一个神经网络直接将输入的声学特征向量 X映射为词序列。这种方法简化了传统统计模型的复杂架构,避免了多个组件的独立优化和组合,具有以下特点:

  • 直接映射:通过神经网络直接将声学特征向量转换为单词序列。
  • 简化架构:省去声学模型、语言模型和发音词典的独立建模和组合。
  • 统一训练:在一个训练过程中同时优化声学和语言模型的参数。

在这里插入图片描述
图片来源:https://www.shenlanxueyuan.com/course/381


十.语料库与工具包

1.英文数据
  1. TIMIT:用于音素识别,由 LDC 管理版权。
  2. WSJ:新闻播报语料库,由 LDC 管理版权。
  3. Switchboard:电话对话语料库,由 LDC 管理版权。
  4. Librispeech:有声读物语料库,包含 1000 小时的开源数据。 Librispeech
  5. AMI:会议语料库,开源数据。 AMI
  6. TED-LIUM:TED 演讲语料库,开源数据。 TED-LIUM
  7. CHiME-4:平板远讲语料库,需要申请。
  8. CHiME-5/6:聚会聊天语料库,需要申请。
2.中文数据
  1. THCHS-30:30 小时的开源语料库。 THCHS-30
  2. HKUST:150 小时的电话对话语料库,由 LDC 管理版权。
  3. AIShell-1:178 小时的开源语料库。 AIShell-1
  4. AIShell-2:1000 小时的开源语料库,需申请。 AIShell-2
  5. aidatatang_200zh:200 小时的开源语料库。 aidatatang_200zh
  6. MAGICDATA:755 小时的开源语料库。 MAGICDATA
3.工具包
  1. HTK:一款语音识别工具包。 HTK
  2. Kaldi:目前使用最广泛的语音识别工具包,支持 C++ 和 Python。 Kaldi
  3. ESPNet:基于 Pytorch 的端到端语音识别工具包。 ESPNet
  4. Lingvo:基于 Tensorflow 的语音识别工具包。 Lingvo

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/45218.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于RAG大模型的变电站智慧运维-第十届Nvidia Sky Hackathon参赛作品

第十届Nvidia Sky Hackathon参赛作品 1. 项目说明 变电站是用于变电的设施,主要的作用是将电压转化,使电能在输电线路中能够长距离传输。在电力系统中,变电站起到了极为重要的作用,它可以完成电能的负荷分配、电压的稳定、容错保…

电影购票小程序论文(设计)开题报告

一、课题的背景和意义 随着互联网技术的不断发展,人们对于购票的需求也越来越高。传统的购票方式存在着排队时间长、购票流程繁琐等问题,而网上购票则能够有效地解决这些问题。电影购票小程序是网上购票的一种新型应用,它能够让用户随时随地…

06.截断文本 选择任何链接 :root 和 html 有什么区别

截断文本 对超过一行的文本进行截断,在末尾添加省略号(…)。 使用 overflow: hidden 防止文本超出其尺寸。使用 white-space: nowrap 防止文本超过一行高度。使用 text-overflow: ellipsis 使得如果文本超出其尺寸,将以省略号结尾。为元素指定固定的 width,以确定何时显示省略号…

笔记 4 :linux 0.11 中继续分析 0 号进程创建一号进程的 fork () 函数

(27)本条目开始, 开始分析 copy_process () 函数,其又会调用别的函数,故先分析别的函数。 get_free_page () ; 先 介绍汇编指令 scasb : 以及 指令 sstosd :…

什么是架构设计师?定义、职责和任务,全方位解析需要具备的专业素质

目录 1. 架构设计师的定义 2. 架构设计师的职责和任务 2.1 系统架构设计 2.1.1 模块划分 2.1.2 接口设计 2.1.3 通信方式 2.2 技术选型与决策 2.2.1 技术评估 2.2.2 技术选型 2.2.3 技术决策 2.3 性能优化与调优 2.3.1 性能分析 2.3.2 性能优化 2.3.3 性能调优 …

视图库对接系列(GA-T 1400)十七、视图库对接系列(本级)采集设备获取

背景 这一章的话,我们写写如何获取采集设备获取,之前其实也有说过类似的 就我们订阅的时候如果subscribeDetail=3的话,下级就会主动给我们推送采集设备。但这里的话,是下级主动推,如果下级平台不支持,或者说可能因为某个原因推的不全,怎么办? 我们能否主动获取采集设备…

WPF学习(4) -- 数据模板

一、DataTemplate 在WPF(Windows Presentation Foundation)中,DataTemplate 用于定义数据的可视化呈现方式。它允许你自定义如何展示数据对象,从而实现更灵活和丰富的用户界面。DataTemplate 通常用于控件(如ListBox、…

知识图谱和 LLM:利用 Neo4j 实现大型语言模型

这是关于 Neo4j 的 NaLLM 项目的一篇博客文章。这个项目是为了探索、开发和展示这些 LLM 与 Neo4j 结合的实际用途。 2023 年,ChatGPT 等大型语言模型 (LLM) 因其理解和生成类似人类的文本的能力而风靡全球。它们能够适应不同的对话环境、回答各种主题的问题,甚至模拟创意写…

NSSCTF中24网安培训day1中web的题目

我flag呢 直接查看源代码即可CtrlU [SWPUCTF 2021 新生赛]Do_you_know_http 用Burpsuite抓包,之后在User-agent下面添加XFF头,即X-Forwarded-For:127.0.0.1 [SWPUCTF 2022 新生赛]funny_php 首先是php的弱比较,对于num参数,我们…

hot100 | 十一、二分搜索

1-leetcode35. 搜索插入位置 注意&#xff1a; 看Labuladong的书&#xff0c;知道while的判断符号跟left right的关系 public int searchInsert(int[] nums, int target) {int left 0;int right nums.length - 1;while (left < right) {int mid left (right - left) /…

PostgreSQL日志文件配置,记录所有操作记录

为了更详细的记录PostgreSQL 的运行日志&#xff0c;我们一般需要修改PostgreSQL 默认的配置文件&#xff0c;这里整理了一些常用的配置 修改配置文件 打开 PostgreSQL 配置文件 postgresql.conf。该文件通常位于 PostgreSQL 安装目录下的 data 文件夹中。 找到并修改以下配…

【Qt 基础】绘图

画笔 QPen pen; pen.setWidth(3); // 线条宽度 pen.setColor(Qt::red);// 画笔颜色 pen.setStyle(Qt::DashLine);// 线条样式 pen.setCapStyle(Qt::RoundCap);// 线端样式 pen.setJoinStyle(Qt::BevelJoin);// 连接样式 painter.setPen(pen);线条 线端 连接 画刷 QBrush bru…

Spring容器详细介绍

Spring容器 1 Spring核心容器介绍 问题导入 问题&#xff1a;按照Bean名称获取Bean有什么弊端&#xff0c;按照Bean类型获取Bean有什么弊端&#xff1f; 1.1 创建容器 方式一&#xff1a;类路径加载配置文件 ApplicationContext ctx new ClassPathXmlApplicationContext…

复合类型的字节对齐

引子 #inlcude<stdio.h> struct s{int i;char a: }; struct s sVar {5,A}; int main(void){printf("%d\n",sizeof(sVar)); }问1&#xff1a;上面这个代码的输出结果是多少&#xff1f; 答1&#xff1a; 思考 明明sVar这个结构体就两个元素&#xff0c;5和…

uniapp实现水印相机

uniapp实现水印相机-livePusher 水印相机 背景 前两天拿到了一个需求&#xff0c;要求在内部的oaApp中增加一个卫生检查模块&#xff0c;这个模块中的核心诉求就是要求拍照的照片添加水印。对于这个需求&#xff0c;我首先想到的是直接去插件市场&#xff0c;下一个水印相机…

unity 环形循环切换UI

环形ui管理器 using System.Collections.Generic; using UnityEngine; using UnityEngine.UI; using DG.Tweening; using System.Collections; using Unity.VisualScripting;public class LevelSelector : MonoBehaviour {public GameObject levelButtonPrefab; // 关卡按钮的…

Elasticsearch:介绍 retrievers - 搜索一切事物

作者&#xff1a;来自 Elastic Jeff Vestal, Jack Conradson 在 8.14 中&#xff0c;Elastic 在 Elasticsearch 中引入了一项名为 “retrievers - 检索器” 的新搜索功能。继续阅读以了解它们的简单性和效率&#xff0c;以及它们如何增强你的搜索操作。 检索器是 Elasticsearc…

知识图谱与LLMs:实时图分析(通过其关系的上下文理解数据点)

大型语言模型 (LLM) 极大地改变了普通人获取数据的方式。不到一年前&#xff0c;访问公司数据需要具备技术技能&#xff0c;包括熟练掌握各种仪表板工具&#xff0c;甚至深入研究数据库查询语言的复杂性。然而&#xff0c;随着 ChatGPT 等 LLM 的兴起&#xff0c;随着所谓的检索…

Ubuntu系统安装mysql之后进行远程连接

1.首先要配置数据库允许进行远程连接 1.1 打开MySQL配置文件 /etc/mysql/mysql.conf.d/mysqld.cnf sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf1.2 修改 bind-address 行 #按i进入插入模式 bind-address 0.0.0.0 #按 Esc 键退出插入模式。 #输入:wq 然后按 Enter 保存并退…

React学习笔记02-----

一、React简介 想实现页面的局部刷新&#xff0c;而不是整个网页的刷新。AJAXDOM可以实现局部刷新 1.特点 &#xff08;1&#xff09;虚拟DOM 开发者通过React来操作原生DOM&#xff0c;从而构建页面。 React通过虚拟DOM来实现&#xff0c;可以解决DOM的兼容性问题&#x…