基于Python的智能语音识别系统设计

引言

语言是人类最原始直接的一种交流方式,通俗易懂、便于理解。随着科技的发展,语言交流不再只存在于人与人之间,如何让机器“听懂”人类的语言并做出反应成为人工智能的重要课题,语音智能交互技术应运而生。作为其中重要一环的语音识别技术近年来不断发展,走出了实验室,随着人工智能进入人们的日常生活中。当今市场上语音识别技术相关的软件、商品涉及人类生活的方方面面,语音识别的实用性已经得到充分的印证。如今语音识别技术已经成为人类社会智能化的关键一步,能够极大提高人们生活的便捷度。

近年随着互联网的快速兴起和飞速发展,人们的生活也日新月异,高科技的进步伴随着种种问题同时也给人们和社会带来了切实的便捷与利处。各种各样随着计算机发展而贴近人们生活的好用软件出现,随着技术的发展进步,多种多样让人眼花缭乱的功能一一呈现在大众眼前。在这样一个时代,语音识别系统也在各种各样的领域中与人们相伴为人们服务,小到手机中的语音翻译功能,大到智能家居领域中的语音命令功能。在人工智能领域中,语音识别技术已经成为其中不可或缺的一部分,而且渐渐成为AI智能产品中非常重要的环节。

随着科学技术的进步,智能语音识别技术也在不断发展着。从20世纪50年代Audrey被开发出来,到70年代,隐马尔科夫模型(HMM)在语音识别技术中得到应用,但此后的语音识别技术发展并没有脱离HMM框架。而在2011年,国内的科大讯飞第一次将深度神经网络(DNN)技术运用到语音云平台中,与传统的HMM产生了碰撞。

通过在网络上查阅相关资料,阅读相关文献,进一步学习到了相关知识,对设计智能语音识别系统打好了牢固的地基,提供了科学系统的知识,从盲目毫无章法的进行到有规划有目标的进行。对HMM,DNN等技术参考相关的设计思路和实现方法进行了细致的研究。

关键词 智能语音识别;HMM;DNN

正文

早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它就能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。

1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码技术(LPC)及动态时间规整技术(DTW)。而语音识别技术的最重大突破是70 年代隐含马尔科夫模型(HMM)的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后HMM技术的应用一直占据语音识别系统的主流地位。

目前智能语音识别系统面临着环境中的噪声干扰问题、方言识别问题以及容错率问题的挑战。而DNN等新技术的应用是否能相对于传统的HMM框架的语音识别系统更加优秀则需要更多的探索与研究。

通过检索关键词“智能语音识别”查阅相关资料和老师沟通后,从由房爱东作为第一作者发表的《基于人工智能的语音识别系统及应用研究》中学习到了智能语音识别系统的设计思路与流程。从由孙可作为第一作者发表的《基于Python的深度学习语音识别》中学习到了语音识别系统的DNN技术。在对人工神经网络(ANN)的研究中,深度学习的概念被提出,计算机是否也能模拟人脑中的神经元进行学习,人工神经网络就成为模拟动物神经网络特征的数学模型,2006年深度学习教父Hinton等人提出深度置信网络(DBN)。在DNN运用于图片识别后并取得成功后,逐渐被研究人员运用于语音识别等领域。从杨毯毯发表的《基于HMM与改进的神经网络语音识别》中学习到了语音识别系统中的HMM技术,该技术是一个双重随机的数理统计处理过程,基本上无法观察其所处的具体状态,但是矢量序列却表征着其相关特征。每一观察矢量都借助于其相应的概率密度函数的分布状况来反映其各个状态,此外,每个观察矢量又是由相应概率密度分布的状态序列产生。与此同时,语音信号的特性恰巧与之相吻合,因此可以运用HMM来刻画语音信号的特征。

总结

根据上述文献的相关学习,了解到对智能语音识别系统性能和结构的研究一直是热点,该技术也不断成为人们生活的一部分。目前智能语音识别系统依然面临着环境中的噪声干扰问题、方言识别问题以及容错率问题的挑战。在智能语音识别系统的设计上,可以利用DNN技术对传统的HMM框架进行改进或建立更好的全新框架,能有效提高语音识别系统的效率和性能,以及改善其方言识别能力以及容错率的处理能力。语音识别系统的发展已经从GMM-HMM到DNN-HMM,再到其现在以CTC,RNN-T等技术为代表的端到端技术。语音识别中的特征提取是其中的重要步骤,通过与MFCC、FBank、LPC等特征提取技术结合以提升语音识别系统的性能,进一步解决语音识别系统中存在的问题。

参考文献

[1]范宝荣,薛金珍,张天航.语音识别技术综述[J].数码世界,2019(02):49.

[2]郝欧亚,吴璇,刘荣凯.智能语音识别技术的发展现状与应用前景[J].电声技术,2020,44(03):24-26.DOI:10.16311/j.audioe.2020.03.007.

[3]房爱东,张志伟,崔琳,谢士春.基于人工智能的语音识别系统及应用研究[J].宿州学院学报,2019,34(08):62-65.

[4]孙可,刘忠武,吴雨洽,郭东旭.基于Python的深度学习语音识别[J].沈阳师范大学学报(自然科学版),2019,37(03):274-277.

[5]李姝仪,李云洁,蒋昊轩,郭宗昱,吴可欣,刘博.语音识别实现方法[J].科技风,2021,No.475(35):69-71.DOI:10.19392/j.cnki.1671-7341.202135021.

[6]杨毯毯. 基于HMM与改进的神经网络语音识别[D].山东科技大学,2019.DOI:10.27275/d.cnki.gsdku.2019.001094.

[7]林坤辉,息晓静,周昌乐.基于HMM与神经网络的声学模型研究[J].厦门大学学报(自然科学版),2006(01):44-46.

[8]贾嘉敏,程振,潘文林,王欣.基于DNN-HMM的佤语语音声学建模[J].计算机时代,2022,No.362(08):61-64+68.DOI:10.16644/j.cnki.cn33-1094/tp.2022.08.014.

[9]林坤辉,息晓静,周昌乐.基于HMM与神经网络的声学模型研究[J].厦门大学学报(自然科学版),2006(01):44-46.

[10]王奇. 基于深度学习的中文语音识别系统的研究[D].沈阳工业大学,2022.DOI:10.27322/d.cnki.gsgyu.2022.000669.

[11]顾亚文.人工智能深度学习背景下语音识别方法研究[J].软件,2022,43(05):122-124.

[12]房敏.基于HMM的语音识别技术[J].计算机产品与流通,2018(03):91.

[13]Aldarmaki Hanan,Ullah Asad,Ram Sreepratha,Zaki Nazar. Unsupervised Automatic Speech Recognition: A review[J]. Speech Communication,2022(prepublish).

[14]Trabelsi Asma,Warichet Sébastien,Aajaoun Yassine,Soussilane Séverine. Evaluation of the efficiency of state-of-the-art Speech Recognition engines[J]. Procedia Computer Science,2022,207.

[15]Gupta Shrurti,Shabeeb Kashif,Singh Sonika,Sharma Sandeep. Adaptive HMM based Speech Recognition to Recognize Multi-lingual Sentence[J]. International Journal of Computer Applications,2015,115(7).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/2681.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Maven基础篇7

私服-idea访问私服与组件上传 公司团队开发流程 本地上传–>repository–>私服 其他成员从私服拿 1.项目完成后发布到私服 在pom文件最后写上发布的配置管理 ​ //写发布的url也就是你发布到哪一个版本,以及写入id ​ ​ 发布的时候,将项…

安装Selenium

安装Selenium 【0】引言 ​ 由于sleenium4.1.0需要python3.7以上方可支持,请注意自己的python版本。 【1】使用Pycharm安装 使用 快捷键 Ctrl Alt S 【2】使用 pip 安装 Python3.x安装后就默认就会有pip(pip.exe默认在python的Scripts路径下&…

VUE2版本的仿微信通讯录侧滑列表

<template><!-- Vue模板部分 --><div><div v-for"(group, index) in groupedArray" :key"index" ref"indexcatch"><h2>{{ letter[index] }}</h2><ul><li v-for"item in group" :key&quo…

Notepad++使用SFTP连接虚拟机编辑文档

一.前言 当我们在虚拟机中使用vim编辑有时候不太方便&#xff0c;可以使用远程工具连接进行编辑。 常用的远程连接编辑方式有 vscode下载remote-ssh插件notepad下载nppftp插件finallshell中可以直接打开文件编辑xftp软件 根据个人习惯去选择使用即可。 这里分享一下notepa…

华为OD机试真题-模拟目录管理-2024年OD统一考试(C卷D卷)

题目描述: 实现一个模拟目录管理功能的软件,输入一个命令序列,输出最后一条命令运行结果。 支持命令: 1)创建目录命令:mkdir 目录名称,如mkdir abc为在当前目录创建abc目录,如果已存在同名目录则不执行任何操作。此命令无输出。 2)进入目录命令:cd 目录名称, 如cd …

VUE-配置-流程

VUE-配置-流程 ---1---.安装 NVM: ---2---.用NVM:安装node.js &#xff1a; 修改源&#xff1a; nvm root 命令&#xff0c;可以查看nvm的安装根路径在那个文件夹 root地址&#xff0c;找到setting.txt文件并打开 复制粘贴以下代码&#xff0c; 保存完成nvm源修改&#xff…

模型训练时报错Failed to allocate 12192768 bytes in function ‘cv::OutOfMemoryError‘

目录 报错信息&#xff1a; 查找网上解决方法&#xff1a; 改进思路&#xff1a; 改进方法&#xff1a; 报错信息&#xff1a; D:\Programs\miniconda3\envs\python311\python.exe D:\python\project\VisDrone2019-DET-MOT\train.py Ultralytics YOLOv8.1.9 &#x1f680…

php 获取网页数据

PHP preg_match_all() 函数 | 菜鸟教程 $arr preg_match_all(/<li>(.*)<\/li>/U,$file1,$mat);$arr $mat[0];

Java设计模式_适配器模式

基础 适配器模式&#xff08;Adapter Pattern&#xff09;是一种结构型设计模式&#xff0c;它允许接口不兼容的类能够一起工作。适配器模式通过创建一个包装类来实现这种兼容性&#xff0c;这个包装类包含了需要的目标接口&#xff0c;并持有一个适配者对象&#xff0c;以便进…

【Linux】gdb的简单使用

文章目录 一、gdb是什么&#xff1f;二、使用说明1. 安装2. 注意事项3. 常用调试指令3.1 gdb3.2 l3.3 r3.4 n3.5 s3.6 b3.7 info b3.8 finish3.9 p3.10 set var3.11 c3.12 d breakpoints3.13 d n3.14 disable/enable breakpoints3.15 disable/enable n3.16 info b3.17 display …

Supervisor答疑

引言 supervisor可以管理多个进程&#xff0c;安装也比较简单&#xff0c;可以使用apt或者是pip。 推荐使用apt安装。 问题 pip卸载问题 一开始的时候&#xff0c;这个机器并不是我安装的&#xff0c;但是能从pip列表中发现已安装&#xff0c; 但用pip卸载的时候&#xff0…

复习python函数

复习python函数 1.对函数的理解函数的传递方式返回值 return可通过help()函数查看函数说明作用域 2.不定长参数3.递归4.高阶函数将函数作为参数传递将函数作为返回值返回 5.匿名函数6.装饰器 1.对函数的理解 函数可以用来保存一些可执行的代码&#xff0c;并且可以在需要时&am…

macOS - OpenXSpell

文章目录 OpenXSpell、Xspell、OpenSpell使用 Xspell 本文翻译自&#xff1a;http://openxspell.sourceforge.net/ openxspell 源码&#xff1a;https://sourceforge.net/projects/openxspell/ OpenXSpell、Xspell、OpenSpell OpenXSpell 是 Mac 上的开源拼写检查工具。 从 OS…

如何给word中的拼音加声调?分享3个方法

一&#xff0c;前言 在Word文档中标注拼音声调&#xff0c;是许多人在处理中文文档时经常需要面对的问题。对于不熟悉拼音的人来说&#xff0c;这可能会是一个挑战。但是&#xff0c;通过掌握一些简单的步骤和技巧&#xff0c;我们可以轻松地在Word文档中标注拼音声调。 二&a…

wsl2 中docker安装完毕后无法正常启动

wsl2 中docker安装完毕后无法正常启动 1、背景2、目标3、环境4、原因4、操作5.1、查看配置5.2、 切换配置5.3、启动docker5.4、验证docker 1、背景 在win10中安装wsl2体验linux操作系统&#xff0c;按照docker官网步骤安装&#xff0c;安装完毕后面提示 $ docker ps Cannot co…

开源模型应用落地-LangChain高阶-集成vllm-QWen1.5(一)

一、前言 通过langchain框架调用本地模型,使得用户可以直接提出问题或发送指令,而无需担心具体的步骤或流程。vLLM是一个快速且易于使用的LLM推理和服务库。通过两者的结合,可以更好地处理对话,提供更智能、更准确的响应,从而提高对话系统的性能和用户体验。 二、术语 2.…

笨蛋学C++【C++基础第六弹】

C基础第六弹 C面向对象1.C类 & 对象1.1C类定义1.2C对象1.3访问数据成员1.4类成员函数1.5类访问修饰符公有public成员私有private成员受保护protected成员继承中的特点 1.6构造函数 & 析构函数类的构造函数带参数的构造函数使用初始化列表来初始化字段类的析构函数 1.7拷…

【软件工程中的螺旋模型】

文章目录 一、什么是螺旋模型&#xff1f;二、螺旋模型的工作流程1. 计划阶段2. 需求分析阶段3. 设计阶段4. 实施阶段5. 验证与确认阶段6. 进化阶段 三、螺旋模型的优点四、螺旋模型的缺点 一、什么是螺旋模型&#xff1f; 螺旋模型是一种风险驱动的软件开发过程模型&#xff…

云计算中的过度授权:安全隐患与应对策略

云计算凭借其弹性、可扩展等优势&#xff0c;已经成为诸多企业组织拓展业务的重要基础设施之一。然而&#xff0c;与传统IT架构相比&#xff0c;云计算环境的安全管理也面临着新的挑战。过度授权 (Overprivileging) 便是云安全领域亟待解决的主要问题之一&#xff0c;本文将带领…

为什么我的 Mac 运行缓慢以及如何使用CleanMyMac X修复它

近些年伴随着苹果生态的蓬勃发展&#xff0c;越来越多的用户开始尝试接触Mac电脑。然而很多人上手Mac后会发现&#xff0c;它的使用逻辑与Windows存在很多不同&#xff0c;而且随着使用时间的增加&#xff0c;一些奇奇怪怪的文件也会占据有限的磁盘空间&#xff0c;进而影响使用…