【专用名词的离线语音识别在2024年底的解决方法调查-会议签到的补充】

语音识别在会议点名中的使用

    • 概要
    • 解决问题的过程
      • 不行的一些参考
      • 可以的一个package
      • 自定义词语的拼音转换
      • 遗留的问题
    • 小结

概要

提示:这里可以添加技术概要
这里只实现一个方面,每个android会议设备都可通过语音发送参会者姓名,自动转换成文字添加到人员名单.
语音采集和发送,是通路.
识别是核心.目前的模型和模块都是针对通用语言的,在这里不合适,我只要适合的名字,并且容易添加新的名字.
最后能接受自主调节.
听得懂指令. 看似需要AI支持了,难搞.

解决问题的过程

不行的一些参考

. https://alphacephei.com/vosk/lm
这是vosk的调整,明显还不支持中文

https://github.com/Uberi/speech_recognition/blob/master/reference/pocketsphinx.rst#installing-other-languages
这是pocketsphinx在speechrecognition中的表示,看似可以调整,但是难度有点太大了.
如同vosp中说的端到端,复杂程度大,但是通用性好.可是我只想加个词典,居然这么难的吗.

可以的一个package

`提示: pocketsphinx 5.0.3
这里 pypy:https://pypi.org/project/SpeechRecognition/
原理就用里面的离线库 spinx
准备中文库
这里的中文库从:
https://jaist.dl.sourceforge.net/project/cmusphinx/Acoustic%20and%20Language%20Models/Mandarin/cmusphinx-zh-cn-5.2.tar.gz?viasf=1
来源
https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/Mandarin/

它可以搭配 /SpeechRecognition/ 中的sphinx使用,然而 pocketsphinx却不行.

然后借鉴这里https://blog.csdn.net/Zbreakzhong/article/details/109127837
对中文单词进行编码

将cmusphinx-zh-cn-5.2.tar.解压后放入
,\Lib\site-packages\speech_recognition\pocketsphinx-data\zh-CN
仿照 en-US,为个别文件和文件夹命名.
然后就可以更改根目录下dic文件
演示

段*栓 d uan4 h ong2 sh uan1
石*阳 sh ix2 x iang4  ii ang2
张*嘉 zh ang1 s ai4 j ia1

准备好后

 import speech_recognition as sr# 创建Recognizer对象
r = sr.Recognizer()# 从音频文件中识别语音
def recognize_speech_from_file(file_path):with sr.AudioFile(file_path) as source:audio = r.record(source)  # 读取音频文件try:text = r.recognize_sphinx(audio, language='zh-CN')  # 使用Google语音识别引擎识别语音return textexcept sr.UnknownValueError:print("无法识别音频")except sr.RequestError as e:print("无法连接到Google语音识别服务:{0}".format(e))# 从麦克风实时录制并识别语音
def recognize_speech_from_microphone():with sr.Microphone() as source:print("请开始说话...")audio = r.listen(source)  # 实时录制音频try:text = r.recognize_sphinx(audio, language='zh-CN')  # 使用Google语音识别引擎识别语音return textexcept sr.UnknownValueError:print("无法识别音频")except sr.RequestError as e:print("无法连接到Google语音识别服务:{0}".format(e))# 调用函数进行语音识别
file_text = recognize_speech_from_file('audio.wav')
print("音频文件识别结果:", file_text)mic_text = recognize_speech_from_microphone()
print("麦克风实时识别结果:", mic_text)

自定义词语的拼音转换

使用pypinyin,由于一开始想,也许可以听得懂拼音.只是字错.所以想用听来的字,转成拼音, 比对字典文字的拼音. 写了一上午后发现,拼音是听不懂的. 错误率的一半以上…但是这部分代码,可以借给生成 spinx的单词注音用.
目前来看 y, ii, w,uu, shi 是shix,需要一些这样的调节,其他都是一样的.另外取消了多音字的处理.

from pypinyin import pinyin, lazy_pinyin, Style
def name2py(name,duoyin=True):return  pinyin(name, heteronym=duoyin,style=Style.TONE3)
#names内容一行一个人名,转换成, dic的注音版
def getnames():
with open("names.txt", 'r',encoding ='utf-8') as nf:lines=[ln.strip() for ln in nf.readlines()]return lines
pinyin('中乐', heteronym=True,style=Style.TONE3)    nms=getnames()
pys=list(map(name2py,nms))#test=[['gao1', 'gao4'], ['lei2', 'lei4']]
#tar=[['gao1'],['lei2']]
#r=find1py(tar,test) 
def find1py(onepy,oneitem):if len(onepy)!=len(oneitem):return Falsefor (i,j) in zip(onepy,oneitem):if i[0][-1].isdigit():i=i[0][:-1]print(j)print("i in "+i)if ','.join(j).find(i)==-1:return Falsereturn True         def godo(name,pys=pys,nms=nms):target = name2py(name,duoyin=False)for i,item in  enumerate(pys):print(item)if  find1py(target,item):return nms[i]return None
def writedic():with open('zh.dic.txt','w') as wf:for i in nms[:30]:final=pinyin(i, heteronym=False,style=Style.INITIALS)rt=name2py(i,False)toget=i+" "for init ,r in zip(final,rt):r=r[0].replace("zhi","zhix").replace("chi","chix").replace("shi","shix")r= r.replace(init[0],'')r=r.replace('w','uu ').replace('y','ii ')toget+=fr"{init[0]} {r} "print (toget[:-1])#r=godo("含风",pys,nms)writedic() 

遗留的问题

忙音和部分语音会出现串位不知道为啥,有时候说一个人会出来两个
还有就是网络接口的调节, 接受语音提供反馈,vosp自身有这个功能. 目前用的没有.

小结

提示:这里可以添加总结
虽然已经结束了初步测试,但是还有性能和调优和网络化服务的需求.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/58360.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计资讯 | 塑造数字交互未来的 Sol Reader

虚拟现实 (VR) 在过去几年中不断创新和发展。它真正突破了沉浸式体验的极限。VR 技术目前正在提高视觉保真度,甚至融入其他感官,从而彻底改变我们与数字世界的互动方式。 来看看世界上第一款 VR 电子书阅读器——Sol Reader。它为狂热的读者提供了一种独…

Linux下MySQL8.x的编译安装与使用

Linux下MySQL的安装与配置 1. 安装环境初始化 1.1 查看是否安装过MySQL 如果使用rpm安装, 检查一下RPM PACKAGE rpm -qa | grep -i mysql # -i 忽略大小写 # 或者 yum list installed | grep mysql如果存在mysql-libs的旧版本包,显示如下 #存在 [rootlocalhost ~]…

smartconnect base_addr offset_addr

Q: if dut reg is offset(0x04); axi vip connect to dut with a smc which base addr (0xa000_0000); send aw baseoffset(0xa000_0004 )to wr reg; but inside of dut, the awaddr is still baseoffset(0xa000_0004) not 0x4 A: 过了smartconnect后,在你仿真cust…

一文解决单调栈的应用

单调栈的定义: 单调栈是栈的一中特殊形式,在栈中的元素必须满足单调性(一定是单调上升或单调下降等等的规律)。 单调栈的性质: 单调栈解决的问题 单调栈解决的常见问题:给定一个序列,求每个位置…

.NET 8 中的 Mini WebApi

介绍 .NET 8 中的极简 API 隆重登场,重新定义了我们构建 Web 服务的方式。如果您想知道极简 API 的工作原理以及它们如何简化您的开发流程,让我们通过一些引人入胜的示例来深入了解一下。 .NET 极简主义的诞生 想想我们曾经不得不为一个简单的 Web 服务…

Java静态代理设计模式深度解析:原理、应用及实现

全文目录: 开篇语前言摘要概述源码解析1. 定义公共接口2. 创建实际业务类3. 创建代理类 使用案例分享案例:权限校验功能 应用场景案例优缺点分析优点缺点 核心类方法介绍测试用例小结总结文末 开篇语 哈喽,各位小伙伴们,你们好呀&…

大数据选型对比追命连环50问及参考答案

在面试时,考官很喜欢问选型的问题,考察面试者知识广度和深度。因为在实际企业开发项目,选型是很关键的一步,如果选错了,挖的坑可能要大量的时间去填了。特别是出现严重问题需要重新选择大数据组件,就意味着要推倒重来。。。而老板是不喜欢这种没产出的投入。 目录 详细…

Linux——常见指令及其权限理解(正在更新中)

1.指令 1.1 快速了解指令 pwd 首次登录,默认所处的路径 whoami 当前所用的用户的名称 ls 显示当前路径下,文件名称 mkdir 在当前目录下,创建一个文件夹/目录 cd 进入一个目录 touch 新建一个文…

esp32 GPIO 分别用5种中断类型控制LED

下面程序分别用ANYEDGE POSEDGE NEGEDGE HIGH_LEVEL LOW_LEVEL 中断类型控制GPIO 0 脚的电平。此程序的重点是用延时消除按键产生的无用中断信号 硬件 1. led 接0脚和地 2. 按钮接gpio 1脚 和地或3.3v 脚 图片 程序 #include "driver/gpio.h" #incl…

ansible开局配置-openEuler

ansible干啥用的就不多介绍了,这篇文章主要在说ansible的安装、开局配置、免密登录。 ansible安装 查看系统版本 cat /etc/openEuler-latest输出内容如下: openeulerversionopenEuler-24.03-LTS compiletime2024-05-27-21-31-28 gccversion12.3.1-30.…

金蝶云星空采购退料单集成易仓出库单实现高效数据对接

金蝶云星空采购退料单集成易仓出库单实现高效数据对接 Done-金蝶-采购退料单——>易仓-出库单:高效数据集成方案解析 在企业的日常运营中,数据的准确传递和实时处理至关重要。本文将聚焦于一个具体的系统对接集成案例:如何将金蝶云星空中…

基于Ubuntu24.04,下载并编译Android12系统源码 (二)

1. 前言 上篇文章,我们基于Ubuntu24.04,已经成功下载下来了Android12的源码,这篇文章我们会接着上文,基于Ubuntu24.04来编译Android源码。 2. 编译源码 2.1 了解源码编译的名词 Makefile : Android平台的一个编译系…

CMake 生成器表达式介绍

【写在前面】 生成器表达式在构建系统生成期间进行评估&#xff0c;以生成特定于每个构建配置的信息。它们的形式为 $<...>。例如&#xff1a; target_include_directories(tgt PRIVATE /opt/include/$<CXX_COMPILER_ID>) 这将扩展为 “/opt/include/GNU”、“/opt…

CV项目整理

1. 爬取+展示的实时项目 1.1 核心技术 myqls + maxwell + redis+django 实现读写分离,实时项目,主从复制,读写分离,顺写日志。 maxwell将自己伪装成为slave,就可以从Mysql的集群中获取顺写日志Binlog maxwell取得的数据格式json 1.2 流程 1.3优化查询 下面的查询,笛卡尔…

如何通过sip信令以及抓包文件分析媒体发到哪个地方

前言 问题描述&#xff1a;A的媒体没转发到B&#xff0c;B只能听到回铃音&#xff0c;没有A的说话声音&#xff0c;并且fs这边按正常的信令发送了. 分析流程 分析早期媒体发送到哪一个IP 10.19.0.1发送了一个请求给10.19.0.157这个IP&#xff0c;然而这里的SDP媒体地址&am…

Flink(一)

目录 架构处理有界与无界数据部署应用到任意地方运行任意规模应用利用内存性能 流应用流处理应用的基本组件流状态时间 应用场景事件驱动应用事件驱动应用的优势Flink如何支持事件驱动应用&#xff1f; 典型的事件驱动示例 数据分析应用流式分析应用的优势&#xff1f;Flink 如…

RabbitMQ 安装(Windows版本)和使用

安装 安装包获取 可以自己找资源&#xff0c;我这里也有百度云的资源&#xff0c;如果没失效的话可以直接用。 通过百度网盘分享的文件&#xff1a;RabbitMQ 链接&#xff1a;https://pan.baidu.com/s/1rzcdeTIYQ4BqzHLDSwCgyw?pwdfj79 提取码&#xff1a;fj79 安装教程…

Pr 视频效果:闪光灯

视频效果/风格化/闪光灯 Stylize/Strobe Light 闪光灯 Strobe Light效果可用于在视频中创建闪烁或频闪的效果&#xff0c;类似于舞台上的频闪灯或摄影中的闪光灯。 ◆ ◆ ◆ 效果选项说明 通过调整各种参数&#xff0c;可以自定义闪光的颜色、频率、持续时间和混合模式&#…

深入理解ThreadLocal底层原理

ThreadLocal是线程私有的&#xff0c;各个线程之间是隔离的。可以想象一下每次线程创建的时候在堆上预先分配一个内存空间用于存储ThreadLocal的数据。 &#xff08;1&#xff09;当线程被创建时&#xff0c;线程都会有一个成员变量ThreadLocalMap。 //每个线程定义一个成员变…

GCC之编译(7)Linker链接脚本

GCC之(7)Linker链接脚本 Author: Once Day Date: 2024年10月25日 一位热衷于Linux学习和开发的菜鸟&#xff0c;试图谱写一场冒险之旅&#xff0c;也许终点只是一场白日梦… 漫漫长路&#xff0c;有人对你微笑过嘛… 本文档翻译自GNU LD链接脚本官方手册 参考文章: GNU LD …