web网页录音(recorder.js)并上传后端语音转文字(Vosk)

我是一个后端开发人员,现在都快进化成全栈了。操了,是谁有好的项目让我跳跳槽,转转行吧

写在前面,很重要
在这里插入图片描述
这是官方文档的说明
翻译如下:
我们有两种型号-大型号和小型号,小型号非常适合在移动应用程序上执行一些有限的任务。它们可以在智能手机、树莓派上运行。它们也被推荐用于桌面应用程序。小型模型的大小通常在50Mb左右,运行时需要大约300Mb的内存。大模型用于服务器上的高精度转录。大型机型需要高达16Gb的内存,因为它们采用了先进的人工智能算法。理想情况下,您可以在一些高端服务器上运行它们,如i7或最新的AMD Ryzen。在AWS上,您可以查看c5a机器和其他云中的类似机器。
大多数小型模型允许动态词汇表重新配置。大模型是静态的——词汇表在运行时无法修改。

大模型对于硬件是有要求的。我下面的demo是基于小模型来的。

VOSK网址:
https://alphacephei.com/vosk/models

前端使用H5进行录音

一开始我使用的是H5的录音功能。网上一搜一大堆,下面的可以录音,将录音放入audio中。
录音之后将文件上传后端。

<body>
<button id="startRecord" onclick="startAudio()">开始录音</button>
<button id="stopRecord" disabled onclick="stopAudio()">停止录音并保存</button>
<audio controls id="player"></audio>
<form style="display: none" enctype="multipart/form-data" method="post" id="fileinfo_high">
</form>
<div><button id="upload" onclick="updateFile()">上传文件</button>
</div>
async function startAudio(){await navigator.mediaDevices.getUserMedia({ audio: true }).then(stream => {mediaStream = stream;startButton.disabled = false;console.log('成功获取音频输入源')}).catch(err => {console.log('无法获取音频输入源', err);});// 获取音频流recorder = new MediaRecorder(mediaStream);//recorder.sampleBits=16;   // 采样位数,支持 8 或 16,默认是16//recorder.sampleRate=48000;  // 采样率,支持 11025、16000、22050、24000、44100、48000,根据浏览器默认值,我的chrome是48000// 处理音频数据recorder.ondataavailable = (event) => {if (event.data.size > 0) {chunks.push(event.data);}};// 完成录音recorder.start();// 停止录音stopButton.disabled = false;startButton.disabled = true;console.log('开始录音...');}// 停止录音并生成文件stopButton.addEventListener('click', () => {// 停止录音recorder.stop();startButton.disabled = false;stopButton.disabled = true;recorder.onstop = () => {console.log('录音已停止');// 音频类型 ogg webm mp3const blob = new Blob(chunks, { type: 'audio/mp3; codecs=opus' });// 将录音设置为可播放const url = window.URL.createObjectURL(blob);player.src = url;console.log('尝试播放录音');};if (mediaStream) {var tracks = mediaStream.getTracks();for (let i = 0; i < tracks.length; i++) {var track = tracks[i];track.stop();}}});function updateFile(){var f = new FormData(document.getElementById("fileinfo_high"));var file = new File(chunks,'audio.mp3',{ type: 'audio/mp3; codecs=opus' });f.append("file", file);$.ajax({url: "/RecordTools/uploadAudio",type: 'POST',data: f,traditional: true,dataType: 'JSON',cache: false,processData: false,contentType: false,success: function (data) {console.log(data)},error: function () {AtsBase.atsAlert("Error!");}});}

从网页录音到上传到后端存放都是顺利的。

不知道你们使用的什么框架识别语音。我使用的VOSK,因为它可以离线,免费。
那么问题就来了,VOSK,只支持WAV格式的语音文件。

一开始我将这段代码更改为 WAV格式

var file = new File(chunks,'audio.mp3',{ type: 'audio/mp3; codecs=opus' });

当然没这么轻易了

还是识别失败,报错截图就不展示了,就是将不支持这个格式。

@PostMapping("uploadAudio")
public Map<String,Object> uploadAudio(MultipartFile file){HashMap<String, Object> result = new HashMap<>();System.out.println(file);System.out.println(file.getOriginalFilename());System.out.println(file.getName());InputStream inputStream = file.getInputStream();FileOutputStream out001 = new FileOutputStream("D:\\Others\\Logs\\test.wav");FileCopyUtils.copy(inputStream, out001);
}

文件存放下来打开也是正常的。
因为正常打开,所以一开始我就很纳闷,是这个格式,为什么说不支持这个格式文件呢。
我最初想的是,难道是后端文件存放问题?我将文件变成字节数组,前后端乱七糟八整了很久。
最后我发现,根本原因是编码格式的问题。

使用H5进行录音,谷歌默认是mp3的格式,所以我在前端使用了recorder.js
这个js内部也是使用的H5的流媒体,但是它里面还封装了一个编码器。

Recorder.js

const startButton = document.getElementById('startRecord');// 开始录音const stopButton = document.getElementById('stopRecord');// 停止录音const player = document.getElementById('player');// 播放function startAudio(){recorder = new Recorder({sampleBits: 16, // 采样位数,支持 8 或 16,默认是16sampleRate: 16000, // 采样率,支持 11025、16000、22050、24000、44100、48000,根据浏览器默认值,我的chrome是48000numChannels: 1})this.recorder.start().then(() => {// 开始录音console.log('开始录音了=========')},(error) => {// 出错了console.log(error)})startButton.disabled = true;stopButton.disabled = false;}function stopAudio(){this.recorder.stop();startButton.disabled = false;stopButton.disabled = true;}function updateFile() {let wavBlob = this.recorder.getWAVBlob()let renameFile =new File([wavBlob], '文件名.wav', { type: 'audio/wav' });var f = new FormData(document.getElementById("fileinfo_high"));f.append("file", renameFile);$.ajax({url: "/RecordTools/uploadAudio",type: 'POST',data: f,traditional: true,dataType: 'JSON',cache: false,processData: false,contentType: false,success: function (data) {console.log(data)if(data.flag){AtsBase.atsMsg("S", "图片上传成功!");}else{AtsBase.atsMsg("W", "图片上传失败!");}},error: function () {AtsBase.atsAlert("Error!");}});}

后端代码 VOSK

maven

		<!-- 获取音频信息 --><dependency><groupId>org</groupId><artifactId>jaudiotagger</artifactId><version>2.0.3</version></dependency><!--  vosk 语音识别 --><dependency><groupId>net.java.dev.jna</groupId><artifactId>jna</artifactId><version>5.7.0</version></dependency><dependency><groupId>com.alphacephei</groupId><artifactId>vosk</artifactId><version>0.3.32</version></dependency>
@PostMapping("uploadAudio")public Map<String,Object> uploadAudio(MultipartFile file) throws IOException {HashMap<String, Object> result = new HashMap<>();System.out.println(file);System.out.println(file.getOriginalFilename());System.out.println(file.getName());//        InputStream inputStream = file.getInputStream();/*FileOutputStream out001 = new FileOutputStream("D:\\Others\\Logs\\test.wav");FileCopyUtils.copy(inputStream, out001);*//// LibVosk.setLogLevel(LogLevel.DEBUG);/*try (Model model = new Model("D:\\Others\\vosk\\vosk-model-small-cn-0.22");InputStream ais = AudioSystem.getAudioInputStream(new BufferedInputStream(inputStream));Recognizer recognizer = new Recognizer(model, 16000)) {int bytes;byte[] b = new byte[4096];while ((bytes = ais.read(b)) >= 0) {recognizer.acceptWaveForm(b, bytes);}System.out.println(recognizer.getFinalResult() + System.lineSeparator());}catch (Exception e){e.printStackTrace();}*/try  {LibVosk.setLogLevel(LogLevel.DEBUG);Model model = new Model("D:\\Others\\vosk\\vosk-model-small-cn-0.22");//该段是模型地址
//            File audioFile = new File("D:\\Others\\Logs\\d357c391-d387-4359-b57e-c0bf8c6853da.wav");InputStream ais = AudioSystem.getAudioInputStream(new BufferedInputStream(file.getInputStream()));//该段是要转的语言文件,仅支持wavRecognizer recognizer = new Recognizer(model, 16000);//该段中12000是语言频率,需要大于8000,可以自行调整int nbytes;byte[] b = new byte[4096];while ((nbytes = ais.read(b)) >= 0) {if (recognizer.acceptWaveForm(b, nbytes)) {System.out.println(recognizer.getResult());} else {System.out.println(recognizer.getPartialResult());}}System.out.println("--------------------");System.out.println(recognizer.getFinalResult());}catch (Exception e){e.printStackTrace();}result.put("flag",true);return result;}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11877.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

远程服务器AutoDL登录/配环境/部署运行大模型方法

1. AutoDL autodl平台&#xff0c;是一个功能强大的本地大语言模型LLM运行专家,为用户提供了简单高效的方式来运行大型语言模型.通过优化设置和配置细节。 地址&#xff1a;AutoDL官方地址 2. 登录远程服务器方式 登录远程服务器的方式和工具有很多种 2.1 方法一 用AutoDL…

应用层(上篇)

应用层 应用层协议原理 网络应用程序体系解构 应用程序体系结构: 由应用程序研发者设计规定了如何在各种端系统上组织该应用程序。在选择应用程序体系结构时&#xff0c;应用程序研发者很可能利用现代网络应用程序中所使用的两种主流体系结构之一:客户-服务器体系结构或对等…

24.5.12(23广东,19陕西)(字典树)

星期一&#xff1a; dp题单 区间dp第三题 二叉搜索树 cf传送门 思路&#xff1a;dp【i】【j】【0/1】表示区间 i到 j&#xff0c;以 i / j为根节点能否形成一棵二叉搜索树 因为题目要求组成二叉搜索树&#xff0c;若 i 到 j 的节点为一颗完整的子…

等保2.0的全面解读与实施策略

《网络安全等级保护基本要求》&#xff08;等保2.0&#xff09;是中华人民共和国国家安全部于2019年6月发布的网络安全等级保护标准。该标准规定了我国关键信息基础设施的网络安全等级保护要求和评估标准&#xff0c;对于保障我国网络安全具有重要的意义。下面是对等保2.0的全面…

Scratch四级:第09讲 搜索算法

第09讲 搜索算法 教练:老马的程序人生 微信:ProgrammingAssistant 博客:https://lsgogroup.blog.csdn.net/ 讲课目录 常考的搜索算法项目制作:“小猫钓鱼”项目制作:“统计身高”项目制作:“找出出现次数最多的数字”搜索算法 搜索算法常用于列表的题目中,包括: (1)…

LabVIEW开发RS422通信

LabVIEW开发RS422通信 项目围绕LabVIEW软件开发的程序在RS422通信技术检测方面的应用进行展开&#xff0c;通过软件编程将上位计算机虚拟化为检测设备&#xff0c;控制其通信端口与被测产品进行RS422通信&#xff0c;以此检验产品的性能优劣。该虚拟检测仪器在实际测试中表现出…

c++红黑树的模拟实现

目录 1. 红黑树的概念 ​编辑 2. 红黑树的性质 3. 红黑树的模拟实现 3.1 红黑树节点的定义 3.2 红黑树的插入 旋转代码 插入主逻辑代码 验证是否平衡 4. 红黑树与AVL树的比较 1. 红黑树的概念 红黑树&#xff0c;是一种二叉搜索树&#xff0c;但在每个结点上增加一…

嵌入式中STM32上模拟启动Linux自动初始化

Linux中有很多编程思想可以学习,很多大佬把这些思想、机制运用到单片机的编程上。 下文,在STM32上模拟Linux kernel自动初始化流程。 通常我们写程序都是按照这个套路,一个函数一个函数按照顺序逻辑一个一个的执行下去。 如果逻辑非常复杂,涉及的模块比较多,那么这种顺…

Quests system for Unity

一个简单而灵活的任务系统将帮助你实现所有的想法,而不需要事件和逻辑中的一堆额外代码! 我的资产是一个用于执行任务的独立系统。 特征: 任务逻辑不需要继承MonoBehaviour。 在一行中完成所需任务的激活/进度/完成。 易于理解的界面,包含项目中所有任务的列表。 不需要连接…

解锁!智能代码助手 Baidu Comate 硬核能力

近日&#xff0c;在全球软件开发大会上暨智能软件开发生态展上&#xff0c;来自 Baidu Comate 的资深研发工程师分享了精彩的专题演讲&#xff0c;小编整理了演讲精华&#xff0c;和大家一起玩转“大模型软件研发”。 今天带来——吴玮琦《智能代码助手 Baidu Comate 的核心能…

【Python时序预测系列】灰狼算法(GWO)优化LSTM实现单变量时间序列预测(案例+源码)

这是我的第279篇原创文章。 一、引言 灰狼算法&#xff08;GWO&#xff09;是一种新型的优化算法&#xff0c;灵感来源于灰狼群体中的社会行为。在灰狼算法中&#xff0c;每只灰狼都有自己的位置和适应度值&#xff0c;通过模拟灰狼群体的行为来搜索最优解。将灰狼算法应用于优…

支持不同业务模式与安全要求的跨网传输解决方案,了解一下

对于科技研发型企业来说&#xff0c;最值钱的是研发代码这类数据资产。因此很多企业会想将这些数据“困”在内部&#xff0c;防止数据泄露。最常见的做法是通过防火墙、DMZ区、双网卡主机、虚拟机、网闸/光闸等隔离方式&#xff0c;将网络划分为企业内外网&#xff0c;较为常见…

职校智慧校园现状及问题解决

近年来&#xff0c;智慧校园已经可以满足学校日常办公的需要&#xff0c;但是还是存在缺乏整体规划、缺乏统一技术标准、原有应用陈旧、多重身份和密码体系、业务系统的开发和维护模式不统一、现有应用重管理轻服务现象严重、数据资产利用不足等问题。 职校智慧校园现状及问题分…

Redis详解(二)

事务 什么是事务&#xff1f; 事务是一个单独的隔离操作&#xff1a;事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中&#xff0c;不会被其他客户端发送来的命令请求所打断。 事务是一个原子操作&#xff1a;事务中的命令要么全部被执行&#xff0c;要么全部都…

怎么批量下载视频?DY视频爬虫在线提取采集工具

短视频批量下载工具&#xff0c;具有多种模块和功能&#xff0c;方便用户快速批量下载短视频。该软件的详细介绍&#xff1a; 功能模块介绍&#xff1a; 一. 搜索词批量搜索下载 视频关键词添加&#xff1a;支持添加多个视频关键词Q530269148进行全平台视频搜索。历史去重&a…

【全网瞩目】OpenAI春季发布会结束,一夜过后又惊喜——GPT4O,新的 LLM 标准诞生了

虽然昨天我就一直关注到OpenAI的主页提示&#xff0c;即将发布春季直播&#xff0c;而且也有很多媒体透露没有Sora&#xff0c;可能是AI Search等等&#xff0c;但是没想到结果还是这么惊喜。就连OpenAI方面也在直播前几天透露&#xff0c;不是搜索引擎&#xff0c;而是GPT的优…

vwmare虚拟机迁移磁盘方法

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文整理 虚拟机迁移磁盘的方法 简单方便快上手 当前目标 当前迁移文件: 当前位置&#xff1a; 目的地: e盘虚拟机文件夹 迁移到当前目录。 实际操作 先打开虚拟机的设置&#xff0c;找到这个虚拟机当前的位置…

渗透测试工具及插件第二期

一、OWASP Penetration Testing Kit 这个工具他集成了中间件&#xff0c;等版本信息&#xff0c;漏洞信息&#xff0c;url&#xff0c;标识头等信息&#xff0c;WAF/CDN识别&#xff0c;密匙等信息&#xff0c;多种信息的功能上集合的插件。 说明书&#xff1a;https://micros…

照明灯具十大排名都有哪些?市面上比较流行的十大护眼台灯品牌推荐

照明灯具十大排名都有哪些&#xff1f;护眼台灯排名当中靠前的主要有书客、飞利浦、松下等品牌。照明灯具作为家居与办公环境中不可或缺的元素&#xff0c;其品质与选择直接关系到人们的视觉健康与舒适度。本文将为大家揭示照明灯具的十大排名&#xff0c;让大家了解市场上最受…

SQL Server中怎么排查死锁问题

一、背景 我们在UAT环境压测的时候&#xff0c;遇到了如下的死锁异常。 Caused by: com.microsoft.sqlserver.jdbc.SQLServerException: Transaction (Process ID 82) was deadlocked on lock resources with another process and has been chosen as the deadlock victim. Re…