语音识别flask接口开发

要开发一个flask语音识别接口,首先要解决语音文件在网络中的传输问题,然后选识别算法进行识别

文章目录

  • 1、以二进制文件流方式上次语音
  • 2、网页端长连接流式上传语音文件
  • 3、语音识别接口


1、以二进制文件流方式上次语音

python服务端代码,以flask.request.files接收前端的语音上传请求

from flask import Flask, request
import io
import wave
import os
import jsonapp = Flask(__name__)@app.route('/upload_audio', methods=['POST'])
def upload_audio():"""#接收语音文件并保存为.wav格式的文件#:return:"""f_obj = request.files.get("file", None)if f_obj is None:return json.dumps({'status': 1, 'msg': 'No audio was received.', 'result': ''})else:audio_data = f_obj.read()with open('output.wav', 'ab') as f:f.write(audio_data)  # 追加写入音频数据return json.dumps({'status': 0, 'msg': '', 'result': 'receive audio success.'})if __name__ == '__main__':socketio.run(app, port=8200, debug=True)

前端请求代码示例如下:

import requests
import timedef post_audio():"""上传语音文件:return:"""url = "http://localhost:8200/upload_audio"files = {'file': open('./c1.wav', 'rb')}t1 = time.time()r = requests.post(url, files=files)t2 = time.time()print("comsume time: %f s"%(t2-t1))if r.json()['status']:print(r.json()['msg'])else:response = r.json()['result']print(response)if __name__ == '__main__':post_audio()

2、网页端长连接流式上传语音文件

python服务端代码,接收网页端发来的语音片段并保存为.wav格式的语音文件,方便后面的语音识别

from flask import Flask, request, render_template
from flask_socketio import SocketIO, emit
import json
import base64app = Flask(__name__)
app.config['SECRET_KEY'] = 'secret'
socketio = SocketIO(app, async_mode='eventlet')# In-memory storage for the audio chunks
audio_chunks = []@app.route('/')
def index():return render_template('index.html')@socketio.on('audio_chunk')
def handle_audio_chunk(data):global audio_chunksaudio_chunks.append(data)# Optionally, you can write each chunk to a file here if you prefer not to keep it in memorywith open('audio_chunk.wav', 'ab') as f:f.write(base64.b64decode(data))@socketio.on('audio_end')
def handle_audio_end():global audio_chunksif audio_chunks:print("开始保存语音文件")with open('uploaded_audio.wav', 'ab') as f:f.write(base64.b64decode(audio_chunks[0]))print("服务端保存语音文件完成")audio_chunks = []  # Clear the chunks listemit('audio_saved', {'message': 'Audio saved successfully!'})@socketio.on('connect')
def connected_msg():"""socket client event - connected"""print('客户端连接成功,client connected!')@socketio.on('disconnect')
def disconnect_msg():"""socket client event - disconnected"""print('客户端断开连接,client disconnected!')if __name__ == '__main__':socketio.run(app, port=8200, debug=True)

前端html及JavaScript代码如下:

<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>Audio Stream Upload</title><script src="https://cdn.socket.io/4.0.0/socket.io.min.js"></script>
</head>
<body><h1>Upload Audio Stream</h1><button id="start-recording">Start Recording</button><button id="stop-recording" disabled>Stop Recording</button><p id="status"></p><script>const socket = io.connect('http://localhost:8200');let mediaRecorder;let audioChunks = [];document.getElementById('start-recording').addEventListener('click', async () => {const stream = await navigator.mediaDevices.getUserMedia({ audio: true });mediaRecorder = new MediaRecorder(stream);mediaRecorder.ondataavailable = event => {audioChunks.push(event.data);// Send the chunk to the server (convert to ArrayBuffer first)const buffer = event.data.arrayBuffer();buffer.then(arrayBuffer => {const base64String = btoa(String.fromCharCode(...new Uint8Array(arrayBuffer)));socket.emit('audio_chunk', base64String);});};mediaRecorder.start();document.getElementById('start-recording').disabled = true;document.getElementById('stop-recording').disabled = false;document.getElementById('status').textContent = 'Recording...';mediaRecorder.onstop = () => {// Inform the server that the audio stream has endedsocket.emit('audio_end');document.getElementById('start-recording').disabled = false;document.getElementById('stop-recording').disabled = true;document.getElementById('status').textContent = 'Recording stopped. Waiting for server response...';};});document.getElementById('stop-recording').addEventListener('click', () => {mediaRecorder.stop();});socket.on('audio_saved', data => {document.getElementById('status').textContent = data.message;});</script>
</body>
</html>

启动python服务,浏览器访问http://localhost:8200/就可以看到如下网页:
在这里插入图片描述


3、语音识别接口

语音识别算法这里选择openai的开源项目:whisper,项目地址:https://github.com/openai/whisper

  • 安装
    pip install -U openai-whisper
    还需要在终端安装ffmpeg,sudo apt update && sudo apt install ffmpeg

flask服务端代码如下:

import os
os.environ["CUDA_VISIBLE_DEVICES"] = '1'
from flask import Flask, request
import io
import wave
import json
import whisperapp = Flask(__name__)
model = whisper.load_model("turbo")  # or your model@app.route('/audio_rec', methods=['POST'])
def audio_recognize():"""#接收语音文件并用whisper语音识别算法进行语音识别#:return:"""f_obj = request.files.get("file", None)if f_obj is None:return json.dumps({'status': 1, 'msg': 'No audio was received.', 'result': ''})else:save_path = "temp.wav"audio_data = f_obj.read()with open(save_path, 'ab') as f:f.write(audio_data)  # 追加写入音频数据result = model.transcribe(save_path)return json.dumps({'status': 0, 'msg': '', 'result': result["text"]})if __name__ == '__main__':socketio.run(app, port=8200, debug=True)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/63393.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kafka怎么发送JAVA对象并在消费者端解析出JAVA对象--示例

1、在pom.xml中加入依赖 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-stream-kafka</artifactId><version>3.1.6</version></dependency> 2、配置application.yml 加入Kafk…

JS中的原型链与继承

原型链的类比 JS中原型链&#xff0c;本质上就是对象之间的关系&#xff0c;通过protoype和[[Prototype]]属性建立起来的连接。这种链条是动态的&#xff0c;可以随时变更。 这个就跟C/C中通过指针建立的关系很相似&#xff0c;比如&#xff0c;通过指针建立一个链表&#xf…

CSS学习记录04

CSS边框 CSS border 属性指定元素边框的样式、宽度和颜色。border-style 属性指定要显示的边框类型。dotted - 定义点线边框dashed - 定义虚线边框solid - 定义实线边框double - 定义双边框groove - 定义3D坡口边框&#xff0c;效果取决于border-color值ridge - 定义3D脊线边框…

一文了解模式识别顶会ICPR 2024的研究热点与最新趋势

简介 对模式识别研究领域前沿方向的跟踪是提高科研能力和制定科研战略的关键。本文通过图文并茂的方式介绍了ICPR 2024的研究热点与最新趋势&#xff0c;帮助读者了解和跟踪模式识别的前沿研究方向。本推文的作者是黄星宇&#xff0c;审校为邱雪和许东舟。 一、会议介绍 ICPR…

福昕PDF低代码平台

福昕PDF低代码平台简介 福昕PDF 低代码平台是一款创新的工具&#xff0c;旨在简化PDF处理和管理的流程。通过这个平台&#xff0c;用户可以通过简单的拖拽界面上的按钮&#xff0c;轻松完成对Cloud API的调用工作流&#xff0c;而无需编写复杂的代码。这使得即使没有编程经验的…

oracle 11g中如何快速设置表分区的自动增加

在很多业务系统中&#xff0c;一些大表一般通过分区表的形式来实现数据的分离管理&#xff0c;进而加快数据查询的速度。分区表运维管理的时候&#xff0c;由于人为操作容易忘记添加分区&#xff0c;导致业务数据写入报错。所以我们一般通过配置脚本或者利用oracle内置功能实现…

Antd X : 迅速搭建 AI 页面的解决方案

前言 随着 AI 热度的水涨船高&#xff0c;越来越多的 AI 应用如井喷式爆发&#xff0c;那么如何迅速搭建一个 AI 应用的美观高质量 Web 前端页面呢&#xff0c; Antd 团队给出了一个解决方案。 X Ant DesIgn XAI 体验新秩序Ant Design 团队匠心呈现 RICH 设计范式&#xff0…

SD Express 卡漏洞导致笔记本电脑和游戏机遭受内存攻击

Positive Technologies 最近发布的一份报告揭示了一个名为 DaMAgeCard 的新漏洞&#xff0c;攻击者可以利用该漏洞利用 SD Express 内存卡直接访问系统内存。 该漏洞利用了 SD Express 中引入的直接内存访问 (DMA) 功能来加速数据传输速度&#xff0c;但也为对支持该标准的设备…

波特图方法

在电路设计中&#xff0c;波特图为最常用的稳定性余量判断方法&#xff0c;波特图的根源是如何来的&#xff0c;却鲜有人知。 本章节串联了奈奎斯特和波特图的渊源&#xff0c;给出了其对应关系和波特图相应的稳定性余量。 理论贯通&#xff0c;不在于精确绘…

React 组件中 State 的定义、使用及正确更新方式

​&#x1f308;个人主页&#xff1a;前端青山 &#x1f525;系列专栏&#xff1a;React篇 &#x1f516;人终将被年少不可得之物困其一生 依旧青山,本期给大家带来React篇专栏内容React 组件中 State 的定义、使用及正确更新方式 前言 在 React 应用开发中&#xff0c;state …

C++(十二)

前言&#xff1a; 本文将进一步讲解C中&#xff0c;条件判断语句以及它是如何运行的以及内部逻辑。 一&#xff0c;if-else,if-else语句。 在if语句中&#xff0c;只能判断两个条件的变量&#xff0c;若想实现判断两个以上条件的变体&#xff0c;就需要使用if-else,if-else语…

查询产品所涉及的表有(product、product_admin_mapping)

文章目录 1、ProductController2、AdminCommonService3、ProductApiService4、ProductCommonService5、ProductSqlService1. 完整SQL分析可选部分&#xff08;条件筛选&#xff09;&#xff1a; 2. 涉及的表3. 总结4. 功能概述 查询指定管理员下所有产品所涉及的表&#xff1f;…

游戏引擎学习第36天

仓库 :https://gitee.com/mrxiao_com/2d_game 回顾之前的内容 在这个程序中&#xff0c;目标是通过手动编写代码来从头开始制作一个完整的游戏。整个过程不使用任何库或现成的游戏引擎&#xff0c;这样做的目的是为了能够全面了解游戏执行的每一个细节。开发过程中&#xff0…

【SpringMVC】用户登录器项目,加法计算器项目的实现

阿华代码&#xff0c;不是逆风&#xff0c;就是我疯 你们的点赞收藏是我前进最大的动力&#xff01;&#xff01; 希望本文内容能够帮助到你&#xff01;&#xff01; 目录 一&#xff1a;用户登录项目实现 1&#xff1a;需求 2&#xff1a;准备工作 &#xff08;1&#xf…

3.5 认识决策树

3.5 认识决策树 3.5.1 认识决策树 如何高效的进行决策&#xff1f; 特征的先后顺序 3.5.2 决策树分类原理详解 已知有四个特征&#xff0c;预测 是否贷款给某个人。 先看房子&#xff0c;再看工作&#xff0c;是否贷款。 年龄&#xff0c;信贷情况&#xff0c;工作&#…

AI智能体Prompt预设词指令大全+GPTs应用使用

AI智能体使用指南 直接复制在AI工具助手中使用&#xff08;提问前&#xff09; 可前往SparkAi系统用户官网进行直接使用 SparkAI系统介绍文档&#xff1a;Docs 常见AI智能体GPTs应用大全在线使用 自定义添加制作AI智能体进行使用&#xff1a; 文章润色器 你是一位具有敏锐洞察…

K8S,StatefulSet

有状态应用 Deployment实际上并不足以覆盖所有的应用编排问题&#xff1f; 分布式应用&#xff0c;它的多个实例之间&#xff0c;往往有依赖关系&#xff0c;比如&#xff1a;主从关系、主备关系。 还有就是数据存储类应用&#xff0c;它的多个实例&#xff0c;往往都会在本地…

子类有多个父类的情况下Super不支持指定父类来调用方法

1、Super使用方法 super()函数在Python中用于调用父类的方法。它返回一个代理对象&#xff0c;可以通过该对象调用父类的方法。 要使用super()方法&#xff0c;需要在子类的方法中调用super()&#xff0c;并指定子类本身以及方法的名称。这样就可以在子类中调用父类的方法。 …

使用国内镜像源加速Qt“更新/安装”的方法

QT更新/安装时&#xff0c;国外源下载很慢&#xff0c;国内镜像源也因网络环境的不同而速度各异&#xff0c;下文给出国内镜像源的配置方法。 一、命令行 1、切换对应目录&#xff0c;更新器默认目录是 C:\Qt 2、文件名镜像源 安装示例&#xff1a; .\qt-unified-windows-x…

如何让Google快速收录你的页面?

要让Google更快地收录你的网站内容&#xff0c;首先需要理解“爬虫”这个概念。Google的爬虫是帮助它发现和评估网站内容质量的工具&#xff0c;如果你的页面质量高且更新频率稳定&#xff0c;那么Google爬虫更可能频繁光顾。通常情况下&#xff0c;通过Google Search Console&…