flask 后端 + 微信小程序和网页两种前端:调用硬件(相机和录音)和上传至服务器

选择 flask 作为后端,因为后续还需要深度学习模型,python 语言最适配;而 flask 框架轻、学习成本低,所以选 flask 作为后端框架。

微信小程序封装了调用手机硬件的 api,通过它来调用手机的摄像头、录音机,非常方便。

网页端使用 JavaScript 调用则困难一些,走了很多弯路,在这里记录下来。

前提:已经配置好 python 环境、安装了 flask;

flask 端

flask 的任务是收取前端传来的文件,保存在本地。

from flask import Flask, request, jsonify, render_template
app = Flask(__name__)
app.config.from_object(__name__)
app.config["JSON_AS_ASCII"] = False  # 防止中文乱码
app.json.ensure_ascii = False  # 防止中文乱码
# 设置上传文件夹
app.config['UPLOAD_FOLDER'] = r'D:\A_data_trans\test(改成你的位置)'@app.route('/vqa', methods=['POST'])
def app_vqa():# 保存图片img_file = request.files['img']  # 这里规定了前端传图片过来的时候,用的关键字是 'img',别的,比如 'image' 就会拿不到if img_file.filename == '':return jsonify({'error': 'No image'}), 400try:image_path = os.path.join(app.config['UPLOAD_FOLDER'], img_file.filename)img_file.save(image_path)log(f"save image: {image_path}")except Exception as e:return jsonify({'error': str(e)}), 500# 传过来的就是文本question = request.form['question']  # 前端传来的文本信息都是放在 form 中的# 预测答案try:answer = vqa(image_path, question)return jsonify(answer)except Exception as e:return jsonify({'error': str(e)}), 500# 接收文件的代码,其实和上面长得一样,略微有一 miu miu 区别
@app.route('/upload', methods=['POST'])
def app_upload_file():# 保存图片img_file = request.files['img']if img_file.filename == '':return jsonify({'error': 'No image'}), 400try:image_path = os.path.join(app.config['UPLOAD_FOLDER'], img_file.filename)img_file.save(image_path)shutil.copy(image_path, os.path.join(os.path.dirname(__file__), 'static/show.jpg'))  # 用于展示在网页上log(f"save image: {image_path}")except Exception as e:return jsonify({'error': str(e)}), 500try:# 传过来的就是文本question = request.form['question']except:question = "请描述图片内容"return jsonify({"image": img_file.filename, "question": question})@app.route('/upload/speech', methods=['POST'])
def recognize_speech():speech_file = request.files['speech']try:save_path = os.path.join(app.config['UPLOAD_FOLDER'], speech_file.filename)speech_file_path = os.path.join(app.config['UPLOAD_FOLDER'], save_path)speech_file.save(speech_file_path)# question = speech2txt(speech_file_path)# print('百度识别结果:', question)except Exception as e:return jsonify({'error': str(e)}), 500return jsonify({"speech": speech_file.filename})

微信小程序

微信小程序端的任务是,调用手机相机,把相机画面展示给用户,加一个按钮,点击按钮拍照;另外一个按钮,点击可以把拍到的照片上传。

wxml 中,放上一个 camera 用来显示相机画面;放上几个 button,控制拍照、上传。

<!--index.wxml-->
<scroll-view class="scrollarea" scroll-y type="list">
<!-- 相机画面 --><view class="my-container"><!-- 显示相机画面 --><camera device-position="back" flash="off" binderror="error" style="width: 90%; height: 200px;"></camera></view><!-- 按钮集合 --><view class="my-container"><!-- 拍照、录音、ocr 按钮 --><view class="button-row"><!-- 拍摄照片按钮 --><button class="btn-normal btn-large" hover-class="btn-pressed" bind:tap="takePhoto">拍摄图片</button><!-- 录音得到 Question --><button class="btn-normal btn-large" hover-class="btn-pressed" bind:touchstart="startRecord" bind:touchend="stopRecord">长按提问</button></view><!-- caption 和 vqa 按钮 --><view class="button-row"><!-- 发送预测 caption 请求 --><button class="btn-normal btn-large" hover-class="btn-pressed" bind:tap="predCaption">描述图片</button><!-- 发送预测 vqa 请求 --><button class="btn-normal btn-large" hover-class="btn-pressed" bind:tap="predVQA">回答问题</button></view></view>
</scroll-view>

用到的 wxss

/**index.wxss**/
page {height: 100vh;display: flex;flex-direction: column;
}
.scrollarea {flex: 1;overflow-y: hidden;
}.btn-normal {margin-top: 10px;padding: 10px;background-color: rgb(252, 226, 230);color: black;border-radius: 0ch;border-color: brown;border-width: 1px;border-style: dotted;cursor: pointer;height: 70px;line-height: 50px;width: 90%;text-align: center;font-size: xx-large;
}.btn-large {height: 300px;
}.btn-pressed {background-color: rgb(202, 129, 140);color: rgb(82, 75, 75);
}.btn-human {background-color: darkseagreen;
}.btn-human-pressed {background-color:rgb(89, 141, 89);color: rgb(75, 82, 77);
}button:not([size=mini]) {width: 90%;
}.useGuide {margin-top: 10px;margin-bottom: 10px;width: 90%;
}.text-question {margin-top: 10px;width: 90%;
}.my-container {  display: flex;  flex-direction: column;  align-items: center;  justify-content: center;  
}  .button-row {  display: flex;  justify-content: space-between;width: 90%;
}  .donot-display {display: none;
}

js 部分。因为微信小程序给封装得很好,所以基本没有什么坑,按照这个写就行,基本不出错。要注意各种 success 方法,要用 success: (res) => {} 的写法,不然在里面调用 this 是识别不到的。

Page({data: {serverUrl: 'http://改成你的',  // 服务器地址 photoData: '',  // 用户拍摄的图片speechData: '',  // 用户提问的录音文件textQuestion: '',  // 用户提问文本recorderManager: null,textAnswer: '',  // vqa模型识别的文本},// 点击拍照的方法在这里 (按钮绑定在 wxml 就写好了)takePhoto(e) {console.log("拍摄照片")const ctx = wx.createCameraContext();ctx.takePhoto({quality: 'low',success: (res) => {this.setData({photoData: res.tempImagePath  // res.tempImagePath 就可以拿到拍到的照片文件的 object url 地址,把这个地址传给服务器,就可以把该文件传给服务器});}});},// 控制长按录音的代码放在这里(按钮绑定在 wxml 就写好了)startRecord() {const recorderManager = wx.getRecorderManager();this.setData({ recorderManager });// 停止录音的回调方法;在这里我加了调用百度语音 api 的东西,这部分会另外写文详说,这里只放出来一部分。所以这里没有把录音文件上传,而是直接把语音识别的结果上传文件夹recorderManager.onStop((res) => {console.log('recorder stop', res);this.setData({ speechData: res.tempFilePath });var baiduAccessToken = wx.getStorageSync('baidu_yuyin_access_token');// 读取文件并转为 ArrayBufferconst fs = wx.getFileSystemManager();fs.readFile({filePath: res.tempFilePath,success: (res) => {const base64 = wx.arrayBufferToBase64(res.data);wx.request({url: 'https://vop.baidu.com/server_api',data: {format: 'pcm',rate: 16000,channel: 1,cuid: 'sdfdfdfsfs',token: baiduAccessToken,speech: base64,len: res.data.byteLength,},method: "POST",header: {'content-type': 'application/json'},success: (res) => {wx.hideLoading();console.log("拿到百度语音api返回的结果")console.log(res.data);var baiduResults = res.data.result;console.log(baiduResults[0]);if (baiduResults.lenth == 0) {wx.showToast({title: '未识别要语音信息!',icon: 'none',duration: 3000})} else {this.setData({textQuestion: baiduResults[0]});}}})}})});// 这里才是控制录音的参数;微信小程序端可以设置这些录音参数,因为后面要调用百度语音识别 api,该 api 仅支持采样率 16000 或 8000,对压缩格式也有要求,所以录音的时候要和 api 的要求保持一致recorderManager.start({format: 'PCM',duration: 20000,  // 最长支持 20ssampleRate:16000,encodeBitRate: 48000,numberOfChannels: 1,success: (res) => {console.log('开始录音');},fail: (err) => {console.error('录音失败', err);}});},// 上传的代码放在这里predVQA() {if (this.data.photoData != '' && this.data.textQuestion != ''){console.log('send img' + this.data.photoData);wx.uploadFile({filePath: this.data.photoData,name: 'img',  // 文件对应 key,后端通过该 key 获取文件;前后端注意保持一致url: this.data.serverUrl+'/vqa',formData: {'question': this.data.textQuestion},success: (res) => { console.log('成功上传'); if (res.statusCode == 200) {var answer = res.datathis.setData({ textAnswer: answer })} else { console.error(res) }},fail: (err) => { console.error('上传失败'); }})}},
})

网页端的实现

网页端就要复杂很多……掉过很多坑真的很难搞……(这里感谢 b站 up主 “前端石头”,其中摄像头拍照和录音的 js 代码参考了他的代码)

而且这里有 2 个关键的问题:

  1. 关于视频拍照:如果我把展示视频流的那个控件隐藏掉,那拍出来的照片就是黑的。在微信小程序里就不会有这个问题。原因是,它拍照的原理是,通过 canvas 控件在 video 控件上截图,如果你隐藏掉了,自然没有图可截,就是黑的。我找了很多资料,貌似没有别的解决方法,所以我只能把视频放很小,放角落里……
  2. 关于录音:js 调用硬件就是很有限制。因为我后面想接百度语音识别的 api,该 api 仅支持采样率 16000 或者 8000 的音频,但是 js 默认录音采样率 48000。我找到一些人说,在 constrains 里面传参,但是,不仅没用,而且传了之后会导致音频损坏……然后问了 chatgpt,它说 js 很难变,只能你先录好,然后通过代码改采样率。我试了直接传音频到服务器,然后 python 代码改采样率。但是 python 代码改采样率用的那个包,在 Windows 下运行会报错,还得下一个软件怎么怎么设置……就是很麻烦。所以,暂时没有找到优雅的解决方案。

html

<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><title>Title</title><link rel="stylesheet" href="{{ url_for('static', filename='css/full_button.css') }}" type="text/css">
</head>
<body><div style="display: flex"><div><video id="videoElement" autoplay="autoplay" muted="muted" style="width: 40px"></video><img id="photo" alt="你的照片" src="" style="display: none"></div><div id="answer" class="answer-text">答案等待中...</div></div><div class="button-grid"><button id="snapButton">拍摄照片</button><button id="recorderButton">录音</button><button id="captionButton">描述图片</button><button id="vqaButton">回答问题</button></div>{#    <input type="text" id="textQuestion" placeholder="请输入问题...">#}<script>var imageBlob = null;  // 拍摄的图片var speechBlob = null;  // 提出的问题// 生成随机文件名function randomFilename() {let now = new Date().getTime();let str = `xxxxxxxx-xxxx-${now}-yxxx`;return str.replace(/[xy]/g, function(c) {const r = Math.random() * 16 | 0;const v = c === 'x' ? r : (r & 0x3 | 0x8);return v.toString(16)})}</script><script type="text/javascript" src="../static/js/user_camera.js"></script><script type="text/javascript" src="../static/js/user_recorder.js"></script><script>// 绑定 vqa 按钮document.getElementById('vqaButton').onclick = function () {if (imageBlob == null) {alert('请先拍摄照片,再点击“描述图片”按钮')} else {if (speechBlob == null) {alert('您还没有提问,请先点击录音按钮录音提问')} else {let filename = randomFilename();const speechFormData = new FormData();// 注意,这里是第一个点:这里放进去的第一个参数是 key,后端就要通过这个 key 拿到文件。第二个参数是文件的二进制数据,blob,别搞错了!我会在 recorder.js 的代码里给这个 speechBlob 赋值,总之它应该是一个 Blob 对象。第三个参数是文件名,这个看你自己的需求。speechFormData.append('speech', speechBlob, filename+'.wav');// 这里是第二个点,把这个路径换成你的位置。// 而且我发现,localhost 和 127.0.0.1 居然是有区别的,// 我搞不太懂这二者的区别,但是有时候我填 127.0.0.1 就会告诉我跨域传数据之类的,// 总之很难……如果你部署到服务器的话,应该是要改成服务器的地址的fetch('http://localhost:8099/upload/speech', {method: 'POST',// 这里把 FormData 放到 body 传过去;如果你还要传别的数据,都放到这个 FormData 里就可以传过去body: speechFormData}).then(response => {console.log('response:', response);if (response.status === 200) {console.log('成功上传音频', response);}}).then(data => console.log('data:', data)).catch(error => console.error(error));const imgFormData = new FormData();imgFormData.append('img', imageBlob, filename+'.jpg');fetch('http://localhost:8099/upload', {method: 'POST',body: imgFormData}).then(response => {console.log('response:', response);if (response.status === 200) {console.log('上传完成');}}).then(data => console.log('data:', data)).catch(error => console.error(error));}}};</script>
</body>
</html>

javascript 的部分

有两个文件,放在 static 文件夹的 js 文件夹下:

user_camera.js

class SnapVideo {// 摄像头流媒体stream;// 页面domvideoElement = document.getElementById('videoElement');snapButton = document.getElementById('snapButton');photoElement = document.getElementById('photo');constructor() {const constraints = {audio: true,video: {facingMode: "environment",  // "user" 代表前置摄像头width: 448,  // 视频宽度height: 448,frameRate: 60,  // 每秒 60 帧}};// 绑定方法this.snapButton.onclick = () => this.takeSnapshot();// this.videoElement.width = constraints.video.width;// this.videoElement.height = constraints.video.height;// 获取摄像头流媒体this.getUserMedia(constraints, (stream) => {// 摄像头流媒体成功回调this.stream = stream;this.videoElement.srcObject = stream;}, (e) => {// 摄像头流媒体失败回调if (e.message === 'Permission denied') {alert('您已经禁止使用摄像头');}console.log('navigator.getUserMedia error: ', e);})}getUserMedia(constrains, success, error) {if (navigator.mediaDevices && navigator.mediaDevices.getUserMedia) {//最新的标准APInavigator.mediaDevices.getUserMedia(constrains).then(success).catch(error);} else if (navigator.webkitGetUserMedia) {//webkit核心浏览器navigator.webkitGetUserMedia(constraints, success, error)} else if (navigator.getUserMedia) {//旧版APInavigator.getUserMedia(constraints, success, error);}}// 拍照takeSnapshot() {console.log('点击了拍摄按钮');// 利用 canvas 截取视频图片const canvas = document.createElement('canvas');const context = canvas.getContext('2d');canvas.width = this.videoElement.videoWidth;canvas.height = this.videoElement.videoHeight;context.drawImage(this.videoElement, 0, 0, canvas.width, canvas.height);this.photoElement.src = canvas.toDataURL('image/png');canvas.toBlob(function (blob) {// 把 blob 赋给 imageBlob;注意这个 imageBlob 是在 html 文件中声明的!!imageBlob = new Blob([blob], {type: "image/png"});}, "image/png", 1);// this.photoElement.style.display = 'block';}
}new SnapVideo();

另一个文件是 user_recorder.js

// 录音
const recordBtn = document.getElementById('recorderButton');if (navigator.mediaDevices.getUserMedia) {let chunks = [];// 注意,这里这个 audio 传参只能传 true,传别的,录到的音频就是损坏的!!const constraints = { audio: true };navigator.mediaDevices.getUserMedia(constraints).then(stream => {const mediaRecorder = new MediaRecorder(stream);recordBtn.onclick = () => {console.log("点击");if (mediaRecorder.state === "recording") {mediaRecorder.stop();recordBtn.textContent = "录音结束";} else {mediaRecorder.start();recordBtn.textContent = "录音中...";}};mediaRecorder.ondataavailable = e => {chunks.push(e.data);};mediaRecorder.onstop = e => {// 一样的,把 blob 赋给 speechBlob,这个也是在 html 里面的 <script> 声明的speechBlob = new Blob(chunks, {type: "audio/wav"});chunks = [];}},() => { console.error("授权失败!"); });
} else {console.error("浏览器不支持 getUserMedia");
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/805581.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++成长记】C++入门 |函数重载、引用、内联函数

&#x1f40c;博主主页&#xff1a;&#x1f40c;​倔强的大蜗牛&#x1f40c;​ &#x1f4da;专栏分类&#xff1a;C❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 目录 一、函数重载 1、函数重载概念 二、引用 1、引用概念 2、引用特性 3、常引用 4、使用场景 5、…

数据库之DCL操作(用户、访问权限。)

DCL英文全称是Data control language(数据控制语言)&#xff0c;用来管理数据库用户、控制数据库的访问权限。 1.管理用户 1.1查询用户 select * from mysql.user; 其中 Host代表当前用户访问的主机&#xff0c;如果为localhost&#xff0c;仅代表只能够在当前本机访问&…

Synergy错误: NOTE: Cursor is locked to screen, check Scroll Lock key

错误&#xff1a; NOTE: Cursor is locked to screen, check Scroll Lock key NOTE: Cursor is locked to screen, check Scroll Lock key NOTE: Cursor is locked to screen, check Scroll Lock key NOTE: Cursor is locked to screen, check Scroll Lock key NOTE: Cursor is…

深入浅出 -- 系统架构之微服务中OpenFeign最佳实践

前面我们讲了一下 Ribbon 和 RestTemplate 实现服务端通信的方法&#xff0c;Ribbon 提供了客户端负载均衡&#xff0c;而 RestTemplate 则对 http 进行封装&#xff0c;简化了发送请求的流程&#xff0c;两者互相配合&#xff0c;构建了服务间的高可用通信。 但在使用后也会发…

谁在投资“元素周期表”? 顶级芯片制造商“军备竞赛”

有色和商品基金的大买家何在 投资A股&#xff0c;有时候投资的也是一种“玄妙”的境界。 你需要复习金融知识、复习经济知识&#xff0c;复习科技知识&#xff0c;学习财政学、学习人口学、学习传染病学。 但这些可能还不够。 你能想象么有朝一日&#xff0c;你会回头复习中…

Flask项目如何在测试环境和生产环境部署上线

前言 最近在使用Flask框架&#xff0c;写一个小项目&#xff0c;在项目部署启动后&#xff0c;出现了以下这段提示&#xff0c;这段提示的意思是&#xff0c;该启动方式适用于开发环境中&#xff0c;生产环境要使用WSGI服务器。 WARNING: This is a development server. Do no…

阿里云大学考试Java中级题目及解析-java中级

阿里云大学考试Java中级题目及解析 1.servlet释放资源的方法是&#xff1f; A.int()方法 B.service()方法 C.close() 方法 D.destroy()方法 D servlet释放资源的方法是destroy() 2.order by与 group by的区别&#xff1f; A.order by用于排序&#xff0c;group by用于排序…

从0到1一步一步玩转openEuler--02 openEuler操作系统的安装

从0到1一步一步玩转openEuler–02 openEuler操作系统的安装 安装地址&#xff1a;https://www.jianshu.com/p/f8b8c7b4cc11

OSCP靶场--Zino

OSCP靶场–Zino 考点(CVE-2019-9581 RCE 定时任务脚本可写提权) 1.nmap扫描 ##┌──(root㉿kali)-[~/Desktop] └─# nmap 192.168.173.64 -sV -sC -Pn --min-rate 2500 -p- Starting Nmap 7.92 ( https://nmap.org ) at 2024-04-10 04:18 EDT Nmap scan report for 192.…

自定义注解进行数据转换

前言&#xff1a; Java注解是一种元数据机制&#xff0c;可用于方法&#xff0c;字段&#xff0c;类等程序上以提供关于这些元素的额外信息。 以下内容是我自己写的一个小测试的demo,参考该文章进行编写&#xff1a;https://blog.csdn.net/m0_71621983/article/details/1318164…

【linux】基础IO(四)

在上一篇基础IO中我们主要讲述了文件再磁盘中的存储&#xff0c;当然我们说的也都只是预备知识&#xff0c;为这一篇的文件系统进行铺垫。 目录 搭文件系统的架子&#xff1a;填补细节&#xff1a;inode&#xff1a;datablock[]: 更上层的理解&#xff1a; 搭文件系统的架子&a…

dynamicreports示例

1. 简单段落文本报表 //标题样式StyleBuilder titleStyle DynamicReports.stl.style().setHorizontalTextAlignment(HorizontalTextAlignment.CENTER)//设置对齐方式.setFontSize(50)//设置字体.setBackgroundColor(Color.CYAN);//设置背景颜色//段落样式StyleBuilder paragra…

uniapp 2.0可视化工具:创建与管理Vue文件的实践之旅

引言 在前端开发领域中&#xff0c;Vue以其简洁、易上手的特点&#xff0c;受到了广大开发者的青睐。随着uniapp的不断发展&#xff0c;越来越多的开发者开始利用uniapp的可视化工具来创建和管理Vue文件&#xff0c;以提高开发效率。本文将详细介绍如何使用uniapp 2.0可视化工…

bytetrack复现

一,环境安装 创建虚拟环境 conda create -n bytetrack python=3.8 安装requirements pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple 可能报错,解决办法,安装numpy 安装 pytorch pip install torch==1.12.0+cu113 torchvision==0.13.0+cu1…

redis修改协议改了,有哪些替代品?

Redis 是一款广泛使用的开源内存数据结构存储&#xff0c;它支持多种数据结构&#xff0c;如字符串、哈希表、列表、集合、有序集合等。然而&#xff0c;由于 Redis 最近更改了其开源许可证&#xff0c;一些用户和开发者可能正在寻找替代品。以下是一些 Redis 的替代品&#xf…

解决vue3+ts组件ref定义但是访问不到组件属性

为什么父组件访问不到属性呢 因为使用 <script setup> 语法糖的组件是默认关闭的&#xff0c;也即通过模板 ref 或者 $parent 链获取到的组件的公开实例&#xff0c;不会暴露任何在 <script setup>中声明的绑定。 所以要自己抛出去 解决 为了在 <script setu…

H5动效开发之CSS3动画

动画效果是情感设计的重要手段,在H5开发中,实现动效需要综合利用 JavaScript、CSS(3)、SVG、Canvas 等多种 Web 技术手段才能开发出动人的网页动态效果。 接下来,我们把重心放在 CSS3 动画上面,因为 CSS3 在现如今的网页动效开发中占据着最为重要的一席,作为老大哥 CSS 的…

基于SSM+Jsp+Mysql的超市管理系统

开发语言&#xff1a;Java框架&#xff1a;ssm技术&#xff1a;JSPJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包…

SuperMap GIS基础产品FAQ集锦(202403)

一、SuperMap GIS基础产品桌面GIS-FAQ集锦 问题1&#xff1a;【iDesktop】安装了idesktop 11i&#xff0c;现想进行插件开发&#xff0c;根据安装指南安装SuperMap.Tools.RegisterTemplate.exe&#xff0c;运行多次均失败 【问题原因】该脚本是之前老版本针对VS2010写的&…

【算法】Cordic算法的原理及matlab/verilog应用

一、前言 单片机或者FPGA等计算能力弱的嵌入式设备进行加减运算还是容易实现&#xff0c;但是想要计算三角函数&#xff08;sin、cos、tan&#xff09;&#xff0c;甚至双曲线、指数、对数这样复杂的函数&#xff0c;那就需要费些力了。通常这些函数的计算需要通者查找表或近似…