百度语音识别开发笔记

目录

简述

开发环境

1、按照官方文档步骤开通短语音识别-普通话

2、创建应用

3、下载SDK

4、SDK集成

5、相关接口简单说明

5.1权限和key

5.2初始化

5.3注册回调消息

5.4开始转换

5.5停止转换

6、问题


简述

最近想做一些语音识别的应用,对比了几个大厂提供的语音合成,其中有些提供了几个月免费试用,对于我想长期使用的显然是不合适,其中百度的语音识别可以按照调用量进行收费,对于我这种厂期小使用量非常合适,一条才3里,3条才1分。所以就做一下百度语音识别的集成,这里只讲一下最简单的使用,很多参数可以设置,需要自己去研究了。

开发环境

android studio:Android Studio Jellyfish | 2023.3.1
语音识别版本:bdasr_V3_20210628_cfe8c44

1、按照官方文档步骤开通短语音识别-普通话

语音技术 (baidu.com)

2、创建应用

这里顺便打开文档和下载SDK

创建后会得到appid,api key,secret key

3、下载SDK

语音技术 (baidu.com)

例程和相关文档在这个压缩包中。

4、SDK集成

语音技术 (baidu.com)

将core/libs/bdasr_V3_xxxxx_xxxxx.jar 复制到您的项目的同名目录中。

下面这篇文章讲了如何导入jar包到工程中,使用方法二。

android studio 导入第三方的jar包,add as library的位置-腾讯云开发者社区-腾讯云 (tencent.com)

其实就是在BaiduSpeechRecognition\app\build.gradle.kts中

将 core/src/main/jniLibs 下armeabi等包含so文件的5个目录,复制合并到BaiduSpeechRecognition\app\src\main\jniLibs目录中。

经过上面步骤后就已经集成好了SDK,当然百度的文档里使用了另一个方法集成,也可以使用。

5、相关接口简单说明

部分接口说明在压缩包的 demo_development_doc.md文件里

5.1权限和key

在您的core\src\main\AndroidManifest.xml文件里 替换您的appId appKey secretKey

添加权限

<uses-permission android:name="android.permission.RECORD_AUDIO" />
<uses-permission android:name="android.permission.ACCESS_NETWORK_STATE" />
<uses-permission android:name="android.permission.INTERNET" />
<uses-permission android:name="android.permission.MANAGE_EXTERNAL_STORAGE"tools:ignore="ScopedStorage" />

如果你的开始识别时使用的不自己设置参数,需要在AndroidManifest.xml中添加meta-data

5.2初始化

初始化EventManager对象

val asr: EventManager = EventManagerFactory.create(LocalContext.current, "asr")

5.3注册回调消息

val yourListener = // 自定义输出事件类EventListener { name, params, data, offset, length ->if (name == SpeechConstant.CALLBACK_EVENT_ASR_READY) {// 引擎就绪,可以说话,一般在收到此事件后通过UI通知用户可以说话了Log.e(TAG, "CALLBACK_EVENT_ASR_READY")}if (name == SpeechConstant.CALLBACK_EVENT_ASR_PARTIAL) {// 一句话的临时结果,最终结果及语义结果Log.e(TAG, "CALLBACK_EVENT_ASR_PARTIAL $params $data")// {"results_recognition":["开始"],"result_type":"partial_result","best_result":"开始","origin_result":{"err_no":0,"result":{"word":["开始"],"confident":[99]},"raf":112,"corpus_no":7363482792138232974,"sn":"09cd77b2-2c14-4d89-9673-68279c3a4567","product_id":1537,"product_line":"open","result_type":"TS_RESULT_TYPE_MIDDLE"},"error":0}// {"results_recognition":["开始说话说话说话来了来我操。"],"result_type":"final_result","best_result":"开始说话说话说话来了来我操。","origin_result":{"err_no":0,"result":{"word":["开始说话说话说话来了来我操。"],"confident":[0]},"corpus_no":7363482792138232974,"sn":"09cd77b2-2c14-4d89-9673-68279c3a4567","product_id":1537,"product_line":"open","result_type":"TS_RESULT_TYPE_ONEBSET"},"error":0}}// ... 支持的输出事件和事件支持的事件参数见“输入和输出参数”一节}
// 注册自己的输出事件类
asr.registerListener(yourListener)

5.4开始转换

/*** 基于SDK集成2.2 发送开始事件* 点击开始按钮* 测试参数填在这里*/
private fun start(asr: EventManager) {val params: MutableMap<String, Any> = AuthUtil.getParam().toMutableMap()val event: String = SpeechConstant.ASR_START // 替换成测试的event// 基于SDK集成2.1 设置识别参数params[SpeechConstant.ACCEPT_AUDIO_VOLUME] = false// params.put(SpeechConstant.NLU, "enable");// params.put(SpeechConstant.BDS_ASR_ENABLE_LONG_SPEECH, true);//长语音  优先级高于VAD_ENDPOINT_TIMEOUT// params.put(SpeechConstant.VAD_ENDPOINT_TIMEOUT, 0); // 长语音// params.put(SpeechConstant.IN_FILE, "res:///com/baidu/android/voicedemo/16k_test.pcm");// params.put(SpeechConstant.VAD, SpeechConstant.VAD_DNN);// params.put(SpeechConstant.PID, 1537); // 中文输入法模型,有逗号/* 语音自训练平台特有参数 */// params.put(SpeechConstant.PID, 8002);// 语音自训练平台特殊pid,8002:模型类似开放平台 1537  具体是8001还是8002,看自训练平台页面上的显示// params.put(SpeechConstant.LMID,1068);// 语音自训练平台已上线的模型ID,https://ai.baidu.com/smartasr/model// 注意模型ID必须在你的appId所在的百度账号下/* 语音自训练平台特有参数 *//* 测试InputStream*/// InFileStream.setContext(this);// params.put(SpeechConstant.IN_FILE,// "#com.baidu.aip.asrwakeup3.core.inputstream.InFileStream.createMyPipedInputStream()");// 请先使用如‘在线识别’界面测试和生成识别参数。 params同ActivityRecog类中myRecognizer.start(params);// 复制此段可以自动检测错误
//    AutoCheck(getApplicationContext(), object : Handler() {
//        fun handleMessage(msg: Message) {
//            if (msg.what === 100) {
//                val autoCheck: AutoCheck = msg.obj as AutoCheck
//                synchronized(autoCheck) {
//                    val message: String =
//                        autoCheck.obtainErrorMessage() // autoCheck.obtainAllMessage();
//                    txtLog.append(message + "\n")
//                    // 可以用下面一行替代,在logcat中查看代码
//                }
//            }
//        }
//    }, enableOffline).checkAsr(params)val json: String? =(params as Map<*, *>?)?.let { JSONObject(it).toString() }  // 可以替换成自己的json // 这里可以替换成你需要测试的jsonasr.send(event, json, null, 0, 0)// 如果这里的json是“{}”,会到AndroidMainfest.xml中查找meta-data去填充id和ak,sk
//    asr.send(event, "{}", null, 0, 0)Log.i(TAG, "输入参数:$json")
}

5.5停止转换

/*** 点击停止按钮* 基于SDK集成4.1 发送停止事件*/
private fun stop(asr: EventManager) {Log.i(TAG, "停止识别:ASR_STOP")asr.send(SpeechConstant.ASR_STOP, null, null, 0, 0) //
}

6、问题

报错,并且不进行识别

2024-05-06 10:23:35.801  7712-7736  ASREngine               com.example.baiduspeechrecognition   E  EVoiceRecognitionClientWorkStatusError errorDomain : 20 errorCode : 1 desc : VAD start: start error. mLastRecognitionResult: 
2024-05-06 10:23:35.802  7712-7736  ASREngine               com.example.baiduspeechrecognition   D  generateErrorResult errDomain = 20 errCode = 1

解决

百度语音识别开发问题及解决方法_e/asrengine: evoicerecognitionclientworkstatuserro-CSDN博客

解决办法在这篇文章的留言里。

******百度智能云工程师: 您好您这边在AndroidManifest文件application标签增加android:extractNativeLibs="true"

浅谈extractNativeLibs_android:extractnativelibs-CSDN博客

这篇文章讲了这个选项的用处,这个选项是打包时候是否压缩so,需要设置为压缩,这可能与百度编译库的时候的选项相关。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/7329.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为手机连接电脑后电脑无反应、检测不到设备的解决方法

本文介绍华为手机与任意品牌电脑连接时&#xff0c;出现连接后电脑无反应、检测不到手机连接情况的解决方法。 最近&#xff0c;因为手机的存储空间愈发紧缺&#xff0c;所以希望在非华为电脑中&#xff0c;将华为手机内的照片、视频等大文件备份、整理一下。因此&#xff0c;需…

aardio爬虫) 实战篇:逆向有道翻译web接口

前言 之前的文章把js引擎(aardio封装库) 微软开源的js引擎(ChakraCore))写好了&#xff0c;这篇文章整点js代码来测一下bug。测试网站&#xff1a;https://fanyi.youdao.com/index.html#/ 逆向思路 逆向思路可以看有道翻译js逆向&#xff08;MD5加密&#xff0c;AES加密&…

cmake进阶:定义函数的内部变量

一. 简介 前一篇文章学习 cmake中的定义函数基本用法。文章如下&#xff1a; cmake进阶&#xff1a;定义函数的使用方法-CSDN博客 本文继续学习 cmake中的定义函数&#xff0c;主要学习函数的内部变量。 二. cmake进阶&#xff1a;定义函数的内部变量 上一篇文章说过&…

Elasticsearch:理解人工智能相似性搜索

理解相似性搜索&#xff08;也称为语义搜索&#xff09;的指南&#xff0c;这是人工智能最新阶段的关键发现之一。 最新阶段人工智能的关键发现之一是根据相似性搜索和查找文档的能力。相似性搜索是一种比较信息的方法&#xff0c;其基于含义而非关键字。 相似性搜索也被称为语…

Stable Diffusion学习记录

文章目录 前言电脑配置推荐环境搭建下载地址安装步骤步骤一&#xff0c;打开下载的秋叶整合包&#xff0c;路径秋叶整合包/sd-wenui-aki步骤二&#xff0c;打开下载好的sd-webui-aki-v4.8.7解压包 Stable Diffusion软件配置&#xff0c;插件安装&#xff0c;模型下载Stable Dif…

Codeforces Round 943 (Div. 3) C-G

C. Assembly via Remainders 思路&#xff1a; 我们可以注意到&#xff0c;数组的长度只有 500 500 500 &#xff0c;并且每个数的大小都在 500 500 500 以内&#xff0c;再看向这题&#xff0c;容易知道&#xff0c;当第一个数确定之后&#xff0c;之后所有的数字都会确定下…

leetcode-没有重复项的全排列-97

题目要求 思路 1.递归&#xff0c;如果num和n的元素个数一样就可以插入res中了&#xff0c;这个作为递归的结束条件 2.因为这个题是属于排列&#xff0c;并非组合&#xff0c;两者的区别是排列需要把之前插入的元素在回退会去&#xff0c;而组合不需要&#xff0c;因此会存在一…

14【PS作图】像素画尺寸大小

【背景介绍】本节介绍像素图多大合适 下图是160*144像素大小,有一个显示文本的显示器,还有一个有十几个键的键盘 像素画布尺寸 电脑16像素,但还有一个显示屏 下图为240*160 在场景素材,和对话素材中,用的是不同尺寸的头像,对话素材中的头像会更清楚,尺寸会更大 远处…

【软考高项】三十三、质量管理

一、管理基础 质量定义 国际标准&#xff1a;反映实体满足主体明确和隐含需求的能力的特性总和。 国家标准&#xff1a;一组固有特性满足要求的程度。固有特性是指在某事或某物中本来就有的&#xff0c;尤其是那种永久的可区分的特征。 ➢ 对产品来说&#xff0c;例如…

查看微信小程序主包大小

前言 略 查看微信小程序主包大小 在微信开发者工具右上角找到“详情->基本信息” 查看微信小程序主包构成 通过微信开发者工具中的“代码依赖分析”工具查看

Unity 性能优化之光照优化(七)

提示&#xff1a;仅供参考&#xff0c;有误之处&#xff0c;麻烦大佬指出&#xff0c;不胜感激&#xff01; 文章目录 前言一、测试目的一、实时光源是什么&#xff1f;二、开始测试1.场景中只有一个光照的数值情况2.添加4个点光源后4.结果 总结 前言 实时光源数量越多&#x…

分享一个国内可用的AIGC网站,免费无限制,支持AI绘画

背景 AIGC作为一种基于人工智能技术的自然语言处理工具&#xff0c;近期的热度直接沸腾&#x1f30b;。 作为一个AI爱好者&#xff0c;翻遍了各大基于AIGC的网站&#xff0c;终于找到一个免费&#xff01;免登陆&#xff01;手机电脑通用&#xff01;国内可直接对话的AIGC&am…

保持亮灯:监控工具如何确保 DevOps 中的高可用性

在快速发展的 DevOps 领域&#xff0c;保持高可用性 (HA) 至关重要。消费者期望应用程序具有全天候响应能力和可访问性。销售损失、客户愤怒和声誉受损都是停机的后果。为了使 DevOps 团队能够在问题升级为中断之前主动检测、排除故障并解决问题&#xff0c;监控工具成为这种情…

nginx--tcp负载均衡

mysql负载均衡 安装mysql yum install -y mariadb-server systemctl start mariadb systemctl enable mariadb ss -ntl创建数据库并授权 MariaDB [(none)]> create database wordpress; Query OK, 1 row affected (0.00 sec)MariaDB [(none)]> grant all privileges o…

设计模式(十一):外观模式

设计模式&#xff08;十一&#xff09;&#xff1a;外观模式 1. 外观模式的介绍2. 外观模式的类图3. 外观模式的实现3.1 创建一个接口3.2 创建接口的实现3.3 创建一个外观类3.4 测试 1. 外观模式的介绍 外观模式&#xff08;Facade Pattern&#xff09;属于结构型模式&#xf…

数据结构与算法之经典排序算法

一、简单排序 在我们的程序中&#xff0c;排序是非常常见的一种需求&#xff0c;提供一些数据元素&#xff0c;把这些数据元素按照一定的规则进行排序。比如查询一些订单按照订单的日期进行排序&#xff0c;再比如查询一些商品&#xff0c;按照商品的价格进行排序等等。所以&a…

IT养生知识之:子午流注

《子午流注口诀》 肺寅大卯胃辰宫&#xff0c; 脾巳心午小未中&#xff0c; 申膀酉肾心包戌&#xff0c; 亥焦子胆丑肝通。 何为子午流注&#xff1f; 子午流注是中医圣贤发现的一种规律&#xff0c;中医认为人体中十二条经脉对应着每日的十二个时辰&#xff0c;由于时辰在…

【Osek网络管理测试】[TG3_TC5]等待总线睡眠状态_1

&#x1f64b;‍♂️ 【Osek网络管理测试】系列&#x1f481;‍♂️点击跳转 文章目录 1.环境搭建2.测试目的3.测试步骤4.预期结果5.测试结果 1.环境搭建 硬件&#xff1a;VN1630 软件&#xff1a;CANoe 2.测试目的 验证DUT在满足进入等待睡眠状态的条件时是否进入该状态 …

WP Rocket插件下载:加速您的WordPress网站,提升用户体验

在互联网速度决定用户体验的今天&#xff0c;一个快速加载的网站对于吸引和保留访问者至关重要。WP Rocket插件&#xff0c;作为一款专为WordPress设计的高性能缓存插件&#xff0c;提供了一套完整的解决方案&#xff0c;帮助您优化网站性能&#xff0c;提升用户体验。 [WP Ro…

Django实验(远程访问+图片显示)

众所周知&#xff0c;Python除了不能生孩子什么都会。Python也是可以做web服务的。 Python做web有一个重点优势是&#xff1a;做一个快速的AI Demo。 第一步&#xff1a;安装一个版本5.0以上django 第二步&#xff1a;构建咱们的Django工程&#xff0c;我取名为BBQ django-adm…