对接阿里asr和Azure asr

1:对接阿里asr

1.1:pom

<dependency><groupId>com.alibaba.nls</groupId><artifactId>nls-sdk-recognizer</artifactId><version>2.2.1</version>
</dependency>

1.2:生成token

package com.dahuyou.ali.asr.generatetoken;import com.alibaba.nls.client.AccessToken;import java.io.IOException;/*** 生成token* program argument参数配置:"LTAI5tNg9N*****R28Zazv" "bAgAvjZwc5HVr******ADEAa"** Token: 6599217b19214759*****42ddf0f8016, expire time: 1726774011*/
public class GenerateToken {public static void main(String[] args) {if (args.length < 2) {System.err.println("CreateTokenDemo need params: <accessKeyId> <accessKeySecret>");System.exit(-1);}String accessKeyId = args[0];String accessKeySecret = args[1];System.out.println("accessKeyId="+accessKeyId+"; accessKeySecret="+accessKeySecret);AccessToken accessToken = new AccessToken(accessKeyId, accessKeySecret);try {accessToken.apply();System.out.println("Token: " + accessToken.getToken() + ", expire time: " + accessToken.getExpireTime());} catch (IOException e) {e.printStackTrace();}}
}

其中accessKeyId和accessKeySecret通过阿里云后台获取:
在这里插入图片描述

1.3:在线asr

package com.dahuyou.ali.asr;import java.io.File;
import java.io.FileInputStream;import com.alibaba.nls.client.protocol.InputFormatEnum;
import com.alibaba.nls.client.protocol.NlsClient;
import com.alibaba.nls.client.protocol.SampleRateEnum;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizer;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizerListener;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizerResponse;import org.slf4j.Logger;
import org.slf4j.LoggerFactory;/*** 此示例演示了*      ASR一句话识别API调用*      通过本地文件模拟实时流发送*      识别耗时计算* (仅作演示,需用户根据实际情况实现)*/
public class SpeechRecognizerDemo {private static final Logger logger = LoggerFactory.getLogger(SpeechRecognizerDemo.class);private String appKey;NlsClient client;public SpeechRecognizerDemo(String appKey, String token, String url) {this.appKey = appKey;//TODO 重要提示 创建NlsClient实例,应用全局创建一个即可,生命周期可和整个应用保持一致,默认服务地址为阿里云线上服务地址if(url.isEmpty()) {client = new NlsClient(token);}else {client = new NlsClient(url, token);}}// 传入自定义参数private static SpeechRecognizerListener getRecognizerListener(int myOrder, String userParam) {SpeechRecognizerListener listener = new SpeechRecognizerListener() {//识别出中间结果.服务端识别出一个字或词时会返回此消息.仅当setEnableIntermediateResult(true)时,才会有此类消息返回@Overridepublic void onRecognitionResultChanged(SpeechRecognizerResponse response) {//事件名称 RecognitionResultChanged、 状态码(20000000 表示识别成功)、语音识别文本System.out.println("name: " + response.getName() + ", status: " + response.getStatus() + ", result: " + response.getRecognizedText());}//识别完毕@Overridepublic void onRecognitionCompleted(SpeechRecognizerResponse response) {//事件名称 RecognitionCompleted, 状态码 20000000 表示识别成功, getRecognizedText是识别结果文本System.out.println("name: " + response.getName() + ", status: " + response.getStatus() + ", result: " + response.getRecognizedText());}@Overridepublic void onStarted(SpeechRecognizerResponse response) {System.out.println("myOrder: " + myOrder + "; myParam: " + userParam + "; task_id: " + response.getTaskId());}@Overridepublic void onFail(SpeechRecognizerResponse response) {// TODO 重要提示: task_id很重要,是调用方和服务端通信的唯一ID标识,当遇到问题时,需要提供此task_id以便排查System.out.println("task_id: " + response.getTaskId() + ", status: " + response.getStatus() + ", status_text: " + response.getStatusText());}};return listener;}/// 根据二进制数据大小计算对应的同等语音长度/// sampleRate 仅支持8000或16000public static int getSleepDelta(int dataSize, int sampleRate) {// 仅支持16位采样int sampleBytes = 16;// 仅支持单通道int soundChannel = 1;return (dataSize * 10 * 8000) / (160 * sampleRate);}public void process(String filepath, int sampleRate) {SpeechRecognizer recognizer = null;try {// 传递用户自定义参数String myParam = "user-param";int myOrder = 1234;SpeechRecognizerListener listener = getRecognizerListener(myOrder, myParam);recognizer = new SpeechRecognizer(client, listener);recognizer.setAppKey(appKey);//设置音频编码格式 TODO 如果是opus文件,请设置为 InputFormatEnum.OPUSrecognizer.setFormat(InputFormatEnum.PCM);//设置音频采样率if(sampleRate == 16000) {recognizer.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);} else if(sampleRate == 8000) {recognizer.setSampleRate(SampleRateEnum.SAMPLE_RATE_8K);}//设置是否返回中间识别结果recognizer.setEnableIntermediateResult(true);//此方法将以上参数设置序列化为json发送给服务端,并等待服务端确认long now = System.currentTimeMillis();recognizer.start();logger.info("ASR start latency : " + (System.currentTimeMillis() - now) + " ms");File file = new File(filepath);FileInputStream fis = new FileInputStream(file);byte[] b = new byte[3200];int len;while ((len = fis.read(b)) > 0) {logger.info("send data pack length: " + len);recognizer.send(b, len);// TODO  重要提示:这里是用读取本地文件的形式模拟实时获取语音流并发送的,因为read很快,所以这里需要sleep// TODO  如果是真正的实时获取语音,则无需sleep, 如果是8k采样率语音,第二个参数改为8000// 8000采样率情况下,3200byte字节建议 sleep 200ms,16000采样率情况下,3200byte字节建议 sleep 100msint deltaSleep = getSleepDelta(len, sampleRate);Thread.sleep(deltaSleep);}//通知服务端语音数据发送完毕,等待服务端处理完成now = System.currentTimeMillis();// TODO 计算实际延迟: stop返回之后一般即是识别结果返回时间logger.info("ASR wait for complete");recognizer.stop();logger.info("ASR stop latency : " + (System.currentTimeMillis() - now) + " ms");fis.close();} catch (Exception e) {System.err.println(e.getMessage());} finally {//关闭连接if (null != recognizer) {recognizer.close();}}}public void shutdown() {client.shutdown();}// "e6hRW********ho" "659*************42ddf0f8016" "wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1"public static void main(String[] args) throws Exception {String appKey = "你的appkey,在asr应用列表获取";String token = "你的token,上一步生成的,也支持在asr后台获取临时的";String url = ""; // 默认即可,默认值:wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1if (args.length == 2) {appKey   = args[0];token       = args[1];} else if (args.length == 3) {appKey   = args[0];token       = args[1];url      = args[2];} else {System.err.println("run error, need params(url is optional): " + "<app-key> <token> [url]");System.exit(-1);}SpeechRecognizerDemo demo = new SpeechRecognizerDemo(appKey, token, url);// TODO 重要提示: 这里用一个本地文件来模拟发送实时流数据,实际使用时,用户可以从某处实时采集或接收语音流并发送到ASR服务端demo.process("./nls-sample-16k.wav", 16000);//demo.process("./nls-sample.opus", 16000);demo.shutdown();}
}

运行:
在这里插入图片描述
nls-sample-16k.wav 。

2:对接azure asr

2.1:pom

<dependency><groupId>com.microsoft.cognitiveservices.speech</groupId><artifactId>client-sdk</artifactId><version>1.40.0</version>
</dependency>

2.2:在线asr

package com.dahuyou.azure.asr.A;import com.microsoft.cognitiveservices.speech.CancellationReason;
import com.microsoft.cognitiveservices.speech.ResultReason;
import com.microsoft.cognitiveservices.speech.SpeechConfig;
import com.microsoft.cognitiveservices.speech.SpeechRecognizer;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
import com.microsoft.cognitiveservices.speech.audio.PushAudioInputStream;import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;public class AzureSpeechRecognition {  public static void main(String[] args) {  try {  // 替换为你的订阅密钥和区域  String speechSubscriptionKey = "你的订阅密钥";String region = "你的区域";SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechSubscriptionKey, region);// 设置中文speechConfig.setSpeechRecognitionLanguage("zh-CN");
//            PushAudioInputStream pushAudioInputStream = new PushAudioInputStream();PushAudioInputStream pushAudioInputStream = PushAudioInputStream.create();// 使用默认麦克风  
//            AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();// Recognized: 北京的天气。
//            AudioConfig audioConfig = AudioConfig.fromWavFileInput("D:\\xiaofuge_sourcecode\\interview-master\\aliasr\\nls-sample-16k.wav");
//            AudioConfig audioConfig = AudioConfig.fromWavFileInput("D:\\test\\ttsmaker-file-2024-9-19-17-35-30.wav");AudioConfig audioConfig = AudioConfig.fromStreamInput(pushAudioInputStream);// 假设你有一个方法可以从网络接收音频流
//            InputStream audioStream = receiveAudioStreamFromNetwork();
//
//            // 准备AudioConfig(这里需要你自己实现转换逻辑)
//            AudioConfig audioConfig = prepareAudioConfig(audioStream);SpeechRecognizer recognizer = new SpeechRecognizer(speechConfig, audioConfig);  // 订阅事件  recognizer.recognized.addEventListener((s, e) -> {  if (e.getResult().getReason() == ResultReason.RecognizedSpeech) {System.out.println("Recognized: " + e.getResult().getText());  }  });recognizer.recognizing.addEventListener((s, e) -> {if (e.getResult().getReason() == ResultReason.RecognizingSpeech) {System.out.println("RecognizingSpeech: " + e.getResult().getText());}});recognizer.canceled.addEventListener((s, e) -> {  System.out.println("Canceled " + e.getReason());  if (e.getReason() == CancellationReason.Error) {System.out.println("Error details: " + e.getErrorDetails());  }  });  // 开始识别  recognizer.startContinuousRecognitionAsync().get();String filepath = "d:\\test\\ttsmaker-file-2024-9-19-18-51-21.wav";File file = new File(filepath);FileInputStream fis = new FileInputStream(file);byte[] b = new byte[3200];int len;while ((len = fis.read(b)) > 0) {
//                recognizer.send(b, len);byte[] usedByte = new byte[len];if (len < 3200) {System.arraycopy(b, 0, usedByte, 0, len);} else {usedByte = b;}System.out.println(" usedByte send data pack length: " + usedByte.length);//                pushAudioInputStream.write(b);pushAudioInputStream.write(usedByte);// TODO  重要提示:这里是用读取本地文件的形式模拟实时获取语音流并发送的,因为read很快,所以这里需要sleep// TODO  如果是真正的实时获取语音,则无需sleep, 如果是8k采样率语音,第二个参数改为8000// 8000采样率情况下,3200byte字节建议 sleep 200ms,16000采样率情况下,3200byte字节建议 sleep 100ms
//                int deltaSleep = getSleepDelta(len, sampleRate);int deltaSleep = 200;Thread.sleep(deltaSleep);usedByte = null;}pushAudioInputStream.close();// 保持程序运行,等待用户输入或其他方式停止  System.in.read();  // 停止识别  recognizer.stopContinuousRecognitionAsync().get();  } catch (Exception ex) {  ex.printStackTrace();  }  }//    // 假设你有一个方法来接收网络上的音频流(这里用伪代码表示)
//    static InputStream receiveAudioStreamFromNetwork() {
//        // 使用HTTP、WebSocket等接收音频流
//        // 这里返回一个InputStream,但实际上你可能需要更复杂的处理
//        return new InputStream() {
//            // 实现InputStream的read等方法来从网络读取数据
//        };
//    }//    // 将InputStream转换为Azure Speech SDK可以处理的格式(这里简化为直接返回)
 在实际中,你可能需要将其写入WAV文件或使用内存中的流
//    static AudioConfig prepareAudioConfig(InputStream inputStream) {
//        // 注意:Azure Speech SDK的Java版本通常不直接从InputStream读取
//        // 你可能需要将inputStream写入到WAV文件,并使用AudioConfig.fromWavFileInput
//        // 但这里我们假设有一个方法可以直接处理
//        // return AudioConfig.fromCustomStream(inputStream); // 这是一个假设的方法
//        return null; // 实际上你需要实现这个转换
//    }}

运行:

RecognizingSpeech: 你好啊我usedByte send data pack length: 3200usedByte send data pack length: 3200usedByte send data pack length: 3200
RecognizingSpeech: 你好啊我是usedByte send data pack length: 3200usedByte send data pack length: 3200usedByte send data pack length: 3200usedByte send data pack length: 3200
RecognizingSpeech: 你好啊我是张三usedByte send data pack length: 2894
Recognized: 你好啊,我是张三。
Recognized: 
Canceled EndOfStream

ttsmaker-file-2024-9-19-18-51-21.wav 。

写在后面

参考文章列表

Java SDK 。

azure 。

在线配音工具 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/54633.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【动态规划】两个数组的 dp 问题二

两个数组的 dp 问题 1.正则表达式匹配2.交错字符串3.两个字符串的最小ASCII删除和4.最长重复子数组 点赞&#x1f44d;&#x1f44d;收藏&#x1f31f;&#x1f31f;关注&#x1f496;&#x1f496; 你的支持是对我最大的鼓励&#xff0c;我们一起努力吧!&#x1f603;&#x1…

创客匠人对话:创始人IP如何进阶?掌握这三点实现高质量多次转化

我们邀请到老蒋创客圈第67期对话标杆直播连麦&#xff0c;我们邀请到【君儒文化】平台创始人彭君如老师。从去年12月份参加创客匠人的线下大课后&#xff0c;就果断加入陪跑&#xff0c;到今年7月份顺利拿到68w的发售大结果。 前面我们介绍了彭老师的传承、发心愿景&#xff0…

小程序体验版无法正常请求接口,开启 调试可以正常请求

在本地开发工具可以正常访问小程序&#xff0c;上传代码后打开体验版&#xff0c;界面无法请求接口&#xff0c;手机小程序打开调试模式可以正常访问。这可以查看下小程序后台是否设置了服务器域名以及业务域名 然后查看小程序开发工具 - 详情 - 项目配置 重新上传代码&#xf…

vue无感刷新Token并重新请求

vue 拦截器拦截401重新请求Token 无感刷新Token 之后重新请求报401的接口 instance.interceptors.response.use(async (response) > {let { data } response;if (data.code 401 || data.code 403) {return await handleExpiredToken(response.config);}if (data.code ! …

二叉树的层序遍历(含八道leetcode相关题目)

文章目录 二叉树层序遍历模板102. 二叉树的层序遍历107. 二叉树的层序遍历 II199. 二叉树的右视图637. 二叉树的层平均值515. 在每个树行中找最大值429. N 叉树的层序遍历116. 填充每个节点的下一个右侧节点指针117. 填充每个节点的下一个右侧节点指针 II 二叉树层序遍历模板 …

240922-局域网内通过SSH与SFTP访问RHEL服务器

要通过SFTP&#xff08;安全文件传输协议&#xff09;在局域网内访问一台RHEL服务器&#xff0c;您需要确保以下步骤都已经正确完成&#xff1a; A. 在RHEL服务器上配置SFTP服务 RHEL默认通过sshd服务提供SFTP功能&#xff0c;SFTP使用SSH协议进行文件传输&#xff0c;因此需要…

【二等奖论文】2024年华为杯研赛D题成品论文(后续会更新)

您的点赞收藏是我继续更新的最大动力&#xff01; 一定要点击如下的卡片&#xff0c;那是获取资料的入口&#xff01; 点击链接获取【2024华为杯研赛资料汇总】&#xff1a; https://qm.qq.com/q/jTIeGzwkSchttps://qm.qq.com/q/jTIeGzwkSc 题 目&#xff1a; 大数据驱动的…

如何理解数据资产?

1.数据分类 对于企业来说&#xff0c;数据的产出创建、应用和管理无处不在。而在使用数据的前提下是必须了解数据&#xff0c;常见的企业数据分为三大类&#xff1a;主数据、业务数据及分析数据。 主数据&#xff1a;企业中的“黄金数据”&#xff0c;它用来承载业务数据和分析…

基于Ambari搭建hadoop生态圈+Centos7安装教程(还没写完,等明天补充完整)

当我们学习搭建hadoop的时候&#xff0c;未免也会遇见很多繁琐的事情&#xff0c;比如很多错误&#xff0c;需要解决。在以后公司&#xff0c;也不可能让你一个一个搭建hadoop&#xff0c;成千上万的电脑&#xff0c;你再一个个搭建&#xff0c;一个个报错&#xff0c;而且每台…

WebGL颜色与纹理

WEBGL中的着色器变量包括以下种类&#xff1a; 属性变量&#xff08;Attribute Variables&#xff09;&#xff1a;这些变量用于接收从应用程序中传递的顶点数据&#xff0c;比如顶点位置和颜色&#xff0c;是只读的不可修改。统一变量&#xff08;Uniform Variables&#xff…

小红书自动化写文以及发文机器人

&#x1f4aa;&#x1f3fb; 1. Python基础专栏&#xff0c;基础知识一网打尽&#xff0c;9.9元买不了吃亏&#xff0c;买不了上当。 Python从入门到精通 &#x1f601; 2. 毕业设计专栏&#xff0c;毕业季咱们不慌忙&#xff0c;几百款毕业设计等你选。 ❤️ 3. Python爬虫专栏…

Pinia:Vue.js 状态管理的新选择

目录 1.前言 2.Pinia 的核心概念 3.安装 Pinia 4.创建和使用 Store 5.为什么选择 Pinia&#xff1f; 6.结论 1.前言 在 Vue.js 的生态系统中&#xff0c;状态管理是一个核心概念&#xff0c;尤其是对于复杂的单页应用&#xff08;SPA&#xff09;。随着 Vue 3 的推出&…

解决前端下载特殊文件404问题(以Kestrel 服务器为例)

在某些情况下前端需要将服务器上的静态文件下载到本地&#xff0c;对于大部分文件通过HTTP Get方法就可以直接下载&#xff0c;但是有些特殊的静态文件&#xff08;例如.py文件&#xff0c;.cs文件等&#xff09;我们下载时会返回404找不到文件&#xff0c;下面我们以Kestrel 服…

[数据集][目标检测]红外微小目标无人机直升机飞机飞鸟检测数据集VOC+YOLO格式7559张4类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;7559 标注数量(xml文件个数)&#xff1a;7559 标注数量(txt文件个数)&#xff1a;7559 标注…

Vue主题色实现

主题色实现 情境 配置平台支持多个主题色的选择&#xff0c;用户可通过在配置平台选择项目主题色。前端项目在骨架屏加载页面获取配置信息&#xff0c;设置项目主题色&#xff0c;实现同个项目不同主题色渲染的需求 实现 1.定义主题色变量 不同主题色根据不同js文件划分定…

Java ETL - Apache Beam 简介

基本介绍 Apache Beam是一个用于大数据处理的开源统一编程模型。它允许用户编写一次代码&#xff0c;然后在多个批处理和流处理引擎上运行&#xff0c;如Apache Flink、Apache Spark和Google Cloud Dataflow等。Apache Beam提供了一种简单且高效的方式来实现数据处理管道&…

使用python操作数据库

文章目录 一、问题背景二、安装python三、代码示例四、总结 一、问题背景 在日常开发过程中&#xff0c;随着项目进展和业务功能的迭代&#xff0c;我们需要对数据库的表结构进行修改&#xff0c;向部分表中追加字段&#xff0c;并对追加后的字段进行数据填充。但是如果需要追加…

C++ STL之队列queue和双端队列deque

一. 概述 1.1 queue std::queue 是 C STL 中的一个容器适配器&#xff0c;用于实现先进先出&#xff08;FIFO&#xff0c;First In First Out&#xff09;的数据结构&#xff0c;它允许在一端添加元素&#xff08;称为队尾&#xff09;&#xff0c;并在另一端移除元素&#x…

《算法笔记》例题解析 第3章入门模拟--4日期处理(9题)2021-03-03

日期 题目描述 Time Limit: 1000 ms Memory Limit: 256 mb 今天是2012年4月12日星期四&#xff0c;编写程序&#xff0c;输入今天开始到12月31日之间的任意日期&#xff0c;输出那一天是星期几。例如输入“5&#xff08;回车&#xff09;20&#xff08;回车&#xff09;”&am…

DETR论文翻译与理解

DETR&#xff08;Detection with transformer&#xff09; DETR&#xff1a;End to End Object Detection with Transformer 论文链接&#xff1a;2005.12872 (arxiv.org) 参考视频&#xff1a;https://www.bilibili.com/video/BV1GB4y1X72R/?spm_id_from333.788&vd_…