【基于MAX98357的Minimax(百度)长文本语音合成TTS 接入教程】

【基于MAX98357的Minimax(百度)长文本语音合成TTS 接入教程】

  • 1. 前言
  • 2. 先决条件
    • 2.1 硬件准备
    • 2.2 软件准备
    • 2.3 接线
  • 3. 核心代码
    • 3.1 驱动实现
    • 3.2 代码解析
  • 4. 播放文本
  • 5. 结论

视频地址:

SeeedXIAO ESP32S3 Sense【基于MAX98357的Minimax(百度)长文本语音合成TTS 接入教程】

1. 前言

随着物联网技术的快速发展,智能设备的交互方式也在不断进化。语音合成技术(TTS)作为人机交互的重要组成部分,正变得越来越普及。本文将介绍如何利用SeeedXIAO ESP32S3 Sense开发板与MAX98357音频放大器结合,实现与Minimax长文本语音合成服务的集成,打造一个功能丰富的语音交互系统。
在这里插入图片描述

2. 先决条件

2.1 硬件准备

  • ESP32开发板(推荐XIAO开发板)
  • MAX98357 I2S 音频放大器模块
  • 扬声器
  • 跳线(杜邦线)

目前这是我使用的ESP32S3官方硬件👍👍👍(小小的身材有大大的力量)只需要35元加摄像头麦克风79元,后期我会整理相关专栏进行Arduino系统学习😘😘😘。有需要可以购买xiao开发板💕💕💕,SeeedXIAO ESP32S3 Sense硬件购买地址:https://s.click.taobao.com/lekazrt
在这里插入图片描述

2.2 软件准备

  1. Arduino IDE:下载并安装 Arduino IDE;
  2. ESP32 开发板库:在 Arduino IDE 中添加 ESP32 支持;
    参考博客:【esp32c3配置arduino IDE教程】
    为安装过程留出一些时间,具体时间可能因您的互联网连接而异。
  3. ESP32-audioI2S库安装
  • 首先到GITHUB下载「ESP32-audioI2S」 仓库地址:https://github.com/schreibfaul1/ESP32-audioI2S/
  • 解压源码包
  • 把解压的文件放进Arduino IDE的libraries文件夹
    在这里插入图片描述
  1. ArduinoJson库安装
    在这里插入图片描述
    安装成功如上

2.3 接线

ESP32与MAX98357的接线非常简单,只需要将ESP32的I2S接口与MAX98357的相应引脚连接即可。具体接线如下:

  • XIAO D4( ESP32的I2S_BCLK_5)连接到MAX98357的BCLK
  • XIAO D3( ESP32的I2S_LRC_4)连接到MAX98357的LRC
  • XIAO D5( ESP32的I2S_DOUT_6)连接到MAX98357的DIN

在这里插入图片描述

3. 核心代码

下面准备进行了基于ESP32 的硬件测试,此部分有源码分享和代码解析两部分

3.1 驱动实现

在Arduino IDE中,首先需要安装ESP32-audioI2S库和ArduinoJson库。然后将ESP32S3N8R8开发板与MAX98357音频放大器结合,实现与Minimax长文本语音合成TTS服务的集成。以下是一个简单的示例接入Minimax 代码:

#include <Audio.h>
#include <WiFi.h>
#include <HTTPClient.h>
#include <ArduinoJson.h>
#include "Arduino.h"
//1. Replace with your network credentials
const char* ssid = "J09 502";
const char* password = "qwertyuiop111";      // Change this to your WiFi password
String voice_id = "female-tianmei-jingpin";  //青年大学生音色:male-qn-daxuesheng;甜美女性音色:female-tianmei;男性主持人:presenter_male;女性主持人:presenter_female
// 2. Replace with your OpenAI API key
const char* apiKey = "eyJhbGciOiaWwiOiIiLCJDcmVhdGVUaW1lIjoiMjAyNC0wMy0xNiAxMzoyNDoxOCIsImlzcyI6Im1pbmltYXgifQ.WlEj8Nk0j_WOMXZE9SbIC8sHpwJ6R6Pi8Spl5mahJsW3-Jsz7Ev53sGGz3v__Bd5dDkt7o9-Y8BOW0WZq2ImaN7Rof7YNtYnYnvPNDyGx23_xRqq5co9P5UkC3ciYEcIch2SUZ5QPkXR-sMUPzhdowSYvfdu1N25kdKJ8GE_63NfCnsdDVt8mv0wQSSweJK0yf_C8a8ADdB1uF4vg_WKMDjHlvzERsoNZgX6FYtr-bee85rIyu4U-OrbUvEpR1FLPXa7lTlx65QvhVIYGbIKde7ERIT_7QLOQoVFvPz0gX-H6V7UlmSRgRy4LK_R9mvV5TqCy3v90WK_AFuwEhPXcg";
const char* group_id = "1759482180095975904";
const char* url = "https://api.minimax.chat/v1/t2a_pro?GroupId=1759482180095975904";
char myCharPointer;
//扬声器引脚
#define I2S_DOUT 6  // DIN connection
#define I2S_BCLK 5  // Bit clock
#define I2S_LRC 4   // Left Right ClockAudio audio;
String answerv;
String getvAnswer(void) {HTTPClient http1;http1.setTimeout(10000);http1.begin(url);http1.addHeader("Content-Type", "application/json");String token_key = String("Bearer ") + apiKey;http1.addHeader("Authorization", token_key);// 创建一个StaticJsonDocument对象,足够大以存储JSON数据StaticJsonDocument<200> doc;// 填充数据doc["text"] = "我是鹏鹏的小助手,你好鸭";doc["model"] = "speech-01";doc["audio_sample_rate"] = 32000;doc["bitrate"] = 128000;doc["voice_id"] = voice_id;// 创建一个String对象来存储序列化后的JSON字符串String jsonString;// 序列化JSON到String对象serializeJson(doc, jsonString);int httpResponseCode1 = http1.POST(jsonString);if (httpResponseCode1 != 200) {Serial.println("HTTP Request Failed");http1.end();return "<error>";}String reason = http1.getString();Serial.println("Received response:");Serial.println(reason);http1.end();DynamicJsonDocument jsonDoc1(1024);deserializeJson(jsonDoc1, reason);String outputText = jsonDoc1["audio_file"];return outputText;
}void set_voice() {answerv = getvAnswer();Serial.print(answerv);char myCharPointer[answerv.length() + 1];  // 分配足够的空间来存储字符串strcpy(myCharPointer, answerv.c_str());    // 复制字符串到 myCharPointeraudio.connecttohost(myCharPointer);        //  128k mp3
}void setup() {// Initialize SerialSerial.begin(115200);// Connect to Wi-Fi networkWiFi.mode(WIFI_STA);WiFi.begin(ssid, password);Serial.print("Connecting to WiFi ..");while (WiFi.status() != WL_CONNECTED) {Serial.print('.');delay(1000);}Serial.println(WiFi.localIP());// print the SSID of the network you're attached to:Serial.print("SSID: ");Serial.println(WiFi.SSID());// print your WiFi shield's IP address:IPAddress ip = WiFi.localIP();Serial.print("IP Address: ");Serial.println(ip);audio.setPinout(I2S_BCLK, I2S_LRC, I2S_DOUT);audio.setVolume(20);  // 0...21// audio.connecttohost("https://minimax-algeng-chat-tts.oss-cn-wulanchabu.aliyuncs.com/audio%2Ftts-mp3-20240406123922-amZgimLG.mp3?Expires=1712493562&OSSAccessKeyId=LTAI5tGLnRTkBjLuYPjNcKQ8&Signature=omJ5fmpPvXMoR1nk9D8UbJqR3L4%3D"); //  128k mp3
}void loop() {audio.loop();while (Serial.available() > 0) {char voice = Serial.read();// Serial.println(voice);switch (voice) {case '1':voice_id = "male-qn-daxuesheng";break;case '2':voice_id = "female-tianmei";break;case '3':voice_id = "presenter_male";break;case '4':voice_id = "presenter_female";break;}Serial.println(voice_id);set_voice();}}

百度TTS接入代码如下:

#include <WiFi.h>
#include <HTTPClient.h>
#include <UrlEncode.h>
#include "Arduino.h"
#include "WiFiMulti.h"
#include "Audio.h"// 1、修改MAX98357喇叭接口
#define I2S_DOUT 6
#define I2S_BCLK 5
#define I2S_LRC 4Audio audio;
WiFiMulti wifiMulti;
// 2、修改WiFi密码
const char *ssid = "J09 502";
const char *password = "qwertyuiop111";  // Change this to your WiFi password
// 3、修改百度语音助手的用户信息
const char *API_KEY = "BXL2YS5w67Xw5XDq";
const char *SECRET_KEY = "pb2zIW2Nch2uNtceKX";
// 4、修改播放文本内容
String encodedText = "人家刚满18岁";const int PER = 4;
const int SPD = 5;
const int PIT = 5;
const int VOL = 5;
const int AUE = 6;const char *TTS_URL = "https://tsn.baidu.com/text2audio";
String url = TTS_URL;
void setup() {Serial.begin(115200);WiFi.begin(ssid, password);while (WiFi.status() != WL_CONNECTED) {delay(1000);Serial.println("Connecting to WiFi...");}Serial.println("Connected to WiFi");encodedText = urlEncode(urlEncode(encodedText));tts_get();player();
}
void tts_get() {const char *headerKeys[] = { "Content-Type", "Content-Length" };// 5、修改百度语音助手的tokenurl += "?tok=24.e169f864a91715325118.282335-57722200";url += "&tex=" + encodedText;url += "&per=" + String(PER);url += "&spd=" + String(SPD);url += "&pit=" + String(PIT);url += "&vol=" + String(VOL);url += "&aue=" + String(AUE);url += "&cuid=esp32s3";url += "&lan=zh";url += "&ctp=1";HTTPClient http;Serial.print("URL: ");Serial.println(url);http.begin(url);http.collectHeaders(headerKeys, 2);int httpResponseCode = http.GET();if (httpResponseCode > 0) {if (httpResponseCode == HTTP_CODE_OK) {Serial.print("Content-Type = ");Serial.println(http.header("Content-Type"));String contentType = http.header("Content-Type");if (contentType.startsWith("audio")) {Serial.println("合成成功,返回的是音频文件");// 处理音频文件,保存到SD卡或者播放} else if (contentType.equals("application/json")) {Serial.println("合成出现错误,返回的是JSON文本");// 处理错误信息,根据需要进行相应的处理} else {Serial.println("未知的Content-Type");// 可以添加相应的处理逻辑}} else {Serial.println("Failed to receive audio file");}} else {Serial.print("Error code: ");Serial.println(httpResponseCode);}http.end();
}
void loop() {audio.loop();if (Serial.available()) {  // put streamURL in serial monitoraudio.stopSong();String r = Serial.readString();r.trim();if (r.length() > 5) audio.connecttohost(r.c_str());log_i("free heap=%i", ESP.getFreeHeap());}
}void player() {// WiFi.mode(WIFI_STA);// wifiMulti.addAP(ssid.c_str(), password.c_str());// wifiMulti.run();// if(WiFi.status() != WL_CONNECTED){//     WiFi.disconnect(true);//     wifiMulti.run();// }const char *host = url.c_str();audio.setPinout(I2S_BCLK, I2S_LRC, I2S_DOUT);audio.setVolume(12);        // 0...21audio.connecttohost(host);  //  128k mp3
}

同样需要修改WiFi密码和百度TTS配置

3.2 代码解析

  • 修改网络连接:使用WiFi.begin(ssid, password)连接到Wi-Fi网络。
//1. Replace with your network credentials
const char* ssid = "J09 502";
const char* password = "qwertyuiop111";      // Change this to your 
  • 修改API密钥:将获取的apiKey和group_id替换到代码中相应的位置。
// 2. Replace with your OpenAI API key
const char* apiKey = "eyJhbGciOiaWwiOiIiLCJDcmVhdGVUaW1lIjoiMjAyNC0wMy0xNiAxMzoyNDoxOCIsImlzcyI6Im1pbmltYXgifQ.WlEj8Nk0j_WOMXZE9SbIC8sHpwJ6R6Pi8Spl5mahJsW3-Jsz7Ev53sGGz3v__Bd5dDkt7o9-Y8BOW0WZq2ImaN7Rof7YNtYnYnvPNDyGx23_xRqq5co9P5UkC3ciYEcIch2SUZ5QPkXR-sMUPzhdowSYvfdu1N25kdKJ8GE_63NfCnsdDVt8mv0wQSSweJK0yf_C8a8ADdB1uF4vg_WKMDjHlvzERsoNZgX6FYtr-bee85rIyu4U-OrbUvEpR1FLPXa7lTlx65QvhVIYGbIKde7ERIT_7QLOQoVFvPz0gX-H6V7UlmSRgRy4LK_R9mvV5TqCy3v90WK_AFuwEhPXcg";
const char* group_id = "1759482180095975904";
const char* url = "https://api.minimax.chat/v1/t2a_pro?GroupId=1759482180095975904";

去Minimax官网获取:https://www.minimaxi.com/user-center/basic-information

  1. group ID获取
    在这里插入图片描述
  2. api KEy获取
    在这里插入图片描述
  3. const char* url = "https://api.minimax.chat/v1/t2a_pro?GroupId=1759482180095975904";请求不需要变化
  • 音色选择:通过1234分别选择//青年大学生音色:male-qn-daxuesheng;甜美女性音色:female-tianmei;男性主持人:presenter_male;女性主持人:presenter_female
  • 音频播放:使用audio.connecttohost(myCharPointer)将获取的音频文件URL传递给MAX98357进行播放。

以上通过发送HTTP请求到Minimax TTS API,将文本转换为语音。将转换后的语音文件通过MAX98357播放出来。

4. 播放文本

先上烧录配置
在这里插入图片描述

在ESP32上运行上述代码后,它将自动连接到WiFi并开始播放指定的MP3音乐文件。你也可以通过串口发送1234分别选择//青年大学生音色:male-qn-daxuesheng;甜美女性音色:female-tianmei;男性主持人:presenter_male;女性主持人:presenter_female,以实现在线播放。
打开串口115200波特率,选择没有结束符,输入1等待答复
在这里插入图片描述

5. 结论

🥳🥳🥳现在,我们在本教程中,您学习了通过本教程,您应该能够成功地将ESP32S3N8R8开发板与MAX98357音频放大器结合,实现与Minimax长文本语音合成TTS服务的集成。这不仅能够为您的项目增加语音交互功能,还能够提升用户体验。🛹🛹🛹从而实现对外部世界进行感知,充分认识这个有机与无机的环境,在实际应用中,您可能还需要考虑如何优化网络请求的效率、如何处理不同语言和口音的文本,以及如何提高系统的稳定性和响应速度。希望本教程能够作为您开始探索语音合成技术的一个起点,随着技术的不断进步,未来将有更多创新的应用等待着我们去发现和实现。🥳🥳🥳科学地合理地进行创作和发挥效益,然后为人类社会发展贡献一点微薄之力。🤣🤣🤣

参考资料:

  • ESP32-audioI2S库
  • MAX98357芯片手册
  • https://github.com/schreibfaul1/ESP32-audioI2S/
  • 【ESP32使用MAX98357播放音频】

如果你有任何问题,可以通过下面的二维码加入鹏鹏小分队,期待与你思维的碰撞😘😘😘

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/6225.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

富文本编辑器 iOS

https://gitee.com/klkxxy/WGEditor-mobile#wgeditor-mobile 采用iOS系统浏览器做的一款富文本编辑器工具。 原理就是使用WKWebView加载一个本地的一个html文件&#xff0c;从而达到编辑器功能的效果&#xff01; 由于浏览器的一些特性等&#xff0c;富文本编辑器手机端很难做…

链表的回文结构(详解)

链表的回文结构&#xff08;详解&#xff09; 题目&#xff1a; 链表的回文结构 对于一个链表&#xff0c;请设计一个时间复杂度为O(n),额外空间复杂度为O(1)的算法&#xff0c;判断其是否为回文结构。 给定一个链表的头指针A&#xff0c;请返回一个bool值&#xff0c;代表…

Web前端一套全部清晰 ⑥ day4 CSS.1 基础选择器、文字控制属性

后来的我不在抱怨 所有的事与愿违都是我能力或者判断力不足 仅此而已 —— 24.5.1 一、CSS定义 1. 将CSS放在html文件的<style>标签中 层叠样式表(Cascading style Sheets&#xff0c;缩写为 CSS)&#xff0c;是一种 样式表 语言&#xff0c;用来描述 HTML 文档的呈现(美…

轴承故障检测(分类任务)+傅里叶变化+CNN+matlab

1 介绍 使用西储大学的轴承数据集&#xff0c;其实用哪个都行&#xff0c;可能最后的精度会不一样&#xff0c;先读取数据&#xff0c;然后使用傅里叶转换为图像&#xff0c;然后搭建cnn模型&#xff0c;将图像大小转换为模型使用的大小&#xff0c;例如resnet50&#xff0c;输…

机器学习每周挑战——二手车车辆信息交易售价数据

这是数据集的截图 目录 背景描述 数据说明 车型对照&#xff1a; 燃料类型对照&#xff1a; 老规矩&#xff0c;第一步先导入用到的库 第二步&#xff0c;读入数据&#xff1a; 第三步&#xff0c;数据预处理 第四步&#xff1a;对数据的分析 第五步&#xff1a;模型建…

【linuxC语言】空洞文件

文章目录 前言一、空洞文件1.1 空洞文件的介绍1.2 用途 二、示例代码总结 前言 在 Linux 系统编程中&#xff0c;空洞文件是一种特殊类型的文件&#xff0c;它包含了逻辑上的空洞&#xff0c;也就是说文件中的某些部分并没有实际写入数据。尽管文件在逻辑上可能非常大&#xf…

docker系列9:容器卷挂载(下)

传送门 docker系列1&#xff1a;docker安装 docker系列2&#xff1a;阿里云镜像加速器 docker系列3&#xff1a;docker镜像基本命令 docker系列4&#xff1a;docker容器基本命令 docker系列5&#xff1a;docker安装nginx docker系列6&#xff1a;docker安装redis docker系…

预训练模型介绍

一、什么是GPT GPT 是由人工智能研究实验室 OpenAI 在2022年11月30日发布的全新聊天机器人模型, 一款人工智能技术驱动的自然语言处理工具 它能够通过学习和理解人类的语言来进行对话, 还能根据聊天的上下文进行互动,能完成撰写邮件、视频脚本、文案、翻译、代码等任务 二、 为…

【JVM】内存调优——内存泄漏、内存溢出

内存调优 什么是内存泄漏、内存泄漏&#xff1f; 内存泄漏&#xff1a;在Java中如果不再使用一个对象&#xff0c;但是该对象依然在GC ROOT的引用链上&#xff0c;这个对象就不会被垃圾回收器回收。内存溢出&#xff1a;内存的使用量超过了Java虚拟机可以分配的上限&#xff…

如何让 PDF 书签从杂乱无序整洁到明丽清新

1、拉取书签&#xff08;详细步骤看文末扩展阅读&#xff09; 原状态 —— 杂乱无序 自动整理后的状态 —— 错落有致&#xff0c;但摩肩接踵 2、开始整理 全选自动整理后的书签&#xff0c;剪切 访问中英混排排版优化 - 油条工具箱 https://utils.fun/cn-en 1 粘贴 → 2 …

020、Python+fastapi,第一个Python项目走向第20步:ubuntu 24.04 docker 安装mysql8、redis(一)

系列文章 pythonvue3fastapiai 学习_浪淘沙jkp的博客-CSDN博客https://blog.csdn.net/jiangkp/category_12623996.html 前言 docker安装起来比较方便&#xff0c;不影响系统整体&#xff0c;和前面虚拟环境有异曲同工之妙&#xff0c;今天把老笔记本T400拿出来装了个ubuntu24…

Covalent Network(CQT)为 Arbitrum 生态提供 250 万美元的资助,以促进 Web3 的创新与发展

Covalent Network&#xff08;CQT&#xff09;作为 Web3 领先的“数据可用性”层&#xff0c;宣布将提供 250 万美元的资金以支持 Arbitrum 生态项目&#xff0c;包括 Arbitrum One、Nova、Orbit 或 Stylus。此举旨在通过提供资源和帮助&#xff0c;推动利用 Arbitrum 网络上 C…

【JVM】JMM 内存模型

JMM 概述 内存模型 java[内存模型](Java Memory Model) 和 [内存结构]JMM规定了在多线程下对共享数据的读写时&#xff0c;对数据的原子性 有序性 可见性的规则和保障。 原子性 原子性问题: i和i–不是原子性操作! 所以一个i指令会在执行过程中被另一个线程执行! 问题分…

牛客美团2024年春招第一场笔试【技术】解题

1.小美的平衡矩阵 小美拿到了一个n∗n的矩阵&#xff0c;其中每个元素是 0 或者 1。 小美认为一个矩形区域是完美的&#xff0c;当且仅当该区域内 0 的数量恰好等于 1 的数量。 现在&#xff0c;小美希望你回答有多少个i∗i的完美矩形区域。你需要回答1≤i≤n的所有答案 输出…

VSCode连接远程服务器时卡在审核(check)log.txt和pid.txt

诸神缄默不语-个人CSDN博文目录 VSCode就NM跟SB一样天天搁那儿更新&#xff0c;瞎JB更新&#xff0c;每次更新都要出一次兼容性问题&#xff0c;远程服务器不能连公网就上不去了&#xff0c;也没有显式提示&#xff0c;错误很明显就是在下载不了文件&#xff0c;用VSCode内置的…

Linux的有关权限的学习

1.认识权限在Linux中的表示 在Linux中&#xff0c;一切皆文件&#xff0c;而每个文件都会有其相对应的操作权限。那么&#xff0c;我们该怎么来认识他们呢&#xff1f; 首先我们可以看到&#xff0c;在每个test文件的前面都会有一个-rw-r--r--这个字符&#xff0c;而这个字符&…

ServiceNow 研究:通过RAG减少结构化输出中的幻觉

论文地址&#xff1a;https://arxiv.org/pdf/2404.08189 原文地址&#xff1a;rag-hallucination-structure-research-by-servicenow 在灾难性遗忘和模型漂移中&#xff0c;幻觉仍然是一个挑战。 2024 年 4 月 18 日 灾难性遗忘&#xff1a; 这是在序列学习或连续学习环境中出现…

Pycharm远程环境开发(保姆级详细步骤)

使用远程机器的python环境 同步一下linxu和window的文件 可以从远端下载到本地(如下图所示)&#xff0c;也可以从本地上传到linux&#xff0c;在左侧的目录里右键选择你所需要的上传文件点击deployment然后upload就行

k8s 资源组版本支持列表

1 kubernetes的资源注册表 kube-apiserver组件启动后的第一件事情是将Kubernetes所支持的资源注册到Scheme资源注册表中,这样后面启动的逻辑才能够从Scheme资源注册表中拿到资源信息并启动和运行API服务。 kube-apiserver资源注册分为两步:第1步,初始化Scheme资源注册表;…

Linux进程——Linux下常见的进程状态

前言&#xff1a;在进程学习这一块&#xff0c;我们主要学习的就是PCB这个进程控制块&#xff0c;而PBC就是用来描述进程的结构体&#xff0c;而进程状态就是PCB结构体中的一个变量。 本篇主要内容&#xff1a; 操作系统中的进程状态Linux下的进程状态 在开始之前&#xff0c;我…