github项目地址:https://github.com/ruzhila/voiceapi
项目简介:python实现的基于sherpa-onnx的语音转录/合成API
运行环境:windows、python3.10+
1.下载项目
git clone https://github.com/ruzhila/voiceapi.git
2.新建环境
注意使用python 3.10以上
conda create -n voiceapi python=3.10
然后切换至新环境
3.安装依赖
打开requirements.txt文件,将
sherpa-onnx == 1.10.24
修改为
sherpa-onnx == 1.10.29
因为sherpa-onnx没有对应的1.10.24版本,所以选取最接近的1.10.29版本
如下图:
然后安装依赖
pip install -r requirements.txt
4.下载模型
在文件根目录下新建models文件夹,如下图:
在models文件夹中,共需下载四个模型文件,如下图:
1.sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17
下载地址:https://huggingface.co/csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17
直接下载后解压即可,如图:
2.sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20
下载地址:https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2
直接下载后解压即可,如图:
3.silero_vad
首先创建silero_vad文件夹,然后下载silero_vad.onnx模型放进文件夹中
下载地址:https://github.com/snakers4/silero-vad/raw/master/src/silero_vad/data/silero_vad.onnx
如图:
4.vits-zh-hf-theresa
下载地址:https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/vits-zh-hf-theresa.tar.bz2
直接下载后解压即可,如图:
5.运行项目
直接运行根目录下的app.py文件,如下图:
然后打开前端网页地址:http://127.0.0.1:8000/
(注意不是http://0.0.0.0:8000)
如下图:
此时运行成功
功能1:在左边的框中输入文字,点击speak按钮,将调用tts接口,并输出合成的语音
功能2:在允许网页获取麦克风权限后,点击右边的话筒按钮,然后说话,将实时在右边的框中输入转录出的文字,支持中英双语