语音识别大模型,是人工智能领域的一项重要技术,它能够将人类的语音转换为文本。近年来,随着深度学习技术的不断发展,语音识别大模型取得了显著的进展,并在各个领域得到了广泛应用。
主流语音识别大模型
目前,市面上涌现出许多优秀的语音识别大模型,它们在性能、功能和应用场景上各有侧重。以下是一些主流的语音识别大模型:
- OpenAI Whisper: 由OpenAI公司开发的Whisper,是一个强大的多语言语音识别模型。它在多个语音识别任务上表现出色,能够处理各种口音、语速和噪音环境下的语音。
- Google Cloud Speech-to-Text: 谷歌云提供的语音识别服务,支持多种语言和方言,具有高准确率和低延迟的特点。它还提供了丰富的定制化功能,以满足不同场景的需求。
- 讯飞星火: 讯飞公司推出的星火认知大模型,具备强大的语音识别能力,尤其在中文语音识别方面表现突出。它还支持多种方言和少数民族语言的识别。
- 阿里云语音识别: 阿里云提供的语音识别服务,支持多种语言和场景,具有高性价比和稳定性。它还提供了丰富的API和SDK,方便开发者集成到自己的应用中。
- 华为云语音识别: 华为云推出的语音识别服务,支持多种语言和方言,具有高准确率和实时性。它还提供了定制化模型训练服务,以满足特定领域的需求。
开源的语音识别大模型
-
Whisper
- 介绍:OpenAI 开发的通用语音识别模型,功能强大,支持多种语言识别和翻译。
- 特点:
- 多语言支持
- 多种模型大小可选择
- 开源免费,方便研究和定制
- 项目地址:https://github.com/openai/whisper
-
MooER
- 介绍:摩尔线程开发的音频理解大模型,是业界首个基于国产全功能 GPU 进行训练和推理的大型开源语音模型。
- 特点:
- 支持中英文语音识别和中译英语音翻译
- 基于国产 GPU 训练和推理
- 开源推理代码和模型
- 项目地址:https://github.com/MooreThreads/MooER
-
Mini-Omni
- 介绍:清华大学和智谱 AI 提出 Mini-Omni,是首个开源的端到端实时语音多模态模型,支持语音输入、流式语音输出的多模态交互能力。
- 特点:
- 文本-语音同时生成
- 支持语音输入、流式语音输出
- 开源免费
- 项目地址:https://github.com/gpt-omni/mini-omni
- SenseVoice
SenseVoice多语言音频理解模型,支持语音识别、语种识别、语音情感识别、声学事件检测、逆文本正则化等能力,采用工业级数十万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于中文、粤语、英语、日语、韩语音频识别,并输出带有情感和事件的富文本转写结果。
- FunASR
FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并推动语音识别生态的发展。让语音识别更有趣!项目地址:https://github.com/modelscope/FunASR
OpenAI的Whisper模型
OpenAI 提供了两个基于开源的 Whisper large-v2 模型的语音到文本API服务:
- 转录(transcriptions):将音频转录为音频所使用的任何语言。
- 翻译(translations):将音频翻译并转录为英语
目前文件上传限制为 25 MB,支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm
。
语音转录 Transcription API
输入音频文件,返回转录对象(JSON)
参数
- file(文件):需要转录的音频文件对象(不是文件名),支持以下格式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav 或 webm。
- model('whisper-1'):使用的模型 ID。目前仅可使用由我们的开源 Whisper V2 模型驱动的 whisper-1。
- language(语言,可选):输入音频的语言。提供 ISO-639-1 格式的输入语言可以提高准确性和响应速度。
- prompt(提示,可选):可选文本,用于指导模型的风格或继续前一个音频片段。提示应与音频语言相匹配。
- response_format(响应格式,可选):转录输出的格式,默认为 json。可选的格式有:json、text、srt、verbose_json 或 vtt。
- temperature(温度,可选):采样温度,范围从 0 到 1。更高的值,如 0.8,将使输出更随机,而更低的值,如 0.2,将使输出更集中和确定。如果设置为 0,模型将使用对数概率自动提高温度,直到达到某些阈值。
- timestamp_granularities[](时间戳粒度,可选):为此转录填充的时间戳粒度,默认为 segment。响应格式必须设置为 verbose_json 才能使用时间戳粒度。支持以下一个或两个选项:word 或 segment。注意:segment 时间戳不增加额外延迟,但生成 word 时间戳会增加额外延迟。
返回值
- 转录对象(Transcription Object)或详细转录对象(Verbose Transcription Object)。
使用 Whisper 实现中文转录代码演示
将语音文件转成文字。输入语音 输出文字。
from openai import OpenAI
client = OpenAI()audio_file= open("./audio/liyunlong.mp3", "rb")transcription = client.audio.transcriptions.create(model="whisper-1", file=audio_file
)print(transcription.text)
返回
二营长,你他娘的意大利泡呢?给我拉来!
语音翻译 API
输入音频文件,返回翻译文本。
请求体
- file(文件):需要翻译的音频文件对象(不是文件名),支持以下格式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav 或 webm。
- model('whisper-1'):使用的模型 ID。目前只有由我们的开源 Whisper V2 模型驱动的 whisper-1 可用。
- prompt(提示,可选):可选文本,用于指导模型的风格或继续前一个音频片段。提示应为英文。
- response_format(响应格式,可选):转录输出的格式,默认为 json。可选的格式包括:json、text、srt、verbose_json 或 vtt。
- temperature(温度,可选):采样温度,范围从 0 到 1。较高的值,如 0.8,将使输出更随机,而较低的值,如 0.2,将使输出更集中和确定。如果设置为 0,模型将使用对数概率自动增加温度,直到达到特定阈值。
返回值
- translated_text: 翻译后的文本。
使用 Whisper 实现中文识别+翻译
audio_file= open("./audio/liyunlong.mp3", "rb")translation = client.audio.translations.create(model="whisper-1", file=audio_file,prompt="Translate into English",
)print(translation.text)
返回英文:
Second Battalion Commander, where is your Italian gun? Bring it to me.
语音与文字互转
Whisper: 语音--->文字
TTS:文字--->语音
可以将这2个大模型一起使用,形成 【语音-->文字/翻译--->语音】模式,比如将中文语音转英语语音,将你的录音翻译成外语并且转语音。
Whisper---> TTS 的代码演示
gdg_audio_file = open("./audio/gdg.mp3", "rb")
gdg_speech_file = "./audio/gdg_en.mp3"translation = client.audio.translations.create(model="whisper-1", file=gdg_audio_file
)print(translation.text)with client.audio.speech.with_streaming_response.create(model="tts-1",voice="onyx",input=translation.text
) as response:response.stream_to_file(gdg_speech_file)