硅谷电视剧他们做的是网站还是软件/域名注册需要什么条件

硅谷电视剧他们做的是网站还是软件,域名注册需要什么条件,学校网站建设需求分析,新闻聚合网站怎么做语音识别大模型,是人工智能领域的一项重要技术,它能够将人类的语音转换为文本。近年来,随着深度学习技术的不断发展,语音识别大模型取得了显著的进展,并在各个领域得到了广泛应用。 主流语音识别大模型 目前&#xf…

语音识别大模型,是人工智能领域的一项重要技术,它能够将人类的语音转换为文本。近年来,随着深度学习技术的不断发展,语音识别大模型取得了显著的进展,并在各个领域得到了广泛应用。

主流语音识别大模型

目前,市面上涌现出许多优秀的语音识别大模型,它们在性能、功能和应用场景上各有侧重。以下是一些主流的语音识别大模型:

  • OpenAI Whisper: 由OpenAI公司开发的Whisper,是一个强大的多语言语音识别模型。它在多个语音识别任务上表现出色,能够处理各种口音、语速和噪音环境下的语音。
  • Google Cloud Speech-to-Text: 谷歌云提供的语音识别服务,支持多种语言和方言,具有高准确率和低延迟的特点。它还提供了丰富的定制化功能,以满足不同场景的需求。
  • 讯飞星火: 讯飞公司推出的星火认知大模型,具备强大的语音识别能力,尤其在中文语音识别方面表现突出。它还支持多种方言和少数民族语言的识别。
  • 阿里云语音识别: 阿里云提供的语音识别服务,支持多种语言和场景,具有高性价比和稳定性。它还提供了丰富的API和SDK,方便开发者集成到自己的应用中。
  • 华为云语音识别: 华为云推出的语音识别服务,支持多种语言和方言,具有高准确率和实时性。它还提供了定制化模型训练服务,以满足特定领域的需求。

开源的语音识别大模型

  • Whisper

    • 介绍:OpenAI 开发的通用语音识别模型,功能强大,支持多种语言识别和翻译。
    • 特点
      • 多语言支持
      • 多种模型大小可选择
      • 开源免费,方便研究和定制
    • 项目地址:https://github.com/openai/whisper
  • MooER

    • 介绍:摩尔线程开发的音频理解大模型,是业界首个基于国产全功能 GPU 进行训练和推理的大型开源语音模型。
    • 特点
      • 支持中英文语音识别和中译英语音翻译
      • 基于国产 GPU 训练和推理
      • 开源推理代码和模型
    • 项目地址:https://github.com/MooreThreads/MooER
  • Mini-Omni

    • 介绍:清华大学和智谱 AI 提出 Mini-Omni,是首个开源的端到端实时语音多模态模型,支持语音输入、流式语音输出的多模态交互能力。
    • 特点
      • 文本-语音同时生成
      • 支持语音输入、流式语音输出
      • 开源免费
    • 项目地址:https://github.com/gpt-omni/mini-omni
  • SenseVoice

SenseVoice多语言音频理解模型,支持语音识别、语种识别、语音情感识别、声学事件检测、逆文本正则化等能力,采用工业级数十万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于中文、粤语、英语、日语、韩语音频识别,并输出带有情感和事件的富文本转写结果。 

  • FunASR

FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并推动语音识别生态的发展。让语音识别更有趣!项目地址:https://github.com/modelscope/FunASR

 

 OpenAI的Whisper模型

OpenAI 提供了两个基于开源的 Whisper large-v2 模型的语音到文本API服务:

  • 转录(transcriptions):将音频转录为音频所使用的任何语言。
  • 翻译(translations):将音频翻译并转录为英语

目前文件上传限制为 25 MB,支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm

语音转录 Transcription API

输入音频文件,返回转录对象(JSON)

参数

  • file(文件):需要转录的音频文件对象(不是文件名),支持以下格式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav 或 webm。
  • model('whisper-1'):使用的模型 ID。目前仅可使用由我们的开源 Whisper V2 模型驱动的 whisper-1。
  • language(语言,可选):输入音频的语言。提供 ISO-639-1 格式的输入语言可以提高准确性和响应速度。
  • prompt(提示,可选):可选文本,用于指导模型的风格或继续前一个音频片段。提示应与音频语言相匹配。
  • response_format(响应格式,可选):转录输出的格式,默认为 json。可选的格式有:json、text、srt、verbose_json 或 vtt。
  • temperature(温度,可选):采样温度,范围从 0 到 1。更高的值,如 0.8,将使输出更随机,而更低的值,如 0.2,将使输出更集中和确定。如果设置为 0,模型将使用对数概率自动提高温度,直到达到某些阈值。
  • timestamp_granularities[](时间戳粒度,可选):为此转录填充的时间戳粒度,默认为 segment。响应格式必须设置为 verbose_json 才能使用时间戳粒度。支持以下一个或两个选项:word 或 segment。注意:segment 时间戳不增加额外延迟,但生成 word 时间戳会增加额外延迟。

返回值

  • 转录对象(Transcription Object)或详细转录对象(Verbose Transcription Object)。

使用 Whisper 实现中文转录代码演示

将语音文件转成文字。输入语音 输出文字。

from openai import OpenAI
client = OpenAI()audio_file= open("./audio/liyunlong.mp3", "rb")transcription = client.audio.transcriptions.create(model="whisper-1", file=audio_file
)print(transcription.text)

 返回

二营长,你他娘的意大利泡呢?给我拉来!

 

语音翻译 API

输入音频文件,返回翻译文本。

请求体

  • file(文件):需要翻译的音频文件对象(不是文件名),支持以下格式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav 或 webm。
  • model('whisper-1'):使用的模型 ID。目前只有由我们的开源 Whisper V2 模型驱动的 whisper-1 可用。
  • prompt(提示,可选):可选文本,用于指导模型的风格或继续前一个音频片段。提示应为英文。
  • response_format(响应格式,可选):转录输出的格式,默认为 json。可选的格式包括:json、text、srt、verbose_json 或 vtt。
  • temperature(温度,可选):采样温度,范围从 0 到 1。较高的值,如 0.8,将使输出更随机,而较低的值,如 0.2,将使输出更集中和确定。如果设置为 0,模型将使用对数概率自动增加温度,直到达到特定阈值。

返回值

  • translated_text: 翻译后的文本。

 使用 Whisper 实现中文识别+翻译

audio_file= open("./audio/liyunlong.mp3", "rb")translation = client.audio.translations.create(model="whisper-1", file=audio_file,prompt="Translate into English",
)print(translation.text)

返回英文:

Second Battalion Commander, where is your Italian gun? Bring it to me.

语音与文字互转

Whisper: 语音--->文字

TTS:文字--->语音

可以将这2个大模型一起使用,形成 【语音-->文字/翻译--->语音】模式,比如将中文语音转英语语音,将你的录音翻译成外语并且转语音。

Whisper---> TTS 的代码演示

gdg_audio_file = open("./audio/gdg.mp3", "rb")
gdg_speech_file = "./audio/gdg_en.mp3"translation = client.audio.translations.create(model="whisper-1", file=gdg_audio_file
)print(translation.text)with client.audio.speech.with_streaming_response.create(model="tts-1",voice="onyx",input=translation.text
) as response:response.stream_to_file(gdg_speech_file)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/895981.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解锁机器学习核心算法 | K -近邻算法:机器学习的神奇钥匙

一、引言 今天我们继续学习机器学习核心算法 —— K - 近邻(K-Nearest Neighbors,简称 KNN)算法。它就像是一位经验丰富的 “老江湖”,以其简单而又强大的方式,在众多机器学习任务中占据着不可或缺的地位。 K - 近邻…

【DeepSeek】本地部署,保姆级教程

deepseek网站链接传送门:DeepSeek 在这里主要介绍DeepSeek的两种部署方法,一种是调用API,一种是本地部署。 一、API调用 1.进入网址Cherry Studio - 全能的AI助手选择立即下载 2.安装时位置建议放在其他盘,不要放c盘 3.进入软件后…

Python 入门教程(2)搭建环境 | 2.3、VSCode配置Python开发环境

文章目录 一、VSCode配置Python开发环境1、软件安装2、安装Python插件3、配置Python环境4、包管理5、调试程序 前言 Visual Studio Code(简称VSCode)以其强大的功能和灵活的扩展性,成为了许多开发者的首选。本文将详细介绍如何在VSCode中配置…

【第二节】C++设计模式(创建型模式)-抽象工厂模式

目录 引言 一、抽象工厂模式概述 二、抽象工厂模式的应用 三、抽象工厂模式的适用场景 四、抽象工厂模式的优缺点 五、总结 引言 抽象工厂设计模式是一种创建型设计模式,旨在解决一系列相互依赖对象的创建问题。它与工厂方法模式密切相关,但在应用…

ubuntu20.04重启后不显示共享文件夹

ubuntu20.04重启后不显示共享文件夹 主要参见这两篇博客 Ubuntu重启后不显示共享文件夹_ubuntu 20.04 共享目录无法使用-CSDN博客 ubuntu22.04 配置共享文件夹 找不到/mnt/hgfs_ubuntu安装tools 后mnt文件夹在哪-CSDN博客 重启Ubuntu20.04后,发现共享文件夹进不去…

halcon机器视觉深度学习对象检测,物体检测

目录 效果图操作步骤软件版本halcon参考代码本地函数 get_distinct_colors()本地函数 make_neighboring_colors_distinguishable() 效果图 操作步骤 首先要在Deep Learning Tool工具里面把图片打上标注文本, 然后训练模型,导出模型文件 这个是模型 mod…

2.19学习(php文件后缀)

misc buu-后门查杀 下载附件,我们用火绒安全扫一下然后点击详情进入该文件所在文件夹,再用记事本打开该文件,搜索flag无果,再试试pass(由题目中的密码联系到pass,password,key等)&a…

PMBOK第7版整体架构全面详解

1. 引言 7月1日对于项目管理从业者和研究者而言,是个非凡意义的一个时间,这一天,翘首以待的《 项 目管理知识体系指南 》(PMBOK)第七版终于发布了。 总体而言,PMBOK第七版集百家之所长,成一…

C++:类与对象,定义类和构造函数

#define _CRT_SECURE_NO_WARNINGS 1 #include <iostream> using namespace std; //如何让定义一个类 // 封装 // 1、将数据和方法定义到一起。 // 2、把想给你看的数据给你看&#xff0c;不想给你看的封装起来。 通过访问限定符来实现 class Stack { public: //1.成…

nginx 部署前端vue项目

?? 主页&#xff1a; ?? 感谢各位大佬 点赞?? 收藏 留言?? 加关注! ?? 收录于专栏&#xff1a;前端工程师 文章目录 一、??什么是nginx&#xff1f;二、??nginx 部署前端vue项目步骤 2.1 ??安装nginx 2.1.1 ??windows环境安装2.1.2 ??linux环境安装 2.2 …

蓝桥杯备考策略

备赛策略 (1-2周):基础算法数据结构 (3-5周):动态规划/贪心图论 (6-8周):全真模拟查漏补缺 阶段1:基础巩固(第1-2周) **目标:**掌握基础数据结构和必考算法&#xff0c;熟悉蓝桥杯题型。 学习内容: 数据结构:数组、字符串、栈、队列、哈希表、二叉树(遍历与基本操作)。 基础…

tmux和vim的基本操作

Tmux Tmux 的核心功能 多窗口和多面板&#xff1a; 在一个终端中创建多个窗口&#xff08;Windows&#xff09;&#xff0c;每个窗口可以运行不同的任务。 在每个窗口中&#xff0c;可以进一步分割成多个面板&#xff08;Panes&#xff09;&#xff0c;实现分屏操作。 会话…

HTTP SSE 实现

参考&#xff1a; SSE协议 SSE技术详解&#xff1a;使用 HTTP 做服务端数据推送应用的技术 一句概扩 SSE可理解为&#xff1a;服务端和客户端建立连接之后双方均保持连接&#xff0c;但仅支持服务端向客户端推送数据。推送完毕之后关闭连接&#xff0c;无状态行。 下面是基于…

推荐一款AI大模型托管平台-OpenWebUI

推荐一款AI大模型托管平台-OpenWebUI 1. OpenWebUI 1. OpenWebUI什么? 官网地址&#xff1a;https://openwebui.com/ GitHub地址&#xff1a; https://github.com/open-webui/open-webui Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台&#xff0c;旨在完全离…

java练习(33)

ps:题目来自力扣 最强回文子串 给你一个字符串 s&#xff0c;找到 s 中最长的 回文 子串。 class Solution {public String longestPalindrome(String s) {if (s null || s.length() < 1) {return "";}int start 0, end 0;for (int i 0; i < s.length();…

本地部署DeepSeek大模型

环境&#xff1a;nuc工控机器 x86架构 ubuntu20.04 1、浏览器打开Download Ollama on Linux&#xff0c;复制命令。 2.打开终端&#xff0c;输入命令。 curl -fsSL https://ollama.com/install.sh | sh 等待安装&#xff0c;安装完成后&#xff0c;终端输入 ollama&#xff…

【Spring详解一】Spring整体架构和环境搭建

一、Spring整体架构和环境搭建 1.1 Spring的整体架构 Spring框架是一个分层架构&#xff0c;包含一系列功能要素&#xff0c;被分为大约20个模块 Spring核心容器&#xff1a;包含Core、Bean、Context、Expression Language模块 Core &#xff1a;其他组件的基本核心&#xff…

用openresty和lua实现壁纸投票功能

背景 之前做了一个随机壁纸接口&#xff0c;但是不知道大家喜欢对壁纸的喜好&#xff0c;所以干脆在实现一个投票功能&#xff0c;让用户给自己喜欢的壁纸进行投票。 原理说明 1.当访问http://demo.com/vote/时&#xff0c;会从/home/jobs/webs/imgs及子目录下获取图片列表&…

LLaMA 3.1 模型在DAMODEL平台的部署与实战:打造智能聊天机器人

文章目录 前言 一、LLaMA 3.1 的特点 二、LLaMA3.1的优势 三、LLaMA3.1部署流程 &#xff08;一&#xff09;创建实例 &#xff08;二&#xff09;通过JupyterLab登录实例 &#xff08;3&#xff09;部署LLaMA3.1 &#xff08;4&#xff09;使用教程 总结 前言 LLama3…

【复现DeepSeek-R1之Open R1实战】系列8:混合精度训练、DeepSpeed、vLLM和LightEval介绍

这里写目录标题 1 混合精度训练1.1 FP16和FP321.2 优点1.3 存在的问题1.4 解决办法 2 DeepSpeed3 vLLM3.1 存在的问题3.2 解决方法3.2.1 PagedAttention3.2.2 KV Cache Manager3.2.3 其他解码场景 3.3 结论 4 LightEval4.1 主要功能4.2 使用方法4.3 应用场景 本文继续深入了解O…