语音识别开源框架 openAI-whisper

Whisper 是一种通用的语音识别模型。 它是OpenAI于2022年9月份开源的在各种音频的大型数据集上训练的语音识别模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。

GitHub - yeyupiaoling/Whisper-Finetune: 微调Whisper语音识别模型和加速推理,支持Web部署和Android部署

Whisper Webui - a Hugging Face Space by aadnk

微调Whisper语音识别模型和加速推理_夜雨飘零1的博客-CSDN博客

Openai-Whisper识别生成语音/视频字幕文件(支持自动翻译) - 哔哩哔哩

Whisper OpenAI开源语音识别模型_开源语音识别算法_Sanfor的博客-CSDN博客

conda create -n whisper python=3.9

conda activate whisper

pip install git+https://github.com/openai/whisper.git

whisper audio.mp3 --model medium --language Chinese

解决输出繁体中文不输出简体中文问题:

whisper --language Chinese --model large audio.mp3 --initial_prompt "以下是 普通话句子"

就中文而言,Whisper各模型:

  • tiny 是没有做断句的,或者说,直接根据停顿断句
  • base 已经开始根据逻辑断句,但会出语法错误
  • small 已经很少语法错误,但断句水平却直线下降,很奇怪
  • medium 不仅能够完美的断句,还能判断语气

可以看出,飞书妙记给用户开放的转写能力大约在 tiny 到 base 之间(转写速度也在 tiny 左右,已经很快了)

值得指出的是,这里的对比,目的并不是比较二者的技术,否则对于飞书妙计相当的不公平,作为一款消费级应用,它不可能给用户跑medium等级的模型来做转写

对比的意义是,Whisper,作为一个开源模型,和消费级产品比起来怎么样?

答案是,完全可以替代,用 small 模型足以实现当下的免费体验了。

甚至,用 medium 以上的模型,可以用「时间」换「好得多的使用体验」

Whisper—通用的语音识别模型 - 知乎

https://www.bilibili.com/read/cv19254244

openai开源的whisper在huggingface中使用例子(语音转文字中文)_语音识别_qq_37401291-开发者创业生态社区

OpenAI 开源音频转文字模型 Whisper 尝鲜 - 少数派

Whisper—通用的语音识别模型 - 知乎

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/speech_web

OpenAI 开源语音识别模型 Whisper - OSCHINA - 中文开源技术交流社区

OpenAI Whisper中文语音识别效果尝试和应用(一)_迷途的小朋友的博客-CSDN博客

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

OpenAI Whisper中文语音识别效果尝试和应用(一)_迷途的小朋友的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/4396.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构问答3

1. 栈、队列、线性表的区别与联系(异同) 答: 栈和队列联系:逻辑结构都是线性结构;存储结构都可以采用顺序存储结构和链式存储结构;他们的数据元素都呈线性关系,是一种的线性表,且只允许在端点处插入和删除元素 栈、队列和线性表联系:栈和队列都是一种操作受限的线性…

netty组件详解-上

netty服务端示例: private void doStart() throws InterruptedException {System.out.println("netty服务已启动");// 线程组EventLoopGroup group new NioEventLoopGroup();try {// 创建服务器端引导类ServerBootstrap server new ServerBootstrap();// 初始化服…

【嵌入式开发 Linux 常用命令系列 6 -- 字符提取 cut 命令使用】

文章目录 Cut 命令和语法指定分隔符以字符的方式提取内容根据字节提取字符 上篇文章:嵌入式开发 Linux 常用命令系列 5 – history 与 “!“ 巧妙配合 Cut 命令和语法 cut 命令的基本语法如下: $ cut OPTION... [FILE]...cut 的一些选项如…

苹果APP安装包ipa如何安装在手机上

苹果APP安装包ipa如何安装在手机上 苹果APP的安装比安卓复杂且困难,很多人不知道如何将ipa文件安装到手机上。以下是几种苹果APP安装在iOS设备的方式,供大家参考。 一、上架App Store 这是最正规的方式。虽然审核过程复杂、时间较长,且审核…

数据可视化组件有什么用?

数据可视化组件在数据分析中扮演着至关重要&角色。 通过图表、图形和交互式界面,数据可视化组件帮助将复杂的数据转化为易于理解的视觉展示。这种形式的数据呈现有助于发现模式、趋势和异常,并能够快速有效地传达数据的含义和洞察。 下面简单举两个…

不使用插件预览pdf等类型文件

前端使用window.open即可 var url"file/preview.do?path"response.path"&fileName"response.name; top.window.open(url,response.name,"_blank"); 接口代码如下 RequestMapping(value "/file/preview.do")public ResponseBod…

使用Visual Studio打造强大的程序,从添加第三方库开始

使用Visual Studio打造强大的程序,从添加第三方库开始 博主简介一、引言二、理解第三方库三、下载和安装第三方库四、示例代码和演示五、总结 博主简介 💡一个热爱分享高性能服务器后台开发知识的博主,目标是通过理论与代码实践的结合&#x…

【数字IC前端笔试真题精刷(2020)】大疆——数字芯片开发工程师B卷

声明:本专栏所收集的数字IC笔试题目均来源于互联网,仅供学习交流使用。如有侵犯您的知识产权,请及时与博主联系,博主将会立即删除相关内容。 笔试时间:2020年B卷 题目类型: 单选题(20 x 2’ = 40’)多选题(10 x 2’ = 20’)填空题(3’ x 5 = 15’)问答题(5’ x 5 …

【状态估计】基于FOMIAUKF、分数阶模块、模型估计、多新息系数的电池SOC估计研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

在 Linux 系统上安装Docker Compose

在Linux系统上安装Docker Compose需要以下步骤: 首先,确保已经安装了Docker。如果没有安装,请按照Docker官方文档进行安装。 打开终端或命令行界面,并使用以下命令下载Docker Compose二进制文件: sudo curl -L &quo…

SpringBoot项目中MVC使用--【JSB系列之010】

SpringBoot系列文章目录 SpringBoot知识范围-学习步骤【JSB系列之000】 文章目录 SpringBoot系列文章目录Http协议是马冬梅Cookie机制Session机制Token MVC模型本章的专注内容UserController代码 ThymeleafLets GO!总结作业配套资源题外话 Http协议是马冬梅 HTTP简介 1. HTTP…

润和软件与华秋达成生态共创合作,共同推动物联网硬件创新

7月11日,在2023慕尼黑上海电子展现场,江苏润开鸿数字科技有限公司(以下简称“润开鸿”)与深圳华秋电子有限公司(以下简称“华秋”)签署了生态共创战略合作协议,共同推动物联网硬件生态繁荣发展。当前双方主要基于润开鸿的硬件产品及解决方案开…

完整的电商平台后端API开发总结

对于开发一个Web项目来说,无论是电商还是其他品类的项目,注册与登录模块都是必不可少的;注册登录功能也是我们在日常生活中最长接触的,对于这个业务场景的需求与逻辑大概是没有什么需要详细介绍的,市面上常见的邮箱注册…

混合背包(01+完全+多重背包大杂烩)

因为我们知道求解多重背包时&#xff0c;是将其进行二进制优化为01背包问题&#xff0c;那么我们就将01背包和多重背包看成一种情况&#xff0c;然后只要处理&#xff0c;完全背包和01背包问题即可&#xff08;详细看下方代码&#xff09; #include<bits/stdc.h> using n…

淘宝API接口应用场景及介绍

淘宝API&#xff08;Application Programming Interface&#xff09;是淘宝提供的一组接口&#xff0c;允许开发者通过编程方式与淘宝平台进行交互。淘宝API提供了各种功能和服务&#xff0c;包括商品详情接口&#xff0c;为商家和开发者提供了丰富的应用场景。以下是淘宝API详…

【ArcGIS Pro二次开发】(47):要素类追加至空库(批量)

本工具主要是针对国空数据入库而做的。 如果你手头已经整理了一部分要素类数据&#xff0c;但是数据格式&#xff0c;字段值可能并没有完全按照规范设置好&#xff0c;需要将这些数据按规范批量和库&#xff0c;就可以尝试用这个工具。 准备数据&#xff1a;标准空库、你已做…

kubernetes 系列教程之部署 BusyBox 容器

文章目录 在 Kubernetes 上部署 BusyBox 容器步骤一&#xff1a;创建 BusyBox Pod步骤二&#xff1a;进入 BusyBox 容器结论 Kubernetes版本 v1.19.14 在 Kubernetes 上部署 BusyBox 容器 BusyBox 是一个轻量级的 Unix 工具集合&#xff0c;它将许多常用的 Unix 工具打包在一个…

Python、Selenium实现问卷星自动填写(内含适配个人问卷的方法)

&#x1f9d1;‍&#x1f4bb;作者名称&#xff1a;DaenCode &#x1f3a4;作者简介&#xff1a;啥技术都喜欢捣鼓捣鼓&#xff0c;喜欢分享技术、经验、生活。 &#x1f60e;人生感悟&#xff1a;尝尽人生百味&#xff0c;方知世间冷暖。 &#x1f4d6;所属专栏&#xff1a;Py…

SpringMVC的数据响应-直接回写json字符串

一般我们操作对象&#xff0c;将对象转变为json 这时导入json 转换工具的包 包1 包2-json数据绑定 包3 返回的就是json字符串你直接返回就行了 返回一个json格式的字符串 直接回写就加这个res.... 内部字符串要进行相应的转意 能够看到json字符串 能不能你封装对象&#xff0c…

Web3代币基本token概念

上文 HTML页面通过Web3JS连接智能合约并调用其中接口我们算是小试牛刀 用html的web3连接到我们的 智能合约。 至少确定了 我们的开发路线是没问题的 那么 我们要先了解代币这个内容 代币在以太坊中 可以说像公司的股份资产 可以说像美元 可以说像黄金等等 这个币圈建议大家不要…