x-cmd mod | x whisper - 使用 whisper.cpp 进行本地 AI 语音识别

介绍

Whisper 模块通过 whisper.cpp 帮助用户快速将音频转换为文字。

INFO:
whisper.cpp 是一个用 C/C++ 编写的轻量级智能语音识别库,是基于 OpenAI 的 Whisper 模型的移植版本,旨在通过深度学习模型实现音频转文字功能。

由于 whisper.cpp 目前只支持 16 khz 的 wav 文件格式的音频文件,因此该模块默认会先使用 ffmpeg 将音频文件转成语音识别所需的格式,生成的 wav 文件以 <file name>.whisper.tmp.x-cmd.16khz.wav 的格式命名,以便用户使用通配符批量删除。

首次用户

  1. 在终端运行 eval "$(curl https://get.x-cmd.com)" 即可完成 x 命令安装, 详情参考 x-cmd 官网

  2. x-cmd 提供 mod 教程,其中包含了 whisper 模块常用功能的 demo 示例,可以帮你快速上手 whisper 模块。

  3. 使用案例:

x whisper [OPTIONS] [SUB_COMMAND]

whisper.cn.gif

# 交互式选择模型,并将音频文件识别成文字
x whisper <audio file># 使用 medium 模型进行音频识别
x whisper -m medium -f <audio file># 将结果保存到 test.srt 字幕文件
x whisper dictate --srt -o test <audio file># 将 srt 字幕嵌入到视频中
x whisper merge <srt file> <video file>

选项

名称, 名称简写默认值描述
-f, --file [file dir]需要识别的音频文件路径
-m, --model [name]显式指定模型进行识别

子命令

名称描述
x whisper dictate音频识别成文字
x whisper model管理本地模型
x whisper merge将字幕嵌入到视频中

模型管理

whisper.cpp 提供了 5 种模型:tiny,base,small,medium,large,它们的识别效果和大小依次增加,x-cmd 建议用户使用 base 以上的模型。

  1. 用户可以使用 x whisper model 命令进入交互式 UI 来查看所有可用模型,并可以通过回车键将选中的模型设置为默认模型。
  2. 支持模型导入、导出、删除等功能。

此外,该模块还提供了将字幕嵌入到视频中的功能: 用户可以使用 --srt 参数生成字幕文件,再通过 merge 命令将字幕文件嵌入到视频中。

进一步阅读

关于 whisper.cpp,请访问 https://github.com/ggerganov/whisper.cpp

TIP :

第一次使用的用户会自动下载 whisper.cpp, 若想卸载可以使用 x env gc whispercpp 命令

我们的 whisper 模块是开箱即用的,有赖于 env 模块,它能在您需要的时候自动帮您下载安装好 whisper.cpp 和 ffmpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/731.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记录一下flume中因为taildir_position.json因位置不对导致数据无法从kafka被采到hdfs上的问题

【背景说明】 我需要用flume将kafka上的数据采集到hdfs上&#xff0c;发现数据怎么到不了hdfs。 【问题排查】 1.kafka上已有相应的数据 2.我的flume配置文档&#xff08;没问题&#xff09;&#xff0c; 3.时间拦截器&#xff08;没问题&#xff09;&#xff0c; 4.JSONObje…

《运营之光》3.0 读书笔记

&#x1f604;作者简介&#xff1a; 小曾同学.com,一个致力于测试开发的博主⛽️&#xff0c;主要职责&#xff1a;测试开发、CI/CD 如果文章知识点有错误的地方&#xff0c;还请大家指正&#xff0c;让我们一起学习&#xff0c;一起进步。 &#x1f60a; 座右铭&#xff1a;不…

HarmonyOS开发案例:【首选项】

介绍 本篇Codelab是基于HarmonyOS的首选项能力实现的一个简单示例。实现如下功能&#xff1a; 创建首选项数据文件。将用户输入的水果名称和数量&#xff0c;写入到首选项数据库。读取首选项数据库中的数据。删除首选项数据文件。 最终效果图如下&#xff1a; 相关概念 [首…

OpenHarmony鸿蒙南向开发案例:【智能门铃】

样例简介 智能门铃通过监控来访者信息&#xff0c;告诉主人门外是否有人按铃、有陌生人靠近或者无人状态。主人可以在数字管家中远程接收消息&#xff0c;并根据需要进行远程取消报警和一键开锁。同时&#xff0c;也可以通过室内屏幕获取门外状态。室内屏幕显示界面使用DevEco…

SQL增加主键约束的条件

结论 常见认为设为主键的条件为&#xff1a; 值唯一不含空值 具体实施中会出现各种问题 添加主键约束的条件细则&#xff1a; 值唯一数据中不含空值在定义时需要not null约束&#xff08;使用check约束不行&#xff09; 验证实验 接下来我做了关于这个细则的验证实验&am…

将一个文件夹的pdf都去掉第一页后生成在另一个文件夹

目录 一.前言 二.环境配置 三.完整代码 一.前言 在日常的工作和学习中&#xff0c;我们经常需要处理大量的PDF文件。有时候&#xff0c;我们可能希望将一个文件夹中的所有PDF文件进行一些特定的操作&#xff0c;例如去掉每个PDF文件的第一页。 为了解决这个问题&#xff0c…

【MATLAB源码-第193期】基于matlab的网络覆盖率NOA优化算法仿真对比VFINOA,VFPSO,VFNGO,VFWOA等算法。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 NOA&#xff08;Network Optimization Algorithm&#xff0c;网络优化算法&#xff09;是一个针对网络覆盖率优化的算法&#xff0c;它主要通过优化网络中节点的分布和配置来提高网络的整体覆盖性能。网络覆盖率是衡量一个无…

【学习】软件压力测试对软件产品的作用

在信息化高速发展的今天&#xff0c;软件产品已经成为各行各业不可或缺的一部分。然而&#xff0c;随着软件功能的日益复杂和用户需求的不断增长&#xff0c;软件产品的稳定性和可靠性问题也愈发凸显。在这样的背景下&#xff0c;软件压力测试作为软件质量保障的重要手段之一&a…

【项目亮点】大厂中分布式事务的最佳实践 问题产生->难点与权衡(偏爱Saga)->解决方案

【项目亮点】大厂中分布式事务的最佳实践 问题产生->难点与权衡->解决方案->底层实现->应用案例 不断有同学问我大厂中实践分布式事务的问题,这里从分布式事务的产生,到强弱一致性与性能的权衡,再到最终落地的解决方案,再到实际的代码实现,再到我工作中实际使用SA…

【C语言__动态内存管理__复习篇6】

目录 前言 一、动态内存管理 二、动态内存函数 2.1 malloc 2.2 free 2.3 calloc 2.4 realloc 三、动态内存常见的6个使用错误 3.1 接收malloc/calloc返回的参数后未及时检查是否为NULL 3.2 越界访问动态内存空间 3.3 对非动态开辟的内存使用free释放 3.4 使用free只释放了…

AI时代,我要如何学习,才能跟上步伐

在21世纪这个被数据驱动的时代&#xff0c;人工智能&#xff08;AI&#xff09;已经渗透到我们生活的方方面面。无论是智能手机中的语音助手、在线客服的聊天机器人&#xff0c;还是自动驾驶汽车&#xff0c;AI的应用都在告诉我们一个信息&#xff1a;未来已来。因此&#xff0…

1.微服务介绍

完整的微服务架构图 注册中心 配置中心 服务集群 服务网关 分布式缓存 分布式搜索 数据库集群 消息队列 分布式日志服务 系统监控链路追踪 Jenkins docker k8s 技术栈 微服务治理&#xff1a; 注册发现、远程调用、负载均衡、配置管理、网关路由、系统保护、流量…

微信小程序 input 不能输入特殊字符的方法

微信小程序开发中经常遇到有表单提交的需求&#xff0c;一些特殊的字段要过滤掉特殊字符。比如姓名、籍贯、地址等&#xff0c;都要实现不能输入特殊字符的功能&#xff0c;可以创建一个统一的方法来处理输入事件&#xff0c;并在这个方法中检查输入的字符。 下面是一个简单的…

企业单位IPTV数字电视直播与点播系统-中国卫通怀来地球站IPTV数字电视直播与点播系统应用浅析

企业单位IPTV数字电视直播与点播系统-中国卫通怀来地球站IPTV数字电视直播与点播系统应用浅析 由北京海特伟业科技有限公司任洪卓发布于2024年4月19日 一、运营商光猫接入企业/单位IPTV数字电视直播与点播系统建设概述 中国卫通怀来地球站&#xff0c;位于怀来县土木镇&#xf…

小球反弹(蓝桥杯)

文章目录 小球反弹【问题描述】答案&#xff1a;1100325199.77解题思路模拟 小球反弹 【问题描述】 有一长方形&#xff0c;长为 343720 单位长度&#xff0c;宽为 233333 单位长度。在其内部左上角顶点有一小球&#xff08;无视其体积&#xff09;&#xff0c;其初速度如图所…

非洲秃鹫优化算法C++简化版/Matlab优化版

非洲秃鹫优化算法&#xff08;Vulture Optimization, VO&#xff09;是一种基于自然界中非洲秃鹫觅食行为的群体智能优化算法。这种算法由Seyedali Mirjalili教授在2016年提出&#xff0c;旨在模拟非洲秃鹫在寻找食物时的社会互动和觅食策略&#xff0c;以解决复杂的优化问题。…

swift代码集合

码云地址 swift-h5 1.实现了用h5开发iOS程序&#xff0c;封装了一个通用的h5加载类WebVC 2.封装了一个js和原生交互的通用js类common.js 简易HUD 1.自实现的一个文本展示和加载等待 网络请求 1.自实现的一个网络请求模块&#xff0c;实现get、post、上传下载等功能

CentOS 7静默安装Oracle 11g(记一次最小化CentOS 7安装Oracle 11g的经历)

# [pdf在线免费转word文档](https://orcc.online/pdf) https://orcc.online/pdf 1.最小化安装CentOS 7后首先设置一下固定IP 可以先查询一下自己的网卡设备的名称&#xff0c;是ens33&#xff0c;所以网卡配置文件名称就是ifcfg-ens33&#xff08;前面的ifcfg-不用管&#xf…

HCIP-Datacom-ARST必选题库_01_ACL【7道题】

一、单选 1.下面是一台路由器的部分配置,关于该配置描述正确的是&#xff1a; 源地址为1.1.1.1的数据包匹配第一条ACL语句rule 0,匹配规则为允许 源地址为1.1.1.3的数据包匹配第三条ACL语句rule 2,匹配规则为拒绝 源地址为1.1.1.4的数据包匹配第四条ACL语句rule 3,匹配规则为允…

rpc简介

RPC (Remote Procedure Call) RPC 是一种分布式计算技术&#xff0c;允许一个计算机程序&#xff08;客户端&#xff09;在本地调用另一个计算机程序&#xff08;服务器&#xff09;的方法或函数&#xff0c;就像调用本地代码一样&#xff0c;尽管这些程序可能运行在不同的网络…