AI一键音频转文字工具 速度超快,支持实时转换,无需联网,本地整合包下载

read-normal-img

这是 CapsWriter-Offline ,一个 PC 端的语音输入、字幕转录工具。可用实现简单一键将音频文件转换成文字的懒人工具。

两个功能:

1、实时转换,按下键盘上的 大写锁定键,录音开始,当松开 大写锁定键 时,就会识别你的录音,并将识别结果立刻输入

2,离线转换,将音视频文件拖动到客户端打开,即可转录生成 srt 字幕

特性

完全离线、无限时长、低延迟、高准确率、中英混输、自动阿拉伯数字、自动调整中英间隔

热词功能:可以在 hot-en.txt hot-zh.txt hot-rule.txt 中添加三种热词,客户端动态载入

日记功能:默认每次录音识别后,识别结果记录在 年份/月份/日期.md ,录音文件保存在 年份/月份/assets

关键词日记:识别结果若以关键词开头,会被记录在 年份/月份/关键词-日期.md,关键词在 keywords.txt 中定义

转录功能:将音视频文件拖动到客户端打开,即可转录生成 srt 字幕

服务端、客户端分离,可以服务多台客户端

编辑 config.py ,可以配置服务端地址、快捷键、录音开关……

本地离线整合包

请确保电脑上安装了 Microsoft Visual C++ Redistributable 运行库

服务端载入模型所用的 onnxruntime 只能在 Windows 10 及以上版本的系统使用

服务端载入模型需要系统内存 4G,只能在 64 位系统上使用

额外打包了 32 位系统可用的客户端,在 Windows 7 及以上版本的系统可用

官方程序和模型分离开,需要单独下载模型

我已经把模型和软件打包好,无需单独下载模型,下载整合包,解压即用。

完整整合包下载:AI一键音频转文字工具 速度超快,支持实时转换,无需联网,本地整合包下载

read-normal-img

功能:热词

read-normal-img

如果你有专用名词需要替换,可以加入热词文件。规则文件中以 # 开头的行以及空行会被忽略,可以用作注释。

中文热词请写到 hot-zh.txt 文件,每行一个,替换依据为拼音,实测每 1 万条热词约引入 3ms 延迟

英文热词请写到 hot-en.txt 文件,每行一个,替换依据为字母拼写

自定义规则热词请写到 hot-rule.txt 文件,每行一个,将搜索和替换词以等号隔开,如 毫安时  =  mAh

你可以在 core_client.py 文件中配置是否匹配中文多音字,是否严格匹配拼音声调。

检测到修改后,客户端会动态载入热词,效果示例:

例如 hot-zh.txt 有热词「我家鸽鸽」,则所有识别结果中的「我家哥哥」都会被替换成「我家鸽鸽」

例如 hot-en.txt 有热词「ChatGPT」,则所有识别结果中的「chat gpt」都会被替换成「ChatGPT」

例如 hot-rule.txt 有热词「毫安时 = mAh」,则所有识别结果中的「毫安时」都会被替换成「mAh」

功能:日记、关键词

默认每次语音识别结束后,会以年、月为分类,保存录音文件和识别结果:

录音文件存放在「年/月/assets」文件夹下

识别结果存放在「年/月/日.md」Markdown 文件中

例如今天是2023年6月5号,示例:

语音输入任一句话后,录音就会被保存到 2023/06/assets 路径下,以时间和识别结果命名,并将识别结果保存到 2023/06/05.md 文件中,方便我日后查阅

例如我在 keywords.txt 中定义了关键词「健康」,用于随时记录自己的身体状况,吃完饭后我可以按住 CapsLock 说「健康今天中午吃了大米炒饭」,由于识别结果以「健康」关键词开头,这条识别记录就会被保存到 2023/06/05-健康.md 中

例如我在 keywords.txt 中定义了关键词「重要」,用于随时记录突然的灵感,有想法时我就可以按住 CapsLock 说「重要,xx问题可以用xxxx方法解决」,由于识别结果以「重要」关键词开头,这条识别记录就会被保存到 2023/06/05-重要.md 中

read-normal-img

功能:转录文件

在服务端运行后,将音视频文件拖动到客户端打开,即可转录生成四个同名文件:

json 文件,包含了字级时间戳

txt 文件,包含了分行结果

merge.txt 文件,包含了带标点的整段结果

srt 文件,字幕文件

如果生成的字幕有微小错误,可以在分行的 txt 文件中修改,然后将 txt 文件拖动到客户端打开,客户端检测到输入的是 txt 文件,就会查到同名的 json 文件,结合 json 文件中的字级时间戳和 txt 文件中修正结果,更新 srt 字幕文件。

修改配置

你可以编辑 config.py ,在开头部分有注释,指导你修改服务端、客户端的:

连接的地址和端口,默认是 127.0.0.1 和 6006

键盘快捷键

是否要保存录音文件

要移除识别结果末尾的哪些标点,(如果你想把句尾的问号也删除掉,可以在这边加上)

read-normal-img

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/40576.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TaskDisplayArea、ActivityStack、Task以及ActivityRecord之间的关系

目录 一、TaskDisplayArea、ActivityStack、TaskRecord以及ActivityRecord关系图 二、TaskDisplayArea、ActivityStack、Task以及ActivityRecord相关代码 1、ActivityRecord 2、Task 3、ActivityStack 4、TaskDisplayArea 前言:对TaskDisplayArea、ActivitySt…

go语言day08 泛型 自定义错误处理 go:协程

泛型: 抛错误异常 实现error接口类型 用java语言解释的话,实现类需要重写error类型的抽象方法Error().这样就可以自定义异常处理。 回到go语言,在Error()方法中用*argError 这样一个指针类来充当error接口的实现类。 在f2()方法中定义返回值…

CONFIG_FEATURE_MOUNT_NFS

CONFIG_FEATURE_MOUNT_NFS是一个Linux内核配置选项,它允许系统支持挂载NFS文件系统。如果您在编译内核或构建根文件系统时遇到关于NFS支持的问题,您可能需要检查这个配置选项是否被启用。在某些情况下,例如使用BusyBox作为工具集时&#xff0…

漏洞分析|OpenSSH漏洞(CVE-2024-6387)

一、网传漏洞POC信息 漏洞编号:CVE-2024-6387 漏洞名称:OpenSSH regreSSHion 漏洞 POC上传者(作者不确定):7etsuo 发布日期:2024-07-01 漏洞类型:远程代码执行(RCE)…

昇思MindSpore学习笔记3-03热门LLM及其他AI应用--基于MobileNetv2的垃圾分类

摘要: MindSpore AI框架使用MobileNetv2模型开发垃圾分检代码。检测本地图像中的垃圾物体,保存检测结果到文件。记录了开发过程和步骤,包括环境准备、数据下载、加载和预处理、模型搭建、训练、测试、推理应用等。 1、实验目的 了解垃圾分…

解决pip默认安装位置在C盘方法

新版python中使用pip命令将opencv库安装到base环境中 首先我们打开命令控制窗口,激活base环境,输入conda activate base 然后检查一下自己base环境中是否安装opencv库,输入conda list 往下找,找到o开头的地方,发现是…

达梦数据库 页大小与数据库字段长度的关系

对于达梦数据库实例而言,页大小 (page_size)、簇大小 (extent_size)、大小写敏感 (case_sensitive)、字符集 (charset) 这四个参数,一旦确定无法修改;如果过程中发现这些数据设置的不对,只能是重新新建数据库实例,而不…

GraphQL与RESTful API的区别和优势

GraphQL GraphQL是一种用于API设计的语言和查询协议,由Facebook于2015年推出。它允许客户端向服务器指定他们需要的数据字段,而不是像RESTful API那样请求整个资源然后过滤数据。在GraphQL中,客户端发送一个单一的请求,而服务器返…

通过npm安装OpenLayers库,vue3+ts环境下OpenLayers实现加载本地高德离线地图并添加标记点、标记点气泡及标记点气泡按钮事件

在Vue 3和TypeScript的环境下使用OpenLayers来加载高德地图的离线瓦片,并添加标记点、标记点气泡以及处理气泡上的按钮事件,涉及到几个步骤。首先,需要明确高德地图的瓦片数据格式和如何配置OpenLayers以使用这些瓦片。接着,我们需…

零信任沙箱是什么?零信任沙箱有什么作用?

零信任沙箱是什么?零信任沙箱有什么作用? 在当今数字化时代,数据安全已成为各行各业的核心关注点。零信任沙箱作为一种新兴的安全技术,不仅适用于政府和金融等关键领域,其实用性覆盖了更广泛的场景,如医疗…

数智化配补调:零售品牌增长新引擎

随着科技的不断进步和消费者需求的日益个性化、多元化,传统服装行业正面临着前所未有的挑战与机遇。在这个快速变化的时代,如何精准把握市场脉搏,实现库存的高效管理,成为了服装品牌生存与发展的关键。数智化配补调策略应运而生&a…

mysql定时备份数据库

文章目录 核心目标思路具体方法一、编写脚本二、修改文件属性三、找一个mysqldump文件四、把.sh放到定时器里 其它:windows的脚本 核心目标 解决数据库定时备份的工作。centos环境。 思路 用centos的crontab定时执行脚本。 具体方法 一、编写脚本 编写backup_…

精准控制:Eureka服务续约间隔配置全指南

精准控制:Eureka服务续约间隔配置全指南 在微服务架构中,服务的发现与注册是确保服务间有效通信的关键。Eureka,作为Netflix开源的服务发现框架,提供了一种优雅的方式来实现服务的注册与发现。然而,服务续约间隔的配置…

vue单独部署到宝塔教程

配置反向代理 注意:如果目标网站是https则写https否则写http 2.关于解决部署后无法刷新,直接报错404 location / { try_files $uri $uri/ /index.html; }

程序员鱼皮的保姆级写简历指南第三弹,简历常见问题和建议汇总

大家好,我是程序员鱼皮。做知识分享这些年来,我看过太多简历、也帮忙修改过很多的简历,发现很多同学是完全不会写简历的、会犯很多常见的问题,不能把自己的优势充分展示出来,导致错失了很多面试机会,实在是…

PostgreSQL LIMIT 子句

PostgreSQL LIMIT 子句 PostgreSQL 是一种功能强大的开源对象关系数据库管理系统,广泛用于各种应用中。在处理大量数据时,我们通常只需要检索部分记录,而不是整个数据集。这时,LIMIT 子句就变得非常有用。本文将详细介绍 Postgre…

代码随想录Day74(图论Part10)

94. 城市间货物运输| (Bellman_ford队列优化版 / SPFA) 题目:94. 城市间货物运输 I (kamacoder.com) 思路: Bellman_ford 算法 每次都是对所有边进行松弛,其实是多做了一些无用功。 只需要对 上一次松弛的时候更新过的…

p6spy 组件打印完整的 SQL 语句、执行耗时

一、前言 我们来配置一下 Mybatis Plus 打印 SQL 功能(包括执行耗时),一方面可以了解到每个操作都具体执行的什么 SQL 语句, 另一方面通过打印执行耗时,也可以提前发现一些慢 SQL,提前做好优化&#xff0c…

layui中添加上下文提示弹窗

<p context-tip"自定义上下文提示信息">段落内容...</p> <div context-tip"自定义上下文提示信息">div内容...</div>// 悬浮提示 $("body").on("mouseenter", "*[context-tip]", function () {v…

操作系统僵尸进程、CFS、上下文切换

进程 Linux的进程调度 CFS 完全公平调度算法 权重和nice值 权重&#xff1a;权重越大&#xff0c;分配的时间比例越大&#xff0c;就相当于进程的优先级越高。 进程的时间 C P U 总时间 ∗ 进程的权重 / 就绪队列所有进程权重之和 进程的时间 CPU总时间 * 进程的权重/就绪…