字幕切分视频

Whisper

仓库地址:
https://github.com/openai/whisper
可用模型信息:
在这里插入图片描述
测试视频:18段,总共447S视频(11段前:有11段开头有停顿的视频)
Tiny: 跑完:142S ,11段前,对0段,18段中,对10段,5段后,对5段。
Large:跑完:941S,11段前,对0段,18段中,对2段,5段后,对4段。
WhisperX:跑完:143S ,11段前,对10段,18段中,对17段,5段后,对5段。
开口说话到,发出音,大概有13,14,12,20,帧左右的误差,也就是说有0.8S左右的误差,所以建议,如果取无声音频,end要往前挪10帧。
有的人,在静默的时候还咧嘴笑一笑
一句话说完,从没有声音到完全闭上嘴,大概有5帧,8帧,10帧左右,大概有0.4S左右的误差。
WhisperX误差统计(单位:秒):
在这里插入图片描述
总结:1)WhisperX会在视频停顿空语音前,比label都早停顿。缺点:一句话后几个字可能被裁减掉,对我们的影响是浪费不到1秒的原数据。优点:没语音了,嘴没闭的情况可以解决;
2)WhisperX会在视频停顿空语音后,比label都晚停顿。缺点:一句话开头几个字可能被裁减掉,对我们的影响是浪费不到1秒的原数据。优点:说话前,嘴动了,却还没发出声的情况,过滤掉。

whisperX

牛津大学的博士生Max Bain开源的模型
https://github.com/m-bain/whisperX
效果如上表所示,很好。
WhisperX accepted at INTERSPEECH 2023

达摩院语音团队Paraformer

https://github.com/alibaba-damo-academy/FunASR
效果:
在这里插入图片描述
即:每个字都有start 和end时间戳,没有断句的功能

飞书秒记

https://www.feishu.cn/product/minutes
只有字幕,没有时间戳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/4932.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(栈队列堆) 剑指 Offer 09. 用两个栈实现队列 ——【Leetcode每日一题】

❓ 剑指 Offer 09. 用两个栈实现队列 难度:简单 用两个栈实现一个队列。队列的声明如下,请实现它的两个函数 appendTail 和 deleteHead ,分别完成在队列尾部插入整数和在队列头部删除整数的功能。(若队列中没有元素,deleteHead …

FreeRTOS中的互斥和同步怎么理解(通俗易懂版)-利用银行取钱和存钱两个任务举例

目录 1. 互斥(Mutex) 2. 同步(Synchronization) 通俗易懂的例子加代码 1. 互斥(Mutex): 2. 同步(Synchronization): 1. 互斥(Mutex&#xff…

vscode远程连接提示:过程试图写入的管道不存在(删除C:\Users\<用户名>\.ssh\known_hosts然后重新连接)

文章目录 复现过程原因解决方法总结 复现过程 我是在windows上用vscode远程连接到我的ubuntu虚拟机上,后来我的虚拟机出了点问题,我把它回退了,然后再连接就出现了这个问题 原因 本地的known_hosts文件记录服务器信息与现服务器的信息冲突了…

虚拟机挂载USB设备/USB serial 连接开发板

虚拟机挂载USB设备 1、添加USB设备 2、终端输入:sudo fdisk -l 查看Device设备: 3、创建挂载目录:mkdir /mnt/usb 4、执行挂载命令:sudo mount /dev/sdb1 /mnt/usb ,查看/mnt/usb目录下是否存在U盘中的数据: 5、用…

html实现时钟

1、html代码 <div id"clock"><div><span id"hours"></span><span class"text"> 时 : </span></div><div><span id"minutes"></span><span class"text">…

设计模式——桥梁模式

桥梁模式 定义 桥梁模式&#xff08;Bridge Pattern&#xff09;也叫做桥接模式。 将抽象和显示解耦&#xff0c;使得两者可以独立地变化。 优缺点、应用场景 优点 抽象和实现的解耦。 这是桥梁模式的主要特点&#xff0c;它完全是为了解决继承的缺点而提出的设计模式。优…

流体力学中的湍流强度(turbulence intensity)

流体力学中的湍流强度&#xff08;turbulence intensity&#xff09; 一、定义 湍流强度&#xff08;turbulence intensity&#xff09;也被称为湍流级&#xff08;turbulence level&#xff09;&#xff0c;被定义为&#xff1a; I ≡ u ′ U I \equiv \frac{u}{U} I≡Uu′…

成为一个年薪30W+的DFT工程师是一种什么体验?

一直以来&#xff0c;DFT都是数字IC设计行业中相对神秘的一个岗位。 你说他重要吧&#xff0c;并不是所有芯片设计公司都有这个岗位&#xff0c;你说他不重要吧&#xff0c;但凡芯片产品达到一定规模后&#xff0c;就必须设置DFT部门。 一、什么是DFT&#xff1f; DFT&#x…

原生信息流广告APP应用内增收及计费模式

比起传统的广告宣传&#xff0c;信息流最大的优势就在于流量的庞大。与此同时&#xff0c;多样化的信息流广告形式和精准的定向&#xff0c;还可以帮助广告主准确获取意向流量。此外&#xff0c;它的广告形式不强迫推送&#xff0c;因此也受到了广泛用户的支持和青睐。 原生信…

音视频开发实战03-FFmpeg命令行工具移植

一&#xff0c;背景 作为一个音视频开发者&#xff0c;在日常工作中经常会使用ffmpeg 命令来做很多事比如转码ffmpeg -y -i test.mov -g 150 -s 1280x720 -codec libx265 -r 25 test_h265.mp4 &#xff0c;水平翻转视频&#xff1a;ffmpeg -i src.mp4 -vf hflip -acodec copy …

26.JavaWeb-SpringSecurity安全框架

1.SpringSecurity安全框架 Spring Security是一个功能强大且灵活的安全框架&#xff0c;它专注于为Java应用程序提供身份验证&#xff08;Authentication&#xff09;、授权&#xff08;Authorization&#xff09;和其他安全功能。Spring Security可以轻松地集成到Spring框架中…

zsh: command not found: mulate

MacOS 执行 poetry shell后报错如下&#xff1a; *[main][~/coding/ensure_import]$ poetry shell Spawning shell within /Users/mac10.12/Library/Caches/pypoetry/virtualenvs/ensure-import-3q-JXftD-py3.11 [oh-my-zsh] Would you like to update? [Y/n] [oh-my-zsh] Yo…

MySQL数据库(五)

目录 一、数据库的约束 1.1 约束类型 1.1.1 null约束 1.1.2unique约束 1.1.3default默认值约束 1.1.4primary key主键约束 1.1.5foreign key外键约束 二、内容重点总结 一、数据库的约束 1.1 约束类型 not null - 指示某列不能存储 null值。unique - 保证某列的每行必须有唯一…

简单机器学习工程化过程

1、确认需求&#xff08;构建问题&#xff09; 我们需要做什么&#xff1f; 比如根据一些输入数据&#xff0c;预测某个值&#xff1f; 比如输入一些特征&#xff0c;判断这个是个什么动物&#xff1f; 这里我们要可以尝试分析一下&#xff0c;我们要处理的是个什么问题&…

上市公司Git分支管理规范

Git分支管理策略 主分支Master 首先&#xff0c;代码库应该有一个、且仅有一个主分支。所有提供给用户使用的正式版本&#xff0c;都在这个主分支上发布。 Git主分支的名字&#xff0c;默认叫做Master。它是自动建立的&#xff0c;版本库初始化以后&#xff0c;默认就是在主…

python编程语言之函数基础

函数基础 设计一个程序输出一下图案效果&#xff1a; ************************* ************************************************************* ************************************根据已经学过的内容&#xff0c;我们的实现方式如下&#xff1a; rows6#第1个菱形的上…

采集传感器的物联网网关怎么采集数据?

随着工业4.0和智能制造的快速发展&#xff0c;物联网&#xff08;IoT&#xff09;技术的应用越来越广泛&#xff0c;传感器在整个物联网系统中使用非常普遍&#xff0c;如温度传感器、湿度传感器、光照传感器等&#xff0c;对于大部分物联网应用来说&#xff0c;采集传感器都非…

Ubuntu学习笔记(二)——文件属性与权限

文章目录 前言一、用户与用户组1.用户&#xff08;文件拥有者&#xff09;2.用户组3.其他人 二、Linux用户身份与用户组记录文件1. /etc/passwd2. /etc/shadow3. /etc/group 三、文件属性与权限1. 查看文件属性的方法&#xff08;ls&#xff09;2.文件属性详细介绍2.1 权限2.2 …

将composer的bin目录放到PATH环境变量中

使用composer global config bin-dir --absolute查看composer的bin目录 输出类似 Changed current directory to /home/lijun/.config/composer /home/lijun/.config/composer/vendor/bin/home/lijun/.config/composer/vendor/bin就是composer的bin目录 将/home/lijun/.confi…

使用python里的神经网络进行数据分类预测

在Python中使用神经网络进行数据分类预测&#xff0c;可以使用深度学习库如TensorFlow、Keras或PyTorch来实现。以下是使用Keras库的示例代码&#xff1a; Step 1: 准备数据 首先&#xff0c;准备用于训练和测试神经网络的数据集。将数据集分为输入特征和相应的目标类别。确保…