通过Whisper模型将YouTube播放列表中的视频转换成高质量文字稿的项目

项目简介

一个通过Whisper模型将YouTube播放列表中的视频转换成高质量文字稿的项目。

这个基于 Python 的工具旨在将 YouTube 视频和播放列表转录为文本。它集成了多种技术,例如用于转录的 Fast-Whisper、用于自然语言处理的 SpaCy 以及用于 GPU 加速的 CUDA,旨在高效处理视频内容。该脚本能够处理单个视频和整个播放列表,输出准确的文字记录和元数据。项目核心内容:

1、YouTube下载:使用pytube下载YouTube视频或播放列表的音频。
2、音频转录:利用faster_whisper.WhisperModel将音频转换成文字。
3、NLP处理:可选地整合SpaCy,用于改进句子分割,提高文字稿的可读性和结构。
4、CUDA加速:实现CUDA支持,用于兼容硬件的处理速度提升。

这个工具适用于内容分析、辅助创建视频字幕和封闭字幕、教育目的以及视频内容的存档和检索。

功能概述

核心组件

  • YouTube 下载:使用 pytube 从 YouTube 视频或播放列表下载音频。

  • 音频转录:利用 faster_whisper.WhisperModel 将音频转换为文本。该模型是 OpenAI 的 Whisper 的变体,旨在提高速度和准确性。

  • NLP 处理:可以选择集成 SpaCy 以进行复杂的句子分割,从而增强转录本的可读性和结构。

  • CUDA 加速:实现对 GPU 利用率的 CUDA 支持,提高兼容硬件的处理速度。

详细工作流程

  1. 初始化:

    • 该脚本首先根据 convert_single_video 标志确定是处理单个视频还是播放列表。

    • 它设置必要的目录来存储下载的音频、文字记录和元数据。

  2. 环境配置:

    • 将 CUDA Toolkit 路径添加到系统环境以供 GPU 使用。

    • 根据 CPU 核心数配置用于转录的工作线程数量。

  3. 视频处理:

    • 对于播放列表中的每个视频或单个视频,脚本都会下载音频。

    • 它确保每个音频文件的唯一命名以避免覆盖。

  4. 转录:

    • 音频文件被传递到 WhisperModel 进行转录。

    • 如果可用,该脚本会处理 GPU 加速,否则默认为 CPU。

    • 使用 SpaCy 或基于自定义正则表达式的拆分器将转录结果拆分为句子。

  5. 元数据生成:

    • 除了脚本之外,脚本还会生成元数据,包括每个片段的时间戳和置信度分数。

  6. 输出:

    • 记录以纯文本、CSV 和 JSON 格式保存,提供原始记录和结构化元数据。

  7. 显示/读取:

    • 为了使文字记录更易于阅读,提供了一个 html 文件 transcript_reader.html ,它可以进一步清理并提供“阅读器模式”,您可以在其中选择字体、文本大小、文本宽度和切换深色模式。只需在浏览器中打开此 html 文件,然后粘贴 generated_transcript_combined_texts 文件夹中生成的文件之一的转录文本即可。

图片

实际操作的屏幕截图

图片

图片

将成绩单文本粘贴到成绩单阅读器 HTML 文件中使用深色模式和 Cambria 字体的阅读器

项目链接

https://github.com/Dicklesworthstone/bulk_transcribe_youtube_videos_from_playlist

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/163264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pytest测试框架介绍(1)

又来每天进步一点点啦~~~ 一、Pytest介绍: pytest 是一个非常成熟的全功能的Python测试框架; pytest 简单、灵活、易上手; 支持参数化 能够支持简单的单元测试和复杂的功能测试,可以做接口自动化测试(pytestrequests&…

根据商品链接获取拼多多商品详情数据接口|拼多多商品详情价格数据接口|拼多多API接口

拼多多,作为中国最大的社交电商之一,为卖家提供了丰富的商品详情接口。这些接口可以帮助卖家快速获取商品信息,提高销售效率。本文将详细介绍如何使用拼多多商品详情接口,以及它的优势和注意事项。 一、拼多多商品详情接口概述 …

Picasso网络原生PICA Token通过XCM集成进入Moonriver生态

波卡上的首选多链开发平台Moonbeam宣布Moonriver和Picasso(分别为Moonbeam和Composable Finance的Kusama对应平行链)已达成XCM集成。该集成将Picasso的PICA Token引入Moonriver生态系统使用,并允许用户在Picasso网络上使用MOVR。两条平行链都…

大宗商品贸易集团数据治理实践,夯实数字基座 | 数字化标杆

某大型央企是首批全国供应链创新与应用示范企业,在“十四五”规划期内以聚焦供应链管理核心主业作为主要战略发展方向。供应链运营管理以大宗商品贸易为主,其交易往往具有交易量巨大、交易环节复杂、风险交易难识别、风险客商难管控等痛点。 随着集团数…

猪肉罐头加工污水处理设备生产厂家价格

猪肉罐头加工污水处理设备生产厂家价格 设备原理 废水由收集管网收集,自流进入格栅渠,通过格栅除污机去除大块碎肉、漂浮物,入初沉池把有利于沉淀的非溶解物质加以沉淀,然后自流进入调节池,由调节池调节水量和均化水质…

五分钟搭建开源ERP:Odoo,并实现公网远程访问

文章目录 前言1. 下载安装Odoo:2. 实现公网访问Odoo本地系统:3. 固定域名访问Odoo本地系统 前言 Odoo是全球流行的开源企业管理套件,是一个一站式全功能ERP及电商平台。 开源性质:Odoo是一个开源的ERP软件,这意味着企…

小猪优版的前世今生:从籍籍无名到行业瞩目,再到骤变的风暴中心

1. 前世:籍籍无名到行业新星的崛起 小猪优版在初创时期,并不被大众所知。然而,它凭借对短视频行业的深度洞察,以及独特的商业模式,开始在这个领域崭露头角。它提供了一个平台,不仅助力内容创作者更好地展现…

使用whisper实现语音转文本

项目地址:GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision 1、需要py3.8环境 conda activate p38 2、安装 pip install -U openai-whisper 3、下载项目 pip install githttps://github.com/openai/whisper.git 4、安装…

6:kotlin 空值安全(Null safety)

在Kotlin中,是可以有空值的。为了防止程序中出现空值问题,Kotlin实施了空值安全。空值安全在编译时而不是运行时检测到可能的空值问题。 空值安全是一组功能的组合,允许您: 明确声明程序中允许空值的地方。检查空值。对可能包含…

如何避免Steam搬砖项目中账号被盗

购买steam余额有风险吗?及N种被红锁的情况 相信最近很多人都已经听说过steam游戏搬砖这个项目,也叫CSGO游戏搬砖项目,还有人叫它:国外steam游戏汇率差项目,无论怎么称呼,都是同一个项目。 那么什么是stea…

2022-4-10 台大机器人学 轨迹

台大机器人学 运动学 轨迹规划 多段 linear function with parabolic blends 直线转二次曲线平滑过多个中间via points

Fuzzy c-means

Fuzzy c-means ​ 模糊C-均值聚类算法:是一种模糊聚类算法,是K均值算法聚类的推广形式,隶属度取值为[0,1]区间内的任意一个数,提出的基本依据是“类内加权误差平方和最小化”准则。 ​ 这两个方法都是迭代求取最终的聚类划分&am…

泼天的富贵来啦,快带着你的PMP证书一起迎接

考过PMP认证的威宝们,这波泼天的富贵大家一定要接住呀! 很多威宝们在学习PMP之前都在担心,这个证书含金量高吗?转岗跳槽用得上吗?有必要考吗?今天,喜番大声地告诉大家:含金量高&…

Class文件转Java文件

目录 1、下载一个反编译工具2、在文件夹下打开命令窗口3、在此目录下随意建一个文件夹4、在打开的命令窗口输入命令5、返回解压目录下 1、下载一个反编译工具 下载链接:https://varaneckas.com/jad/ 下载的是第一个 下载后放至任意目录下解压即可 2、在文件夹下打…

夜天之书 #88 Elastic License 2.0 与开源协议的发展

译序 我在此前的多篇文章中讨论了商业开源的话题: 《企业开源的软件协议模型实践》《企业实践开源的动机》《商业源码协议为何得到 HashiCorp 等企业的垂青?》《企业如何实践开源协同》《中国不缺好的开源开发者》“商业探索与可持续”一节《开源不是商业…

JetLinks设备接入的认识与理解【woodwhales.cn】

为了更好的阅读体验,建议移步至笔者的博客阅读:JetLinks设备接入的认识与理解 1、认识 JetLinks 1.1、官网文档 官网:https://www.jetlinks.cn/ JetLinks 有两个产品:JetLinks-lot和JetLinks-view 官方文档: JetLi…

【自然语言处理】正向最大匹配算法(FMM),反向最大匹配算法(BMM)和双向最大匹配算法(BM)原理及实现

目录 一,正向最大匹配算法(FMM) 二,反向最大匹配算法(RMM) 一,正向最大匹配算法(FMM) 正向最大匹配分词(Forward maximum matching segmentation)通常简称为…

没有PDF密码,如何解密?

PDF文件有两种密码,一个打开密码、一个限制编辑密码,因为PDF文件设置了密码,那么打开、编辑PDF文件就会受到限制。忘记了PDF密码该如何解密? PDF和office一样,可以对文件进行加密,但是没有提供恢复密码的功…

powshell 不能运行脚本

1、先执行: Set-ExecutionPolicy -Scope CurrentUser 2、再输入: remotesigned

win10下安装gcc

win10下安装gcc 一、gcc是什么? 1.1、安装gcc 第一次安装,记录一下 一、gcc是什么? GNU编译器套件(GNU Compiler Collection)包括C、C、Objective-C、Fortran、Java、Ada和Go语言的前端,也包括了这些语言的库(如libstdc、libgcj等等…