通过Whisper模型将YouTube播放列表中的视频转换成高质量文字稿的项目

项目简介

一个通过Whisper模型将YouTube播放列表中的视频转换成高质量文字稿的项目。

这个基于 Python 的工具旨在将 YouTube 视频和播放列表转录为文本。它集成了多种技术,例如用于转录的 Fast-Whisper、用于自然语言处理的 SpaCy 以及用于 GPU 加速的 CUDA,旨在高效处理视频内容。该脚本能够处理单个视频和整个播放列表,输出准确的文字记录和元数据。项目核心内容:

1、YouTube下载:使用pytube下载YouTube视频或播放列表的音频。
2、音频转录:利用faster_whisper.WhisperModel将音频转换成文字。
3、NLP处理:可选地整合SpaCy,用于改进句子分割,提高文字稿的可读性和结构。
4、CUDA加速:实现CUDA支持,用于兼容硬件的处理速度提升。

这个工具适用于内容分析、辅助创建视频字幕和封闭字幕、教育目的以及视频内容的存档和检索。

功能概述

核心组件

  • YouTube 下载:使用 pytube 从 YouTube 视频或播放列表下载音频。

  • 音频转录:利用 faster_whisper.WhisperModel 将音频转换为文本。该模型是 OpenAI 的 Whisper 的变体,旨在提高速度和准确性。

  • NLP 处理:可以选择集成 SpaCy 以进行复杂的句子分割,从而增强转录本的可读性和结构。

  • CUDA 加速:实现对 GPU 利用率的 CUDA 支持,提高兼容硬件的处理速度。

详细工作流程

  1. 初始化:

    • 该脚本首先根据 convert_single_video 标志确定是处理单个视频还是播放列表。

    • 它设置必要的目录来存储下载的音频、文字记录和元数据。

  2. 环境配置:

    • 将 CUDA Toolkit 路径添加到系统环境以供 GPU 使用。

    • 根据 CPU 核心数配置用于转录的工作线程数量。

  3. 视频处理:

    • 对于播放列表中的每个视频或单个视频,脚本都会下载音频。

    • 它确保每个音频文件的唯一命名以避免覆盖。

  4. 转录:

    • 音频文件被传递到 WhisperModel 进行转录。

    • 如果可用,该脚本会处理 GPU 加速,否则默认为 CPU。

    • 使用 SpaCy 或基于自定义正则表达式的拆分器将转录结果拆分为句子。

  5. 元数据生成:

    • 除了脚本之外,脚本还会生成元数据,包括每个片段的时间戳和置信度分数。

  6. 输出:

    • 记录以纯文本、CSV 和 JSON 格式保存,提供原始记录和结构化元数据。

  7. 显示/读取:

    • 为了使文字记录更易于阅读,提供了一个 html 文件 transcript_reader.html ,它可以进一步清理并提供“阅读器模式”,您可以在其中选择字体、文本大小、文本宽度和切换深色模式。只需在浏览器中打开此 html 文件,然后粘贴 generated_transcript_combined_texts 文件夹中生成的文件之一的转录文本即可。

图片

实际操作的屏幕截图

图片

图片

将成绩单文本粘贴到成绩单阅读器 HTML 文件中使用深色模式和 Cambria 字体的阅读器

项目链接

https://github.com/Dicklesworthstone/bulk_transcribe_youtube_videos_from_playlist

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/163264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pytest测试框架介绍(1)

又来每天进步一点点啦~~~ 一、Pytest介绍: pytest 是一个非常成熟的全功能的Python测试框架; pytest 简单、灵活、易上手; 支持参数化 能够支持简单的单元测试和复杂的功能测试,可以做接口自动化测试(pytestrequests&…

根据商品链接获取拼多多商品详情数据接口|拼多多商品详情价格数据接口|拼多多API接口

拼多多,作为中国最大的社交电商之一,为卖家提供了丰富的商品详情接口。这些接口可以帮助卖家快速获取商品信息,提高销售效率。本文将详细介绍如何使用拼多多商品详情接口,以及它的优势和注意事项。 一、拼多多商品详情接口概述 …

大宗商品贸易集团数据治理实践,夯实数字基座 | 数字化标杆

某大型央企是首批全国供应链创新与应用示范企业,在“十四五”规划期内以聚焦供应链管理核心主业作为主要战略发展方向。供应链运营管理以大宗商品贸易为主,其交易往往具有交易量巨大、交易环节复杂、风险交易难识别、风险客商难管控等痛点。 随着集团数…

五分钟搭建开源ERP:Odoo,并实现公网远程访问

文章目录 前言1. 下载安装Odoo:2. 实现公网访问Odoo本地系统:3. 固定域名访问Odoo本地系统 前言 Odoo是全球流行的开源企业管理套件,是一个一站式全功能ERP及电商平台。 开源性质:Odoo是一个开源的ERP软件,这意味着企…

小猪优版的前世今生:从籍籍无名到行业瞩目,再到骤变的风暴中心

1. 前世:籍籍无名到行业新星的崛起 小猪优版在初创时期,并不被大众所知。然而,它凭借对短视频行业的深度洞察,以及独特的商业模式,开始在这个领域崭露头角。它提供了一个平台,不仅助力内容创作者更好地展现…

使用whisper实现语音转文本

项目地址:GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision 1、需要py3.8环境 conda activate p38 2、安装 pip install -U openai-whisper 3、下载项目 pip install githttps://github.com/openai/whisper.git 4、安装…

如何避免Steam搬砖项目中账号被盗

购买steam余额有风险吗?及N种被红锁的情况 相信最近很多人都已经听说过steam游戏搬砖这个项目,也叫CSGO游戏搬砖项目,还有人叫它:国外steam游戏汇率差项目,无论怎么称呼,都是同一个项目。 那么什么是stea…

泼天的富贵来啦,快带着你的PMP证书一起迎接

考过PMP认证的威宝们,这波泼天的富贵大家一定要接住呀! 很多威宝们在学习PMP之前都在担心,这个证书含金量高吗?转岗跳槽用得上吗?有必要考吗?今天,喜番大声地告诉大家:含金量高&…

Class文件转Java文件

目录 1、下载一个反编译工具2、在文件夹下打开命令窗口3、在此目录下随意建一个文件夹4、在打开的命令窗口输入命令5、返回解压目录下 1、下载一个反编译工具 下载链接:https://varaneckas.com/jad/ 下载的是第一个 下载后放至任意目录下解压即可 2、在文件夹下打…

JetLinks设备接入的认识与理解【woodwhales.cn】

为了更好的阅读体验,建议移步至笔者的博客阅读:JetLinks设备接入的认识与理解 1、认识 JetLinks 1.1、官网文档 官网:https://www.jetlinks.cn/ JetLinks 有两个产品:JetLinks-lot和JetLinks-view 官方文档: JetLi…

没有PDF密码,如何解密?

PDF文件有两种密码,一个打开密码、一个限制编辑密码,因为PDF文件设置了密码,那么打开、编辑PDF文件就会受到限制。忘记了PDF密码该如何解密? PDF和office一样,可以对文件进行加密,但是没有提供恢复密码的功…

mac电脑文件比较工具 UltraCompare 中文for mac

UltraCompare是一款功能强大的文件和文件夹比较工具,用于比较和合并文本、二进制和文件夹。它提供了丰富的功能和直观的界面,使用户能够轻松地比较和同步文件内容,查找差异并进行合并操作。 以下是UltraCompare软件的一些主要特点和功能&…

为什么程序员不直接用线上环境写代码呢?

为什么程序员不直接用线上环境写代码呢? 有的,我就是直接用Linux作为主力电脑使用,大概从201 6年起,我就开始这样干了。无论是编 程、画电路板、画UI、剪视频.... 都在Linux上面完成。 编程工具大部分都有Linux版本,…

【【Linux 常用命令学习 之 一 】】

Linux 常用命令学习 之 一 打开终端之后的 我们会了解 所使用的 字符串含义 其中前面的 zhuxushuai 是 当前的用户名字 接下来的 zhuxushuai-virtual-machine 是 机器名字 最后的符号 $表示 当前是普通用户 输入指令 ls 是打印出当前所在目录中所有文件和文件夹 shell 操…

多个视频怎么生成一个二维码?二维码看视频的制作方法

二维码能放入多个视频吗?现在用二维码看视频是很流行的一种方式,不仅符合现在人的行为习惯,而且还不需要占用自身的容量空间,能够即时的获取视频内容。那么当有多个视频需要展示,但是想要放到一个二维码中,…

集团投融资大数据平台解决方案

一、项目背景 项目为集团型公司大数据平台项目,整个项目周期约为6个月,整体呈现了对外的数据大屏驾驶仓和对内的看板报表,减少了客户内部数据上报和报表制作的重复工作量,为集团数据决策奠定基础。 二、项目目标 战略层&#xff…

咖啡馆管理系统点餐外卖小程序效果如何

咖啡一直是很多人喜欢的饮品,比如有些地区的人非常喜欢,熬夜加班醒脑等,咖啡领域市场规模逐年增加,相应的从业商家也在增加,近些年随着线上生态崛起,传统线下咖啡馆经营痛点显露出来。 通过【雨科】平台搭建…

目标检测算法 - YOLOv4

文章目录 1. 简介2. YOLOv4整体结构3. Backbone4. Neck 1. 简介 YOLOv4是YOLOv3的改进版。YOLOv4并不是原YOLO项目的作者。发表于CVPR2020。 改进: 主干特征提取网络:Darknet53 -> CSPDarknet53特征金字塔:SPP,PAN分类回归层…

每天学习一点点之 Tomcat 是如何清除过期 Session 的

今天使用一种很临时的方案解决 Session 泄漏的问题:缩短 Session 的过期时间。这种方法虽然简单,但却非常有效。然而,这引发了一个问题:我们应该将过期时间设置为多短呢?在 Spring Boot 中,最短的过期时间是…

实在智能携“TARS大模型”入选“2023中国数据智能产业AI大模型先锋企业”

近日,由数据猿与上海大数据联盟联合主办的“2023企业数智化转型升级发展论坛”在上海圆满收官。 论坛颁奖典礼上,《2023中国数据智能产业AI大模型先锋企业》等六大榜单正式揭晓,旨在表彰在AI领域为数智化升级取得卓越成就和突出贡献的企业&am…