【python ASR】win11-从0到1使用funasr实现本地离线音频转文本

文章目录

  • 前言
  • 一、前提条件
    • 安装环境
      • Python 安装
      • 安装依赖,使用工业预训练模型
      • 最后安装 - torch
        • 1. 安装前查看显卡支持的最高CUDA的版本,以便下载`torch `对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。
        • 2. 前往网站下载[Pytorch](https://pytorch.org/get-started/locally/)
  • 二、使用步骤
  • 总结


前言

python本地离线跑模型,需要下载许多依赖以及依赖版本都要互相对应。本文总结从0到1到运行funasr的过程。希望帮助友友们,能够快速上手,避免浪费时间在环境和依赖版本的校对上。


一、前提条件

安装环境

仓库

可以看到一些前提条件
python>=3.8
torch>=1.13
torchaudio

Python 安装

3.8 比较旧了,这里我取中间,安装 Python3.11

  • 下载地址python 3.11
  • 详细步骤:参考保姆教程

安装依赖,使用工业预训练模型

pip3 install -U modelscope huggingface

最后安装 - torch

1. 安装前查看显卡支持的最高CUDA的版本,以便下载torch 对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。
nvidia-smi.exe

在这里插入图片描述
如果你发现你的CUDA是10.1或者11以下比较旧的,建议升级下显卡驱动就可以了。

2. 前往网站下载Pytorch

由于我最高支持12.6
所以我这里下载12.4

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

在这里插入图片描述


如果你像下面被限速了在这里插入图片描述
科学就行,最好重新打开终端。
在这里插入图片描述

二、使用步骤

from funasr import AutoModel
model = AutoModel(model="paraformer-zh",  vad_model="fsmn-vad", punc_model="ct-punc" )
res = model.generate(input="demo.mp3", batch_size_s=300, hotword='魔搭')
print(res)

源音频URL对比

[{'key': 'demo', 'text': '是有哪些学校的GPA特别难拿?行,我跟大家盘一盘吧,也刚好避一个坑。那第一个说一说BU吧,它处于波士顿的核心地带,常年都会在这个final最难的几所美国大学的排行榜上榜上有名。还有呢,就是像这个MIT申请的时候,难度也就特别高,考试难度拿GP的难度也非常高。还有呢就是像普林斯顿,虽然说很多藤校会有GPA inflation,但是呢普林斯顿在这一点上卡的很严严,我们 的GPA一点活路都不留。还有呢就是像普渡大学工科相关的专业,学起来难度也比较大。还有就是哈维姆德,它其实是一个科学和工程专业的强校,录取难度也很高,读下来拿高GP的难度也很高。', 'timestamp': [[130, 310], [310, 430], [430, 670], [730, 830], [830, 950], [950, 1070], [1070, 1190], [1190, 1550], [1550, 1630], [1630, 1730], [1730, 1970], [2450, 2690], [2690, 2810], [2810, 2930], [2930, 3050], [3050, 3130], [3130, 3290], [3290, 3410], [3410, 3590], [3590, 3710], [3710, 3830], [3830, 3950], [3950, 4070], [4070, 4190], [4190, 4310], [4310, 4410], [4410, 4650], [4650, 4770], [4770, 4890], [4890, 5010], [5010, 5210], [5210, 5310], [5310, 5430], [5430, 5610], [5610, 5790], [5790, 6210], [6210, 6450], [6510, 6690], [6690, 6930], [6930, 7050], [7050, 7170], [7170, 7290], [7290, 7430], [7430, 7510], [7510, 7710], [7710, 7870], [7870, 8070], [8070, 8290], [8290, 8530], [8550, 8650], [8650, 8830], [8830, 9070], [9090, 9190], [9190, 9290], [9290, 9490], [9490, 9970], [9970, 10210], [10210, 10450], [10470, 10630], [10630, 10850], [10850, 10990], [10990, 11190], [11190, 11350], [11350, 11470], [11470, 11610], [11610, 11710], [11710, 11890], [11890, 12130], [12130, 12330], [12330, 12490], [12490, 12610], [12610, 12790], [12790, 13030], [13090, 13170], [13170, 13330], [13330, 13450], [13450, 13570], [13570, 13650], [13650, 13850], [13850, 13990], [13990, 14110], [14110, 14230], [14230, 14950], [14950, 15070], [15070, 15210], [15210, 15310], [15310, 15430], [15430, 15550], [15550, 15670], [15670, 15770], [15770, 15910], [15910, 16010], [16010, 16129], [16129, 16370], [16510, 16610], [16610, 16810], [16810, 17030], [17030, 17150], [17150, 17350], [17350, 17450], [17450, 17670], [17670, 17790], [17790, 17890], [17890, 18010], [18010, 18210], [18210, 18310], [18310, 18550], [18550, 18730], [18730, 18850], [18850, 19030], [19030, 19150], [19150, 19270], [19270, 19350], [19350, 19530], [19530, 19630], [19630, 19770], [19770, 19930], [19930, 20130], [20130, 20290], [20290, 20470], [20470, 20710], [20750, 20890], [20890, 21090], [21090, 21250], [21250, 21490], [21630, 21790], [21790, 22030], [22150, 22530], [22530, 23170], [23250, 23410], [23410, 23570], [23570, 23710], [23710, 23810], [23810, 23990], [23990, 24170], [24170, 24410], [24490, 24730], [24790, 24950], [24950, 25070], [25070, 25310], [25310, 25510], [25510, 25610], [25610, 25730], [25730, 25850], [25850, 26090], [26230, 26390], [26390, 26470], [26470, 26570], [26570, 26650], [26650, 27070], [27070, 27170], [27170, 27350], [27350, 27470], [27470, 27650], [27650, 27770], [27770, 27850], [27850, 28090], [28210, 28310], [28310, 28490], [28490, 28610], [28610, 28730], [28730, 28810], [28810, 29050], [29050, 29210], [29210, 29410], [29410, 29570], [29570, 29810], [29930, 30050], [30050, 30250], [30250, 30470], [30470, 30650], [30650, 30790], [30790, 30890], [30890, 31130], [31150, 31310], [31310, 31430], [31430, 31570], [31570, 31730], [31730, 31850], [31850, 31970], [31970, 32070], [32070, 32189], [32189, 32430], [32470, 32549], [32549, 32730], [32730, 32830], [32830, 32910], [32910, 33030], [33030, 33210], [33210, 33390], [33390, 33630], [33770, 33910], [33910, 34050], [34050, 34230], [34230, 34330], [34330, 34410], [34410, 34610], [34610, 34830], [34830, 35010], [35010, 35230], [35230, 35430], [35430, 35670], [35710, 35850], [35850, 36030], [36030, 36170], [36170, 36410], [36450, 36690], [36950, 37050], [37050, 37230], [37230, 37350], [37350, 37470], [37470, 37650], [37650, 37770], [37770, 38010], [38070, 38190], [38190, 38310], [38310, 38490], [38490, 38610], [38610, 38810], [38810, 39090], [39090, 39210], [39210, 39310], [39310, 39410], [39410, 39590], [39590, 39710], [39710, 40015]]}]

总结

以上是使用Python跑 funasr 模型的过程。
总的来说就是 torch安装需要对应你的显卡版本,要小于你的显卡CUDA最大支持版本。
后续会记录Python爬取抖音主页的数据,拿到点赞量及无水印视频等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/57611.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql8.0.32升级到8.0.40

上篇8.0.32库的准备:mysql: error while loading shared libraries: libncurses.so.5: cannot open shared object file: No suc-CSDN博客 此篇测试升级到8.0.40 MySQL :: Download MySQL Community Server rootjyc:~# mysql -u root -pabcd1234 mysql: [Warning]…

从此告别图床失效:一个几乎可以代理所有图床的工具!

原项目 Github: https://github.com/webp-sh/webp_server_go 根据此项目制作的脚本工具 一键脚本: curl -sS -O https://raw.githubusercontent.com/woniu336/open_shell/main/webp-server.sh && chmod x webp-server.sh && ./webp-server.sh是的&…

JavaScript语法基础——变量,数据类型,运算符和程序控制语句(小白友好篇,手把手教你学会!)

一、JavaScript概述 JavaScript是一种高级编程语言,常用于网页开发和服务器端应用程序。它是一种动态类型语言,可以在浏览器中直接解释执行,而不需要编译。 脚本(Script)是一种与计算机程序相关的指令集或代码块&…

Jenkins-配置使用ssh拉取仓库代码,配置自动化构建打包(三)(云效)

文章目录 准备注意:流程: 检查之前是否配置过与代码仓库的连接生成密钥对手动在服务器中与代码仓库建立连接以生成 Known hosts file代码仓库端添加公钥Jenkins System-Publish over SSH中添加私钥Jenkins中创建项目,并使用私钥添加ssh凭据构…

镭眸ILS-F13测量型激光雷达:超远距激光雷达专家

镭眸F13是一款超远距离测量型激光雷达,专为需要在超远距离内实现移动物体轮廓数据测量的用户设计。它能够以25Hz的扫描频率,在120米内提供3厘米的扫描精度,解决了现有传感器无法满足的测量距离问题。与市场上其他产品如西克(SICK&…

windows安装deepin双系统

最近入手了一台中柏N100的小主机,本来只想当个机顶盒,没想到性能还可以,就打算用它做一些日常的办公,无聊时想着能不能再装个Linux,就去Deepin官网查看了下方法, 在此记录 另外,欢迎来我的博客…

SAP-FICO 月结流程

一、财务月结 1、资产会计-固定资产折旧计提AFAB 正式运行之前,先测试运行,没有问题就正式运行 可以看到,没有错误 因为正式系统的资产会过于庞大,一般都是后台运行资产的折旧 点击程序--后台执行 AFBP查看运行日志&#xff0c…

深度学习(八) TensorFlow、PyTorch、Keras框架大比拼(8/10)

一、深度学习框架概述 深度学习框架在当今人工智能和机器学习领域中占据着至关重要的地位。其中,TensorFlow 由 Google 开发,自 2015 年发布以来,凭借其灵活的计算图、自动微分功能以及跨平台支持等特点,迅速成为主流深度学习框架…

JVM—类加载器、双亲委派机制

目录 什么是类加载器 类加载器的分类 Bootstrap启动类加载器 通过启动类加载器加载用户jar包 Extension扩展类加载器和Application应用程序类加载器 通过扩展类加载器加载用户jar包 双亲委派机制 打破双亲委派机制 自定义类加载器 线程上下文类加载器 Osgi框架的类加…

flask第一个应用

文章目录 安装一、编程第一步二、引入配置三、代码解析 安装 python环境安装的过程就不重复赘述了,flask安装使用命令pip install Flask即可,使用命令pip show Flask查看flask版本信息 提示:以下是本篇文章正文内容,下面案例可供…

享元模式-实现大颗粒度对象缓存机制

详解 享元模式是一种结构型设计模式,其主要目的是通过共享尽可能多的相同部分来有效地支持大量细粒度的对象。它通过将对象的属性分为内在属性(可以共享、不随环境变化的部分)和外在属性(根据场景变化、不能共享的部分&#xff0…

Flutter学习笔记(一)-----环境配置

一、android 环境 android这边可以参照godot的配置 1.装java Java Downloads | Oracle x64 Compressed Archive :下载后直接解压到某个位置,不用安装 x64 installer: 下载后双击安装 注意:不要去百度直接搜Java安装,这样你最多安…

JetBrains Clion Idea 等缓存文件和配置文件迁移

JetBrains 缓存文件和配置文件迁移 文件默认路径 缓存文件默认路径: %userprofile%/AppData/Local/JetBrains/应用名 如 C:/Users/wbl/AppData/Local/JetBrains/CLion2021.3日志文件默认路径:默认在配置文件目录下的log文件夹 %userprofile%/AppData…

《AI产品经理手册》——解锁AI时代的商业密钥

在当今这个日新月异的AI时代,每一位产品经理都面临着前所未有的挑战与机遇,唯有紧跟时代潮流,深入掌握AI技术的精髓,才能在激烈的市场竞争中独占鳌头。《AI产品经理手册》正是这样一部为AI产品经理量身定制的实战宝典,…

2024年最全2024年最系统的网络安全自学路线,学完即可就业_安全学习路线(2),2024年最新你掌握了多少

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长&#xf…

前端拖拽库方案之react-beautiful-dnd

近期,知名 React 拖拽库 react-beautiful-dnd 宣布了项目弃用的决定,未来将不再维护。这一决定源于其存在的缺陷与局限性,促使作者转向开发一个更加现代化的拖拽解决方案——Pragmatic drag and drop(下面会介绍)&…

【深度学习】实验 — 动手实现 GPT【四】:代码实现Transformer、代码实现GPT模型、训练大型语言模型(LLM)

【深度学习】实验 — 动手实现 GPT【四】:代码实现Transformer、代码实现GPT模型、训练大型语言模型(LLM) 在 Transformer 块中连接注意力层和线性层代码实现Transformer 块 代码实现GPT模型文本生成训练模型计算训练集和验证集的损失 训练大…

我在命令行下剪辑视频

是的,你不需要格式工厂,你也不需要会声会影,更不需要爱剪辑这些莫名其妙的流氓软件,命令行下视频处理,包括剪辑,转码,提取,合成,缩放,字幕,特效等…

海外云手机是什么?对外贸电商有什么帮助?

在外贸电商领域,流量引流已成为卖家们关注的核心问题。越来越多的卖家开始利用海外云手机,通过TikTok等社交平台吸引流量,以推动商品在海外市场的销售。那么,海外云手机到底是什么?它又能为外贸电商卖家提供哪些支持呢…

MATLAB绘图|关于三维制图,给初学者的建议

给MATLAB的关于绘制三维图的建议 文章目录 基础知识使用基本函数设置轴标签和标题调整视角添加网格和图例绘制子图灵活使用 hold on 和 hold off保存图形总结 基础知识 了解三维坐标系统:三维图形有三个轴(x、y、z),确保你理解如…