WhisperBot:整合了Mistral大型语言模型的实时语音转文本系统

项目简介

欢迎来到 WhisperBot。WhisperBot 基于 WhisperLive 和 WhisperSpeech 的功能而构建,在实时语音到文本管道之上集成了大型语言模型 Mistral (LLM)。WhisperLive 依赖于 OpenAI Whisper,这是一个强大的自动语音识别 (ASR) 系统。Mistral 和 Whisper 都经过优化,可作为 TensorRT 引擎高效运行,从而最大限度地提高性能和实时处理能力。

特征

  • 实时语音转文本:利用 OpenAI WhisperLive 将口语实时转换为文本。

  • 大型语言模型集成:添加大型语言模型 Mistral,以增强对转录文本的理解和上下文。

  • TensorRT 优化:Mistral 和 Whisper 都经过优化,可作为 TensorRT 引擎运行,确保高性能和低延迟处理。

先决条件

安装 TensorRT-LLM 来构建 Whisper 和 Mistral TensorRT 引擎。自述文件为 TensorRT-LLM 构建了一个 docker 镜像。除了构建 docker 镜像之外,我们还可以参考 README 和 Dockerfile.multi 在基础 pytroch docker 镜像中安装所需的包。只要确保使用 dockerfile 中提到的正确的基础镜像,一切都会顺利进行。

构建 Whisper TensorRT 引擎

  • 将工作目录更改为 TensorRT-LLM 中的耳语示例目录。

cd TensorRT-LLM/examples/whisper
  • 目前,默认情况下 TensorRT-LLM 仅支持 large-v2 和 large-v3 。在此存储库中,我们使用 small.en 。

  • 下载所需的资源。

wget --directory-prefix=assets assets/mel_filters.npz https://raw.githubusercontent.com/openai/whisper/main/whisper/assets/mel_filters.npz
# small.en modelwget --directory-prefix=assets https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt
  • 编辑 build.py 以支持 small.en 。为此,请将 "small.en" 添加为列表 choices 中的项目。

  • 构建 small.en TensorRT 引擎。

pip install -r requirements.txtpython3 build.py --output_dir whisper_small_en --use_gpt_attention_plugin --use_gemm_plugin --use_layernorm_plugin  --use_bert_attention_plugin --model_name small.en

构建 Mistral TensorRT 引擎

  • 将工作目录更改为 TensorRT-LLM 文件夹中的 llama 示例目录。

cd TensorRT-LLM/examples/llama
  • 将 Mistral 转换为 fp16 TensorRT 引擎。

    
    python build.py --model_dir teknium/OpenHermes-2.5-Mistral-7B \--dtype float16 \--remove_input_padding \--use_gpt_attention_plugin float16 \--enable_context_fmha \--use_gemm_plugin float16 \--output_dir ./tmp/mistral/7B/trt_engines/fp16/1-gpu/ \--max_input_len 5000--max_batch_size 1

构建 Phi TensorRT 引擎

注意:Phi 仅在主分支可用,尚未发布。因此,请确保从主分支构建 TensorRT-LLM。

  • 将工作目录更改为 TensorRT-LLM 文件夹中的 phi 示例目录。

cd TensorRT-LLM/examples/phi
  • 构建 phi TensorRT 引擎

git lfs install
git clone https://huggingface.co/microsoft/phi-2
python3 build.py --dtype=float16                    \--log_level=verbose                \--use_gpt_attention_plugin float16 \--use_gemm_plugin float16          \--max_batch_size=16                \--max_input_len=1024               \--max_output_len=1024              \--output_dir=phi_engine            \--model_dir=phi-2>&1 | tee build.log

项目链接

https://github.com/collabora/WhisperBot

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/654232.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

企业中不同大数据迁移的区别是什么?

在大数据时代,企业面临着海量数据的管理、分析和应用挑战。为了克服数据存储、传输和处理中的难题,如数据量巨大、网络环境多变、存储成本高昂以及安全风险上升等,企业必须对数据进行备份、同步、分发或归档。这一过程中,数据的复…

STM32CubeMX教程31 USB_DEVICE - HID外设_模拟键盘或鼠标

目录 1、准备材料 2、实验目标 3、模拟鼠标实验流程 3.0、前提知识 3.1、CubeMX相关配置 3.1.0、工程基本配置 3.1.1、时钟树配置 3.1.2、外设参数配置 3.1.3、外设中断配置 3.2、生成代码 3.2.0、配置Project Manager页面 3.2.1、设初始化调用流程 3.2.2、外设中…

【C++】输入输出、缺省参数、函数重载

目录 C的输入和输出 缺省参数 概念 缺省参数的分类 全缺省参数 半缺省参数 函数重载 概念 C支持函数重载的原理--名字修饰 C的输入和输出 #include<iostream> // std是C标准库的命名空间名&#xff0c;C将标准库的定义实现都放到这个命名空间中 using namespace …

python基础之ORM操作Mysql数据库

首先简单介绍下SQLalchemy库和sqlacodegen库。 SQLalchemy 库是一个流行的 Python 数据库工具&#xff0c;用于与各种关系型数据库进行交互。它提供了一个统一的 API&#xff0c;使得开发人员可以使用相同的代码来操作不同的数据库&#xff0c;而无需关心数据库的具体细节。 …

【笔记】Helm-4 最佳实践-8 基于角色的访问控制

基于角色的访问控制 最佳实践的这部分讨论在chart清单中创建和格式化RBAC资源。 RBAC资源有&#xff1a; ServiceAccount(namespaced) Role(namespaced) ClusterRole RoleBinding(namespaced) ClusterRoleBinding YAML配置 RBAC和服务账户配置应该独立的key。它们是独立…

【WinRAR技巧】WinRAR整理密码是什么意思?

之前给大家介绍过WinRAR自动加密的设置方法&#xff0c;今天再介绍一种RAR压缩包加密方法&#xff1a;整理密码。 什么是整理密码&#xff1a; 在加密rar文件的时候&#xff0c;点击下拉框选择密码&#xff0c;不用输入密码 设置方法&#xff1a; 前面的操作步骤和设置自动…

ubuntu22.04@laptop安装配置VNC服务端

ubuntu22.04laptop安装&配置VNC服务端 1. 源由2. 系统安装3. VNC安装3.1 系统更新3.2 lightdm安装3.3 x11vnc安装3.4 x11vnc配置3.5 x11vnc自启动3.6 x11vnc状态查询 4. 演示视频 1. 源由 最近系统搞TensorFlow, OpenCV, Python&#xff0c;折腾各种环境&#xff0c;把系统…

GitLab升级16.8.0失败

漏扫报警Gitlab高危漏洞&#xff0c;于是立即升级。 yum命令提示有16.8.0可以升级&#xff0c;输入y 1G的软件包下载完毕&#xff0c;检测正常&#xff0c;安装软件包... 之后报错退出。 根据错误提示了解到由于上一次gitlab-ctl reconfigure执行失败导致执行升级程序退出。…

提升编程效率的利器: 解析Google Guava库之集合篇Table二维映射(四)

在Java开发中&#xff0c;我们经常使用Map数据结构来存储键值对&#xff0c;其中键是唯一的&#xff0c;可以快速查找到对应的值。但在某些场景下&#xff0c;我们可能需要一个更复杂的映射结构&#xff0c;其中键由两部分组成&#xff0c;类似于一个二维表格的行和列。Guava库…

自动化测试脚本编写(超详细)

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 关注公众号【互联网杂货铺】&#xff0c;回复 1 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 自动化测试脚本 什么是自动化测试&#xff1f; 自动化测试是验…

Spring Cloud + Vue前后端分离-第15章 课程总结

源代码在GitHub - 629y/course: Spring Cloud Vue前后端分离-在线课程 Spring Cloud Vue前后端分离-第15章 课程总结 重点难点梳理 环境的搭建 代码生成器 文件上传和视频播放 通用权限设计 学习技巧 养成做笔记的习惯 养成阶段性提交代码的习惯 问答区多交流

springboot 动态导出pdf

springboot 动态导出pdf 原理是通过freemarker插入数据到html模版里面&#xff0c;html你就叫前端帮你写好&#xff0c;他不写你就告诉你主管让他叫他写&#xff0c;你只管往预留的位置插入数据就行&#xff0c;然后通过itextpdf会将准备好html文件转成PDF。 ### 1、准备依赖 &…

思维题之T恤衫

[ABC332C] T-shirts - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 源于atcoder 由于字符串的长度为1000.不论怎样&#xff0c;顺序枚举即可。 import java.awt.FontFormatException; import java.awt.geom.AffineTransform; import java.awt.image.BandCombineOp; import …

自定义注解实现动态数据源

在Java开发中&#xff0c;使用多数据源能够提高系统的灵活性和性能。本文将通过介绍自定义注解的方式&#xff0c;实现动态数据源的切换。通过这种创新性的方法&#xff0c;开发者可以根据业务需求轻松切换数据库连接&#xff0c;实现数据源的动态管理&#xff0c;提升系统的可…

C++类和对象(中)

✨Blog&#xff1a;&#x1f970;不会敲代码的小张:)&#x1f970; &#x1f251;推荐专栏&#xff1a;C语言&#x1f92a;、Cpp&#x1f636;‍&#x1f32b;️、数据结构初阶&#x1f480; &#x1f4bd;座右铭&#xff1a;“記住&#xff0c;每一天都是一個新的開始&#x1…

如何在Win系统安装Jupyter Notbook并实现无公网ip远程访问本地笔记

文章目录 1.前言2.Jupyter Notebook的安装2.1 Jupyter Notebook下载安装2.2 Jupyter Notebook的配置2.3 Cpolar下载安装 3.Cpolar端口设置3.1 Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 1.前言 在数据分析工作中&#xff0c;使用最多的无疑就是各种函数、图表、…

Mybatis-Plus基础

typora-copy-images-to: img Mybatis Plus 今日目标&#xff1a; 了解mybatisplus的特点能够掌握mybatisplus快速入门能够掌握mybatisplus常用注解能够掌握mybatisplus常用的增删改查能够掌握mybatisplus自动代码生成 1 MybatisPlus简介 1.1 MybatisPlus概述 ​ MyBatis-…

【前端web入门第二天】03 表单-下拉菜单 文本域 label标签 按钮 【附注册信息综合案例】

文章目录: 1. 下拉菜单 2. 文本域3.label标签 4.按钮- button 4.1 reset重置按钮结合form表单区域使用 5.无语义的布局标签 6.字符实体 注册信息综合案例 表单第二节 1. 下拉菜单 标签: select嵌套option,select是下拉菜单整体&#xff0c;option是下拉菜单的每一项。 代码…

MySQL运维实战(5.1) 字符和编码的基本概念

作者&#xff1a;俊达 字符和编码 字符 字符是符号&#xff0c;是人们用于交流的各类符号&#xff0c;如26个英文字母、汉字、标点符号、数学运算符、其他语言的字母和符号。 编码 编码是计算机中以二进制方式存储字符的方式。每个字符都有一个对应的编码值&#xff0c;计算机…

HarmonyOS --@state状态装饰器

在声明式UI中&#xff0c;是以状态驱动视图更新。 状态&#xff08;state&#xff09;&#xff1a;指驱动视图更新的数据&#xff08;被装饰器标记的变量&#xff09;。 试图&#xff08;view&#xff09;&#xff1a;基于UI描述渲染得到用户界面 State装饰器标记的变量必须初…