Jetson Orin安装riva以及llamaspeak,使用 Riva ASR/TTS 与 Llama 进行实时交谈,大语言模型成功运行笔记

NVIDIA 的综合语音 AI 工具包 RIVA 可以处理这种情况。此外,RIVA 可以构建应用程序,在本地设备(如 NVIDIA Jetson)上处理所有这些内容。

RIVA 是一个综合性库,包括:

  • 自动语音识别 (ASR)
  • 文本转语音合成 (TTS)
  • 神经机器翻译 (NMT)(语言到语言的翻译,例如英语到西班牙语)
  • 自然语言处理 (NLP) 服务的集合,例如命名实体识别 (NER)、标点符号和意图分类。

RIVA 在运行 JetPack 5 及更高版本的 Jetson Orin 和 Xavier 系列处理器上运行。在视频中,我们使用的是Jetson Orin模组和国产载板,usb免驱声卡和麦克风耳机。

riva和ngc的安装和测试

安装

通常,我们不涵盖演练安装。然而,这已经足够具有挑战性了,值得写这篇文章。RIVA 目前处于 Jetsons 的测试阶段(表示为 ARM64 或嵌入在 NVIDIA 文档中的多个位置)。您可能会发现,随着时间的流逝,某些方向会发生变化。

话虽如此,如果您是初学者,这可能有点困难。我们假设您正在关注视频。所以我尽可能的多写一些步骤。

RIVA 快速入门指南

您需要遵循 RIVA 快速入门指南。您应该能够按照操作,从“嵌入式”部分开始。您需要访问 NVIDIA NGC。NVIDIA NGC 是 NVIDIA AI 的仓库。NGC 需要一个免费的开发者帐户。NVIDIA有几个关于设置帐户和获取开发者密钥的视频:

  • 注册 NGC 并生成 API 密钥
  • NGC 配置集演练

NGC CLI 入门 — ngc-cli documentation (nvidia.com)

ARM64 Linux Install
The NGC CLI binary for ARM64 is supported on Ubuntu 18.04 and later distributions.Click Download CLI to download the zip file that contains the binary, then transfer the zip file to a directory where you have permissions and then unzip and execute the binary. You can also download, unzip, and install from the command line by moving to a directory where you have execute permissions and then running the following command:wget --content-disposition https://api.ngc.nvidia.com/v2/resources/nvidia/ngc-apps/ngc_cli/versions/3.35.0/files/ngccli_arm64.zip -O ngccli_arm64.zip && unzip ngccli_arm64.zip
Check the binary's md5 hash to ensure the file wasn't corrupted during download:find ngc-cli/ -type f -exec md5sum {} + | LC_ALL=C sort | md5sum -c ngc-cli.md5
Check the binary's SHA256 hash to ensure the file wasn't corrupted during download. Run the following commandsha256sum ngccli_arm64.zip
Compare with the following value, which can also be found in the Release Notes of the Resource:9f67759be0397d3b25eca09aeb2d3b4b7077e0c924a3198351ea75965bdec22f
After verifying value, make the NGC CLI binary executable and add your current directory to path:chmod u+x ngc-cli/ngc
$ echo "export PATH=\"\$PATH:$(pwd)/ngc-cli\"" >> ~/.bash_profile && source ~/.bash_profile
You must configure NGC CLI for your use so that you can run the commands.Enter the following command, including your API key when prompted:ngc config set
ARM64 Uninstall:
Warning: If you choose to have a custom path for your installation, or move the CLI Binary, these instructions may not be safe.For CLI versions 3.0.0 and up:Check .dirname `which ngc`
If this directory can be deleted, move to the next step. If not, move to step 3.Delete the NGC CLI directory:
Enter the following command.dirname `which ngc` | xargs rm -r
Delete the NGC CLI Binary. Enter the following command.
which ngc | xargs rm
This does not delete all files downloaded from the initial NGC CLI installation. Please go to the original installation folder and delete it.

具体而言,本快速入门指南使您能够在本地工作站上部署预训练模型并运行示例客户端。

Riva Speech AI Skills 支持两种架构,Linux x86_64 和 Linux ARM64。在本文档中,它们被称为数据中心 (x86_64) 和嵌入式 (ARM64)。

有关更多信息和问题,请访问 NVIDIA Riva 开发者论坛。

先决条件

在使用 Riva Speech AI 之前,请确保您满足以下先决条件:

数据中心

  1. 您有权访问并登录 NVIDIA NGC。有关分步说明,请参阅 NGC 入门指南。

  2. 您可以访问 NVIDIA Volta™、NVIDIA Turing™ 或基于 NVIDIA Ampere 架构的 A100 GPU。有关详细信息,请参阅支持矩阵。

  3. 您已安装 Docker 并支持 NVIDIA GPU。有关详细信息,请参阅支持矩阵。

嵌入式

  1. 您有权访问并登录 NVIDIA NGC。有关分步说明,请参阅 NGC 入门指南。

  2. 您可以访问 NVIDIA Jetson Orin、NVIDIA Jetson AGX Xavier 或 NVIDIA Jetson NX Xavier™。有关详细信息,请参阅支持矩阵。

  3. 您已在 Jetson 平台上安装了 NVIDIA JetPack™ 版本 5.1 或 5.1.1。有关详细信息,请参阅支持矩阵。

  4. Jetson 上有 ~15 GB 的可用磁盘空间,这是默认容器和模型所要求的。如果要部署任何 Riva 模型中间表示 (RMIR) 模型,则所需的额外磁盘空间为 ~14 GB 加上 RMIR 模型的大小。

  5. 您已在 Jetson 平台上启用以下电源模式。这些模式激活所有 CPU 内核,并以最大频率为 CPU/GPU 提供时钟,以实现最佳性能。

    sudo nvpmodel -m 0 (Jetson Orin AGX, mode MAXN)
    sudo nvpmodel -m 0 (Jetson Xavier AGX, mode MAXN)
    sudo nvpmodel -m 2 (Jetson Xavier NX, mode MODE_15W_6CORE)
    
  6. 您已通过在文件中添加以下行将默认运行时设置为在 Jetson 平台上。编辑文件后,使用重新启动 Docker 服务。nvidia/etc/docker/daemon.jsonsudo systemctl restart docker

    "default-runtime": "nvidia"
    

启用最大性能

如果您想要访问NVIDIA Jetson AGX Orin的全部性能,可以启用最大性能模式:这将在增加电力消耗的情况下最大化应用程序性能。

sudo nvpmodel -m 0

将CPU、GPU和EMC时钟的静态最大频率设置为最大

sudo jetson_clocks

禁用桌面图形用户界面(GUI)

我们可以禁用桌面环境以节省RAM上的内存。

sudo systemctl set-default multi-user.target

然后重启

sudo reboot

利用下列命令再启用GUI

sudo systemctl set-default graphical.target

然后重启Jetson板子

sudo reboot

性能监控工具 - jtop

Jetson Stats是由Raffaello Bonghi开发的一个具有漂亮界面的实用工具。
您可以使用以下命令进行安装:

sudo -H pip install -U jetson-stats

然后运行

jtop

运行截屏:

可供部署的模型

有两个按钮式部署选项可用于部署 Riva 语音 AI,它们使用 NGC 目录中提供的预训练模型:

本地 Docker:您可以使用快速入门脚本设置本地工作站并使用 Docker 部署 Riva 服务。继续阅读本指南以使用快速入门脚本。

Kubernetes 接口:Riva Helm Chart 旨在自动执行一键部署到 Kubernetes 集群的步骤。有关详细信息,请参阅 Kubernetes 部署。嵌入不支持此选项。

除了使用预训练模型外,Riva Speech AI 还可以使用 NVIDIA NeMo 与微调的自定义模型一起运行。有关使用 NVIDIA NeMo 创建模型存储库的高级选项的详细信息,请参阅“使用 NeMo 进行模型开发”部分。

使用快速启动脚本进行本地部署#

Riva 包含快速入门脚本,可帮助您开始使用 Riva 语音 AI 技能。这些脚本用于在本地部署服务、测试和运行示例应用程序。

  1. 下载脚本。转到 Riva Data center 或 Embedded 快速入门,具体取决于您使用的平台。选择“文件浏览器”选项卡以下载脚本,或使用 NGC CLI 工具从命令行下载。

    数据中心

    ngc registry resource download-version nvidia/riva/riva_quickstart:2.14.0
    

    嵌入式Jetson

    ngc registry resource download-version nvidia/riva/riva_quickstart_arm64:2.14.0

注意:本教程使用 riva_quickstart_arm64_v2.12.1,最新版镜像拉不起来一直,本人遇到的第一个坑,小白就要多被坑。

2.初始化并启动 Riva。初始化步骤下载并准备 Docker 映像和模型。启动脚本将启动服务器。

注意

在平均互联网连接上,此过程可能需要长达一个小时。在数据中心,每个模型在下载后都会针对目标 GPU 进行单独优化。在嵌入式平台上,会下载 NVIDIA Jetson 上 GPU 的预优化模型。

自选:使用首选配置修改目录中的文件。选项包括:config.shquickstart

  • 要启用哪些服务

  • 从NGC检索哪些型号

  • 将它们存放在哪里

  • 如果系统上安装了多个 GPU,则使用哪个 GPU(有关详细信息,请参阅本地 (Docker))

  • SSL/TLS 证书的位置

  • 密钥文件(如果使用安全连接)

切换到 riva_quickstart 目录并修改 config.sh 以满足您的需求。完成此操作后,您就可以初始化服务器并下载模型了。注意这里需要使用 sudo,这与文档不同:

 

 sudo bash riva_init.sh

要在 Docker 容器中启动 RIVA 服务器,有一个方便的脚本:

bash riva_start.sh

安装 RIVA Python 客户端

RIVA Python 客户端位于 Github 上。在开始安装之前,请确保已安装 pip。它在 Ubuntu 存储库中被命名为 python3-pip。

注意:您应该为自己的开发过程修改它。例如,您可能希望使用 Python 虚拟环境。

您还需要安装 testresources 和 portaudio 库。然后将用户添加到关联的组:

pip3 install testresourcessudo apt install portaudio19-devpip3 install pyaudiosudo adduser $USER audiosudo adduser $USER pulse-accessnewgrp pulse-access

然后安装 python-clients 存储库。按照 README 文件中的说明进行操作。这是我们在视频中遵循的一个序列,以供参考。在执行此操作之前,请确保您位于顶级目录中。 

 git clone https://github.com/nvidia-riva/python-clients.git
$ cd python-clients
$ git submodule init
$ git submodule update --remote --recursive
$ pip install -r requirements.txt
$ python3 setup.py bdist_wheel
$ pip install --force-reinstall dist/*.whl
$ pip install nvidia-riva-client

 测试RIVA客户端是否正常使用:

python3 talk.py --play-audio --text 'Speech is now the component of many different applications. Sometimes speech is integrated into devices, like Apple’s SIRI or Google. Speech may be also be placed in devices like the Amazon Alexa. These devices work in much the same way. First there is a wake-up word processed locally, like “Hey Siri!”. Subsequent voice commands are round tripped to a server. The server processes the voice commands (Automatic Speech Recognition or ASR) then returns a response.' --voice English-US.Female-1

 usb声卡提前插好,热插拔不支持的话会无法识别,本人遇到的第二坑

ERROR:Failed to load the extension "openai". Not loading the API on nVidia Jetson Orin AGX · Issue #4779 · oobabooga/text-generation-webui · GitHub

Llamaspeak - 使用NVIDIA Riva ASR和TTS进行实时语音对话 

根据这里的指导(https://github.com/dusty-nv/jetson-containers/tree/master/packages/llm/llamaspeak)去安装 llamaspeak.

自己找可能会找错,我就找错了。遇到的第三坑

https://github.com/dusty-nv/jetson-containers/tree/master/packages/llm/llamaspeak

在进一步操作之前,请确保从Hugging Face下载了模型。Meta的LLaMA是当今最受欢迎的开源LLM(大型语言模型)之一。因此,我们可以下载LLaMA2的量化70B模型。
一旦Riva服务器状态为运行中,请打开另一个终端并执行以下命令: 

手动指定要加载的模型,而无需使用 Web UI:

./run.sh --workdir /opt/text-generation-webui $(./autotag text-generation-webui:1.7) \python3 server.py --listen --verbose --api \--model-dir=/data/models/text-generation-webui \--model=llama-2-13b-chat.Q4_K_M.gguf \--loader=llamacpp \--n-gpu-layers=128 \--n_ctx=4096 \--n_batch=4096 \--threads=$(($(nproc) - 2))

 末端运行下面提示就成功了:

llm_load_print_meta: model params     = 68.98 B
llm_load_print_meta: model size       = 38.58 GiB (4.80 BPW)
llm_load_print_meta: general.name   = LLaMA v2
llm_load_print_meta: BOS token = 1 '<s>'
llm_load_print_meta: EOS token = 2 '</s>'
llm_load_print_meta: UNK token = 0 '<unk>'
llm_load_print_meta: LF token  = 13 '<0x0A>'
llm_load_tensors: ggml ctx size =    0.26 MiB
llm_load_tensors: using CUDA for GPU acceleration
llm_load_tensors: mem required  =  140.89 MiB
llm_load_tensors: offloading 80 repeating layers to GPU
llm_load_tensors: offloading non-repeating layers to GPU
llm_load_tensors: offloaded 83/83 layers to GPU
llm_load_tensors: VRAM used: 39362.61 MiB
....................................................................................................
llama_new_context_with_model: n_ctx      = 4096
llama_new_context_with_model: freq_base  = 10000.0
llama_new_context_with_model: freq_scale = 1
llama_kv_cache_init: offloading v cache to GPU
llama_kv_cache_init: offloading k cache to GPU
llama_kv_cache_init: VRAM kv self = 1280.00 MiB
llama_new_context_with_model: kv self size  = 1280.00 MiB
llama_build_graph: non-view tensors processed: 1844/1844
llama_new_context_with_model: compute buffer total size = 4547.09 MiB
llama_new_context_with_model: VRAM scratch buffer: 4544.03 MiB
llama_new_context_with_model: total VRAM used: 45186.64 MiB (model: 39362.61 MiB, context: 5824.03 MiB)
AVX = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 1 | ARM_FMA = 1 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 0 | SSSE3 = 0 | VSX = 0 |
2023-12-29 09:22:20 INFO:Loaded the model in 74.01 seconds.Starting streaming server at ws://0.0.0.0:5005/api/v1/stream
2023-12-29 09:22:20 INFO:Loading the extension "gallery"...
Starting API at http://0.0.0.0:5000/api
Running on local URL:  http://0.0.0.0:7860To create a public link, set `share=True` in `launch()`.

 内存基本用光,最好关闭图形界面。

启用 HTTPS/SSL

浏览器需要使用 HTTPS 才能访问客户端的麦克风。因此,您需要创建自签名 SSL 证书和密钥:

$ cd /path/to/your/jetson-containers/data
$ openssl req -x509 -newkey rsa:4096 -keyout key.pem -out cert.pem -sha256 -days 365 -nodes -subj '/CN=localhost'

您需要将它们放在 jetson-containers/data 目录中,因为它会自动挂载到 下的容器中,并使您的 SSL 证书在容器运行中保持持久性。当您第一次将浏览器导航到使用这些自签名证书的页面时,它将向您发出警告,因为它们不是来自受信任的颁发机构:/data

您可以选择覆盖此功能,在您更改证书或设备的主机名/IP 更改之前,它不会再次出现

运行 Llamaspeak

要使用其默认参数和您生成的 SSL 密钥运行 llamaspeak 聊天服务器,请按如下方式启动它:

有关可更改的命令行选项,请参阅 chat.py。例如,要启用或日志记录:--verbose--debug

./run.sh --workdir=/opt/llamaspeak \--env SSL_CERT=/data/cert.pem \--env SSL_KEY=/data/key.pem \$(./autotag llamaspeak) \python3 chat.py --verbose --debug

如果在从 Web 客户端获取音频或响应时遇到问题,请启用调试日志记录以检查消息流量。 

加上debug后音频正常。后续有待查验,还安装了一个未知的音频库看起来并未起到效果也发出来把也许你们能用到。

这里的错误nvidia说JETPACK5.1.1修复了,重新刷机更新系统尴尬不你们,遇到这个问题现在只能重启可能是内存不够引起的。 

演示一下效果,新年快乐明年见;

llamaspeak

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/584512.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java创建线程执行任务的方法(一)

目录 1.继承Thread类 2.实现Runnab类 2.1实现Runnable类 2.2使用Lambda表达式 3.实现Callable类 3.1返回Integer类型数据 3.2返回String类型数据 3.3返回Object类型数据 4.匿名内部类 创建线程的方法&#xff1a;继承Thread类&#xff1b;实现Runnab类&#xff1b;匿名…

如何文件从电脑传到iPhone,这里提供几个方法

本文介绍了如何使用Finder应用程序、iTunes for Windows、iCloud和谷歌照片将照片从Mac或PC传输到iPhone。 如何将照片从Mac传输到iPhone 如果你有一台Mac电脑&#xff0c;里面装满了你想转移到iPhone的照片&#xff0c;这是一件非常简单的事情。只需遵循以下步骤&#xff1a…

Python中matplotlib库的使用1

1 matplotlib库简介 matplotlib是一个数学绘图库&#xff0c;可以将数据通过图形的方式显示出来&#xff0c;也就是数据可视化。 2 matplotlib库的安装 2.1 打开cmd窗口 点击键盘的“Win”“R”键&#xff0c;在弹出的“运行”对话框的“打开”栏中输入“cmd”&#xff0c;…

【UE5.1】程序化生成Nanite植被

目录 效果 步骤 一、下载Gaea软件和树林资产 二、使用Gaea生成贴图 三、 生成地形 四、生成草地 五、生成树林 六、生成湖泊 七、其它功能介绍 7.1 调整树林生成的面积 7.2 让植物随风飘动 7.3 玩家和植物互动 7.4 雪中树林 7.5 环境音效 效果 步骤 一、下载Ga…

循环冗余效验码的计算方法

循环冗余效验码的计算方法 G&#xff08;x&#xff09;&#xff1a; 在了解计算方法之前我们首先要明白G&#xff08;x&#xff09;表明的意思&#xff0c;这一步非常重要&#xff01; 例如&#xff0c;G&#xff08;x&#xff09; x^3 x^2 1 &#xff0c;该式子表明的编…

vue3 数据转换

只需要添加 const taskHeader JSON.parse(JSON.stringify(now))

基于huffman编解码的图像压缩算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 Huffman编码算法步骤 4.2 Huffman编码的数学原理 4.3 基于Huffman编解码的图像压缩 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ..…

【操作系统】不同操作系统内核架构分析

一、内核架构与操作系统性能之间的关系的分析 1. 适用性和专业化&#xff1a; 不同的内核架构往往会有不同的设计目标和优化点。例如&#xff0c;实时操作系统&#xff08;RTOS&#xff09;和通用操作系统&#xff08;像Linux或Windows&#xff09;在设计时就有不同的重点&am…

【Python基础011】Python中字符串的具体用法

1、创建 字符串的创建共有3种方式 1&#xff09;单/双引号创建短字符串 s hello worlds “hello world” 2&#xff09;三个单/双引号创建短字符串 三个单/双引号一般用于多行文本的注释&#xff0c;如果将这样的字符串用print打印&#xff0c;或者赋给一个变量&#xff0c;…

3D游戏角色建模纹理贴图处理

在线工具推荐&#xff1a; 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 在本文中&#xff0c;我们将介绍 3D 纹理的基础知识&#xff0c;并讨…

【C语言】数据结构——排序二(快排)

&#x1f497;个人主页&#x1f497; ⭐个人专栏——数据结构学习⭐ &#x1f4ab;点击关注&#x1f929;一起学习C语言&#x1f4af;&#x1f4ab; 目录 导读&#xff1a;数组打印与交换1. 交换排序1.1 基本思想&#xff1a;1.2 冒泡与快排的异同 2. 冒泡排序2.1 基本思想2.2 …

【Unity动画系统】Animator有限状态机参数详解

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;Uni…

校园跑腿小程序源码系统:取快递+寄快递+食堂超市跑腿 带完整的搭建教程

现如今&#xff0c;越来越多的校园生活服务需求涌现出来。为了满足学生们的日常需求&#xff0c;校园跑腿小程序应运而生。这款小程序集成了取快递、寄快递、食堂超市跑腿等功能&#xff0c;为学生们提供了一个方便、快捷的生活服务平台。 以下是部分代码的示例&#xff1a; 系…

如何使用工具查看机系统信息,应用管理、文件管理

摘要 克魔助手是一款功能丰富的手机助手软件&#xff0c;提供了诸多实用的功能模块&#xff0c;包括手机系统信息显示、应用管理、文件管理、描述文件安装与测试、崩溃日志、实时日志、截图、活跃程序、性能监控和网络抓包等。本文将对克魔助手的界面概览和各功能模块进行详细…

数据结构面试题目

什么是数据结构&#xff1f;计算机存储、组织数据的方式。数据结构包括逻辑结构、物理结构和对数据的一系列操作。其中逻辑结构包括了线性结构&#xff08;线性表、栈和队列&#xff09;和非线性结构&#xff08;树、图&#xff09;&#xff1b;物理结构包括顺序存储结构和链式…

UGUI:一个轻量级的TFTLCD彩色显示屏GUI库

目录 一、引言 二、移植说明 三、如何使用UGUI函数 2.1 UGUI函数介绍 2.2 窗口控件管理 2.3 如何建立一个按键 四、如何实现触摸控制 一、引言 UGUI是一个经过精心设计的轻量级TFT-LCD彩色显示屏GUI库&#xff0c;旨在为用户提供高效、稳定且易于使用的图形用户界面。该…

邮件营销最佳时段:提升邮件打开率与转化率的策略

在如今数字时代&#xff0c;电子邮件营销已成为企业推广及与客户互动的有效途径。但是&#xff0c;一个普遍的现象是&#xff1a;何时发送电子邮件才能更合理&#xff1f;本文将探讨电子邮件营销的出色推送机会&#xff0c;并提供一些有用的提议&#xff0c;以帮助企业更好地规…

OrientDB使用教程:全面了解图数据库

图数据库在当今数据处理领域中扮演着越来越重要的角色&#xff0c;而OrientDB作为一种多模型的数据库&#xff0c;具有图数据库、文档数据库和对象数据库的特性&#xff0c;为应对不同场景提供了灵活的解决方案。本教程将简要介绍OrientDB的使用&#xff0c;包括基本概念、安装…

python subprocess run 和 Popen 的一些使用和注意事项

文章目录 一、run二、Popen NAME subprocess - Subprocesses with accessible I/O streams MODULE REFERENCE https://docs.python.org/3.9/library/subprocess The following documentation is automatically generated from the Python source files. It may be incomplete, …

QGraphicsItem器件移动及旋转相关问题

一、前言 Qt的图形视图框架中&#xff0c;可以使用如下接口设置图元坐标&#xff1a; void QGraphicsItem::setPos(const QPointF &pos)Sets the position of the item to pos, which is in parent coordinates. For items with no parent, pos is in scene coordinates.…