NVIDIA 驱动安装
前置
笔者近期重整服务器,计划重新安装操作系统并配置新的开发环境。服务器的主要配置如下:
Dell PowerEdge R730
Intel Xeon E5-2630v3 x2
64GB ECC DDR4
NVIDIA GeForce RTX 2080 Ti Rev. A
Ubuntu 22.04.5 LTS x86_64 (No Desktop)
Kernel 5.15.0-130-generic
笔者基于此配置和系统环境做出本篇文档的安装指南。安装完整的 CUDA
+ cuDNN
+ TensorRT
需要准备至少 30GB 的磁盘空间。
安装开始前请确保安装了 gcc
和 make
。
sudo apt update && sudo apt upgrade && sudo apt install gcc make
之后笔者采用并安装下面所示的显卡驱动。
wget https://cn.download.nvidia.com/XFree86/Linux-x86_64/550.142/NVIDIA-Linux-x86_64-550.142.run
sudo chmod a+x ./NVIDIA-Linux-x86_64-550.142.run
sudo ./NVIDIA-Linux-x86_64-550.142.run
sudo reboot
安装完显卡驱动之后,重启系统。
CUDA Toolkit 12.4
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda-repo-ubuntu2204-12-4-local_12.4.1-550.54.15-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2204-12-4-local_12.4.1-550.54.15-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2204-12-4-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-4
如果出现 Command ‘nvcc‘ not found,but can be installed with: sudo apt install nvidia-cuda-toolkit
报错,需要手动添加。
先检查 cudnn
是否安装成功,输入下面的指令查看目录,如果存在 nvcc
则证明已经安装,进行下一步。
cd /usr/local/cuda/bin && ls
之后进入配置文件。
vim ~/.bashrc
在文档的最后面添加下面的这两行代码,之后保存。
export LD_LIBRARY_PATH=/usr/local/cuda/lib
export PATH=$PATH:/usr/local/cuda/bin
更新配置。
source ~/.bashrc
再次查看 nvcc
版本,出现如下图的 nvcc
版本。
nvcc -V
cuDNN 9.0.0 for CUDA 12.x
wget https://developer.download.nvidia.com/compute/cudnn/9.0.0/local_installers/cudnn-local-repo-ubuntu2204-9.0.0_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2204-9.0.0_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2204-9.0.0/cudnn-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudnn
输入下面的指令查看 cudnn
版本,出现如下图的提示。
cat /usr/include/x86_64-linux-gnu/cudnn_version_v9.h | grep CUDNN_MAJOR -A 2
TensorRT 10.1
首先需要去 NVIDIA 官网注册一个开发者账号,登录之后访问下面的网址。
https://developer.nvidia.com/tensorrt/download/10x
TensorRT 10.1 版本支持以下几个版本的 CUDA 工具包:
- 12.4 update 1
- 12.3 update 2
- 12.2 update 2
- 12.1 update 1
- 12.0 update 1
- 11.8
- 11.7 update 1
- 11.6 update 2
- 11.5 update 2
- 11.4 update 4
- 11.3 update 1
- 11.2 update 2
- 11.1 update 1
- 11.0 update 3
Pytorch
兼容 2.0
及以上版本。
ONNX-TensorRT
支持 opset 20
且官方测试验证 ONNX 1.16.0
版本的稳定性。
更详细的基础文档请访问 NVIDIA TENSORRT DOCUMENTATION 官网
访问之后如上图所示,有多种安装方式:RPM
, TAR
以及 DEB
格式。这里选择 DEB
格式安装。系统为 Ubuntu 22.04
,CUDA
版本为 12.4
。选择对应版本下载。完整的下载和安装过程接近 20 分钟。
wget https://developer.nvidia.com/downloads/compute/machine-learning/tensorrt/10.1.0/local_repo/nv-tensorrt-local-repo-ubuntu2204-10.1.0-cuda-12.4_1.0-1_amd64.deb
sudo dpkg -i nv-tensorrt-local-repo-ubuntu2204-10.1.0-cuda-12.4_1.0-1_amd64.deb
sudo cp /var/nv-tensorrt-local-repo-ubuntu2204-10.1.0-cuda-12.4/nv-tensorrt-local-E3A02F15-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get install tensorrt
验证安装结果,输入下面的指令,看到如下图所示则代表安装成功。
dpkg --list | grep tensorrt
或使用如下的指令验证安装结果,得到如下图的结果则代表正确安装。
dpkg-query -W tensorrt
使用 dpkg 安装时会出现无法使用 trtexec
指令的问题,按照下面的步骤操作即可解决问题。
首先查找安装路径。
find /usr -name trtexec
之后进入配置文件。
vim ~/.bashrc
在文档的最后面添加下面的这行代码,之后保存。
export PATH=$PATH:/usr/src/tensorrt/bin${PATH:+:${PATH}}
更新配置。
source ~/.bashrc
问题就得到解决了。
使用 TensorRT 自带的 Sample 验证一下效果,进入下面的目录,按照如下的指令操作,可以看到下图的运行结果。
cd /usr/src/tensorrt/samples/sampleOnnxMNIST
sudo make
cd /usr/src/tensorrt/bin
./sample_onnx_mnist