天翼GPU-A10云主机安装英伟达CUDA12.2驱动并共享镜像

一、英伟达环境安装主要流程

1、下载安装对应系统版本nVidia驱动程序安装验证

2、CUDA开发套件安装验证

3、深度学习框架安装验证

4、容器化CUDA环境安装验证

5、制作天翼云主机私有镜像

6、分享镜像给其他用户，实现天翼云A10显卡英伟达驱动环境共享

二、详细安装步骤

一）下载安装对应系统版本nVidia驱动程序安装验证

wgethttps://cn.download.nvidia.com/tesla/535.129.03/nvidia-driver-local-repo-ubuntu2004-535.129.03_1.0-1_amd64.deb

dpkg -i nvidia-driver-local-repo-ubuntu2004-535.129.03_1.0-1_amd64.deb

apt-get install nvidia-driver-535

测试显卡，检查显卡是否正确安装

nvidia-smi

这个命令会显示 NVIDIA A10 显卡的状态和驱动程序版本,如图所示当前的版本是535.129.03，cuda版本为12.2，GPU型号为nvidia A10，显存有24G

2） CUDA开发套件安装验证

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin

mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600

wget https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda-repo-ubuntu2004-12-2-local_12.2.0-535.54.03-1_amd64.deb

dpkg -i cuda-repo-ubuntu2004-12-2-local_12.2.0-535.54.03-1_amd64.deb

cp /var/cuda-repo-ubuntu2004-12-2-local/cuda-*-keyring.gpg /usr/share/keyrings/

apt-get update

apt-get -y install cuda

设置环境变量

在 .bashrc 文件中设置环境变量：

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

验证安装效果

nvcc --version

3)深度学习框架安装验证 PyTorch

创建一个 Python 虚拟环境

apt install python3-venv python3-pip -y
python3 -m venv pytorch-env
source pytorch-env/bin/activate

更改pip安装源到国内，你懂的
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple/

访问 PyTorch 的官方安装向导，选择合适的配置获取安装命令。通常，您需要选择操作系统、包管理器（在这里是 Pip）、Python 版本、CUDA 版本（这应该与您安装的 CUDA 版本匹配）

pip install torch torchvision torchaudio

运行一些简单的测试来确认 PyTorch 是否正确安装，并且是否能够使用 CUDA

vi test.py

import torch

# 打印 PyTorch 版本
print(torch.__version__)

# 确认 PyTorch 是否能检测到 CUDA
print(torch.cuda.is_available())

# 打印 CUDA 版本
print(torch.version.cuda)

# 获取默认 CUDA 设备的名称
print(torch.cuda.get_device_name(0))

如果 torch.cuda.is_available() 返回 True 并且 CUDA 版本正确无误，那么 PyTorch 就已经成功安装，并且配置为使用您的 NVIDIA GPU。

每次在新的终端会话中工作时，如果您创建了 Python 虚拟环境，您需要先激活虚拟环境（使用 source pytorch-env/bin/activate）

4）容器化CUDA环境安装验证

第一步：docker安装

sudo apt update sudo apt install apt-transport-https ca-certificates

curl software-properties-common

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu focal stable"

sudo apt update

sudo apt install docker-ce

第二步：安装nVidia支持

安装 NVIDIA Container Toolkit，这允许 Docker 使用 GPU：

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt update sudo apt install nvidia-docker2

第三步重启docker，验证安装

systemctl restart docker

docker run --rm --gpus all nvidia/cuda:12.0.1-base-ubuntu20.04 nvidia-smi