文章目录
- 1. 提前准备
- 2. 安装Docker
- 2.1. 卸载冲突软件(非必要)
- 2.2. 在Ubuntu系统上添加Docker的官方GPG密钥
- 2.3. 将Docker的仓库添加到Ubuntu系统的APT源列表中
- 2.4. 安装最新Docker
- 2.5. 检查
- 3. 安装Nvidia Container Toolkit
- 3.1. 在Ubuntu系统上添加官方GPG密钥和仓库
- 3.2. 安装nvidia-container-toolkit
- 3.3. 配置 Docker 使用 NVIDIA runtime
- 3.4. 重启 Docker 服务
- 3.4. 检测
1. 提前准备
显卡驱动:Ubuntu/Linux 安装GPU 驱动&检测(PyTorch准备)
CUDA:Ubuntu/Linux 安装CUDA、检测(PyTorch准备)
cuDNN:Ubuntu/Linux 安装cuDNN、检测(PyTorch准备)
可选ANACONDA:Ubuntu/Linux 安装Anconda、PyTorch、检测cuDNN、Jupyter Notebook
相关:
Develop like a Pro with NVIDIA + Docker + VS Code + PyTorch
https://github.com/anibali/docker-pytorch
How to Install PyTorch on the GPU with Docker
2. 安装Docker
2.1. 卸载冲突软件(非必要)
for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done
2.2. 在Ubuntu系统上添加Docker的官方GPG密钥
sudo apt update && sudo apt upgrade -y
sudo apt-get install ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc
2.3. 将Docker的仓库添加到Ubuntu系统的APT源列表中
# Add the repository to Apt sources:
echo \"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \$(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update
2.4. 安装最新Docker
# Add the repository to Apt sources:
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
2.5. 检查
sudo docker run hello-world
Hello from Docker!
This message shows that your installation appears to be working correctly.
3. 安装Nvidia Container Toolkit
3.1. 在Ubuntu系统上添加官方GPG密钥和仓库
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
3.2. 安装nvidia-container-toolkit
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
3.3. 配置 Docker 使用 NVIDIA runtime
sudo nvidia-container-toolkit configure --runtime=docker
3.4. 重启 Docker 服务
sudo systemctl restart docker
3.4. 检测
docker run -it --gpus all nvidia/cuda:11.8.0-base-ubuntu22.04 nvidia-smi
命令解释
docker run: 这是 Docker 的命令之一,用于启动新的容器。
-it: 这组选项结合使用,-i 表示容器的 STDIN 是开放的,-t 分配一个伪终端。这使得容器在运行时保持交互式。
–gpus all: 这个选项指示 Docker 使用所有可用的 NVIDIA GPU。这要求你的系统已经安装了 NVIDIA Docker 支持,并且 Docker 配置为能够访问 GPU。
nvidia/cuda:×××-base-ubuntu×××: 这是要运行的 Docker 镜像。该镜像包含 CUDA ××× 工具,并且基于 Ubuntu ×××。这样的镜像通常用于需要 GPU 加速的应用程序开发和测试。
nvidia-smi: 这是 NVIDIA 管理和监控工具的命令,用于显示有关 NVIDIA GPU 的详细信息和状态,如温度、使用率、内存使用情况等。