两行命令搭建深度学习环境(Docker/torch2.5.1+cu118/命令行美化+插件),含完整的 Docker 安装步骤

深度学习环境的配置过于繁琐,所以我制作了两个基础的镜像,希望可以帮助大家节省时间,你可以选择其中一种进行安装,版本说明:

  • base 版本基于 pytorch/pytorch:2.5.1-cuda11.8-cudnn9-devel,默认 python 版本为 3.11.10,可以通过 conda install python==版本号 直接修改版本。
  • dl 版本在 base 基础上,额外安装了深度学习框架和常用工具,具体查看附录的安装清单。

如果你已经配置好了Docker,只需两行命令即可完成深度学习环境的搭建。对于没有 Docker 的同学,也不用担心,本文将提供详细的安装指引,帮助你一步步完成环境配置

P.S. 所有命令在 Ubuntu 18.04/20.04/22.04 下可以顺利执行(其余系统可通过文内链接跳转安装)。

文章目录

  • 镜像介绍
  • 快速配置环境(两行命令)
    • 1. 获取镜像(三选一)
      • 国内镜像版
      • 🪜科学上网版(直连)
      • 本地(网盘下载)
    • 2. 运行容器
      • 省流版
  • 安装 Docker Engine
    • 卸载旧版本
    • 使用 `apt` 仓库安装
  • GPU 驱动安装
  • 安装 NVIDIA Container Toolkit
  • 拉取并运行深度学习 Docker 镜像
  • 附录
    • 安装清单
      • base
      • dl

镜像介绍

所有版本都预装了 sudopipcondawgetcurlvim 等常用工具,且已经配置好 pipconda 的国内镜像源。同时,集成了 zsh 和一些实用的命令行插件(命令自动补全、语法高亮、以及目录跳转工具 z)。此外,已预装 jupyter notebookjupyter lab,方便进行深度学习开发,并优化了容器内的中文显示,避免出现乱码问题。其中还预配置了 Hugging Face 的国内镜像地址。

链接

  • quickstart,位于 Docker Hub,对应于下方的 pull 命令。
  • 百度云盘,直接下载对应的版本,跳过科学版的命令进行配置。

快速配置环境(两行命令)

如果遇到报错,查阅《Docker 基础命令介绍和常见报错解决》。

1. 获取镜像(三选一)

假设你已经安装并配置好了 Docker,那么只需两行命令即可完成深度学习的环境配置,以 dl 镜像为例,拉取:

国内镜像版

不可用的时候欢迎评论,我会对其进行替换。

sudo docker pull dockerpull.org/hoperj/quickstart:dl-torch2.5.1-cuda11.8-cudnn9-devel

🪜科学上网版(直连)

sudo docker pull hoperj/quickstart:dl-torch2.5.1-cuda11.8-cudnn9-devel

如果镜像有更新版本,可通过 docker pull 拉取最新镜像。

本地(网盘下载)

通过百度云盘下载文件(阿里云盘不支持分享大的压缩文件)。

同名文件内容相同,.tar.gz 为压缩版本,下载后通过以下命令解压:

gzip -d dl.tar.gz

假设 dl.tar 被下载到了 ~/Downloads 中,那么切换至对应目录:

cd ~/Downloads

然后加载镜像:

sudo docker load -i dl.tar

2. 运行容器

以容器名 dl 为例:

sudo docker run --gpus all -it --name dl hoperj/quickstart:dl-torch2.5.1-cuda11.8-cudnn9-devel /bin/zsh

如果需要使用 Jupyter,可以使用以下命令:

sudo docker run --gpus all -it --name dl -p 8888:8888 hoperj/quickstart:dl-torch2.5.1-cuda11.8-cudnn9-devel /bin/zsh

省流版

对于映射多个端口的同学,可以直接使用主机网络的配置(--network host

sudo docker run --gpus all -it --name dl --network host hoperj/quickstart:dl-torch2.5.1-cuda11.8-cudnn9-devel /bin/zsh

如果需要设置代理,增加 -e 来设置环境变量,也可以参考拓展文章a:

假设代理的 HTTP/HTTPS 端口号为 7890, SOCKS5 为 7891:

  • -e http_proxy=http://127.0.0.1:7890
  • -e https_proxy=http://127.0.0.1:7890
  • -e all_proxy=socks5://127.0.0.1:7891

融入到之前的命令中:

sudo docker run --gpus all -it \--name dl \--network host \-e http_proxy=http://127.0.0.1:7890 \-e https_proxy=http://127.0.0.1:7890 \-e all_proxy=socks5://127.0.0.1:7891 \hoperj/quickstart:dl-torch2.5.1-cuda11.8-cudnn9-devel \/bin/zsh

常用操作提前看

  • 启动容器docker start <容器名>
  • 运行容器docker exec -it <容器名> /bin/zsh
    • 容器内退出Ctrl + Dexit
  • 停止容器docker stop <容器名>
  • 删除容器docker rm <容器名>

如果还没有安装 Docker,继续阅读,可以根据实际情况通过目录快速跳转。

安装 Docker Engine

对于图形界面来说,可以跳过下面的命令直接安装 Desktop 版本(其中会提供 Docker Engine),这是最简单的方法。根据系统访问:

  • Linux
  • Mac
  • Windows

以下是命令行的安装命令,在 Ubuntu 上运行,其余系统参考官方文档。

卸载旧版本

在安装 Docker Engine 之前,需要卸载所有有冲突的包,运行以下命令:

for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done

apt-get 可能会报告没有安装这些包,忽略即可。

注意,卸载 Docker 的时候,存储在 /var/lib/docker/ 中的镜像、容器、卷和网络不会被自动删除。如果你想从头开始全新安装,请阅读 Uninstall Docker Engine 部分。

使用 apt 仓库安装

首次安装 Docker Engine 之前,需要设置 Docker 的 apt 仓库。

  1. 设置 Docker 的 apt 仓库。

    # 添加 Docker 的官方 GPG 密钥:
    sudo apt-get update
    sudo apt-get install ca-certificates curl
    sudo install -m 0755 -d /etc/apt/keyrings
    sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
    sudo chmod a+r /etc/apt/keyrings/docker.asc# 将仓库添加到 Apt 源:
    echo \"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \$(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    sudo apt-get update
    

    如果你使用的是 Ubuntu 的衍生发行版,例如 Linux Mint,可能需要使用 UBUNTU_CODENAME 而不是 VERSION_CODENAME

    如果 sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc 执行失败,尝试以下命令:

    sudo wget -qO- https://download.docker.com/linux/ubuntu/gpg | sudo tee /etc/apt/keyrings/docker.asc
    
  2. 安装 Docker 包。

    sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
    
  3. 通过运行 hello-world 镜像来验证安装是否成功:

    sudo docker run hello-world
    

    这个命令会下载测试镜像并运行,如果你看到以下输出,那么恭喜你安装成功:

    image-20241113173220588

GPU 驱动安装

如果需要使用 GPU 的话,先安装适用于你的系统的 NVIDIA GPU 驱动程序,访问任一链接进行:

  • NVIDIA CUDA Installation Guide for Linux
  • Official Drivers

这部分配置文章很多,偷个懒 😃 就不开新环境演示了,下面讲点可能不同的。

安装 NVIDIA Container Toolkit

为了在 Docker 容器中使用 GPU,需要安装 NVIDIA Container Toolkit。

注意,我们现在不再需要安装 nvidia-docker,官方在 2023.10.20 指出其已被 NVIDIA Container Toolkit 所取代,过去的配置命令可能已不再适用。

以下命令使用 Apt 完成,Yum 等其他命令访问参考链接:Installing the NVIDIA Container Toolkit。

  1. 设置仓库和 GPG 密钥

    设置 NVIDIA 的软件源仓库和 GPG 密钥,确保我们可以从官方源安装 NVIDIA Container Toolkit。

    curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list。
    
  2. 安装 NVIDIA Container Toolkit

    sudo apt-get update
    sudo apt-get install -y nvidia-container-toolkit
    
  3. 配置 Docker

    使用 nvidia-ctk 工具将 NVIDIA 容器运行时配置为 Docker 的默认运行时。

    sudo nvidia-ctk runtime configure --runtime=docker
    
  4. 重启 Docker

    sudo systemctl restart docker
    

拉取并运行深度学习 Docker 镜像

现在可以拉取深度学习(dl)镜像,命令和之前一致。

  1. 拉取镜像

    sudo docker pull hoperj/quickstart:dl-torch2.5.1-cuda11.8-cudnn9-devel
    

    image-20241115163216096

  2. 运行镜像

    sudo docker run --gpus all -it hoperj/quickstart:dl-torch2.5.1-cuda11.8-cudnn9-devel
    
  3. 检查 GPU

    在容器内运行:

    nvidia-smi
    

    如果正确显示代表成功。不过对于实际使用来说,还需要了解基础命令和报错的解决方法。使用 Ctrl + D 或者命令行输入 exit 并回车退出容器,继续阅读《Docker 基础命令介绍和常见报错解决》。

附录

安装清单

base

基础环境

  • python 3.11.10
  • torch 2.5.1 + cuda 11.8 + cudnn 9

Apt 安装

  • wgetcurl:命令行下载工具
  • vimnano:文本编辑器
  • git:版本控制工具
  • git-lfs:Git LFS(大文件存储)
  • zipunzip:文件压缩和解压工具
  • htop:系统监控工具
  • tmuxscreen:会话管理工具
  • build-essential:编译工具(如 gccg++
  • iputils-pingiproute2net-tools:网络工具(提供 pingipifconfignetstat 等命令)
  • ssh:远程连接工具
  • rsync:文件同步工具
  • tree:显示文件和目录树
  • lsof:查看当前系统打开的文件
  • aria2:多线程下载工具

pip 安装

  • jupyter notebookjupyter lab:交互式开发环境
  • virtualenv:Python 虚拟环境管理工具,可以直接用 conda
  • tensorboard:深度学习训练可视化工具
  • ipywidgets:Jupyter 小部件库,用以正确显示进度条

插件

  • zsh-autosuggestions:命令自动补全
  • zsh-syntax-highlighting:语法高亮
  • z:快速跳转目录

dl

dl(Deep Learning)版本在 base 基础上,额外安装了深度学习可能用到的基础工具和库:

Apt 安装

  • ffmpeg:音视频处理工具
  • libgl1-mesa-glx:图形库依赖(解决一些深度学习框架图形相关问题)

pip 安装

  • 数据科学库
    • numpyscipy:数值计算和科学计算
    • pandas:数据分析
    • matplotlibseaborn:数据可视化
    • scikit-learn:机器学习工具
  • 深度学习框架
    • tensorflowtensorflow-addons:另一种流行的深度学习框架
    • tf-keras:Keras 接口的 TensorFlow 实现
  • NLP 相关库
    • transformersdatasets:Hugging Face 提供的 NLP 工具
    • nltkspacy:自然语言处理工具

一些库在安装时被自动安装,如 tensorflow 中的 keras

如果需要额外的库,可以通过以下命令手动安装:

pip install --timeout 120 <替换成库名>

这里 --timeout 120 设置了 120 秒的超时时间,确保在网络不佳的情况下仍然有足够的时间进行安装。如果不进行设置,在国内的环境下可能会遇到安装包因下载超时而失败的情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/61144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EXCEL延迟退休公式

如图&#xff1a; A B为手工输入 C2EOMONTH(A2,B2*12) D2EOMONTH(C2,IF(C2>DATEVALUE("2025-1-1"),INT((DATEDIF(DATEVALUE("2025-1-1"),C2,"m")4)/4),0)) E2EOMONTH(A2,B2*12IF(EOMONTH(A2,B2*12)>DATEVALUE("2025-1-1"),INT(…

区块链技术在数据安全中的应用

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 区块链技术在数据安全中的应用 区块链技术在数据安全中的应用 区块链技术在数据安全中的应用 引言 区块链技术基础 1.1 区块链的…

GIT 入门详解指南

前言&#xff1a; 注&#xff1a;本博客仅用于记录本人学习过程中对git的理解&#xff0c;仅供学习参考&#xff0c;如有异议请自行查资料求证 安装 使用git之前必须完成git的安装&#xff0c;Git 目前支持 Linux/Unix、Solaris、Mac和 Windows 平台上运行 git 安装教程 基本…

讯飞、阿里云、腾讯云:Android 语音合成服务对比选择

在 移动端 接入语音合成方面&#xff0c;讯飞和腾讯云等都是优秀的选择&#xff0c;但各有其特点和优势。咱们的需求是需要支持普通话/英语/法语三种语言&#xff0c;以下是对各个平台的详细比较&#xff1a; 一、讯飞语音合成介绍 与语音听写相反&#xff0c;语音合成是将一段…

HarmonyOS本地存储-Preferences(用户首选项)的使用

一&#xff0c;用户首选项简述 ohos.data.preferences (用户首选项) 用户首选项为应用提供Key-Value键值型的数据处理能力&#xff0c;支持应用持久化轻量级数据&#xff0c;并对其修改和查询。 数据存储形式为键值对&#xff0c;键的类型为字符串型&#xff0c;值的存储数据…

【机器学习】回归模型(线性回归+逻辑回归)原理详解

线性回归 Linear Regression 1 概述 线性回归类似高中的线性规划题目。线性回归要做的是就是找到一个数学公式能相对较完美地把所有自变量组合&#xff08;加减乘除&#xff09;起来&#xff0c;得到的结果和目标接近。 线性回归分为一元线性回归和多元线性回归。 2 一元线…

OceanBase 分区表详解

1、分区表的定义 在OceanBase数据库中&#xff0c;普通的表数据可以根据预设的规则被分割并存储到不同的数据区块中&#xff0c;同一区块的数据是在一个物理存储上。这样被分区块的表被称为分区表&#xff0c;而其中的每一个独立的数据区块则被称为一个分区。 如下图所示&…

【Android原生问题分析】夸克、抖音划动无响应问题【Android14】

1 问题描述 偶现问题&#xff0c;用户打开夸克、抖音后&#xff0c;在界面上划动无响应&#xff0c;但是没有ANR。回到Launcher后再次打开夸克/抖音&#xff0c;发现App的界面发生了变化&#xff0c;但是仍然是划不动的。 2 log初分析 复现问题附近的log为&#xff1a; 用户…

使用 K-means 算法进行豆瓣读书数据的文本聚类分析

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

Django5 2024全栈开发指南(二):Django项目配置详解

目录 一、基本配置信息二、资源文件配置2.1 资源路由——STATIC_URL2.2 资源集合——STATICFILES_DIRS2.3 资源部署——STATIC_ROOT2.2.4 媒体资源——MEDIA 三、模板配置四、数据库配置4.1 mysqlclient连接MySQL4.2 pymysql连接MySQL4.3 多个数据库的连接方式4.4 使用配置文件…

数据结构-二叉搜索树(Java语言)

目录 1.概念 2.查找search 3.插入insert ​编辑4.删除remove&#xff08;难点&#xff09; 5.性能分析 1.概念 二叉搜索树又称二叉排序树&#xff0c;它或者是一棵空树&#xff0c;或者是具有以下性质的二叉树 : 1.若它的左子树不为空&#xff0c;则左子树上所有节点的值都…

学习笔记:黑马程序员JavaWeb开发教程(2024.11.18)

9.8 Mybatis-基础操作-查询&#xff08;条件查询&#xff09; 需要模糊查询&#xff0c;根据要求&#xff0c;我们需要在关键词前后都加上%&#xff0c;但是我们不能使用‘%#{内容}%’的形式&#xff0c;因为#{内容}最终会变成?&#xff0c;而?不能放在‘’之中&#xff…

数据分析-48-时间序列变点检测之在线实时数据的CPD

文章目录 1 时间序列结构1.1 变化点的定义1.2 结构变化的类型1.2.1 水平变化1.2.2 方差变化1.3 变点检测1.3.1 离线数据检测方法1.3.2 实时数据检测方法2 模拟数据2.1 模拟恒定方差数据2.2 模拟变化方差数据3 实时数据CPD3.1 SDAR学习算法3.2 Changefinder模块3.3 恒定方差CPD3…

学习大数据DAY61 宽表加工

目录 模型设计 加工宽表 任务调度&#xff1a; 大表 - 把很多数据整合起来 方便后续的明细查询和指标计算 模型设计 设计 建模 设计: excel 文档去编写 建模: 使用建模工具 PowerDesigner Navicat 在线画图工具... 把表结构给绘 制出来 共享\项目课工具\pd 加工宽表 数…

C#.Net筑基-模式匹配汇总

01、模式匹配概述 从C#7开始支持的 模式匹配 语法&#xff08;糖&#xff0c;挺甜&#xff09;&#xff0c;可非常灵活的对数据进行条件匹配和提取&#xff0c;经过多个版本的完善&#xff0c;已经非常强大了。 C# 支持多种模式&#xff0c;包括声明、类型、常量、关系、属性…

Python蓝桥杯刷题1

1.确定字符串是否包含唯一字符 题解&#xff1a;调用count函数计算每一个字符出现的次数&#xff0c;如果不等于1就输出no&#xff0c;并且结束循环&#xff0c;如果等于1就一直循环直到计算到最后一个字符&#xff0c;若最后一个字符也满足条件&#xff0c;则输出yes import…

Unity类银河战士恶魔城学习总结(P127 Stat ToolTip属性提示)

【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili 教程源地址&#xff1a;https://www.udemy.com/course/2d-rpg-alexdev/ 本章节实现了把鼠标放到属性上面就会显示属性的作用 UI_StatToolTip.cs 这段代码实现了一个UI提示框&#xff08;ToolTip&#xff09;功能…

计算机编程中的事件驱动编程模型及其在构建响应式用户界面中的应用

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 计算机编程中的事件驱动编程模型及其在构建响应式用户界面中的应用 计算机编程中的事件驱动编程模型及其在构建响应式用户界面中…

ROS第九梯:ROS+VSCode+Python+C++自定义消息发布和订阅

首先,Python版本的ROS项目和C++版本的ROS项目前期创建功能包的步骤基本一致,具体可参考第二章。 费一步:新建msg文件 在功能包(data_input)目录下创建一个msg文件夹,并在msg文件夹下创建一个名为Box的msg文件,具体如下图所示: 该msg文件为一个用于描述3D Box的文件,…

selenium元素定位---元素点击交互异常解决方法

&#x1f345; 点击文末小卡片 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 1、异常原因 在编写ui自动化时&#xff0c;执行报错元素无法点击&#xff1a;ElementClickInterceptedException 具体报错&#xff1a;selenium.common.exc…