k8s环境部署gpu以及CUDA兼容性分析

本文记录和学习在实用gpu搭建k8s支持上层应用时的功能实践和遇到的问题。

1. 基础概念

CUDA本质上就是NVIDIA专为通用高性能并行计算设计的一套计算平台和编程模型,换句话使用GPU并行编程的规范方法,所以CUDA在软件层面包含了众多库, 那这里我们用一张图来简单阐述CUDA的各类运行时以及库的关系。

从最底层开始CUDA Driver(也就是常说的GPU驱动):可以认为是最底层的操作GPU的接口,作为直接与GPU设备打交道,其变成难度很大,但是性能更好。而CUDA Runtime(也就是常说的CUDA库):更多是面向CUDA应用开发人员,其API更加简化,可编程性更高,而基于CUDA Runtime接口再向上封装了更多的面向专用计算场景的库,例如专用于深度学习的cuDNN库等。最后,应用层可以使用CUDA Library或者直接使用CUDA Runtime API实现其功能。

我们都知道想要使用GPU训练程序,那么必须要从nividia官方选择安装对应GPU机型的驱动文件。而官方提供的是一个叫做CUDA toolkit打包的东西,这个本质上是CUDA相关库和工具的集合,例如你如果选择 runfile方式安装 ,从官方下载下来的run文件(eg:cuda_11.0.3_450.51.06_linux.run),本身其中包括了CUDA Runtime(CUDA库),CUDA Driver (GPU驱动),还有样例代码,用户可以通过命令选择,需要安装CUDA库还是GPU驱动,还是说两者都安装。

另外nvidia-smi本质上是直接使用CUDA driver库,所以说和系统中安装的CUDA Runtime(即CUDA版本)无关.

1.1 CUDA Version/Driver Version/兼容原则

nvidia-smi中显示的CUDA Version本质上是DRIVER API COMPATIBILITY VERSION,换句话理解就是根据机器上当前GPU的Driver驱动版本,CUDA Version显示的是与驱动匹配的最高兼容的CUDA Runtime版本(下文都我们简称CUDA Runtime为CUDA,简单理解就是你可以在机器中安装的cuda动态/静态链接库的最高版本,CUDA driver简称为driver或驱动)。

下面从源码/二进制/cubin三个角度具体说说兼容性,这有助于更好的排查“为什么我的训练代码在这台机器上跑不起来”的问题。

1.1.1 兼容性原则一:源码级别不兼容性

所谓源码不兼容很好理解,例如用户的代码是基于cuda 10.1这一特定版本对应的API库构建的,那么如果用户升级到cuda11.0的对应API库,则可能无法正常运行。需要用户根据cuda11.0对应的API文档修改代码再进行编译构建。

所以我们可以看到pytorch,针对不同的cuda版本,都有对应不同的编译后的库,例如下面两个就是分别基于cuda11.1(torch-1.10.1%2Bcu113-cp37-cp37m-linux_x86_64.whl)和cuda11.3(torch-1.10.0%2Bcu111-cp36-cp36m-linux_x86_64.whl)不同的cuda版本构建的。

1.1.2. 兼容原则二:后向兼容

        后向兼容的意思是:如果一个程序使用的CUDA版本可以在某一Driver版本下运行,那么在升级了Driver后,此程序在保持原CUDA版本的情况下,仍然可以在新的更高版本的驱动下运行。换句话说,某一具体的cuda版本存在与之对应的最小驱动版本。而对于cuda11和cuda10这两个主版本下,兼容的情况也有细微的却别。兼容性对照表可以查看。

1. 对于cuda11主版本(cuda版本是X.Y.X三段式,其中X为主版本号,Y为次版本号),那么对于以11开头的所有CUDA版本来说,只要driver版本>=450.80.02*, 则即可满足所有的CUDA11.0,11.1,11.2等以11.x开头的CUDA运行时版本。这种兼容模式称作为为次版本兼容(Minor Version Compatibility)。当然这种兼容是“limited feature-set”,换句话说满足在保持驱动不变下,升级cuda版本后,运行不出错,但是对于一些高版本的cuda的特性,如果要更好的使用或者性能,也需要升级driver驱动。比如对于cuda11.2,官方的cuda toolkit包中推荐安装的driver是>=460.00。

我们用的devcloud GPU是一个vGPU实例,把Tesla T4 从一个GPU虚拟化出两个vGPU分配给两台虚拟机,nvidia-smi显示Driver Version为450.102.04,而CUDA Version显示的是11.0,通过上文的说明,可以发现此虚拟机支持包括11.x在内的所有cuda11版本,而CUDA Version显示的可以认为是最高兼容的CUDA“主版本”。这里验证的方法也很简单,可以在devcloud GPU机器中安装任意的cuda10.x/cuda11.x,通过编译cuda sampler示例中的deviceQuery程序验证。

2. 对于cuda10这主版本,每一个cuda10.x的版本都有与之对应的最小驱动版本号,例如下图是截取自CUDA Compatibility :: NVIDIA Data Center GPU Driver Documentation 。可以看到cuda10.0/10.1/10.2对应的最小满足的版本号均不一样,不同于cuda11.x,可以在驱动不变的情况下升级cuda,cuda10.x,想要升级从10.1升级到10.2,那么驱动版本必须要大于等于440.33。

安装cuda11.2,则显而易见编译后运行上文的deviceQuery程序会返回错误。

而对于devcloud GPU来说,虚拟机中的驱动都是450.102.04,因此可以支持任意cuda11及以下的CUDA Runtime。

1.1.3. 兼容原则三:有限的前向兼容

后向兼容是需要在cuda升级后,驱动也需要根据要求进行升级(或者不变)。而前向兼容的意思就是,在cuda升级后,driver不需要对内核态相关包进行升级,而只需要变更相关用户态文件即可。目的就是可以在老旧驱动上基于新的cuda版本编译程序,从而获取到最新的cuda特性。 而为什么说是有限的兼容,主要表现在两点限制:1. 限制了GPU卡的类型,只有NVIDIA Data Center/Tesla 系列(和小部分特殊的RTX)的GPU卡. 2. 前向兼容的能力理论上只有在需要跨cuda主版本的时使用,例如本来最高只支持cuda版本10.1的Driver418,可以通过安装正确的Compat Package,使其在不更新内核态驱动的情况,支持cuda10.1~cuda11.6。具体可以参考官方文档的前向兼容矩阵,来下载安装对应的兼容包。CUDA Compatibility :: NVIDIA Data Center GPU Driver Documentation

1.1.4. 兼容性原则四:cuda应用程序编译产物与不同GPU架构间的兼容

这部分的兼容性原则理解起来,需要涉及到cuda应用程序编译的相关知识。一个写好的cuda程序,通过nvcc编译后的产物可以包含两种形式,一个是二进制的cubin对象,另一个是PTX(Parallel Thread Execution)汇编代码。

cubin是特定于指定的GPU架构的,cubin二进制对象对于GPU架构的计算能力(计算能力只是代表一个GPU的能力特性与性能高低无关)是一个向后兼容的,并且对GPU计算能力也是类似Minor Version Compatibility,换句话说,为计算能力为X.y的GPU生成的cubin对象,只能在计算能力为X.z且z>=y的GPU上运行。举个例子:为7.0计算能力生成的cubin,可以在7计算能力为7.5的GPU上执行,但是无法在计算能力为8.0的GPU上执行。

那对于编译成PTX形式的产物,在cuda应用程序运行加载时,会先由设备驱动程序进一步把PTX通过JIT技术(即时编译)编译成对应GPU架构或者计算能力的cubin,这也就意味着此PTX可以在计算能力高于当前生成的此PTX计算能力的GPU上运行。关于更多JIT的内容可以参考:Programming Guide :: CUDA Toolkit Documentation

因此,如果一个cuda应用程序在编译时选择包含PTX相关产物,“理论上”可以更好的保证在GPU架构升级后,代码仍然可以兼容运行,换句话说,理论上一个原先使用cuda10.x编译且可以在Volta架构V100上运行的应用,选择选择生成PTX二进制代码,那么可以在Ampere架构的A100上运行。

但是回到一个具体的案例,事实上对于pytorch,由于受制于使用的cuDNN与GPU架构升级的兼容的原因(cuDNN7与Ampere架构不兼容),以及pytorch使用pip wheel安装或者conda安装(pytorch在编译过程根据不同的安装方式会选择不同的编译模式,例如conda安装会选择使用包含PTX的二进制版本,而pip wheel安装可能不会包含),想要使用A100机器训练,必须升级到cuda11且cuDNN8以上版本的pytorch来可以使用。

换句话说,GPU的架构在一定程度上限制了cuda的版本(注:计算能力只是代表一个GPU的能力特性与性能高低无关)关于更多关于编译链接的内容,可以参考官网文档:NVCC :: CUDA Toolkit Documentation

1.2. 归根还是容器中"挂载"宿主机的"文件"

我们的devcloud GPU 带有的docker,事实上是把原来底层用来通过操作系统调用创建运行容器的“runc”组件替换为nvidia-container-runtime组件(关于runC的一些概念,可以参考从kubernetes中容器生态窥探设计模式的哲学),当然nvidia-contianer-runtime本质上是一个做了修改后的runc组件,区别是它增加了一个自定义的prestart hook,目的是在创建容器后,在启动容器前,调用这个hook,而这个hook本身做的就是一些类似将宿主机的device/driver文件等挂载进容器中。下图为NVIDIA官网介绍NVIDIA Container的大致架构组件图。

那到底具体将宿主机的哪些设备文件挂载进了容器呢。我们可以打开nvidia-container-runtime的debug功能,详细在其日志中查看所有文件设备挂载列表,具体为修改/etc/nvidia-container-runtime/config.toml文件

[nvidia-container-cli]
environment = []
debug = "/var/log/nvidia-container-toolkit.log"
load-kmods = true
ldconfig = "@/sbin/ldconfig"
[nvidia-container-runtime]
debug = "/var/log/nvidia-container-runtime.log"

打开debug功能后,我们重新通过docker 启动一个容器

docker run  --rm --gpus '"device=0"' --net host  -it mirrors.tencent.com/shadow_test_xiaobaihe/test_for_light:torch_ptx /bin/bash

启动成功后,我们发现可以使用nvidia-smi命令查看挂载进容器的GPU情况。明明我的镜像中没有nvidia-smi这个二进制程序,为什么启动后文件就可以直接使用呢?那么秘密事实上就在nvidia-container-toolkit这个prehook内帮我们完成了。打开上方的/var/log/nvidia-container-toolkit.log文件,可以详细的查询到整个hook过程。

其中我们发现,hook过程中向容器中注入了包括宿主机的二进制工具,例如nivida-smi/nvida-debugdump等,宿主机的上的库,例如很重要的CUDA Driver API库libcuda.so。另外还有很重要的是在宿主机中通过mknod创建所需的nvidia相关的设备文件,并将宿主机的文件设备文件注入到容器中。

# 注入宿主机的二进制程序
I0311 03:09:13.228302 19802 nvc_mount.c:112] mounting /usr/bin/nvidia-smi at /data/dockerimages/overlay2/05f25c9dde0a3cad98c5ec03e78fbd25ce10eb4ac52aeccac393d6645220770f/merged/usr/bin/nvidia-smi
I0311 03:09:13.228326 19802 nvc_mount.c:112] mounting /usr/bin/nvidia-debugdump at /data/dockerimages/overlay2/05f25c9dde0a3cad98c5ec03e78fbd25ce10eb4ac52aeccac393d6645220770f/merged/usr/bin/nvidia-debugdump
# 注入宿主机的CUDA Driver库
I0311 03:09:13.228463 19802 nvc_mount.c:112] mounting /usr/lib64/libcuda.so.450.102.04 at /data/dockerimages/overlay2/05f25c9dde0a3cad98c5ec03e78fbd25ce10eb4ac52aeccac393d6645220770f/merged/usr/lib64/libcuda.so.450.102.04
I0311 03:09:13.228484 19802 nvc_mount.c:112] mounting /usr/lib64/libnvidia-opencl.so.450.102.04 at /data/dockerimages/overlay2/05f25c9dde0a3cad98c5ec03e78fbd25ce10eb4ac52aeccac393d6645220770f/merged/usr/lib64/libnvidia-opencl.so.450.102.04
# 创建设备文件,并将宿主机设备文件注入到容器中
I0311 03:09:13.207136 19807 nvc.c:282] running mknod for /dev/nvidia0
I0311 03:09:13.228019 19802 nvc_info.c:705] listing device /dev/nvidia0 (GPU-40143293-c4ff-11eb-ba91-04c440212a27 at 000000    00:00:09.0)
I0311 03:09:13.280933 19802 nvc_mount.c:208] mounting /dev/nvidia0 at /data/dockerimages/overlay2/05f25c9dde0a3cad98c5ec03e    78fbd25ce10eb4ac52aeccac393d6645220770f/merged/dev/nvidia0

由此可以看到在使用nvidia-contiainer-runtime这种容器使用GPU的解决方案方案下,容器中使用CUDA Driver还有nvidia-smi都是来自于宿主机的,不需要在镜像中安装CUDA Driver。而如果在镜像中包含了CUDA driver库,可能会导致容器在hook过程中,在建立libcuda.so软链时,使用镜像中的driver库,从而可能触发上文说的"前向兼容"流程(即有可能镜像中使用的用户态的driver驱动高于宿主机的内核态的启动,从而使得GPU认为应该用前向兼容),而往往前向兼容是比较有限的,受制于GPU机型,还有驱动版本等,从而导致报错,例如可能出现forwoard compatibilty报错。

2. GPU(离线)训练任务

使用k8s中的Operator来定制我们训练任务的多机多卡Pod以及网络的等组合方式,太极平台使用kubeflow/mpi-operator方式,来创建满足all-reduce方式的通用任务。通过mpi-operator通过自定义资源定义(CRD--custom resource definition)引用MPIJob这个新的对象类型,换句话说太极平台的调度是通过Operator对CRD(例如对于通用任务来说是MPIJob这个自定义资源)进行调度,而资源的真实创建是通过virtual kubelet下方到星辰算力来完成。

3. 疑问

3.1. nvidia-smi命令中返回的CUDA Version和Driver Version的关系,以及和我运行机器/镜像中的安装的cuda库版本之间的关系?

3.2. 在docker容器中通过GPU训练,容器镜像到底需要安装什么?镜像中需要安装GPU驱动吗?

我认为很多的由于训练环境导致的训练异常,都可以从这两个问题的回答中找到原因,进而更快的定位异常点。下面我围绕这两个问题,详细的做一个回答。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/6091.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

万兴PDF专家 PDFelement Pro v10.3.8 破姐版!

🧑‍💻万兴PDF专家 PDFelement Pro v10.3.8 破姐版 (https://docs.qq.com/sheet/DRVVxTHJ3RXJFVHVr)

docker mysql更新升级版本

一、环境说明 操作系统:Centos7 数据库版本:MySql 8.0.22 数据库中数据量不大,处于开发/测试环境,风险较低 二、升级原因 升级是因为测评漏洞,在进行国家三级等级保护测评过程中,漏扫发现多个MySql漏洞…

Linux学习之IP协议

前言: 在学习IP协议i前,我们其实知道网络协议栈是一层层的,上层封装好之后就传给下层,对于我们治安学习到的TCP协议,在对数据进行封装之后,并不是直接就将数据进行传输,而是交给下一层网络层进…

C++11 右值与移动语义

前言: 我们首先汇总一下在C11中新的变化: 1、新容器 —— unodered_xxx 2、新接口 cbegin等,无关痛痒initializer_list系列的构造push_xxx / insert / emplace 等增加右值引用插入版本,意义重大,提高效率容器新增移…

领域驱动设计(DDD)笔记(一)基本概念

文章链接 领域驱动设计(DDD)笔记(一)基本概念-CSDN博客领域驱动设计(DDD)笔记(二)代码组织原则-CSDN博客 DDD基本概念 DDD 是一种面向复杂需求的软件设计方法,将软件开…

【Vue3】openlayers加载瓦片地图并手动标记坐标点

目录 一、创建Vue3项目 二、openlayers加载瓦片地图(引js文件版) 2.1 将以下的文件复制到public下 2.2 index.html引入ol脚本 2.3 删除项目自带的HelloWorld.vue,创建Map.vue 2.4 编码Map.vue 2.5 修改App.vue 2.6 启动项目测试 三、…

通信光缆主要敷设方式有哪些(续)

在《通信光缆主要敷设方式有哪些》一文中,介绍了光缆的直埋、架空和管道敷设方式。此外,根据敷设场景的不同,光缆的常见敷设方式还包括:高铁槽道内敷设、水底敷设、墙壁敷设、引上、室内敷设等。 1 高铁槽道内光缆敷设 光缆顺沿高…

vscode设置免密登录远程服务器

文章目录 1. 问题描述2. 解决方案3. 原理 1. 问题描述 当我们使用vscode的ssh连接远程服务器后,过一段时间后,总是要求登录服务器的密码。 这就导致一个麻烦就是: 无论是在公司还是在学校,密码往往不是自己设置的,所以记忆起来就…

《QT实用小工具·五十二》文本或窗口炫酷有趣的滚动条——果冻条

1、概述 源码放在文章末尾 该项目实现了文本或窗口纤细的滚动条——果冻条 一个可以像弓弦一样拉出来,并且来回弹动的普通滚动条。 思路为此,但发现实际效果更像条状果冻,并且略有谐音, 故,称之为——“果冻条”&am…

【QT学习】12.UDP协议,广播,组播

一。Udp详细解释 UDP(User Datagram Protocol)是一种无连接的传输层协议,它提供了一种简单的、不可靠的数据传输服务。与TCP相比,UDP不提供可靠性、流量控制、拥塞控制和错误恢复等功能,但由于其简单性和低开销&#x…

【Linux-点灯烧录-SD卡/USB烧写】

目录 1. 烧写方式2. 烧写之代码编译2.1 led.s->led.o2.2 led.o->led.elf2.3 led.elf->led.bin2.4 反汇编:led.elf->led.dis 3. 烧写之烧录到SD卡上:3.1 开启烧录软件权限:3.2 确定SD卡的格式:FAT323.3 烧录到SD卡上3.…

学习Rust的第22天:mini_grep第2部分

书接上文,在本文中,我们学习了如何通过将 Rust 程序的逻辑移至单独的库箱中并采用测试驱动开发 (TDD) 实践来重构 Rust 程序。通过在实现功能之前编写测试,我们确保了代码的可靠性。我们涵盖了基本的 Rust 概念,例如错误处理、环境…

ChatGPT理论分析

ChatGPT "ChatGPT"是一个基于GPT(Generative Pre-trained Transformer)架构的对话系统。GPT 是一个由OpenAI 开发的自然语言处理(NLP)模型,它使用深度学习来生成文本。以下是对ChatGPT进行理论分析的几个主…

移动机器人系统与技术:自动驾驶、移动机器人、旋翼无人机

这本书全面介绍了机器人车辆的技术。它介绍了道路上自动驾驶汽车所需的概念。此外,读者可以在六足机器人的构造、编程和控制方面获得宝贵的知识。 这本书还介绍了几种不同类型旋翼无人机的控制器和空气动力学。它包括各种旋翼推进飞行器在不同空气动力学环境下的模…

基于vmware虚拟机中yum源的配置

1.首先需确保虚拟机中已经连接了光盘映像(如图在虚拟机右下方从左往右第二个) 2.在虚拟机中找到光盘映像文件(默认在/dev的sr0) 3.将光盘文件挂载(挂载后才可读取) 为方便每一次开机之后自动挂载&#xff…

学浪视频怎么下载保存到本地

你是否曾经因为想要保存一份珍贵的学浪视频却苦于无法下载而感到烦恼?现在,我将向你揭示一个简单易行的方法,让你轻松地将学浪视频保存到本地,随时随地享受学习的乐趣。你是否曾经因为想要保存一份珍贵的学浪视频却苦于无法下载而…

未来科技的前沿:深入探讨人工智能的进展、机器学习技术和未来趋势

文章目录 一、人工智能的定义和概述1. 人工智能的基本概念2. 人工智能的发展历史 二、技术深入:机器学习、深度学习和神经网络1. 机器学习2. 深度学习3. 神经网络 三、人工智能的主要目标和功能1. 自动化和效率提升2. 决策支持和风险管理3. 个性化服务和预测未来 本…

初始数据类型

注释补充 在我们编写任何代码的时候,都有一个叫做注释的功能 在golang中有两种 单行注释 // 如下图所示 加入了注释的话,代码在执行的时候会自动忽视这段内容 //fmt.Println("天上") //fmt.Println("天下") //fmt.Println("唯…

MySQL商城数据库88张表结构(46—50)

46、消息队列表 CREATE TABLE dingchengyu消息队列表 (id int(11) NOT NULL AUTO_INCREMENT COMMENT 序号,userId int(11) DEFAULT NULL COMMENT 用户id,msgTtype tinyint(4) DEFAULT 0 COMMENT 消息类型,createTime datetime DEFAULT NULL COMMENT 创建时间,sendTime datetim…

本地基于知识库的大模型的使用教程

本地基于知识库的大模型的使用教程 启动 双击 大模型启动.bat文件,内容如下: cmd /k "cd /d G:\Anaconda3\Scripts && activate.bat && cd /d D:\docdb_llm && conda activate python3.11 && python startup.py…