【原创】AnolisOS/CentOS8 升级nvidia驱动 容器中使用cuda

1 前言

最近在研究AI,希望在容器内使用pytorch, 同时能够利用用到宿主机的GPU资源。
发现宿主机的cuda版本(11.4)和容器需要的(11.6)不一致,导致pytorch无法正常运行,因此决定升级。
*所有操作默认在root用户下进行
*本次操作基于龙蜥(Anolis OS) 8.2,和CentOS 8.X应该是一致的

2 升级cuda和Nvidia驱动

2.1 准备升级包

去Nvidia官网下载安装包。以11.6为例,官网网页。
建议选择runfile进行安装。

2.2 卸载旧版本

如果有安装旧版本,必选卸载nvidia,cuda可以不卸载(但是留着也没啥用了,所以建议一并卸载)

可以用lsmod确认本机是否已安装nvidia驱动。

$ lsmod | grep nvidia
nvidia_uvm           1171456  2
nvidia_drm             65536  0
nvidia_modeset       1155072  1 nvidia_drm
nvidia              39051264  159 nvidia_uvm,nvidia_modeset
drm_kms_helper        204800  2 nvidia_drm,i915
drm                   540672  6 drm_kms_helper,nvidia,nvidia_drm,i915,ttm
i2c_core               77824  7 drm_kms_helper,i2c_algo_bit,igb,nvidia,i2c_i801,i915,drm

按下述方法进行卸载。

#卸载驱动
nvidia-uninstall
#卸载cuda
/usr/local/cuda/cuda-uninstaller
#重启机器,保证驱动从内核中剥离,当然理论上也可以用modprobe去卸载
reboot

2.3 安装新版本

这个时候就直接执行前面下载好的安装包,下一步到底即可

./cuda_11.6.0_510.39.01_linux.run

2.4 检查版本情况

$ nvidia-smi 
Thu Mar  7 08:51:56 2024       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.39.01    Driver Version: 510.39.01    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00000000:01:00.0 Off |                    0 |
| N/A   47C    P8    17W /  70W |      2MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
$  /usr/local/cuda/bin/nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Fri_Dec_17_18:16:03_PST_2021
Cuda compilation tools, release 11.6, V11.6.55
Build cuda_11.6.r11.6/compiler.30794723_0

3 安装NVIDIA Container Toolkit

正常情况下,前面步骤完成后,docker run时直接加上--gpus=all启用GPU进入容器即可跳过此步骤。
但是如果该环境之前没在容器中跑过gpu,有可能会收到抛错:

$ docker run --rm --gpus=all -it pytorch/pytorch:1.13.0-cuda11.6-cudnn8-devel /bin/bash
could not select device driver "" with capabilities: [[gpu]]

这是因为没有安装NVIDIA Container Toolkit导致的。需要安装才能在容器内支持GPU。
参考官方网页进行安装。

cd /etc/yum.repos.d/
wget --no-check-certificate https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo
#移除HTTPS安全检查避免证书问题
sed -i 's/sslverify=1/sslverify=0/g' nvidia-container-toolkit.repo
yum install -y nvidia-container-toolkit
#安装完成后按照要求,使用命令对docker的daemon.json进行配置
nvidia-ctk runtime configure --runtime=docker
#配置完毕后重启docker
systemctl restart docker

3.1 使用docker-compose启动时的配置方法

修改docker-compose.yml

server:container_name: mmdetectionbuild: .#主要增加这下面这段deploy:resources:reservations:devices:- driver: nvidiacount: 1capabilities: [gpu]#按需追加,在某些环境下可能需要privileged: true

4 进入容器检查情况

此时再次启动容器,能够正常启动

$ python3
Python 3.9.12 (main, Apr  5 2022, 06:56:58) 
[GCC 7.5.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch
>>> print(torch.cuda.is_available())
True
>>> print(torch.version.cuda)
11.6
>>> print(torch.cuda.device_count())
1

主要的测试均通过,此时device可以切换到cuda:0上运行了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/729075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在Linux用Docker部署MySQL数据库并远程访问本地数据库

文章目录 前言1 .安装Docker2. 使用Docker拉取MySQL镜像3. 创建并启动MySQL容器4. 本地连接测试4.1 安装MySQL图形化界面工具4.2 使用MySQL Workbench连接测试 5. 公网远程访问本地MySQL5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定TCP地址远程访问 前言 本文主…

RabbitMQ理论:RabbitMQ学习思维导图

参考资料 RabbitMQ五种消息模型

信号隔离器4-20mA一进二出直流电流电压变送模拟量输出0-10V泰华

品牌:泰华仪表 您需要一款这样的隔离器,转换精度高,响应速度快,耐压隔离高,三端隔离技术,低功耗。 DC24V供电,为现场的变送器提供隔离配电电源,同时将变送器产生的电流信号从现场…

Springboot 打成jar包后 结合idea remote 远程debug

1、将测试demo打成jar 2、 将jar放到某个目录下,并运行起来 java -jar -agentlib:jdwptransportdt_socket,servery,suspendn,address*:10087 base_admin-1.0.0.jar 3、在Idea中编辑Remote调试 4、在浏览器中打开刚启动的jar,比如我的项目地址&#x…

24考研有感

我考11408,总分339,408考了112分 408考的不甚满意,但是客观来说也没有低多少,毕竟我的学习时间太极限了,平均5天一本书,题只做了数据结构和计组的一部分选择,最后草草研究了几年的大题就上阵了…

在NAT模式下,局域网内的其他电脑要访问使用NAT模式的虚拟机或设备

在NAT模式下,局域网内的其他电脑要访问使用NAT模式的虚拟机或设备 可以通过以下几种方式: 1、端口映射:在NAT模式下,你可以配置端口映射,类似于Docker中的端口映射。这样,局域网内的其他电脑就可以通过特…

小米消金数字赋能完善服务,持续深化消费者权益保护

近年来,我国金融消费者权益保护制度框架不断完善,《国务院办公厅关于加强金融消费者权益保护工作的指导意见》、《中国人民银行金融消费者权益保护实施办法》等部门规章及规范性文件陆续出台。2023年12月18日,国家金融监督管理总局修订形成《…

Galxe:被低估的加密市场掘金地+Web3门户

在BTC ETF获得 SEC 的批准之后,机构资金大量买入推动BTC上涨,并带动整个加密市场回暖进入牛市。那么,对于习惯了熊市保守心态的投资者来说,接下来如何转换策略适应牛市?对即将进场的Web2用户来说,如何玩赚W…

一次简单操作代替所有异常处理

一、背景 在服务端处理前端发过来的响应的时候,开发者不可能穷尽用户的所有奇怪的操作。除此之外,我们还需要应付前端人员对我们的无情吐槽,你对XXXX请求返回的为啥是奇怪的响应数据呢?于是全局异常处理应运而生,一次处…

奖励建模(Reward Modeling)实现人类对智能体的反馈

奖励建模(Reward Modeling)是强化学习中的一个重要概念和技术,它主要用于训练智能体(如AI机器人或大型语言模型)如何更有效地学习和遵循人类期望的行为。在强化学习环境中,智能体通过尝试不同的行为获得环境…

云服务器操作系统如果不小心被删除了文件,那岂不是不能进系统了?

确实,如果云服务器操作系统中的关键文件不小心被删除,可能会导致系统无法正常引导进入。但不用过于担心,有一些方法可以尝试修复这个问题。 首先,可以尝试通过挂载对应操作系统版本的ISO光驱进入救援模式来修复。具体地&#xff…

C#实现插入排序算法

C#实现插入排序算法 以下是使用C#实现插入排序算法的示例代码: using System;class InsertionSort {static void Main(string[] args){int[] arr { 64, 25, 12, 22, 11 };Console.WriteLine("排序前:");PrintArray(arr);InsertionSortAlgori…

JavaScript 二分查找(迭代与递归)

二分搜索被定义为一种在排序数组中使用的搜索算法,通过重复将搜索间隔一分为二。二分查找的思想是利用数组已排序的信息,将时间复杂度降低到O(log N)。 二分查找算法示例 何时在数据结构中应用二分查找的条件: 应用二分查找算法&#xff1a…

阿里云k8s环境下,因slb限额导致的发布事故

一、背景 阿里云k8s容器,在发布java应用程序的时候,客户端访问出现500错误。 后端服务是健康且可用的,网关层大量500错误请求,slb没有流入和流出流量。 经过回滚,仍未能解决错误。可谓是一次血的教训,特…

HuggingFace模型下载

模型下载源 异型岛社区版是HuggingFace资源下载网站,为AI开发者提供模型下载服务.网站链接此社区还有企业版, 是需要付费的. 模型下载脚本 # 先下载脚本 wget http://61.133.217.142:20800/download/model_download.py使用model_download.py下载 pip install hu…

[React 进阶系列] React Context 案例学习:使用 TS 及 HOC 封装 Context

[React 进阶系列] React Context 案例学习:使用 TS 及 HOC 封装 Context 具体 context 的实现在这里:[React 进阶系列] React Context 案例学习:子组件内更新父组件的状态。 根据项目经验是这样的,自从换了 TS 之后,…

光线追踪12 - Defocus Blur(虚焦模糊)

现在我们的最后一个特性是虚化模糊。注意,摄影师通常称之为景深,所以请确保在光线追踪的朋友中只使用虚化模糊这个术语。 真实相机具有虚化模糊是因为它们需要一个大孔(而不仅仅是针孔)来收集光线。一个大孔会导致所有物体失去焦点…

Android 完整SDK项目中添加对应的JNI与底层通信

安卓应用发消息给底层 近日需要写一个安卓app和底层发消息,这就涉及到java如何到c层的一个逻辑,app已经写好,就差发个消息了。至于如何对接底层,得和写底层的人进一步沟通,本文笔者只写从java层通信到cpp,并且打印出一个值,至于通信底层,到了c层了,open,read一个驱动…

社交媒体革新者:揭秘Facebook对在线互动的影响

1. Facebook的兴起与发展 Facebook由马克扎克伯格在哈佛大学宿舍创建,最初只是服务于哈佛大学学生的社交网络。然而,其后快速扩张到其他大学和全球,成为了全球最大的社交媒体平台之一。其发展历程不仅是数字时代的典范,也是创业成…

CrySiS勒索病毒最新变种来袭,加密后缀为kharma

CrySiS勒索病毒,又称Dharma,首次出现是在2016年,2017年5月此勒索病毒万能密钥被公布之后,之前的样本可以解密,导致此勒索病毒曾消失了一段时间,不过随后又马上出现了它的一款最新的变种样本,加密…