Cuda与Torch配置(For 集群服务器)超详细步骤

每次配置模型环境,无论是在windows,linux,集群服务器上都会在这里卡一段,为了未来配置方便,记录下配置注意事项

配置cuda和torch主要有几个要点,分别是:

  1. 显卡与驱动(NIVIADA driver)是否适配。
  2. cuda版本与显卡是否适配。
  3. torch是否为gpu版本
  4. torch版本与cuda,与python是否适配
  5. touchvision版本与torch是否适配。

1. 显卡与驱动(NIVIADA driver)是否适配

On Linux/OS X:

nvidia-smi

结果形式一般为:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 520.61.05    Driver Version: 520.61.05    CUDA Version: 11.8     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A100-PCI...  Off  | 00000000:3B:00.0 Off |                    0 |
| N/A   27C    P0    54W / 250W |      0MiB / 40960MiB |      0%   E. Process |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

NVIDIA-SMI 520.61.05 Driver Version: 520.61.05 是适配的即可,不然需要重新安装driver。

2. cuda版本与显卡(gpu)是否适配。

查询Compute Capability (CUDA SDK support )
步骤为:

  • 先确定显卡的算力级别:For example, the GeForce 820M compute capability is 2.1.
  • 再确定cuda版本是否支持该算力级别: For example, CUDA 9.2 is not supported for compute compatibility 2.1.

3. cuda是否与driver适配

On Linux/OS X:

nvidia-smi

结果形式一般为:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 520.61.05    Driver Version: 520.61.05    CUDA Version: 11.8     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A100-PCI...  Off  | 00000000:3B:00.0 Off |                    0 |
| N/A   27C    P0    54W / 250W |      0MiB / 40960MiB |      0%   E. Process |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

注意: 此表中显示的 CUDA 版本并不表示您的系统上实际安装了 CUDA 工具包这仅表明您的图形驱动程序兼容的最新版本的 CUDA。一般下载这个版本的cuda就对了。

3. pytorch安装

一般安装步骤:

conda install pytorch torchvision torchaudio cudatoolkit=11.8

一般linux/windows这样就没问题了,但是,由于我使用的是集群服务器,环境配置与模型训练(gpu)不在同一个节点,这样会直接安装为cpu版本的pytorch。同时集群里有cuda11.9module,我是不用下载cudatoolkit的。
检查一下:

$ conda list pytorch
pytorch                   2.0.0               py3.9_cpu_0    pytorch
pytorch-mutex             1.0                         cpu    pytorch
cudatoolkit               11.1.1              heb2d755_10    conda-forge

果然是cpu版本呢。于是我首先卸载了原来版本的torch(或者重新创建环境)。然后手动安装下载wheel,在官方网站可下载。
cu开头的就是gpu版本啦
在这里插入图片描述
同时下载对应版本的torchvision:
在这里插入图片描述
这里我一开始下了cu118/torchvision-0.16.1%2Bcu118-cp311-cp311-win_amd64.whl,但是torchvision0.16和torch2.0不兼容,所以还要注意torch和torchvision匹配问题
然后传到服务器文件夹里,在conda环境pip安装即可。

我在gpu节点测cuda一直false的原因就是torch和torchvision不匹配,torchvision后装把前面装的pytorch覆盖了重装了cuda12.1的版本,导致无法与GPU兼容。

4.测试与运行

这之后应该就可以正常运行了gpu了,测试gpu的pbs文件:

#!/bin/bash
#PBS -N yolov5_train
#PBS -l nodes=1:ppn=1:gpus=1
#PBS -l walltime=1:00:00
#PBS -o yolov5_train.out
#PBS -e yolov5_train.err
#PBS -A your_account
#PBS -V
#PBS -q gpu# 使用GPU前必须启动
export PATH=/usr/local/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH# 查看cuda版本
nvcc --version
# Display GPU information
nvidia-smiconda init bash
source ~/.bashrcconda activate checkcuda2# Check if CUDA is available using Python
python -c "import torch; print(torch.__version__)"
python -c "import torch; torch.zeros(1).cuda()"
python -c "import torch; print(torch.version.cuda)"
python -c "import torch; print(torch.cuda.is_available())"conda deactivate

参考

  • Why torch.cuda.is_available() returns False even after installing pytorch with cuda?
  • GPU版本安装Pytorch教程最新方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/624553.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一刀切转为精细化,门店如何进行「体检式」巡查(一)

在品牌经营过程中,无论是直营店还是加盟商,都需要做好统一的品牌门店管理。比如总部对门店环境卫生、员工服务质量、货品质量等进行定期或不定期的巡检抽查,以确保各门店保持统一标准。 以往,传统巡店只能通过有纸质表格或微信汇报…

前端react入门day03-react获取dom与组件通信

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 受控表单绑定 React中获取DOM 组件通信 父传子 父传子-基础实现 父传子-props说明 父传子 - 特殊的…

unity-物体的基本操作笔记

unity-物体的基本操作笔记 公共属性左右移动跳 公共属性 private Rigidbody2D m_body2d;[SerializeField] float m_speed 4.0f;[SerializeField] float m_jumpForce 7.5f;左右移动 // Update is called once per framevoid Update(){float inputX Input.GetAxis("Horiz…

FFmpeg之AVFilter

文章目录 一、概述二、重要结构体2.1、AVFilterGraph2.2、AVFilter2.3、AVFilterContext 三、流程梳理3.1、FFmpeg AVFilter 使用整体流程3.2、过滤器构建流程3.2.1、分配AVFilterGraph3.2.2、创建过滤器源3.2.3、创建接收过滤器3.2.4、生成源和接收过滤器的输入输出3.2.5、通过…

Java开发+Intellij-idea+Maven+工程构建

Java开发Intellij-ideaMaven工程构建 Intellij-idea是一款流行的Java集成开发环境,它支持Maven作为项目管理和构建工具。Maven可以帮助开发者自动下载项目依赖的jar包,执行编译、测试、打包等生命周期任务。本资源将介绍如何在Intellij-idea中创建、导入…

MIT 6s081 lab 2:system calls

Lab2 : system calls 作业地址:Lab: System calls (mit.edu) Add $U/_trace to UPROGS in Makefileadd a prototype for the system call to user/user.h, a stub to user/usys.pl, and a syscall number to kernel/syscall.h. The Makefile invokes the perl scr…

2024年1月上旬值得一读的技术文档精选

2024年1月上旬值得一读的技术文档精选 2024.1.15版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 1、RISC-V开放架构设计之道(v1.0.0) 2023 年 12 月 13 日发布的一本开源书,这本恰逢其时的书简明扼要地介绍了简洁、免费、开放…

力扣刷题第一天 删除排序链表中的重复元素 II

各位小伙伴们好,2024年到来了,我突然发现我好像错过了很多,我的才华和能力远不足以支撑我的梦想,我下定决心要开始为自己努力了!希望明天的我是一个更好的我!希望小伙伴都有一个美好的明天哦! 示…

chrome 307状态码

问题:不知道什么原因导致http请求chrome始终307跳转到https,这个307的跳转非常恶心的地方是客户端缓存行为,并且非普通的f12下面清除缓存可以去掉 解决办法:使用chrome的清除浏览数据,通过这个方式清除,才能解决。 问…

精品基于Uniapp+springboot车辆充电桩缴费管理系统管理系统App-地图

《[含文档PPT源码等]精品基于Uniappspringboot充电桩管理系统App》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程、包运行成功! 软件开发环境及开发工具: 开发语言:Java 后台框架:springboot、ssm 安…

element + table 每两行对比相同值列合并

在开始之前先要明确几个概念&#xff1a; 保持不变&#xff1a;{ rowspan: 1, colspan: 1 } 删除一个单元格&#xff1a;{ rowspan: 0, colspan: 0 } 合并一个单元格&#xff1a;{ rowspan: 2, colspan: 1 } <template><div><el-table:data"tableData&quo…

Appium 自动化测试

1.Appium介绍 1&#xff0c;appium是开源的移动端自动化测试框架&#xff1b; 2&#xff0c;appium可以测试原生的、混合的、以及移动端的web项目&#xff1b; 3&#xff0c;appium可以测试ios&#xff0c;android应用&#xff08;当然了&#xff0c;还有firefoxos&#xff09;…

web自动化实现登录的几种方式

目录 前言 一、pythonunittest框架实现登录功能 二、pythonselenium实现登录功能 三、pythonrequests库实现登录功能 前言 今天主要想介绍python语言不同的自动化测试框架的结合方式来模拟登录功能。想了解自动化测试框架的同学不要错过哦&#xff01; 一、pythonunittest框…

Windows 下 QT开发环境的搭建:

下载QT:Index of /archive/qt/5.14 下载Cmake :CMake - Upgrade Your Software Build System (1)QT在windows,C, 打包exe&#xff1a; step1:window上安装QT软件&#xff1a; Windows下的QT系统开发环境搭建_qt windows-CSDN博客. step2:新建一个界面工程&#xff1a; (1)打…

【css】渐变效果

css渐变效果 使用 CSS 渐变可以在两种颜色间制造出平滑的渐变效果。 用它代替图片&#xff0c;可以加快页面的载入时间、减小带宽占用。同时&#xff0c;因为渐变是由浏览器直接生成的&#xff0c;它在页面缩放时的效果比图片更好&#xff0c;因此你可以更加灵活、便捷的调整页…

postgresql16 物理复制与逻辑复制的实现和对比

本文面向想要练习 PostgreSQL 中数据库复制基础知识但可能无法访问远程服务器的初学者。我认为学习新技术时&#xff0c;在自己的机器上运行示例以巩固概念是至关重要的。对于副本来说&#xff0c;这可能很困难&#xff0c;因为许多可用的资源假设用户具有一定的 PostgreSQL 经…

find_shape_model

*形状匹配 find_shape_model (ImageEmphasize, ModelID, -0.39, 0.78, 0.5, 1, 0.5, least_squares, [4,-2], 0.9, Row, Column, Angle, Score) *创建一个初始化矩阵 hom_mat2d_identity (HomMat2D) *从点和角度计算刚性仿射变换&#xff0c;找出模板和卡尺工具…

网页屏幕适配通透了

一&#xff0c;如果设计尺寸固定 那就按照固定尺寸开发 一般都是1920*1080 二&#xff0c;需要适配多种像素屏幕&#xff08;大屏可视化&#xff09; 可使用媒体查询设置多套css样式或者使用自适应单位&#xff0c;%&#xff0c;vw&#xff0c;vh 最好解决方案rem&#xff…

JavaScript 之 位运算

一、简介 ​ JavaScript的位运算符是将进行运算的数字&#xff08;八进制、十进制、十六进制等&#xff09;转换为32位的二进制串&#xff0c;超过 32 位的数字会丢弃其最高有效位&#xff0c;只保留后32位二进制串。然后再对每一位进行运算。但运算后得出的结果&#xff0c;会…

Python 元类 metaclass 详解

元类&#xff08;metaclass&#xff09;是 Python 中一个高级且相对较少使用的概念。元类可以被视为类的类&#xff0c;它控制类的创建过程。 一、基本概念 在 Python 中&#xff0c;一切皆对象。为了避免混淆&#xff0c;我们约定两个术语&#xff1a; 类实例&#xff1a;当…