关于GPU使用过程中的若干问题

1.CUDA异常

问题描述:运行torch.cuda.is_available()

报错:cuda unknown error - this may be due to an incorrectly set up environment

解决方案:重启

2.nvidia驱动版本不匹配

问题描述:运行nvidis-smi

报错:Failed to initialize NVML: Driver/library version mismatch

解决方案:

  • 查看/var/log/apt/history.log,是否有驱动更新记录
  • 进行驱动版本的适配
  • 驱动版本修改后需要重启才会生效

3.服务器主机acpi报错

问题描述:非正常关机,开机之后报错

报错提示 “ACPI Error: No handler for Region”

1)关闭acpi。步骤如下:

a. 编辑grub菜单项。
在这里插入图片描述
b. 编辑linux命令启动行,在末尾添加 acpi=off
在这里插入图片描述
c. 按Ctrl+X 保存重启
重启后,终端提示进入emergency mode。
2)修复磁盘

  • 执行 journalctl -xb | grep -C 10 "fsck failed"查看错误行和前后几行
  • 找到/dev/…损坏的盘
  • 执行umount /dev/…
    fsck -y /dev/…
  • reboot
    如果重启后,卡在黑屏界面,光标不停闪烁

3)解决驱动问题
参照1),进入grub菜单项,在linux启动行末尾添加 nomodeset。
重启后正常进入图形桌面。
参考链接:
ubuntu出现emergency mode的解决办法
Ubuntu系统启动过程在遇到的黑屏光标闪烁问题解决

4.Ubuntu系统启动异常

问题描述:Ubuntu 20.04 系统启动后,屏幕显示如下,无法进行其他操作:

A start job is running for Hold until boot process finishes up (xxx min xxx s/no limit

解决方案:

  • 编辑/etc/default/grub文件,找到 GRUB_CMDLINE_LINUX_DEFAULT=“quiet splash"配置,改为 GRUB_CMDLINE_LINUX_DEFAULT=”"
  • 更新 grub2(sudo update-grub)

参考:
Start Job Running for Hold

5.编译CUDNN时出错

问题描述:NVIDA官方网站下载cuDNN,编译mnistCUDNN时

报错:fatal error: FreeImage.h: No such file or directory

解决方案:

sudo apt-get install libfreeimage3 libfreeimage-dev

参考:
编译mnistCUDNN时出错:fatal error: FreeImage.h: No such file or directory

6.服务器重启黑屏

硬件层面:
观察主机的指示灯
(1)指示灯偏黄,硬件存在问题(内存条有静电,拔出后用橡皮擦擦拭;或GPU松动)

  • 电源指示灯黄,闪烁三下再闪烁一下,扣下主板上的纽扣电池,过十五秒后再装上
  • 开机出现下面的情况:
    在这里插入图片描述
    开机按F2进入BIOS设置,将SATA Configuration设置为AHCI,保存重启就好!
    (2)指示灯白色且无闪烁,表明硬件无问题,可能系统存在问题

系统软件层面
在xshell能操控的情况下,运行nvidia-smi,若无法显示,驱动存在问题,需重装

  • 卸载驱动 sudo apt-get purge nvidia*
  • 添加源 sudo add-apt-repository ppa:graphics-drivers/ppa
  • 更新 sudo apt-get update
  • 查看可用驱动 ubuntu-drivers devices
  • 安装可用驱动 sudo apt-get install nvidia-430
    参考:
    Ubuntu辊机开机后显卡挂了

7.GPU服务器启动报错分析

问题描述:
重启t640后,可以通过xshell远程连接,但与服务器无法进入图形界面。
(/var目录空间满)
解决方案:
1).采用sudo init 5, 尝试恢复图形界面。恢复后,界面如下:
在这里插入图片描述2).查询失败原因,输入:systemctl status rtkit-daemon.service在这里插入图片描述
3). 清理空间,主要是清理/home, /opt 下面的数据。 清理完成后,重启机器,发现问题依旧.
4). 再次查看空间及inode,研究inode与磁盘空间的关系,无任何发现.

df -h
df -i

5). 采用journalctl -b 检查启动日志在这里插入图片描述
6). 定位到还是空间不够,但不清楚是在哪个device,经朋友指导,定位到/var空间满, 之前注意到各种/snap开头的满了,以为/var满了没有影响.
7). 清理/var空间在这里插入图片描述
将里面1.6G那个目录移走,并建立软链接如下:在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/232782.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

个人用户的数据之美:数据可视化助力解读

数据可视化是一种强大的工具,不仅可以为企业和专业人士提供见解,也对个人用户带来了许多实际的帮助。下面我就以一个数据可视化从业者的视角,来谈谈数据可视化对个人用户的益处: 首先对于个人用户来说,数据可视化可以让…

Nodejs 第二十五章(http)

“http” 模块是 Node.js 中用于创建和处理 HTTP 服务器和客户端的核心模块。它使得构建基于 HTTP 协议的应用程序变得更加简单和灵活。 创建 Web 服务器:你可以使用 “http” 模块创建一个 HTTP 服务器,用于提供 Web 应用程序或网站。通过监听特定的端…

python接口自动化测试--requests使用和基本方法封装

之前学习了使用jmeterant做接口测试,并实现了接口的批量维护管理(大概500多条用例),对“接口”以及“接口测试”有了一个基础了解,最近找了一些用python做接口测试的资料,一方面为了学习下如何使用python进行接口测试(如何做出一个…

抖店需要多少资金?如何开通?具体流程如下!

我是电商珠珠 新手开抖店最关心的就是资金问题,在网上关于抖店的资金多少的都有,几百几千的都有。 各个回答都不一样。 另外一个问题就是怎么开通,今天我就来给大家详细的讲一下。 一、资金 入驻抖店需要办理一张个体工的营业执照&#…

Unity中URP下的顶点偏移

文章目录 前言一、实现思路二、实现URP下的顶点偏移1、在顶点着色器中使用正弦函数,实现左右摇摆的效果2、在正弦函数的传入参数中,加入一个扰度值,实现不规则的顶点偏移3、修改正弦函数的振幅 A,让我们的偏移程度合适4、修改正弦…

Linux/Windows IP | Team基础管理

引言 IP(Internet Protocol) 定义: IP(Internet Protocol)是网络传输数据的协议,负责在网络中唯一标识和定位设备,并提供数据传输的基础。功能: 允许计算机在网络上相互通信和交换…

VMware Ubuntu虚拟机忘记密码

​​原文 https://blog.csdn.net/ezconn/article/details/89328024​​​​​​​ 前言: 在VMware运行Ubuntu虚拟机时,开机之后忘记密码怎么办? 环境:Ubuntu版本:ubuntu-16.04.6-server-amd64;VMware版本…

乐理基础-弱起小节、弱起

弱起小节的定义: 1.音乐不是从强拍开始的,是从弱拍或次强拍开始的。 2.弱起小节会省去前面没有音乐的部分,它是不完整的小节,它的拍数是不够的。如图1 弱起小节的作用: 强拍经常要作为 和弦出现 和 变化的地方&#xf…

德人合科技 | 防止公司电脑文件数据资料外泄,自动智能透明加密保护系统

【透明加密软件】——防止公司电脑文件数据资料防止外泄,自动智能透明加密保护内部核心文件、文档、图纸、源代码、音视频等资料! PC端访问地址: www.drhchina.com 🌟 核心功能: 透明加密:采用高级加密算…

EasyExcel合并相同内容单元格及动态标题功能的实现

一、最初版本 导出的结果: 对应实体类代码: import com.alibaba.excel.annotation.ExcelProperty; import com.alibaba.excel.annotation.write.style.ColumnWidth; import com.alibaba.excel.annotation.write.style.ContentLoopMerge; import com.al…

全链路压力测试:解析其主要特点

随着信息技术的飞速发展和云计算的普及,全链路压力测试作为一种关键的质量保障手段,在软件开发和系统部署中扮演着至关重要的角色。全链路压力测试以模拟真实生产环境的压力和负载,对整个业务流程进行全面测试,具有以下主要特点&a…

Nginx网站服务详解(Nginx服务的主配置文件 ——nginx.conf)

目录 一、全局配置的六个模块简介 二、Nginx配置文件的详解 1)全局配置模块 2)I/O 事件配置 3)HTTP 配置 4)web服务监听设置 5)其他设置 location常见配置指令:“root、alias、proxy_pass 对比&a…

【数据分享】2019-2023年我国地级市逐年新房房价数据(免费获取/Excel/Shp格式)

房价是一个城市发展程度的重要体现,一个城市的房价越高通常代表这个城市越发达,对于人口的吸引力越大!因此,房价数据是我们在各项城市研究中都非常常用的数据!之前我们分享了2019—2023年我国地级市逐月的新房房价数据…

揭秘`v-if`和`v-show`的区别:选择正确指令的技巧(下)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

EasyExcel模板导出(行和列自动合并)

1.需求背景: ①需要从第三方获取数据,第三方接口有两个参数,开始时间和结束时间 ②获取回来的数据并没有入库,所以不能通过数据库将数据归类统计,excel合并大概的流程是判断上一行或者左右相邻列是否相同,然后进行合并,所以不能是零散的数据且客户要求每一个自治区和每一个航站…

系统分析师(软考)知识点整理(一)

第一章 信息 信息是不确定性的减少 xi: n个状态中的第i个状态p(xi):出现第i个状态的概率b: b一般取值为2 特征 #mermaid-svg-pvPkY9RE5GZIIIxl {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-pvPkY9RE5GZIIIxl…

一篇文章带你了解各个程序员接单平台,让你选择不再迷茫!!!

相信现在很多程序员都已经走上了或者准备走上网上接单这条路,但是目前市面上的接单平台可谓五花八门,对于各个平台的优缺点,不同的程序员该如何选择适合自己的接单平台,你又是否了解呢? 接下来就让小编用一篇文章来为…

Gemini自曝中文用百度文心一言训练,网友看呆:大公司互薅羊毛??

谷歌Gemini中文语料疑似来自文心一言??? 先是有读者向我们爆料: 在谷歌Vertex AI平台使用该模型进行中文对话时,Gemini-Pro直接表示自己是百度语言大模型。 很快,有微博大V阑夕夜也发博称: 在…

超实用的Web兼容性测试经验总结,建议Mark

在日常工作中,我们经常碰到网页不兼容的问题。我们之所以要做兼容性测试,目的在于保证待测试项目在不同的操作系统平台上正常运行。 主要包括待测试项目能在同一操作系统平台的不同版本上正常运行;待测试项目能与相关的其他软件或系统的“和…

手撕HashMap源码2

目录 引言 putTreeVal红黑树添加结点方法讲解 treeifyBin进行树化的方法(虚假的树化) treeify真正的树化操作 从扩容的部分来分析红黑树的代码 split红黑树扩容迁移的方法 untreeify链化(退树成链) 红黑树代码分析 rota…