显卡nvidia-smi后 提示Faild 解决过程,包含卸载重装NVIDIA驱动步骤

显卡异常: 显卡nvidia-smi后 提示Faild 解决过程,卸载重装nvidia驱动步骤

文章目录

      • 显卡异常: 显卡nvidia-smi后 提示Faild 解决过程,卸载重装nvidia驱动步骤
    • @[toc]
        • 1 缘由
        • 2 解决过程
        • 3 过程所需命令
        • 4 解决
          • 4.1 把该显卡重新拔插一下
            • 卸载NVIDIA驱动的方法(卸载完重启机器再安装)
          • 4.2 换一张显卡试试
          • 4.3 把该显卡放到同型号的其它机器试验性能
        • 5 结论

1 缘由

起初程序运行好好的,突然就没有检测输出了,尝试下面命令:

nvidia-smi

报错如下,记为【Error1】

Unable to determine the device handle for GPU 8000:01:00.0: Unknown Error

reboot机器后,又输出如下,记为【Error2】

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

2 解决过程

(1)首先第一反应是驱动连不上了,于是重新装了驱动,然后就确确实实是又可以正常输出显卡信息及使用情况了。

(2)但是没过多久程序又出错了,然后输入nvidia-smi又报了上述【Error1】的问题。重启机器后,还是【Error2】的输出。怀疑是显卡物理脱离服务器了,可能引脚松动了。于是做了如下试验:

(2.1)拿一台没有毛病的服务器,输入nvidia-smi,显卡正常输出,关机。

(2.2)将该服务器显卡拔下来,开机后输入nvidia-smi,显卡输入前述【Error2】,关机。

(2.3)将该服务器显卡再插上,开机后,输入nvidia-smi,显卡正常输出。这里,我们开机后,甚至都没有重新安装显卡驱动。值得注意的是,我一直以为显卡拔下来再重新插回去需要重新安装显卡驱动。这里重新插上显卡之后,竟然不用重新装驱动,也是震惊了我。

3 过程所需命令

(1)如下命令输出(rev ff),则可能显卡物理松了

lspci| grep -i nvidia

正常输出示例如下:

02:00.0 VGA compatible controller: NVIDIA Corporation Device 2684 (rev a1)
02:00.1 Audio device: NVIDIA Corporation Device 22ba (rev a1)

(2)查看物理有没有显卡的命令,如下

sudo lshw -C display 

=====>打印没有任何输出, 正常会输出物理设施信息,正常输出示例如下:

  *-displaydescription: VGA compatible controllerproduct: NVIDIA Corporationvendor: NVIDIA Corporationphysical id: 0bus info: pci@0000:02:00.0version: a1width: 64 bitsclock: 33MHzcapabilities: pm msi pciexpress vga_controller bus_master cap_list romconfiguration: driver=nvidia latency=0resources: irq:137 memory:a2000000-a2ffffff memory:90000000-9fffffff memory:a0000000-a1ffffff ioport:4000(size=128) memory:c0000-dffff

(3)显示操作系统发行版本号

uname -r 

(4)显示系统名、节点名称、操作系统的发行版号、内核版本等

uname -a

(5)

lspci

正常输出包含NVIDIA信息,异常输出则没有这条。

在这里插入图片描述

4 解决

最终,我们觉得肯定是物理上显卡,或者卡槽存在问题。

4.1 把该显卡重新拔插一下
卸载NVIDIA驱动的方法(卸载完重启机器再安装)
方法一
sudo bash NVIDIA-Linux-x86_64-510.47.03.run -uninstall
方法二
sudo apt-get --purge remove nvidia*
sudo apt autoremove
卸载完成之后,记得重启机器再安装,然后再如下命令安装
sudo ./NVIDIA-Linux-x86_64-510.47.03.run -no-x-check

重装驱动后,输入nvidia-smi后正确输出。

4.2 换一张显卡试试

因为4.1解决了所以就没试

4.3 把该显卡放到同型号的其它机器试验性能

因为4.1解决了所以就没试

5 结论

​ 硬件的问题,我们装在室外的设备,现在还是夏天,把设备拆开后,发现显卡电源适配线和风扇太近了,影响风扇转动,同时风扇的转动也会造成电源适配线的接触不良。这些原因①温度太高硬件短期故障造成驱动异常;②风扇导致电源适配线接触不良造成显卡掉电。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/38491.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

单元测试优化:为什么要对程序进行测试?测试有什么好处?

单元测试(Unit Testing)又称为模块测试, 是针对程序模块(软件设计的最小单位)来进行正确性检验的测试工作。 程序单元是应用的最小可测试部件。简单来说,就是测试数据的稳定性是否达到程序的预期。 我们日常开发时可能…

19、SQL注入之SQLMAP绕过WAF

目录 逻辑层1、逻辑问题2、性能问题 白名单方式一:IP白名单方式二:静态资源方式三:url白名单方式四: 爬虫白名单 sqlmap在测试漏洞的时候,选择了no,它就不会去测试其它的了,我们一般选择yes,为了…

Deep Learning With Pytorch - 最基本的感知机、贯序模型/分类、拟合

文章目录 如何利用pytorch创建一个简单的网络模型?Step1. 感知机,多层感知机(MLP)的基本结构Step2. 超平面 ω T ⋅ x b 0 \omega^{T}xb0 ωT⋅xb0 or ω T ⋅ x b \omega^{T}xb ωT⋅xb感知机函数 Step3. 利用感知机进行决策…

SpringBoot整合Minio

SpringBoot整合Minio 在企业开发中&#xff0c;我们经常会使用到文件存储的业务&#xff0c;Minio就是一个不错的文件存储工具&#xff0c;下面我们来看看如何在SpringBoot中整合Minio POM pom文件指定SpringBoot项目所依赖的软件工具包 <?xml version"1.0" …

Ubuntu上安装RabbitMQ

在Ubuntu上安装RabbitMQ并设置管理员用户为"admin"&#xff0c;密码为"123456"&#xff0c;并开启开机自启 更新系统软件包列表。在终端中执行以下命令&#xff1a; sudo apt update安装RabbitMQ服务器软件包。运行以下命令&#xff1a; sudo apt insta…

DaVinci Resolve Studio 18 for Mac 达芬奇调色

DaVinci Resolve Studio 18是一款专业的视频编辑和调色软件&#xff0c;适用于电影、电视节目、广告等各种视觉媒体的制作。它具有完整的后期制作功能&#xff0c;包括剪辑、调色、特效、音频处理等。 以下是DaVinci Resolve Studio 18的主要特点&#xff1a; - 提供了全面的视…

Linux 设置 ssh 内网穿透

背景&#xff1a;有三台机器A、B、C&#xff0c;机器 A 位于某局域网内&#xff0c;能够连接到互联网。机器 B 有公网 IP&#xff0c;能被 A 访问到。机器 C 位于另外一个局域网内&#xff0c;能够连接到互联网&#xff0c;能够访问 B。 目标&#xff1a;以 B 为中介&#xff…

Jmeter-压测时接口按照顺序执行-临界部分控制器

文章目录 临界部分控制器存在问题 临界部分控制器 在进行压力测试时&#xff0c;需要按照顺序进行压测&#xff0c;比如按照接口1、接口2、接口3、接口4 进行执行 查询结果是很混乱的&#xff0c;如果请求次数少&#xff0c;可能会按照顺序执行&#xff0c;但是随着次数增加&a…

Python-OpenCV中的图像处理-模板匹配

Python-OpenCV中的图像处理-模板匹配 模板匹配单对象的模板匹配多对象的模板匹配 模板匹配 使用模板匹配可以在一幅图像中查找目标函数&#xff1a; cv2.matchTemplate()&#xff0c; cv2.minMaxLoc()模板匹配是用来在一副大图中搜寻查找模版图像位置的方法。 OpenCV 为我们提…

无线充电底座

<项目>无线充电器 前言 个人DIY的无线充电底座&#xff08;带磁吸&#xff09;&#xff0c;基于IP6829方案。 Drawn By:67373 硬件部分 3D模型 资料开源链接 https://github.com/linggan17/WirelessCharge

面试热题(每日温度)

请根据每日 气温 列表 temperatures &#xff0c;重新生成一个列表&#xff0c;要求其对应位置的输出为&#xff1a;要想观测到更高的气温&#xff0c;至少需要等待的天数。如果气温在这之后都不会升高&#xff0c;请在该位置用 0 来代替。 输入: temperatures [73,74,75,71,69…

SpringBoot + Mybatis多数据源

一、配置文件 spring: # datasource: # username: root # password: 123456 # url: jdbc:mysql://127.0.0.1:3306/jun01?characterEncodingutf-8&serverTimezoneUTC # driver-class-name: com.mysql.cj.jdbc.Driverdatasource:# 数据源1onedata:jdbc-url: j…

SCF金融公链新加坡启动会 链结创新驱动未来

新加坡迎来一场引人瞩目的金融科技盛会&#xff0c;SCF金融公链启动会于2023年8月13日盛大举行。这一受瞩目的活动将为金融科技领域注入新的活力&#xff0c;并为广大投资者、合作伙伴以及关注区块链发展的人士提供一个难得的交流平台。 在SCF金融公链启动会上&#xff0c; Wil…

CentOS7的journalctl日志查看方法

多台服务器间免密登录|免密拷贝 Cenos7 搭建Minio集群部署服务器(一) Cenos7 搭建Minio集群Nginx统一访问入口|反向动态代理(二) Spring Boot 与Minio整合实现文件上传与下载(三) CentOS7的journalctl日志查看方法 MySQL8.xx一主两从复制安装与配置 1、概述 日志管理工…

【ElasticSearch入门】

目录 1.ElasticSearch的简介 2.用数据库实现搜素的功能 3.ES的核心概念 3.1 NRT(Near Realtime)近实时 3.2 cluster集群&#xff0c;ES是一个分布式的系统 3.3 Node节点&#xff0c;就是集群中的一台服务器 3.4 index 索引&#xff08;索引库&#xff09; 3.5 type类型 3.6 doc…

【佳佳怪文献分享】MVFusion: 利用语义对齐的多视角 3D 物体检测雷达和相机融合

标题&#xff1a;MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion 作者&#xff1a;Zizhang Wu , Guilian Chen , Yuanzhu Gan , Lei Wang , Jian Pu 来源&#xff1a;2023 IEEE International Conference on Robotics and Automat…

kubernetes企业级高可用部署

目录 1、Kubernetes高可用项目介绍 2、项目架构设计 2.1、项目主机信息 2.2、项目架构图 1、Kubernetes高可用项目介绍 2、项目架构设计 2.1、项目主机信息 2.2、项目架构图 2.3、项目实施思路 3、项目实施过程 3.1、系统初始化 3.2、配置部署keepalived服务 3.3、…

强制Edge或Chrome使用独立显卡【WIN10】

现代浏览器通常将图形密集型任务卸载到 GPU&#xff0c;以改善你的网页浏览体验&#xff0c;从而释放 CPU 资源用于其他任务。 如果你的系统有多个 GPU&#xff0c;Windows 10 可以自动决定最适合 Microsoft Edge 自动使用的 GPU&#xff0c;但这并不一定意味着最强大的 GPU。 …

Linux/centos上如何配置管理NFS服务器?

Linux/centos上如何配置管理NFS服务器&#xff1f; 1 NFS基础了解1.1 NFS概述1.2 NFS工作流程 2 安装和启动NFS服务2.1 安装NFS服务器2.2 启动NFS服务 3 配置NFS服务器和客户端3.1 配置NFS服务器3.2 配置NFS客户端 4 实际示例4.1 基本要求4.2 案例实现 1 NFS基础了解 NFS&…

LAXCUS如何通过技术创新管理数千台服务器

随着互联网技术的不断发展&#xff0c;服务器已经成为企业和个人获取信息、进行计算和存储的重要工具。然而&#xff0c;随着服务器数量的不断增加&#xff0c;传统的服务器管理和运维方式已经无法满足现代企业的需求。LAXCUS做为专注服务器集群的【数存算管】一体化平台&#…