docker容器运行一段时间提示Failed to initialize NVML: Unknown Error

情况描述

服务器使用docker启动容器。启动以后一切正常也能跑程序。但是,在运行一段时间(2天左右不等),会发现gpu掉了。输入nvidia-smi提示

Failed to initialize NVML: Unknown Error

主要发生条件是,docker启动的时候指定的部分卡。譬如4卡,指定2卡在容器中使用。

当前发现情况基本都是,代码运行完,准备下一次跑的时候,提示这个问题。

解决方案记录

1、如果是容器使用本机所有卡,在启动容器时候添加“--privileged”参数,能够避免上述问题。但是,如果只使用部分卡,则不能添加此参数。

2、【测试中】根据链接所述,发生原因如下,详情见链接。https://github.com/NVIDIA/nvidia-container-toolkit/issues/48

主要首先要确定docker是否使用systemd cgroup进行管理,如果不是这问题导致,大概率后续解决方案无效。运行docker info| grep Cgroup。确认一下。

 $ docker info  ...  Cgroup Driver: systemd  Cgroup Version: 1

如果如上图所示,在/etc/docker/daemon.json里面添加参数,重启docker。

"exec-opts": ["native.cgroupdriver=systemd"]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/56362.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Oracle-19g数据库的安装

简介 Oracle是一家全球领先的数据库和云解决方案提供商。他们提供了一套完整的技术和产品,包括数据库管理系统、企业级应用程序、人工智能和机器学习工具等。Oracle的数据库管理系统是业界最受欢迎和广泛使用的数据库之一,它可以管理和存储大量结构化和…

Canmv k230 C++案例1——image classify学习笔记 初版

00 简介 用C编写代码的比mircopython要慢很多,需要编译开发环境,同时使用C更接近底层,效率利用率应该也是更高的,就是需要学习更多的内容,因为从零开始因此比较比较耗时。 注:以下为个人角度的理解&#x…

科技云报到:云服务的中场战事,从AI应用开始

科技云报到原创。 从去年的大模型之战,到今年的AI应用之争,云服务正在迈入全新的发展阶段。AI这个杠杆将各家厂商的竞争策略更向前推进了一步。 “云AI”能够孵化出多少可能?在业界眼中,“云AI”则意味着新的悬念:云计…

探索极简计算的新边界:从Uxn虚拟机看未来编程生态

越来越多的开发者追求复杂度和功能性的极致,然而,有一个小众的编程社区选择了截然不同的道路——极简主义。Uxn虚拟机便是这一思潮的代表之一。它通过简洁的指令集和有限的硬件资源模拟,试图打造一种可以在多种设备上运行的便携性编程环境。 与主流的重型操作系统和复杂…

wireshark抓包

网络抓包工具Wireshark下载安装&使用详细教程-CSDN博客 下载地址:Wireshark Downloadhttps://www.wireshark.org/download.html modbus tcp 关于wireshark无法分析出modbusTCP报文的事情_wireshark 协议一列怎么没有modbus tcp-CSDN博客 使用Wireshark过滤…

【动手学深度学习】6.2 图像卷积(个人向笔记)

1. 互相关运算 严格来说,卷积层是一个错误的叫法,因为它本质上是互相关运算而不是卷积运算。我们暂时忽略通道看看二维图像数据和隐藏表示。那么输出大小可以表示为 我们自己实现一个二维互相关运算 2. 卷积层 卷积层中有两个参数:卷积核权…

鸿蒙OS投票机制

(基于openharmony5.0) 投票机制 param get | grep ohos.boot.time 图 投票机制参数图 只有当所有的投票完成,开机动画才会退出,整理需要投票的系统应用(三方应用不参与投票)如下图所示: 以进程foundation为例&…

快速理解http的get和post

在网络通信中,HTTP 协议扮演着非常重要的角色,而不同的 HTTP 方法决定了客户端与服务器之间的交互方式。 这里讲一下最常用的两种方法——GET 和 POST。 一、GET 方法 GET 方法用于从服务器获取资源。 这就像去图书馆借书——你向图书馆请求一本特定的…

光路科技TSN交换机和电力专用交换机即将亮相第31届中国国际电力设备及技术展览会

在全球能源领域正经历深刻转型之际,可再生能源技术的飞跃进步正为电力行业的未来开辟新径。太阳能、风能等绿色能源,凭借其无可比拟的优势,正稳步取代化石燃料,成为电力行业的主流趋势。多国政府积极响应,出台多项政策…

Vue3获取ref元素的几种方式

静态绑定 获取单个 dom 元素 v-for 中使用 需要注意的是,访问的时候,要确保 ref 引用值已经成功绑定上元素,我们可以使用以下几种方式确保获取

倒计时 2 天,GOSIM CHINA 2024 全日程重磅发布(附参会指南)!

伴随着全球开源技术的快速发展,开源已成为驱动技术创新与协作的重要力量。作为开源领域的年度盛会,GOSIM 大会承载这一背景下的使命,已连续两年聚焦全球前沿技术的突破与应用,推动开源技术在更多场景中的创新实践——今年&#xf…

3D数学在unity中的使用(工作小结)

前言: 公司的游戏,想实现一个类似于元气骑士前传的技能面板,这里的技能可以实现旋转替换。 记录一下我遇到的问题及解决办法。 如何生成这些图标 1:手动摆放。 优点:实现起来简单,代码量少。 缺点&…

Docker 搭建mysql 连接超时问题,xxl-job启动mysql连接报错

1.本地连接Navicat报错信息,猜测是navicat默认连接超时导致的,后面换成idea一个插件虽然慢但连接上了 2013 - Lost connection to MySQL server at reading initial communication packet 2.启动xxl-job会报错,网上有人mysql驱动与数据库不匹…

python 桌面程序开发

作为python新手,通过编写代码,与java、nodejs相比较,差别还有的。 环境配置: IDE:Visual Studio Code PyInstaller: 5.13.2 Python: 3.7.0 Platform: Windows-10-10.0.22621-SP0 功能描述:编写带UI界面的桌面程序,读取终端设备历史轨迹数据,采用多线程高并发,模拟终…

每日学学Java开发规范,集合处理(附阿里巴巴Java开发手册(终极版))

前言 每次去不同的公司,码不同的代码,适应不同的规范,经常被老大教育规范问题,我都有点走火入魔的感觉,还是要去看看阿里巴巴Java开发规范,从中熟悉一下,纠正自己,码出高效&#xf…

arthas常用命令(五)--heapdump 、jvm

heapdump heapdump , 类似 jmap 命令的 heap dump 功能。 dump 到指定文件。 arthas-output 是arthas 生成到项目中的文件。 dump.hprof 是自定义的 dump 文件名称。 [arthas26028]$ heapdump arthas-output/dump.hprof Dumping heap to arthas-output/dump.hprof ... Heap…

SoC芯片中Clock Gen和Reset Gen的时钟树综合

社区目前已经开设了下面列举的前四大数字后端实战课程,均为直播课,且均是小编本人亲自授课!遇到项目问题,都可以远程一对一指导解决具体问题。小编本人是一线12年后端经验的数字后端工程师。想找一线IC后端技术专家亲自带你做后端…

【C语言】动态内存管理(下)

本篇博客将讲解以下知识: 1、calloc和realloc 2、常见的动态内存错误 1、calloc和realloc (1)calloc C语言中还提供了一个函数叫calloc,calloc也用来动态内存分配 calloc函数原型: void* calloc(size_t num, …

Python 入门(二、什么是 Python 的虚拟环境)

Python 入门第二课 ,Python 的虚拟环境...... by 矜辰所致前言 本来以为环境搭建好了,就直接开始敲代码了,但是一直看到一个专业词汇:虚拟环境。 对于习惯了嵌入式 C 语言开发博主来说,一开始确实有点不明白&#xf…

在java 中如何实现执行linux命令,通过post接口代理出来?

接口方式输入命令得返回结果 public AjaxResult doPost(HttpServletRequest request, HttpServletResponse response, String command) throws ServletException, IOException {// 设置响应内容类型 text/plain // response.setContentType("application/json"…