重磅!!!监控分布式NVIDIA-GPU状态

简介:Uptime Kuma是一个易于使用的自托管监控工具,它的界面干净简洁,部署和使用都非常方便,用来监控GPU是否在占用,非常美观。

历史攻略:

docker应用:搭建uptime-kuma监控站点

win下持续观察nvidia-smi

Python:查看windows下GPU的使用情况、利用率

使用Supervisor部署Sanic应用

操作步骤:

1、容器搭建Uptime Kuma。详见 - 历史攻略链接1

2、安装nvidia-smi。详见 - 历史攻略链接2

3、搭建sanic服务端:主要是写访问nvidia-smi的一个接口。

4、配置Uptime Kuma。

安装依赖:

pip install paramiko
pip install sanic

案例源码:

# -*- coding: utf-8 -*-
# time: 2024/4/23 20:15
# file: server.py
# 公众号: 玩转测试开发import re
import paramiko
import datetime
from sanic import Sanic
from sanic.response import jsonclass ParamikoTool(object):def __init__(self, user, password, host, port=22, timeout=60):self.user = userself.password = passwordself.host = hostself.port = portself.timeout = timeoutdef send_command(self, command):print(f"send command:{command}")ssh = paramiko.SSHClient()ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())ssh.connect(self.host, self.port, self.user, self.password)stdin, stdout, stderr = ssh.exec_command(command)out = stdout.readlines()err = stderr.readlines()ssh.close()out_result = "".join(out)err_result = "".join(err)result = out_result + err_resultprint(result)return resultapp = Sanic("MyHelloWorldApp")@app.post("/")
async def hello_world(request):data = request.jsonprint(f"data:{data}")get_command = dict()get_command["user"] = data["user"]get_command["password"] = data["password"]get_command["host"] = data["host"]if data.get("port") is None:get_command["port"] = 22else:get_command["port"] = data["port"]if data.get("timeout") is None:get_command["timeout"] = 60else:get_command["timeout"] = data["timeout"]user = get_command["user"]password = get_command["password"]host = get_command["host"]pt = ParamikoTool(user=user, password=password, host=host)smi_data = pt.send_command("nvidia-smi")utilization_rate = float(re.findall("MiB \|(.*?)%", smi_data)[0])card_used = True if utilization_rate > 0 else Falseif card_used:# 如果已经使用则,返回异常。否则正常返回return BaseExceptionelse:server_data = {"card_used": card_used,"date": str(datetime.datetime.now())[:19],}del ptreturn json(server_data)if __name__ == '__main__':app.run(host="0.0.0.0", port=8009, auto_reload=True)

运行接口服务端:python server.py 或者参考详见 - 历史攻略链接4

Uptime Kuma配置监控项:多个机器的卡就发起多个监控项,填入对应账号密码即可。

图片

主界面效果:

图片

服务器接口响应情况:

图片

图片

小结:同理可以监控各类服务,进程,端口,占用。本质是:通过启动一个接口服务,将Uptime Kuma监控平台的接口请求,先指向这个服务接口,接口通过paramiko的方式,在对应的服务器执行对应的命令,解析这个命令,然后返回给Uptime Kuma平台。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/3553.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新能源汽车电池盒尺寸检测

SNK施努卡电池盒错漏装和尺寸检测 随着环境污染和能源短缺问题日益突出,新能源汽车作为一种环保、可持续的交通工具得到了广泛关注和推广。其中,电池是新能源汽车的核心部件之一,其性能和质量直接影响到整车的续航能力和安全性。而电池盒作为…

Unity Meta Quest MR 开发(七):使用 Stencil Test 模板测试制作可以在虚拟与现实之间穿梭的 MR 传送门

文章目录 📕教程说明📕Stencil Test 模板测试📕Stencil Shader📕使用 Unity URP 渲染管线设置模板测试⭐Render Pipeline Asset 与 Universal Renderer Data⭐删除场景中的天空盒⭐设置虚拟世界的层级 Layer⭐设置模板测试 &#…

《Vid2Seq》论文笔记

原文链接 [2302.14115] Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning (arxiv.org) 原文笔记 What: 《Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning》 作者提出一种多…

uniapp实现相册、拍照及视频录制功能

一、调用相册、拍照及视频录制功能要先获取相册权限,摄像头权限,要不然,调用不了下面的方法 1.1、到插件市场先下载js_sdk 1.2、引入js_sdk import permision from "/js_sdk/wa-permission/permission.js" 1.3 、安卓手机获取权…

Python内置函数input()详解

Python内置函数input()详解 在Python编程中,input()函数是一个基本的内置函数,它允许程序从用户那里获取输入。这个函数对于创建交互式程序来说非常重要,因为它让程序能够接收用户的文本输入。 函数功能 input()函数的主要功能是从标准输入…

深度学习检测算法YOLOv5的实战应用

在当前的检测项目中,需要一个高效且准确的算法来处理大量的图像数据。经过一番研究和比较,初步选择了YOLOv5作为算法工具。YOLOv5是一个基于深度学习的检测算法,以其快速和准确而闻名。它不仅能够快速处理图像数据,还能提供较高的…

两数、三数以及四数之和

两数之和 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出和为目标值 target 的那两个整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。 你可以按…

Java基础教程(7)-Java中的面向对象和类

面向对象编程 Java是一种面向对象的编程语言。面向对象编程,英文是Object-Oriented Programming,简称OOP 面向对象和面向过程的区别 面向过程编程是自顶而下的编程模式;把问题分解成一个一个步骤,每个步骤用函数实现,依次调用即可 面向对象编程是将事务高度抽象化的编程…

acwing算法提高之图论--拓扑排序

目录 1 介绍2 训练3 参考 1 介绍 本专题用来记录拓扑排序相关的题目。 求拓扑序列算法的关键步骤: 把入度为0的结点插入队列q。弹出队头t(将t记录下来),遍历队头t的下一个结点,将其入度减1。操作之后,如…

【OceanBase诊断调优】——hpet(高精度时钟源)引起的CPU高问题排查

最近总结一些诊断OCeanBase的一些经验,出一个【OceanBase诊断调优】专题出来,也欢迎大家贡献自己的诊断OceanBase的方法。 1. 前言 昨天在问答区帮忙排查一个用户CPU高的问题,帖子链接:《刚刚新安装的OceanBase集群,…

Rime 如何通过 iCloud 实现词库多端同步,Windows、iOS、macOS

Rime 如何通过 iCloud 实现词库多端同步,Windows、iOS、macOS 一、设备环境 最理想的输入环境就是在多端都使用同一个词库,这样能保持多端的输入习惯是一致的。 以我为例,手头每天都要用到的操作平台和对应的输入法: 操作系统设…

39 vue.js

1.1 vue是什么? vue是当下主流的前端框架,用于构建用户界面的 渐进式 自底向上增量开发的MVVM框架。 渐进式:其实每个框架都有自己的特点,在开发的过程中,可以在原有的系统上,把其中一两个功能用VUE…

【热门前端【vue框架】】——vue框架和node.js的下载和安装保姆式教程

👨‍💻个人主页:程序员-曼亿点 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 曼亿点 原创 👨‍💻 收录于专栏&#xff1a…

如何修复Django中的“ImproperlyConfigured”错误?

在Django中,通常会遇到“ImproperlyConfigured”错误,这表示配置不正确或缺少必要设置。下面是一些常见的修复方法: 检查settings.py文件:确保设置了正确的数据库配置、应用程序、模板路径、静态文件路径等。确保所有必要的设置都…

使用Nginx和内网穿透实现多个本地Web站点的公网访问

在需要将多个本地Web站点暴露到公网的情况下,可以通过Nginx配置文件的修改结合内网穿透技术来实现。下面是具体的步骤和示例: 1. 安装和配置Nginx 首先,确保已经在服务器上安装了Nginx,并且配置了基本的Nginx服务器块&#xff0…

【ARM 裸机】模仿 STM32 驱动开发

1、修改驱动 对于 STM32 来说,使用了一个结构体将一个外设的所有寄存器都放在一起,在上一节的基础上进行修改; 1.1、添加清除 bss 段代码, 1.2、添加寄存器结构体 新建一个文件,命名imx6u.h,注意地址的连…

前端如何优化工程

文章目录 使用CDN1. 请求定位:2.内容缓存:3.负载均衡:4.边缘计算: 优化Webpack1.合理配置Loader:2.优化代码分割:3.压缩和优化输出文件:4.利用Tree Shaking:5.优化解析速度&#xff…

NLP Step by Step -- How to use pipeline

正如我们在摸鱼有一手:NLP step by step -- 了解Transformer中看到的那样,Transformers模型通常非常大。对于数以百万计到数千万计数十亿的参数,训练和部署这些模型是一项复杂的任务。此外,由于几乎每天都在发布新模型&#xff0c…

Linux系统网络---DNS域名解析服务

目录 一、DNS的简介 DNS系统的分布式数据结构👇 DNS系统类 两种查询方式 二.正向解析实验 1.先关闭防火墙、selinux 2.安装bind 3.查看配置、修改配置 4.修改区域配置文件 正向解析👇 反向解析👇 5.修改 正向解析&#x1f…

js音频指定扬声器

做音视频开发时候,看到阿里音视频能力,有这个功能,怀着好奇的心去搜索果然发现是有办法做到的,可能比较冷门平时用不到,记录下; const devices await navigator.mediaDevices.enumerateDevices(); const a…