简介:Uptime Kuma是一个易于使用的自托管监控工具,它的界面干净简洁,部署和使用都非常方便,用来监控GPU是否在占用,非常美观。
历史攻略:
docker应用:搭建uptime-kuma监控站点
win下持续观察nvidia-smi
Python:查看windows下GPU的使用情况、利用率
使用Supervisor部署Sanic应用
操作步骤:
1、容器搭建Uptime Kuma。详见 - 历史攻略链接1
2、安装nvidia-smi。详见 - 历史攻略链接2
3、搭建sanic服务端:主要是写访问nvidia-smi的一个接口。
4、配置Uptime Kuma。
安装依赖:
pip install paramiko
pip install sanic
案例源码:
# -*- coding: utf-8 -*-
# time: 2024/4/23 20:15
# file: server.py
# 公众号: 玩转测试开发import re
import paramiko
import datetime
from sanic import Sanic
from sanic.response import jsonclass ParamikoTool(object):def __init__(self, user, password, host, port=22, timeout=60):self.user = userself.password = passwordself.host = hostself.port = portself.timeout = timeoutdef send_command(self, command):print(f"send command:{command}")ssh = paramiko.SSHClient()ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())ssh.connect(self.host, self.port, self.user, self.password)stdin, stdout, stderr = ssh.exec_command(command)out = stdout.readlines()err = stderr.readlines()ssh.close()out_result = "".join(out)err_result = "".join(err)result = out_result + err_resultprint(result)return resultapp = Sanic("MyHelloWorldApp")@app.post("/")
async def hello_world(request):data = request.jsonprint(f"data:{data}")get_command = dict()get_command["user"] = data["user"]get_command["password"] = data["password"]get_command["host"] = data["host"]if data.get("port") is None:get_command["port"] = 22else:get_command["port"] = data["port"]if data.get("timeout") is None:get_command["timeout"] = 60else:get_command["timeout"] = data["timeout"]user = get_command["user"]password = get_command["password"]host = get_command["host"]pt = ParamikoTool(user=user, password=password, host=host)smi_data = pt.send_command("nvidia-smi")utilization_rate = float(re.findall("MiB \|(.*?)%", smi_data)[0])card_used = True if utilization_rate > 0 else Falseif card_used:# 如果已经使用则,返回异常。否则正常返回return BaseExceptionelse:server_data = {"card_used": card_used,"date": str(datetime.datetime.now())[:19],}del ptreturn json(server_data)if __name__ == '__main__':app.run(host="0.0.0.0", port=8009, auto_reload=True)
运行接口服务端:python server.py 或者参考详见 - 历史攻略链接4
Uptime Kuma配置监控项:多个机器的卡就发起多个监控项,填入对应账号密码即可。
主界面效果:
服务器接口响应情况:
小结:同理可以监控各类服务,进程,端口,占用。本质是:通过启动一个接口服务,将Uptime Kuma监控平台的接口请求,先指向这个服务接口,接口通过paramiko的方式,在对应的服务器执行对应的命令,解析这个命令,然后返回给Uptime Kuma平台。