如果还不了解hami,请阅读文章:hami入门学习
Hami提供了两个维度的监控能力,集群级别和节点级别,以及Pod真实占用的GPU和虚拟分配的GPU。
- {scheduler node ip}:31993/metrics records the snapshot of allocated devices, including, allocated device memory of each GPU, container name sharing each GPU, etc…
- {GPU node ip}:31992/metrics records real-time utilization of each container, including, real-time device memory usage, real-time device core utilization of certain container, etc…
- {scheduler node ip}:31993/metrics 记录了分配设备的快照,包括每个GPU分配的设备内存,每个GPU共享的容器名称等。
- {GPU node ip}:31992/metrics 记录了每个容器的实时利用率,包括实时设备内存使用率,某个容器的实时设备核心利用率等。
- hami提供的功能: