文章目录
- Prometheus指标
- 主要参数解释
- 一、可用性监测(0代表存在异常或未启动,1代表运行中)
- 二、节点监测
- 三、服务监测
- 1.HDFS监测
- 2.Yarn监测
- 3.Hive监测
- 4.Kafka监测
- 5.Zookeeper监测
Prometheus指标
主要参数解释
# 节点IP和端口(instance)
例如:192.168.1.226:9100、192.168.1.227:9100、192.168.1.228:9100# HDFS-DataNode-IP和端口
例如:192.168.1.226:30003、192.168.1.227:30003、192.168.1.228:30003# Yarn-NodeManager-IP和端口
例如:192.168.1.226:30005、192.168.1.227:30005、192.168.1.228:30005
一、可用性监测(0代表存在异常或未启动,1代表运行中)
# 各个节点的可用性监测
up{job="node_exporter"}# hdfs-namenode可用性监测
up{job="hdfs-namenode"}# hdfs-datanode可用性监测
up{job="hdfs-datanode"}# yarn-resourcemanager可用性监测
up{job="yarn-resourcemanager"}# yarn-nodemanager可用性监测
up{job="yarn-nodemanager"}# zookeeper可用性监测
up{job="zookeeper"}# kafka可用性监测
up{job="kafka"}# hiveserver2可用性监测
up{job="hiveserver2"}# metastore可用性监测
up{job="metastore"}
二、节点监测
# 磁盘总容量
node_filesystem_size_bytes{instance="节点IP和端口",mountpoint="/"}/1024/1024/1024# 磁盘可用容量
node_filesystem_avail_bytes{instance="节点IP和端口",mountpoint="/"} /1024 /1024/1024# CPU负载
node_load1{instance="节点IP和端口"}# CPU使用率
100-avg(irate(node_cpu_seconds_total{mode="idle",instance="节点IP和端口"}[1m])) by (instance)*100# 内存饱和度
sum((rate(node_vmstat_pgpgin{instance="节点IP和端口"}[1m])+rate(node_vmstat_pgpgout{instance="节点IP和端口"}[1m]))) by (instance)# 物理内存使用率
(node_memory_MemTotal_bytes{instance="节点IP和端口"} - (node_memory_MemFree_bytes{instance="节点IP和端口"} + node_memory_Buffers_bytes{instance="节点IP和端口"} + node_memory_Cached_bytes{instance="节点IP和端口"}))/node_memory_MemTotal_bytes{instance="节点IP和端口"} * 100# SWAP内存使用率
(node_memory_SwapTotal_bytes{instance="节点IP和端口"} - node_memory_SwapFree_bytes{instance="节点IP和端口"})/node_memory_SwapTotal_bytes{instance="节点IP和端口"} * 100# 磁盘分区使用率("/"分区)
(node_filesystem_size_bytes{mountpoint="/",instance="节点IP和端口"} - node_filesystem_free_bytes{mountpoint="/",instance="节点IP和端口&