Prometheus实现系统监控报警邮件

Prometheus实现系统监控报警邮件

简介

Prometheus将数据采集和报警分成了两个模块。报警规则配置在Prometheus Servers上,
然后发送报警信息到AlertManger,然后我们的AlertManager就来管理这些报警信息,聚合报警信息过后通过email、PagerDuty、HipChat、Slack 等方式发送消息提示。本文演示通过email发送告警信息。
中文技术文档:https://www.prometheus.wang/alert/install-alert-manager.html
在Prometheus中一条告警规则主要由告警名称和告警规则两部分组成:
告警名称:用户为告警规则命名
告警规则:告警规则由PromQL进行定义,其实际意义是当表达式(PromQL)查询结果持续多长时间(During)后出发告警
Prometheus服务器根据报警规则将警报发送给Alertmanager,然后Alertmanager将静默(silencing)、抑制(inhibition)、分组聚合(aggregation)等消息通过Email、钉钉等发送通知。

报警流程

Prometheus配置监控规则
监控对象触发阈值
阈值超出持续时间
推送告警到Alertmanager
Alertmanager处理告警信息
1)分组(group):类似告警合并为一个通知。
2)静默(silences):不通知,系统升级时使用。
3)抑制(inhibition): 只通知一次,相同内容不再通知。
Alertmanager发送通知到媒体,邮箱,钉钉,企业微信等接收到通知

Alertmanager特性

分组聚合:分组将同一类型的报警归类单个报警通知 。适用于当系统宕机导致大量报警被同时触发,此时分组机制可将这些被触发的告警合并为一个告警通知,避- 免一次性发送大量告警通知。

静默:提供了一个简单的机制可以快速根据标签对告警进行静默处理。特定时间不会发送告警通知。

抑制:指当警报发出后,停止重复发送由此警报引发其他错误的警报的机制。如网络不可达,导致其他服务连接相关警报。

安装Alertmanager

下载二进制文件

wget https://github.com/prometheus/alertmanager/releases/download/v0.24.0/alertmanager-0.24.0.linux-amd64.tar.gz
tar zxvf alertmanager-0.24.0.linux-amd64.tar.gz
mv alertmanager-0.24.0.linux-amd64 /usr/local/alertmanager

创建alertermanager服务

vim /etc/systemd/system/alertmanager.service
[Unit]
Description=alertmanager
Documentation=https://prometheus.io/
After=network.target[Service]
User=root
Type=simple
#不能有单引号和双引号
ExecStart=/usr/local/alertmanager/alertmanager --config.file=/usr/local/alertmanager/alertmanager.yml --storage.path=/usr/local/alertmanager/data --web.listen-address=:19093 --cluster.listen-address=0.0.0.0:19094 --web.external-url=http://192.168.1.108:19093
Restart=on-failure[Install]
WantedBy=multi-user.target

启动服务:

systemctl daemon-reload
systemctl start  alertmanager
systemctl enable alertmanager
systemctl status alertmanager

访问 192.168.1.108:19093 为alertmanager管理页面:
端口号为你再alertmanager,service中配置的端口
在这里插入图片描述

Alertmanager配置

配置文件详解,以邮箱告警为例:

vim /usr/local/alertmanager/alertmanager.yml
#邮件发送者
global:resolve_timeout: 30ssmtp_smarthost: 'smtp.qq.com:465' smtp_from: '809xxx59@qq.com' smtp_auth_username: '80xxx4859@qq.com' smtp_auth_password: 'xxxxxxxxvpobcee' # QQ邮箱授权码,需要在设置,开启SMTP服务,然后复制授权码到这里smtp_hello: '@qq.com'smtp_require_tls: falsetemplates:- '/usr/local/alertmanager/tmpl/email.tmpl'  #增加templates配置 不填写,有默认模板
route:group_by: ['alertname']group_wait: 30sgroup_interval: 5mrepeat_interval: 5mreceiver: 'email'routes:- receiver: dingtalk-webhookgroup_wait: 10s- receiver: emailgroup_wait: 10s
receivers:- name: 'email'email_configs:- to: '*****@163.com'html: '{{ template "email.html" . }}' # 发送邮件的内容(调用模板文件中的) 如果使用默认模板,这个“html”可以不添加send_resolved: true
inhibit_rules:- source_match:severity: 'critical'target_match:severity: 'warning'equal: ['alertname', 'dev', 'instance']
项目Value
global全局设置,这里为邮件发送者的配置
smtp邮箱smtp设置
group_by通过alertname的值对告警进行分类
group_wait第一次产生告警,等待10s,组内有告警就一起发送,内有其他告警就单独发出
group_interval第二次发生告警,先等待2分钟,2分钟后还没有回复就进入repeat_interval
repeat_interval再最终发送消息前再等待5分钟,5分钟后还没有回复就发送第二次告警
receiver接受者,再receivers中选择一个
receivers定义接受者们,可定义多个
name接受者名字,将被receiver选择
email_configs邮箱接受者设置
html发送邮件的内容(调用模板文件中的)
send_resolved是否发送告警解决的通知
inhibit_rules抑制设置,即哪些告警发通知,哪些不发
source_match源匹配的告警将被通知
severity严重程度为critical ,重要的告警将被通知
target_match目标匹配的告警不被通知
severity严重程度为warming,警告的告警将被通知
equal匹配哪些对象的告警

编辑报警模块,可用默认模板:

vim /usr/local/alertmanager/tmpl/email.tmpl
{{ define "email.html" }}
{{- if gt (len .Alerts.Firing) 0 -}}{{ range .Alerts }}
<h2>@告警通知</h2>
告警程序: prometheus_alert <br>
告警级别: {{ .Labels.severity }}<br>
告警类型: {{ .Labels.alertname }} <br>
故障主机: {{ .Labels.instance }} <br>
告警主题: {{ .Annotations.summary }} <br>
告警详情: {{ .Annotations.description }} <br>
触发时间: {{ .StartsAt.Local.Format "2006-01-02 15:04:05" }} <br>
{{ end }}{{ end -}}

Prometheus规则

新建规则文件,配置分组信息,告警阈值和时间,告警标签和注释等。
指标表达式采用PromQL语句,多数指标单位为bytes字节,需要转换成KMG,例如2M=210241024。
Prometheus规则文件,对于邮箱,钉钉或企业微信,该文件通用:

vim /home/prometheus/prometheus/rule/tcp_time_wait.yml
groups:
- name: 主机Tcp TimeWait数量过多告警rules:- alert: 主机Tcp TimeWait数量过多告警expr: node_sockstat_TCP_tw >= 100	 # 大于100 做测试用,正常是5000for: 1mlabels:severity: warningannotations:summary: "Tcp TimeWait数量大于100, 实例: {{ $labels.instance }},当前值:{{ $value }}%"

检验prometheus报警规则文件,显示SUCCESS:

/home/prometheus/prometheus/promtool check rules rule/tcp_time_wait.yml
Checking rule/qtalk_auth.ymlSUCCESS: 1 rules found

Prometheus配置
配置Prometheus文件,alertmanagers服务器的IP和端口,prometheus服务器规则文件的路径:

vim /home/Prometheus/prometheus/prometheus.yml
# my global config
global:scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.# scrape_timeout is set to the global default (10s).# Alertmanager configuration
alerting:alertmanagers:- static_configs:- targets: ["192.168.1.108:19093"]#- alertmanager:["192.168.1.108:19093"]# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:- "rule/*.yml"# - "first_rules.yml"# - "second_rules.yml"# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.- job_name: "prometheus"# metrics_path defaults to '/metrics'# scheme defaults to 'http'.static_configs:- targets: ["localhost:9090"]- job_name: 'process'static_configs:- targets: ['192.168.1.108:9256']

重启Prometheus服务:

systemctl restart prometheus.service
邮箱告警
查看Prometheus

Prometheus首页,Alerts选项,可以查看告警信息:

报警状态分3种:

inactive:没有异常。
pending:已触发阈值,但未满足告警持续时间(即 rule 中的 for 字段)。
firing:已触发阈值且满足条件并发送至 alertmanager。
pending状态,阈值触发了,但再观察30m秒(for: 30s)。

在这里插入图片描述
firing状态,30秒过后还超出阈值,则发送至alertmanager。
查看Alertmanager
只有在Prometheus中Firing的警告才会传到Alertmanager,进入首页查看。

查看邮箱

在这里插入图片描述

至此,一个简单的基于Prometheus的系统监控及报警通知的服务都搭建完成,利用这样一套监控通知体系,可以让系统运维人员早早的知道系统健康度,保证系统高可用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/21193.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux多线程

文章目录 linux多线程1. 相关概念1.1 线程概念详解线程 VS 进程线程的优点线程的缺点线程异常线程用途 1.2 页表详解 2. 线程控制2.0 POSIX线程库深入理解线程库使用C多线程接口在Linux环境创建多线程 深入理解线程id线程局部存储 2.1 线程的创建 - pthread_create线程创建时参…

计算机毕设 深度学习疫情社交安全距离检测算法 - python opencv cnn

文章目录 0 前言1 课题背景2 实现效果3 相关技术3.1 YOLOV43.2 基于 DeepSort 算法的行人跟踪 4 最后 0 前言 &#x1f525; 这两年开始毕业设计和毕业答辩的要求和难度不断提升&#xff0c;传统的毕设题目缺少创新和亮点&#xff0c;往往达不到毕业答辩的要求&#xff0c;这两…

OC与Swift的相互调用

OC调用Swift方法 1、在 Build Settings 搜索 Packaging &#xff0c;设置 Defines Module 为 YES 2、新建 LottieBridge.swift 文件&#xff0c;自动生成桥 ProductName-Bridging-Header.h 3、在 LottieBridge.swift 中&#xff0c;定义Swift类继承于OC类&#xff0c;声明 obj…

Postgresql源码(109)并行框架实例与分析

1 PostgreSQL并行参数 系统参数 系统总worker限制&#xff1a;max_worker_processes 默认8 系统总并发限制&#xff1a;max_parallel_workers 默认8 单Query限制&#xff1a;max_parallel_workers_per_gather 默认2 表参数限制&#xff1a;parallel_workers alter table tbl …

什么样的跨网文件安全交换系统 可实现安全便捷的文件摆渡?

进入互联网时代&#xff0c;网络的运算和数据管理能力助力各个行业高速发展&#xff0c;但同样带来了一些网络安全隐患&#xff0c;网络攻击、数据窃取、敏感信息泄露等问题。为此&#xff0c;我国出台了系列政策来全面提升银各行业系统网络安全整体防护水平&#xff0c;其中“…

HTTPS-RSA握手

RSA握手过程 HTTPS采用了公钥加密和对称加密结合的方式进行数据加密和解密 RSA握手是HTTPS连接建立过程中的一个关键步骤&#xff0c;用于确保通信双方的身份验证和生成对称加密所需的密钥 通过RSA握手过程&#xff0c;客户端和服务器可以协商出一个共享的对称密钥&#xff0c;…

如何解决电脑无声问题:排除故障的几种常见方法

大家好&#xff0c;今天我们来讨论一下处理电脑没有声音的故障。当你突然发现电脑静音无声时&#xff0c;需要逐步排除可能的问题&#xff0c;但总体而言&#xff0c;声音故障是相对容易解决的。接下来&#xff0c;我们将介绍一些排除电脑无声问题的方法。 第一步&#xff1a;…

路由器工作原理(第二十九课)

路由器工作原理(第二十九课) 一图胜过千言 1) 路由:数据从一个网络到另外一个网络之间转发数据包的过程称为路由 2) 路由器:连接不同网络,实现不同网段之间的通信 3)路由表:路由器选择数据的传输路径的依据 原始的路由表 Destination/Mask Proto Pre Cost …

prometheus监控k8s kube-proxy target down

prometheus kube-proxy target down 解决 修改配置 kubectl edit cm/kube-proxy -n kube-systemmetricsBindAddress: "0.0.0.0:10249"删除 kube-proxy pod 使之重启应用配置 kubectl delete pod --force `kubectl get pod -n kube-system |grep kube-proxy|awk {pr…

使用pg_prewarm缓存PostgreSQL数据库表

pg_prewarm pg_prewarm 直接利用系统缓存的代码,对操作系统发出异步prefetch请求&#xff0c;在应用中&#xff0c;尤其在OLAP的情况下&#xff0c;对于大表的分析等等是非常耗费查询的时间的&#xff0c;而即使我们使用select table的方式&#xff0c;这张表也并不可能将所有…

InfluxDB2如何求增量数据

需求 项目中需要接入电表设备&#xff0c;求用电量。 按天和设备统计用电量 按天统计用电量 统计总用电量 存在的问题 difference 函数可以求增量&#xff0c;但是以上计算均存在一个问题&#xff0c;比如xx设备有8.1号和8.2号的数据&#xff0c;我统计每天的用电量&#xf…

Consul实战

Consul实战 什么是Consul Consul是一种为分布式系统提供服务发现、配置共享和健康检查的开源工具&#xff1b; 可以用来做微服务架构里的注册中心和配置中心。Consul的特定和功能有&#xff1a; 1.服务发现 consul允许微服务注册自己的实例到Consul, 并查询consul来获取可用的…

Three.js给场景添加背景颜色,背景图,全景图

1.相关API的使用&#xff1a; 1 THREE.Color &#xff08;用于创建和表示颜色&#xff09; 2. THREE.TextureLoader&#xff08;用于加载和处理图片纹理&#xff09; 3. THREE.SphereGeometry&#xff08;用于创建一个球体的几何体&#xff09; 4. THREE.Mesh&#xff08;用…

MySQL索引特性

目录 一、索引 二、MySQL 与磁盘交互基本单位 三、索引的理解 一、索引 为什么要有索引&#xff1f; 首先我们插入一个8000000条记录的数据&#xff0c;再来查询数据&#xff0c;看看没有索引的情况下&#xff0c;会耗费多长时间。 当执行完这几条命令时&#xff0c;我们会发…

获取全部的地区并生成表格

思路 写文章的时间2023-8-4&#xff0c;大部分网页设置的区域都是先是省&#xff0c;然后通过省获取对应的市&#xff0c;再通过市获取对应的区&#xff0c;以此类推。所以模拟的请求也是按照这个逻辑&#xff0c;先获取所有的省&#xff0c;再获取所有的市&#xff0c;最后获取…

PyTorch 中的累积梯度

https://stackoverflow.com/questions/62067400/understanding-accumulated-gradients-in-pytorch 有一个小的计算图&#xff0c;两次前向梯度累积的结果&#xff0c;可以看到梯度是严格相等的。 代码&#xff1a; import numpy as np import torchclass ExampleLinear(torch…

C语言每日一题:13《数据结构》环形链表。

题目链接&#xff1a; 一.环形链表运动基础。 使用快慢指针利用相对移动的思想&#xff1a; 1.第一种情况&#xff1a; 1,令快指针&#xff08;fast&#xff09;速度为2. 2.慢指针&#xff08;slow&#xff09;速度为1. 3.以慢指针进入环中开始。 4。假设slow刚刚进入环中fast…

【夜深人静学习数据结构与算法 | 第十二篇】动态规划——背包问题

目录 前言&#xff1a; 01背包问题&#xff1a; 二维数组思路&#xff1a; 一维数组思路&#xff1a; 总结&#xff1a; 前言&#xff1a; 在前面我们学习动态规划理论知识的时候&#xff0c;我就讲过要介绍一下背包问题&#xff0c;那么今天我们就来讲解一下背包问题。 在这…

NetApp 入门级全闪存系统 AFF A250:小巧而强大

NetApp 入门级全闪存系统 AFF A250&#xff1a;小巧而强大 作为 AFF A 系列中的入门级全闪存系统&#xff0c;AFF A250 不但可以简化数据管理&#xff0c;还能为您的所有工作负载提供令人惊叹的强劲动力&#xff0c;价格也平易近人。 AFF A250&#xff1a;您的新 IT 专家 AFF…