Prometheus实现系统监控报警邮件

Prometheus实现系统监控报警邮件

简介

Prometheus将数据采集和报警分成了两个模块。报警规则配置在Prometheus Servers上,
然后发送报警信息到AlertManger,然后我们的AlertManager就来管理这些报警信息,聚合报警信息过后通过email、PagerDuty、HipChat、Slack 等方式发送消息提示。本文演示通过email发送告警信息。
中文技术文档:https://www.prometheus.wang/alert/install-alert-manager.html
在Prometheus中一条告警规则主要由告警名称和告警规则两部分组成:
告警名称:用户为告警规则命名
告警规则:告警规则由PromQL进行定义,其实际意义是当表达式(PromQL)查询结果持续多长时间(During)后出发告警
Prometheus服务器根据报警规则将警报发送给Alertmanager,然后Alertmanager将静默(silencing)、抑制(inhibition)、分组聚合(aggregation)等消息通过Email、钉钉等发送通知。

报警流程

Prometheus配置监控规则
监控对象触发阈值
阈值超出持续时间
推送告警到Alertmanager
Alertmanager处理告警信息
1)分组(group):类似告警合并为一个通知。
2)静默(silences):不通知,系统升级时使用。
3)抑制(inhibition): 只通知一次,相同内容不再通知。
Alertmanager发送通知到媒体,邮箱,钉钉,企业微信等接收到通知

Alertmanager特性

分组聚合:分组将同一类型的报警归类单个报警通知 。适用于当系统宕机导致大量报警被同时触发,此时分组机制可将这些被触发的告警合并为一个告警通知,避- 免一次性发送大量告警通知。

静默:提供了一个简单的机制可以快速根据标签对告警进行静默处理。特定时间不会发送告警通知。

抑制:指当警报发出后,停止重复发送由此警报引发其他错误的警报的机制。如网络不可达,导致其他服务连接相关警报。

安装Alertmanager

下载二进制文件

wget https://github.com/prometheus/alertmanager/releases/download/v0.24.0/alertmanager-0.24.0.linux-amd64.tar.gz
tar zxvf alertmanager-0.24.0.linux-amd64.tar.gz
mv alertmanager-0.24.0.linux-amd64 /usr/local/alertmanager

创建alertermanager服务

vim /etc/systemd/system/alertmanager.service
[Unit]
Description=alertmanager
Documentation=https://prometheus.io/
After=network.target[Service]
User=root
Type=simple
#不能有单引号和双引号
ExecStart=/usr/local/alertmanager/alertmanager --config.file=/usr/local/alertmanager/alertmanager.yml --storage.path=/usr/local/alertmanager/data --web.listen-address=:19093 --cluster.listen-address=0.0.0.0:19094 --web.external-url=http://192.168.1.108:19093
Restart=on-failure[Install]
WantedBy=multi-user.target

启动服务:

systemctl daemon-reload
systemctl start  alertmanager
systemctl enable alertmanager
systemctl status alertmanager

访问 192.168.1.108:19093 为alertmanager管理页面:
端口号为你再alertmanager,service中配置的端口
在这里插入图片描述

Alertmanager配置

配置文件详解,以邮箱告警为例:

vim /usr/local/alertmanager/alertmanager.yml
#邮件发送者
global:resolve_timeout: 30ssmtp_smarthost: 'smtp.qq.com:465' smtp_from: '809xxx59@qq.com' smtp_auth_username: '80xxx4859@qq.com' smtp_auth_password: 'xxxxxxxxvpobcee' # QQ邮箱授权码,需要在设置,开启SMTP服务,然后复制授权码到这里smtp_hello: '@qq.com'smtp_require_tls: falsetemplates:- '/usr/local/alertmanager/tmpl/email.tmpl'  #增加templates配置 不填写,有默认模板
route:group_by: ['alertname']group_wait: 30sgroup_interval: 5mrepeat_interval: 5mreceiver: 'email'routes:- receiver: dingtalk-webhookgroup_wait: 10s- receiver: emailgroup_wait: 10s
receivers:- name: 'email'email_configs:- to: '*****@163.com'html: '{{ template "email.html" . }}' # 发送邮件的内容(调用模板文件中的) 如果使用默认模板,这个“html”可以不添加send_resolved: true
inhibit_rules:- source_match:severity: 'critical'target_match:severity: 'warning'equal: ['alertname', 'dev', 'instance']
项目Value
global全局设置,这里为邮件发送者的配置
smtp邮箱smtp设置
group_by通过alertname的值对告警进行分类
group_wait第一次产生告警,等待10s,组内有告警就一起发送,内有其他告警就单独发出
group_interval第二次发生告警,先等待2分钟,2分钟后还没有回复就进入repeat_interval
repeat_interval再最终发送消息前再等待5分钟,5分钟后还没有回复就发送第二次告警
receiver接受者,再receivers中选择一个
receivers定义接受者们,可定义多个
name接受者名字,将被receiver选择
email_configs邮箱接受者设置
html发送邮件的内容(调用模板文件中的)
send_resolved是否发送告警解决的通知
inhibit_rules抑制设置,即哪些告警发通知,哪些不发
source_match源匹配的告警将被通知
severity严重程度为critical ,重要的告警将被通知
target_match目标匹配的告警不被通知
severity严重程度为warming,警告的告警将被通知
equal匹配哪些对象的告警

编辑报警模块,可用默认模板:

vim /usr/local/alertmanager/tmpl/email.tmpl
{{ define "email.html" }}
{{- if gt (len .Alerts.Firing) 0 -}}{{ range .Alerts }}
<h2>@告警通知</h2>
告警程序: prometheus_alert <br>
告警级别: {{ .Labels.severity }}<br>
告警类型: {{ .Labels.alertname }} <br>
故障主机: {{ .Labels.instance }} <br>
告警主题: {{ .Annotations.summary }} <br>
告警详情: {{ .Annotations.description }} <br>
触发时间: {{ .StartsAt.Local.Format "2006-01-02 15:04:05" }} <br>
{{ end }}{{ end -}}

Prometheus规则

新建规则文件,配置分组信息,告警阈值和时间,告警标签和注释等。
指标表达式采用PromQL语句,多数指标单位为bytes字节,需要转换成KMG,例如2M=210241024。
Prometheus规则文件,对于邮箱,钉钉或企业微信,该文件通用:

vim /home/prometheus/prometheus/rule/tcp_time_wait.yml
groups:
- name: 主机Tcp TimeWait数量过多告警rules:- alert: 主机Tcp TimeWait数量过多告警expr: node_sockstat_TCP_tw >= 100	 # 大于100 做测试用,正常是5000for: 1mlabels:severity: warningannotations:summary: "Tcp TimeWait数量大于100, 实例: {{ $labels.instance }},当前值:{{ $value }}%"

检验prometheus报警规则文件,显示SUCCESS:

/home/prometheus/prometheus/promtool check rules rule/tcp_time_wait.yml
Checking rule/qtalk_auth.ymlSUCCESS: 1 rules found

Prometheus配置
配置Prometheus文件,alertmanagers服务器的IP和端口,prometheus服务器规则文件的路径:

vim /home/Prometheus/prometheus/prometheus.yml
# my global config
global:scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.# scrape_timeout is set to the global default (10s).# Alertmanager configuration
alerting:alertmanagers:- static_configs:- targets: ["192.168.1.108:19093"]#- alertmanager:["192.168.1.108:19093"]# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:- "rule/*.yml"# - "first_rules.yml"# - "second_rules.yml"# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.- job_name: "prometheus"# metrics_path defaults to '/metrics'# scheme defaults to 'http'.static_configs:- targets: ["localhost:9090"]- job_name: 'process'static_configs:- targets: ['192.168.1.108:9256']

重启Prometheus服务:

systemctl restart prometheus.service
邮箱告警
查看Prometheus

Prometheus首页,Alerts选项,可以查看告警信息:

报警状态分3种:

inactive:没有异常。
pending:已触发阈值,但未满足告警持续时间(即 rule 中的 for 字段)。
firing:已触发阈值且满足条件并发送至 alertmanager。
pending状态,阈值触发了,但再观察30m秒(for: 30s)。

在这里插入图片描述
firing状态,30秒过后还超出阈值,则发送至alertmanager。
查看Alertmanager
只有在Prometheus中Firing的警告才会传到Alertmanager,进入首页查看。

查看邮箱

在这里插入图片描述

至此,一个简单的基于Prometheus的系统监控及报警通知的服务都搭建完成,利用这样一套监控通知体系,可以让系统运维人员早早的知道系统健康度,保证系统高可用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/21193.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux多线程

文章目录 linux多线程1. 相关概念1.1 线程概念详解线程 VS 进程线程的优点线程的缺点线程异常线程用途 1.2 页表详解 2. 线程控制2.0 POSIX线程库深入理解线程库使用C多线程接口在Linux环境创建多线程 深入理解线程id线程局部存储 2.1 线程的创建 - pthread_create线程创建时参…

计算机毕设 深度学习疫情社交安全距离检测算法 - python opencv cnn

文章目录 0 前言1 课题背景2 实现效果3 相关技术3.1 YOLOV43.2 基于 DeepSort 算法的行人跟踪 4 最后 0 前言 &#x1f525; 这两年开始毕业设计和毕业答辩的要求和难度不断提升&#xff0c;传统的毕设题目缺少创新和亮点&#xff0c;往往达不到毕业答辩的要求&#xff0c;这两…

C++设计模式创建型之单例模式

一、概述 单例模式也称单态模式&#xff0c;是一种创建型模式&#xff0c;用于创建只能产生一个对象实例的类。例如&#xff0c;项目中只存在一个声音管理系统、一个配置系统、一个文件管理系统、一个日志系统等&#xff0c;甚至如果吧整个Windows操作系统看成一个项目&#xf…

LNMP单节点部署

LNMP:是目前一套成熟的企业网站的应用模式&#xff0c;指的是一套协同工作的系统和相关软件。能够提供静态页面服务&#xff0c;也可以提供动态web服务。 L&#xff1a;linux系统 N&#xff1a;nginx网站服务&#xff0c;前端&#xff0c;提供前端静态页面&#xff0c;同时具有…

OC与Swift的相互调用

OC调用Swift方法 1、在 Build Settings 搜索 Packaging &#xff0c;设置 Defines Module 为 YES 2、新建 LottieBridge.swift 文件&#xff0c;自动生成桥 ProductName-Bridging-Header.h 3、在 LottieBridge.swift 中&#xff0c;定义Swift类继承于OC类&#xff0c;声明 obj…

Postgresql源码(109)并行框架实例与分析

1 PostgreSQL并行参数 系统参数 系统总worker限制&#xff1a;max_worker_processes 默认8 系统总并发限制&#xff1a;max_parallel_workers 默认8 单Query限制&#xff1a;max_parallel_workers_per_gather 默认2 表参数限制&#xff1a;parallel_workers alter table tbl …

Linux搭建pikachu靶场(以centos为例)

Linux搭建pikachu靶场 Pikachu是一个使用PHP语言编写的Web漏洞测试靶场。下面是在CentOS 7上安装Pikachu靶场的步骤&#xff1a; 安装LAMP (Linux, Apache, MySQL, PHP) 堆栈&#xff1a; 首先&#xff0c;需要在CentOS 7服务器上安装LAMP堆栈。 安装Apache&#xff1a; yum i…

什么样的跨网文件安全交换系统 可实现安全便捷的文件摆渡?

进入互联网时代&#xff0c;网络的运算和数据管理能力助力各个行业高速发展&#xff0c;但同样带来了一些网络安全隐患&#xff0c;网络攻击、数据窃取、敏感信息泄露等问题。为此&#xff0c;我国出台了系列政策来全面提升银各行业系统网络安全整体防护水平&#xff0c;其中“…

HTTPS-RSA握手

RSA握手过程 HTTPS采用了公钥加密和对称加密结合的方式进行数据加密和解密 RSA握手是HTTPS连接建立过程中的一个关键步骤&#xff0c;用于确保通信双方的身份验证和生成对称加密所需的密钥 通过RSA握手过程&#xff0c;客户端和服务器可以协商出一个共享的对称密钥&#xff0c;…

如何解决电脑无声问题:排除故障的几种常见方法

大家好&#xff0c;今天我们来讨论一下处理电脑没有声音的故障。当你突然发现电脑静音无声时&#xff0c;需要逐步排除可能的问题&#xff0c;但总体而言&#xff0c;声音故障是相对容易解决的。接下来&#xff0c;我们将介绍一些排除电脑无声问题的方法。 第一步&#xff1a;…

路由器工作原理(第二十九课)

路由器工作原理(第二十九课) 一图胜过千言 1) 路由:数据从一个网络到另外一个网络之间转发数据包的过程称为路由 2) 路由器:连接不同网络,实现不同网段之间的通信 3)路由表:路由器选择数据的传输路径的依据 原始的路由表 Destination/Mask Proto Pre Cost …

Socks5代理:网络安全与爬虫之利器

一、Socks5代理&#xff1a;简介与工作原理 Socks5代理&#xff0c;全称为Socket Secure 5代理&#xff0c;是一种允许用户通过代理服务器进行网络连接的技术。它是Socks协议的最新版本&#xff0c;在网络安全和数据传输方面有着显著的优势。 Socks5代理与其他代理的不同之处在…

prometheus监控k8s kube-proxy target down

prometheus kube-proxy target down 解决 修改配置 kubectl edit cm/kube-proxy -n kube-systemmetricsBindAddress: "0.0.0.0:10249"删除 kube-proxy pod 使之重启应用配置 kubectl delete pod --force `kubectl get pod -n kube-system |grep kube-proxy|awk {pr…

深度剖析亚马逊、Newegg卖家如何有效补救差评问题!

差评对于亚马逊卖家来说是一项重要的问题&#xff0c;因为它可能会影响到客户的购买率和店铺声誉。针对这个问题&#xff0c;我提供以下一些建议和方法&#xff0c;如何帮助卖家有效地应对差评问题并进行补救呢&#xff1f; 一&#xff1a;对于不符合亚马逊评价政策的差评&…

Webpack5 cacheGroups

文章目录 一、 cacheGroups是什么&#xff0c;有什么用&#xff1f;二、怎么使用cacheGroups&#xff1f;三、cacheGroups实际应用之一 一、 cacheGroups是什么&#xff0c;有什么用&#xff1f; 在Webpack 5中&#xff0c;cacheGroups是用于配置代码拆分的规则&#xff0c;它…

使用pg_prewarm缓存PostgreSQL数据库表

pg_prewarm pg_prewarm 直接利用系统缓存的代码,对操作系统发出异步prefetch请求&#xff0c;在应用中&#xff0c;尤其在OLAP的情况下&#xff0c;对于大表的分析等等是非常耗费查询的时间的&#xff0c;而即使我们使用select table的方式&#xff0c;这张表也并不可能将所有…

PostgreSql 启停

一、启动 直接运行 postgres 进程启动。使用 pg_ctl 命令启动。&#xff08;pg_ctl 命令实际也是封装的 postgres 进程&#xff09; 示例&#xff1a; pg_ctl -D /data/pg13/data start 或 postgres -D /data/pg13/data &二、停止 使用 pg_ctl 命令停止&#xff0c;优先…

InfluxDB2如何求增量数据

需求 项目中需要接入电表设备&#xff0c;求用电量。 按天和设备统计用电量 按天统计用电量 统计总用电量 存在的问题 difference 函数可以求增量&#xff0c;但是以上计算均存在一个问题&#xff0c;比如xx设备有8.1号和8.2号的数据&#xff0c;我统计每天的用电量&#xf…

JS双问号(??)和问号点(?.)的用法

1.双问号&#xff08;??&#xff09; value1 ?? value2 ??在value1和value2之间取值&#xff0c;只有当value1为null或者undefined时取value2&#xff0c;否则取value1&#xff08;0,false,""被认为是有意义的&#xff0c;所以还是取value1&#xff09; const …