Prometheus 架构全面解析

在本指南中,我们将详细介绍 Prometheus 架构。

Prometheus 是一个用 Golang 编写的开源监控和告警系统,能够收集和处理来自各种目标的指标。您还可以查询、查看、分析指标,并根据阈值收到警报。

此外,在当今世界,可观测性对每个组织来说都变得至关重要,而 Prometheus 是开源领域的关键可观测性工具之一。

在这篇博客中,我们将了解 Prometheus 的所有关键组件,以及它们如何协同工作以使整个监控系统正常工作。

Prometheus 架构

以下是 Prometheus 架构的高级概述。

Prometheus 架构 - 组件工作流

Prometheus 主要由以下部分组成。

  1. Prometheus 服务器
  2. 服务发现
  3. 时序数据库(TSDB)
  4. 目标
  5. 导出器
  6. 推送网关
  7. 警报管理器
  8. 客户端库
  9. PromQL系列

让我们详细看一下每个组件。

Prometheus 服务器

Prometheus 服务器是基于指标的监控系统的大脑。服务器的主要工作是使用拉取模型从各种目标收集指标。

Target 只不过是服务器、pod、端点等,我们将在下一主题中详细介绍。

使用 Prometheus 从目标收集指标的一般术语称为抓取(pull)。

Prometheus Server 组件

Prometheus 会根据 Prometheus 配置文件中提到的抓取间隔定期抓取指标。

下面是一个示例配置。

global:scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 10s rule_files:- "rules/*.rules"scrape_configs:- job_name: 'prometheus'static_configs:- targets: ['localhost:9090'] - job_name: 'node-exporter'static_configs:- targets: ['node-exporter:9100'] alerting:alertmanagers:- static_configs:- targets: ['alertmanager:9093']

时序数据库(TSDB)

prometheus 接收的指标数据会随时间变化(CPU、内存、网络 IO 等)。它称为时间序列数据。因此,Prometheus 使用时间序列数据库 (TSDB) 来存储其所有数据。

默认情况下,Prometheus 将其所有数据以有效的格式(块)存储在本地磁盘中。随着时间的流逝,它会压缩所有旧数据以节省空间。它还具有保留策略来删除旧数据。

Prometheus 还提供远程存储选项。这主要是存储可扩展性、长期存储、备份和灾难恢复等所必需的。

Prometheus 目标

Target 是 Prometheus 抓取指标的来源。目标可以是服务器、服务、Kubernetes Pod、应用程序端点等。

Prometheus 目标

默认情况下,prometheus 在目标路径下查找指标。可以在目标配置中更改默认路径。这意味着,如果您未指定自定义指标路径,Prometheus 会在 /metrics 下查找指标。/metrics

目标配置位于配置文件的scrape_configs下。下面是一个示例配置。Prometheus

scrape_configs:- job_name: 'node-exporter'static_configs:- targets: ['node-exporter1:9100', 'node-exporter2:9100']- job_name: 'my_custom_job'static_configs:- targets: ['my_service_address:port']metrics_path: '/custom_metrics'- job_name: 'blackbox-exporter'static_configs:- targets: ['blackbox-exporter1:9115', 'blackbox-exporter2:9115']metrics_path: /probe- job_name: 'snmp-exporter'static_configs:- targets: ['snmp-exporter1:9116', 'snmp-exporter2:9116']metrics_path: /snmp

从目标端点,prometheus 需要特定文本格式的数据。每个指标都必须位于新行上。

通常,这些指标使用在目标上运行的 prometheus 导出器在目标节点上公开。

Prometheus 导出器

导出器就像在目标上运行的代理。它将指标从特定系统转换为 prometheus 理解的格式。

它可以是 CPU、内存等系统指标,也可以是 Java JMX 指标、MySQL 指标等。

Prometheus 导出商

默认情况下,这些转换后的指标由导出器在目标的 /metrics 路径(HTTPS 端点)上公开。

例如,如果要监视服务器的 CPU 和内存,则需要在该服务器上安装节点导出器,并且节点导出器会在 /metrics 上以 prometheus 指标格式公开 CPU 和内存指标。

一旦 Prometheus 提取了指标,它将组合指标名称、标签、值和时间戳,为该数据提供结构

有很多社区导出器可用,但只有其中一些得到了 Prometheus 的正式批准。如果需要更多自定义项,则需要创建自己的导出器。

Prometheus 将导出器分为各个部分,例如数据库、硬件、问题跟踪和持续集成、消息传递系统、存储、公开 Prometheus 指标的软件、其他第三方实用程序等。

您可以从官方文档中查看每个类别的出口商列表。

在 Prometheus 配置文件中,所有导出器的详细信息都将在 .scrape_configs

scrape_configs:- job_name: 'node-exporter'static_configs:- targets: ['node-exporter1:9100', 'node-exporter2:9100']- job_name: 'blackbox-exporter'static_configs:- targets: ['blackbox-exporter1:9115', 'blackbox-exporter2:9115']metrics_path: /probe- job_name: 'snmp-exporter'static_configs:- targets: ['snmp-exporter1:9116', 'snmp-exporter2:9116']metrics_path: /snmp

Prometheus 服务发现

Prometheus 使用两种方法从目标中抓取指标。

  1. 静态配置:当目标具有静态 IP 或 DNS 端点时,我们可以将这些端点用作目标。
  2. 服务发现:在大多数自动缩放系统和分布式系统(如 Kubernetes)中,目标不会有静态终结点。在这种情况下,将使用 prometheus 服务发现来发现目标端点,并将目标自动添加到 prometheus 配置中。

Prometheus 服务发现

在继续之前,让我展示一个使用 Prometheus 配置文件的 Kubernetes 服务发现块的小示例。kubernetes_sd_configs

scrape_configs:- job_name: 'kubernetes-apiservers'kubernetes_sd_configs:- role: endpointsscheme: httpstls_config:ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crtbearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/tokenrelabel_configs:- source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]action: keepregex: default;kubernetes;https

Kubernetes 是动态目标的完美示例。在这里,您不能使用静态目标方法,因为 Kubernetes 集群中的目标(Pod)本质上是短暂的,并且很可能是短暂的。

Kubernetes 中还有基于文件的服务发现。它适用于静态目标,但经典静态配置与静态配置之间的主要区别在于,在这种情况下,我们创建单独的 JSON 或 YAML 文件并将目标信息保存在其中file_sd_configs。Prometheus 将读取文件以识别目标。static_configs file_sd_configs

不仅这两个,还有各种服务发现方法可用,例如 consul_sd_configs(prometheus 从 consul 获取目标详细信息)、ec2_sd_configs等。

要了解有关配置详细信息的更多信息,请访问官方文档。

Prometheus 推送网关

默认情况下,Prometheus 使用拉取机制来获取指标。

但是,在某些情况下,需要将指标推送到 prometheus。

让我们举一个在 Kubernetes cronjob 上运行的批处理作业的例子,该作业每天根据某些事件运行 5 分钟。在这种情况下,Prometheus 将无法使用拉取机制正确抓取服务级别指标

因此,为了等待 prometheus 拉取指标,我们需要将指标推送到 prometheus。为了推送指标,prometheus 提供了一个名为 Pushgateway 的解决方案。 它是一种中间网关。

Pushgateway 需要作为独立组件运行。批处理作业可以将指标推送到 pushgateway 端点,Pushgateway 会公开这些指标。然后 prometheus 从 Pushgateway 中抓取这些指标。

Prometheus 推送网关

Pushgateway 将指标数据临时存储在内存存储中。它更像是一个临时缓存。

Pushgateway 配置也将在配置中的部分下进行配置。scrape_configs Prometheus

scrape_configs:- job_name: "pushgateway"honor_labels: truestatic_configs:- targets: [pushgateway.monitoring.svc:9091]

要将指标发送到 Pushgateway,您需要使用 prometheus 客户端库检测应用程序或脚本以公开所需的指标。

Prometheus 客户端库

Prometheus 客户端库是软件库,可用于检测应用程序代码,以 Prometheus 理解的方式公开指标。

如果需要自定义检测或想要创建自己的导出器,可以使用客户端库。

一个非常好的用例是需要将指标推送到 Pushgateway 的批处理作业。批处理作业需要使用客户端库进行检测,以 prometheus 格式公开需求指标。

以下示例公开了名为 batch_job_records_processed_total 的自定义指标。Python Client Library

from prometheus_client import start_http_server, Counter
import time
import randomRECORDS_PROCESSED = Counter('batch_job_records_processed_total', 'Total number of records processed by the batch job')def process_record():time.sleep(random.uniform(0.01, 0.1))RECORDS_PROCESSED.inc()def batch_job():for _ in range(100):process_record()if __name__ == '__main__':start_http_server(8000)print("Metrics server started on port 8000")batch_job()print("Batch job completed")while True:time.sleep(1)

此外,在使用客户端库时,HTTP 服务器prometheus_client端点中公开指标。/metrics

Prometheus 几乎为每种编程语言提供了客户端库,如果您想创建客户端库,也可以这样做。

要了解有关创建指南的更多信息并查看客户端库列表,您可以参考官方文档。

Prometheus 警报管理器

Alertmanager是Prometheus监控系统的关键部分。它的主要工作是根据 Prometheus 警报配置中设置的指标阈值发送警报。

警报由 Prometheus 触发并发送到 Alertmanager。它反过来将警报发送到警报管理器配置中配置的相应通知系统/接收器(电子邮件、松弛等)。

此外,警报管理器还负责以下工作。

  1. 警报重复数据删除:静默重复警报的过程。
  2. 分组:将相关警报分组到其他位置的过程。
  3. 音:静音警报,用于维护或误报。
  4. 路由:根据严重性将警报路由到适当的接收器。
  5. 禁止:当存在中等高严重性警报时停止低严重性警报的过程。

Prometheus 警报管理器


下面是警报规则的示例配置。

groups:
- name: microservices_alertsrules:- record: http_latency:average_latency_secondsexpr: sum(http_request_duration_seconds_sum) / sum(http_request_duration_seconds_count)- alert: HighLatencyAlertexpr: http_latency:average_latency_seconds > 0.5for: 5mlabels:severity: criticalannotations:summary: "High latency detected in microservices"description: "The average HTTP latency is high ({{ $value }} seconds) in the microservices cluster."

这是 Alertmanager 配置文件的路由配置示例

routes:
- match:severity: 'critical'receiver: 'pagerduty-notifications'- match:severity: 'warning'receiver: 'slack-notifications'

警报管理器支持大多数消息和通知系统,例如 Discord、电子邮件、Slack 等,以将警报作为通知发送给接收者。

PromQL系列

PromQL 是一种灵活的查询语言,可用于从 Prometheus 查询时间序列指标。

我们可以直接从用户界面使用查询,也可以使用命令通过命令行界面进行查询。Prometheuscurl

Prometheus 用户界面

Prometheus UI 上的 PromQL

通过 CLI 查询

curl "http://54.186.154.78:30000/api/v1/query?query=$(echo 'up' | jq -s -R -r @uri)" | jq .

此外,当您将 prometheus 作为数据源添加到 Grafana 时,您可以使用 PromQL 查询和创建 Grafana 仪表板,如下所示。

带有 promQL 的 Grafana 仪表板

结论

本文解释了 Prometheus 架构的主要组件,并将提供 Prometheus 配置的基本概述,您可以使用该配置执行更多操作。

每个组织的要求都不同,Prometheus 在不同环境中的实现也各不相同,例如 VM 和 Kubernetes。如果您了解基础知识和关键配置,则可以在任何平台上轻松实现它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/643463.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通过代理服务器的方式解决跨域问题

学习源码可以看我的个人前端学习笔记 (github.com):qdxzw/frontlearningNotes 觉得有帮助的同学,可以点心心支持一下哈 这里以本地访问https://heimahr.itheima.net/api/sys/permission接口为列子 Node.js 代理服务器 (server.js) 本次考虑使用JSONP或CORS代理来…

助力医疗数字化转型,贝锐x医百科技案例解析

在医疗数字化这个历史进程的大浪潮中,医药企业扮演着重要的角色,其重要程度恐怕仅次于医疗机构本身。同时,数字化转型对于医药企业的赋能作用也是十分明显的,尤其在营销端,一系列的数字化管理、数字化推广方案已经成为…

安装IIS及搭建asp.net程序遇到的问题

一、安装IIS 在服务器管理中选择IIS,右键选择添加角色和功能 在服务器角色中,应用程序开发中要选择ASP.NET3.5、ASP.NET4.6功能。 单击下一步执行安装即可。 二、常见问题 问题1. HTTP 错误404.17 - Not Found 解决方法: 出现以上问题没有…

SpringBoot使用Swagger2生成接口文档

一、导入依赖 <!-- knife4j--><dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId><version>2.0.7</version></dependency> 二、配置类 通过一下配置&am…

USRP相关报错解决办法

文章目录 前言一、本地环境二、相关报错信息二、解决办法1、更换电脑操作系统2、升级最新版固件 前言 在进行 USRP 开发时遇到了一些报错&#xff0c;这里做个记录解决问题的方法。 一、本地环境 电脑操作系统&#xff1a;Windows11MATLAB 版本&#xff1a;MATLAB 2021aUSRP …

rabbitmq基础-java-2、work模型

1、简介 工作队列模式&#xff08;Work Queue Mode&#xff09;&#xff1a;在这个模型中&#xff0c;生产者同样将消息发送到队列&#xff0c;但多个消费者可以从队列中获取消息并发处理。这意味着不同的消费者可以独立地处理各自的任务&#xff0c;从而提高效率。 2、消息发送…

基于springboot+vue的小徐影城管理系统(前后端分离)

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容&#xff1a;毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…

C语言进阶——数据结构之链表

前言 hello&#xff0c;大家好呀&#xff0c;我是Humble 在之前的两篇博客&#xff0c;我们学完了数据结构中的顺序表&#xff0c;还对它进行了一个应用&#xff0c;做了一个通讯录的小项目 那今天我们再来学习一个新的数据结构——链表 引入 我们来回忆一下顺序表 对于顺…

小程序技术实践:快速开发适配鸿蒙的App

今年&#xff0c;在中国&#xff0c;被各大媒体和开发者称为“鸿蒙元年”。 在2023年底就有业内人士透露&#xff0c;华为明年将推出不兼容安卓的鸿蒙版本&#xff0c;未来IOS、鸿蒙、安卓将成为三个各自独立的系统。 果不其然&#xff0c;执行力超强的华为&#xff0c;与202…

1、【vue篇】vue框架快速上手

注意事项&#xff1a; methods必须要加s 导入vue&#xff1a;<script src"https://cdn.jsdelivr.net/npm/vue/dist/vue.js"></script>导入Axios:<script src"https://unpkg.com/axios/dist/axios.min.js"></script> 简单Vue程序…

轻松上手:通过阿里云PAI QuickStart微调部署Qwen-72B-Chat模型

作者&#xff1a;熊兮、求伯、一耘 引言 通义千问-72B&#xff08;Qwen-72B&#xff09;是阿里云研发的通义千问大模型系列的720亿参数规模模型。Qwen-72B的预训练数据类型多样、覆盖广泛&#xff0c;包括大量网络文本、专业书籍、代码等。Qwen-72B-Chat是在Qwen-72B的基础上…

新年钜惠|泰迪智能科技免费协助企业完成3个行业AI案例建模

在新年到来之际&#xff0c;为了感谢各企业一直以来对泰迪智能科技的支持&#xff0c;日前我们推出了新年钜惠活动即&#xff1a;免费协助企业完成3个行业AI案例建模。我们希望通过这样的活动&#xff0c;可以帮助更多的企业迈出AI应用的第一步&#xff0c;同时我们也希望能够为…

如何在阿里云提交使用工单

有时候大家在使用阿里云的服务时候&#xff0c;可能会遇到一些问题&#xff0c;或许是云服务器如何升级了如何改套餐啊之类的&#xff0c;亦或者是域名ICP备案啊看进度啊等等问题&#xff0c;遇到问题怎么办不要慌。我们可以使用阿里云的工单系统&#xff0c;阿里云工单系统可以…

Linux命令大全

文章目录 目录操作与文件管理系统信息与管理软件包管理和系统维护压缩与解压缩网络与通信辅助工具与信息获取文本处理与搜索时间与日期操作网络连接与通信&#xff08;补充&#xff09;链接管理磁盘与存储管理环境变量与路径设置用户和组管理查看系统信息 当然&#xff0c;以下…

Python使用pip命令安装外部库-项目内安装外部库-全局安装外部库

一、前言 在进行Python项目开发时需要安装一些外部库来扩展项目功能&#xff0c;因此需要了解pip命令的详细使用。 二、基本语法 1.安装库 pip install 包名 2.安装特定版本 pip install 包名版本号 3.升级库 pip install --upgrade 包名 4.卸载库 pip uninstall 包名 5.查看已…

搜索与图论第七期 Prime算法

前言 prime算法也是一种图的结构 &#xff0c;哎图的结构还有好多好多&#xff0c;大家慢慢学吧&#xff01;&#xff01;&#xff01; 一、prime 算法的基本内容 过程&#xff1a; 最小生成树prim算法简单理解他的寻找路径的过程&#xff0c;从一个顶点V0开始&#xff0c;…

字节跳动 ByteHouse 云原生之路 – 计算存储分离与性能优化

01 起源 ByteHouse 的故事从字节跳动对于先进数据处理和分析的需求开始&#xff0c;这一需求随着公司业务规模的迅速扩张而日益增长&#xff0c;起源是对开源数据库管理系统 ClickHouse 的改造和增强。面对数据处理的高延迟、大规模数据操作的复杂性以及数据存储和处理成本的上…

【SGX系列教程】(一)Intel-SGX SDK在ubuntu22.04下安装全流程

文章目录 一.概述1.1 SGX三大组件1.2 SGXDataCenterAttestationPrimitives 二.安装流程2.1 检查服务器是否支持SGX2.2 sgx硬件/软件开启方法2.3 sgx dirver驱动安装&#xff1b;2.3.1 linux-sgx-driver驱动程序2.3.2 Intel SGX Support in the Linux Kernel&#xff08;linux内…

线程的同步和互斥学习笔记

目录 互斥锁的概念和使用 线程通信-互斥 互斥锁的创建和销毁 申请锁-pthread_mutex_lock 释放锁-pthread_mutex_unlock 读写锁的概念和使用 死锁的避免 互斥锁的概念和使用 线程通信-互斥 临界资源 一次只允许一个任务&#xff08;进程、线程&#xff09;访问的共享资…

电脑有网,浏览器连不上网,其他应用却能用

当我们访问浏览器的时候显示&#xff0c;你尚未链接&#xff0c;代理服务器可能有问题&#xff0c;或地址不正确的时候.可你的wifi任然是连接的&#xff0c;但是只有浏览器用不了&#xff0c;微信和其他程序都可以正常连接&#xff0c;这是为什么呢&#xff1f; 绝大多数是因为…