Zookeeper 可观测性最佳实践

Zookeeper 介绍

ZooKeeper 是一个开源的分布式协调服务,用于管理和协调分布式系统中的节点。它提供了一种高效、可靠的方式来解决分布式系统中的常见问题,如数据同步、配置管理、命名服务和集群管理等。本文介绍通过 DataKit 采集 Zookeeper 指标,帮助监控 Zookeeper 运行情况。

主要功能:

  • 配置管理:集中管理分布式系统的配置信息,便于动态更新和同步。
  • 命名服务:为分布式系统中的节点提供统一的命名和查找机制,类似于 DNS。
  • 分布式锁:通过锁机制解决分布式系统中的资源竞争问题。
  • 队列管理:实现分布式队列,支持顺序队列和优先队列。
  • 集群管理:监控集群成员的健康状态,实现故障检测和自动恢复。

Zookeeper 可观测的必要性:

  • 保障系统稳定性:ZooKeeper 是分布式系统的核心组件,负责协调多个节点的行为,确保数据一致性和服务可用性。监控 ZooKeeper 的健康状态可以及时发现潜在问题,如节点故障、网络异常或性能瓶颈,从而快速采取措施,避免系统整体故障。
  • 优化系统性能:监控可以帮助开发者和运维人员了解 ZooKeeper 集群的性能状况,例如操作延迟、事务处理速度等。通过分析这些数据,可以优化配置,提升系统性能。
  • 预防故障:监控系统可以提前预警潜在问题,例如磁盘 I/O 等资源瓶颈,从而在问题恶化之前进行干预,预防故障的发生。
  • 支持故障排查:当 ZooKeeper 集群出现问题时,监控数据可以提供关键线索,帮助快速定位问题根源。例如,通过分析日志和性能指标,可以确定是网络问题、配置错误还是硬件故障。
  • 提升运维效率:运维人员可以直观地查看 ZooKeeper 集群的状态,减少手动排查问题的时间,提高运维效率。
  • 确保集群一致性:ZooKeeper 的核心功能之一是保证分布式系统中数据的一致性。监控可以确保集群中的所有节点状态一致,及时发现和修复不一致的情况。
  • 支持动态调整:分布式系统的环境和需求可能会动态变化,监控 ZooKeeper 可以帮助运维人员根据实时数据动态调整集群配置,例如增加节点或优化资源分配。

观测云

观测云是一款功能强大的统一可观测平台,提供对多云环境、云原生应用、中间件以及各类应用程序的实时监控和分析能力。在 ZooKeeper 的监控场景中,观测云通过其核心数据采集器 DataKit,结合 ZooKeeper 的监控指标,实现对 ZooKeeper 集群的实时监控和数据可视化展示。观测云通过其强大的数据可视化功能,将 ZooKeeper 的监控指标以直观的仪表盘形式展示出来,帮助用户快速定位问题并优化系统性能。

暴露 Zookeeper 指标

从 3.6.0 版本开始,ZooKeeper 原生支持 Prometheus 格式的指标暴露。只需在 zoo.cfg 配置文件中添加以下配置:

metricsProvider.className=org.apache.zookeeper.metrics.prometheus.PrometheusMetricsProvider
metricsProvider.httpPort=7000
metricsProvider.exportJvmInfo=true

然后重启 Zookeeper 服务。

执行完毕后,可通过 http://主机ip:7000/metrics 查看当前主机获取到的所有监控数据。

采集器配置

进入 DataKit 安装目录下的 conf.d/prom 目录,复制 prom.conf.sample 并命名为 zookeeper.conf

[[inputs.prom]]urls = ["http://192.168.0.19:7000/metrics"]                                                                                   ## 采 集 器 别 名                                                                                                                  source = "zookeeper"                                                                                                          ## 采 集 间 隔  "ns", "us" (or "µs"), "ms", "s", "m", "h"                                                                         interval = "10s"                                                                                                              measurement_name = "zookeeper"                                                                                                metric_types = []                                                                                                             ## TLS 配 置                                                                                                                    tls_open = false                                                                                                              [inputs.prom.tags]                                                                                                            service = "zookeeper"  # ·················[inputs.prom.as_logging]enable = falseservice = "service_name"## Customize tags.# [inputs.prom.tags]# some_tag = "some_value"# more_tag = "some_other_value"## (Optional) Collect interval: (defaults to "30s").# interval = "30s"## (Optional) Timeout: (defaults to "30s").# timeout = "30s"

主要修改 urls,配置好后保存,重启 DataKit 即可。

关键指标

登录观测云控制台,点击「指标」 -「指标管理」,输入“zookeeper”,就能查询采集到的指标。

ZooKeeper 是一个分布式协调服务,用于管理分布式系统中的配置信息、命名服务、分布式同步等。以下是对 ZooKeeper 指标的解释:

  • 系统性能与延迟:通过 ZooKeeper 的四字命令(如 stat、srvr 等)可以获取服务的运行状态,包括是否处于领导者或追随者角色、服务的延迟等
  • 会话数:监控会话数可以帮助了解 ZooKeeper 的使用情况,及时发现异常的会话增长。
  • 请求延迟:监控 ZooKeeper 的请求延迟可以帮助评估服务的响应性能。高延迟可能表明存在性能问题,需要进一步调查。

以下是关于 Zookeeper 关键指标的介绍:

指标描述单位
avg_latency平均延迟ms
readlatency_count读操作延迟的计数count
propagation_latency_count数据传播延迟的计数count
commit_count提交操作的次数count
requests_in_session_queue_count会话队列中的请求数量count
requests_not_forwarded_to_commit_processor未转发到提交处理器的请求数量count
prep_processor_queue_size预处理队列的大小Bytes
connection_request_count当前存活的连接数count
num_alive_connections用于缓存文件系统的内存量Bytes
session_queues_drained_count会话队列被清空的次数count
auth_failed_count认证失败的次数count
ensemble_auth_fail集群认证失败的次数count
bytes_received_count接收的字节数Bytes
open_file_descriptor_count当前打开的文件描述符数量count
process_open_fds进程打开的文件描述符数量count
uptime系统或进程的运行时间s
approximate_data_size近似数据大小Bytes
znode_count节点数量count
watch_count监控数量count

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “Zookeeper”, 选择 “ Zookeeper”,点击 “确定” 即可添加视图。

监控器(告警)

Zookeeper 服务器发送宕机异常

Zookeeper 平均响应延迟过高异常

Zookeeper 堆积请求数过大异常

总结

通过使用观测云平台对 ZooKeeper 进行统一监控,我们能够实时追踪关键性能指标,如会话连接数、节点读写操作次数、以及会话超时情况。这些指标对于优化 ZooKeeper 集群性能、识别性能瓶颈、及时排查故障至关重要。它们帮助我们优化会话管理策略,确保集群状态一致性,进行有效的资源规划,并为分布式协调任务提供支持。这样的监控不仅增强了用户体验,也显著提高了系统的可靠性和稳定性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/77560.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【安全】DVWA靶场渗透

【安全】DVWA靶场渗透 备注一、环境搭建二、弱口令(Brute Force)三、命令注入(Command Injection)四、CSRF(Cross Site Request Forgery)五、文件包含(File Inclusion)六、文件上传&…

Ubuntu22.04安装QT、px4安装环境

Ubuntu22.04安装QGC编译环境、QT、px4编译环境 参考文档版本说明安装QGC安装Ubuntu安装QT配置px4安装环境出现错误怎么办 参考文档 PX4 1.15 User Guide 版本说明 PX4:1.15.4 QGC: 安装QGC 我使用的是pixhawk V5飞控,在QGC4.4 Guide里&a…

积木报表查询出现jdbc.SQLServerException: 对象名 ‘user_tab_comment 的解决方法

目录 前言1. 问题所示2. 解决方法前言 🤟 找工作,来万码优才:👉 #小程序://万码优才/r6rqmzDaXpYkJZF 爬虫神器,无代码爬取,就来:bright.cn 1. 问题所示 使用帆软报表无错,后续使用积木报表查询出错: 没有显示报表: 具体错误信息如下:

c++基础·左值右值

一、左值与右值的本质特征 1. 基础定义 左值 (lvalue) ✅ 可出现在赋值运算符左侧 ✅ 可被取地址(有明确存储位置) ✅ 通常为具名变量(如int a 10;中的a) 右值 (rvalue) ❌ 不可出现在赋值左侧 ❌ 不可取地址(无持久…

【Rust 精进之路之第9篇-所有权·核心】规则与移动 (Move):Rust 内存安全基石详解

系列: Rust 精进之路:构建可靠、高效软件的底层逻辑 作者: 码觉客 发布日期: 2025年4月20日 引言:没有 GC,Rust 如何管好内存?答案是所有权! 在我们的 Rust 探索之旅中,我们已经学习了变量、数据类型、控制流、函数和强大的构建工具 Cargo。现在,我们将踏入 Rust 最…

嵌入式学习——opencv图像库编程

环境配置 OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和图像处理库,广泛用于各种计算机视觉任务,如图像处理、视频分析、人脸识别、物体检测、机器学习等。它提供了丰富的函数和工具,用于处理…

一招破敌,掌控 React 渲染术:createRoot 与 root.render

前言 在这数字江湖中,前端门派百花齐放,React 一门尤为奇特,讲究“以虚制实,以组件驭天下”。眼下你我初入江湖,第一关便是挂载组件之术。倘若不懂 createRoot 与 root.render,那就像一个新晋小侠,连起手式都没学会,点穴还没碰到 DOM,自己先内伤三分。 来吧,少年!…

Linux常见工具如yum、vim、gcc、gdb的基本使用,以及编译过程和动静态链接的区别

目录 一、工具的本质 二、一些常用的工具 1.yum 2.vim 1)vim的三种基本模式: 2)vim的基本操作 ①命令模式下的基本操作: ②插入模式: ③底行模式: 3)vim的配置:让他变得更好用 3.gcc…

JavaScript 一维数组转不含零的两个数

问题描述&#xff1a; /*** param {number} n* return {number[]}*/ var getNoZeroIntegers function(n) {for(let i 1;i<n;i){if(String(i).indexOf(0) -1&&String(n-i).indexOf(0) -1){return [i,n-i]}}};String类型indexOf()函数如果找不到字串则返回-1&…

力扣DAY60-61 | 热100 | 回溯:单词搜索、分割回文串

前言 中等 √ 继续回溯&#xff0c;不知咋地感觉这两题有点难度&#xff0c;是因为隔一天就手感生疏了吗&#xff1f; 单词搜索 我的题解 定义方向数组、二维访问数组。图搜索&#xff0c;向上下左右每个方向搜索&#xff0c;需要更新的信息&#xff1a;坐标、是否遍历过、…

超简单的git学习教程

本博客仅用于记录学习和使用 前提声明全部内容全部来自下面廖雪峰网站&#xff0c;如果侵权联系我删除 0.前言 相信有不少人被推荐那个游戏学习git&#xff0c;一个不止我一个完全没学习过的进去后一脸懵&#xff0c;半天都通不过一关然后就放弃了&#xff0c;我个人觉得那个…

【每日八股】复习 MySQL Day1:事务

文章目录 复习 MySQL Day1&#xff1a;事务MySQL 事务的四大特性&#xff1f;并发事务会出现什么问题&#xff1f;MySQL 事务的隔离级别&#xff1f;不同事务隔离级别下会发生什么问题&#xff1f;MVCC 的实现原理&#xff1f;核心数据结构版本链构建示例可见性判断算法MVCC 可…

在极狐GitLab 身份验证中如何使用 OIDC?

极狐GitLab 是 GitLab 在中国的发行版&#xff0c;关于中文参考文档和资料有&#xff1a; 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 使用 OpenID Connect 作为认证提供者 (BASIC SELF) 您可以使用极狐GitLab 作为客户端应用程序&#xff0c;与 OpenID Connec…

PHP腾讯云人脸核身生成 SDK 接口调用步骤使用签名

参考腾讯云官方文档&#xff1a; 人脸核身 生成 SDK 接口调用步骤使用签名_腾讯云 前提条件&#xff1a;成功获取NonceTicket。 获取参考文档&#xff1a; PHP腾讯云人脸核身获取NONCE ticket-CSDN博客 function getTxFaceSign(){$appId ;$userId ;$version 1.0.0;$tic…

每日一题算法——链表相交

链表相交 力扣题目链接 暴力解法:飘过 class Solution { public:ListNode *getIntersectionNode(ListNode *headA, ListNode *headB) {ListNode * cur headA;while(cur ! NULL){ListNode* curb headB;while(curb ! NULL){if(curbcur){return cur;}curb curb->next;}cu…

详解Windows(一)——系统盘下目录及文件详解

引言 你是否曾经好奇过电脑里那些神秘的文件夹都是干什么用的&#xff1f;为什么有些文件是.exe而有些是.dll&#xff1f;不同的图片格式.jpg和.png到底有什么区别&#xff1f;如果你对这些问题感到困惑&#xff0c;这篇文章就是为你准备的。今天&#xff0c;我们将以通俗易懂…

大模型赋能工业制造革新:10个显效可落地的应用场景

在工业4.0的汹涌浪潮中&#xff0c;制造业正面临着前所未有的转型挑战。传统制造模式在效率、成本、质量等方面逐渐难以满足市场需求&#xff0c;企业急需借助新技术实现数字化转型&#xff0c;以提升自身竞争力。在此背景下&#xff0c;基于先进的数据分析技术、大模型、知识图…

AI语音助手 React 组件使用js-audio-recorder实现,将获取到的语音转成base64发送给后端,后端接口返回文本内容

页面效果&#xff1a; js代码&#xff1a; import React, { useState, useRef, useEffect } from react; import { Layout, List, Input, Button, Avatar, Space, Typography, message } from antd; import { SendOutlined, UserOutlined, RobotOutlined, AudioOutlined, Stop…

pycharm无法识别到本地python的conda环境解决方法

问题一 现象描述&#xff1a; 本地已经安装了conda&#xff0c;但在pycharm中选择conda环境却识别不到&#xff0c; 解决方法&#xff1a;手动输入conda path&#xff0c;点击R eload environments基本就能修复&#xff0c;比如我的路径如下 /Users/test/conda/miniconda3/b…

PDK中technology file从tf格式转换为lef格式

在数字后端流程中需要导入technology file工艺文件&#xff0c;一般传统的PDK中都提供.tf形式&#xff0c;能够在Synopsys ICC中进行导入。但是由于Cadence Innovus不断地完善&#xff0c;更多的工程采用了其进行数字后端设计。不过Cadence Innovus导入的是.lef格式的工艺文件&…