优维产品最佳实践第13期:如何避免拨测机自身网络问题?

受限于拨测节点自身的环境,单一节点的拨测结果可能并不能反映出监控实例的真实运行状态

本期EasyOps产品使用最佳实践,我们将为您揭晓:

  • 如何基于多点决策配置拨测监控,以避免拨测机自身网络问题而误告警?

  • 如何对指标实现“降维”,从而汇聚指标?

「 背 景 」

拨测监控作为监控体系中重要的一环,为管理员提供最为直接的状态监控。然而,受限于拨测节点自身的环境和网络环境,可能单一拨测节点的结果并不能反映出监控实例的实际运行状态。比如,当拨测节点所在的网络发生故障时,或者和监控实例的网络中断时,此时会认为监控实例的服务不可用。

但是,这种判断可能是错误的。

因此,多点决策的需求就产生了。它基于这样一种监控逻辑:假设有两个拨测节点,分布于两个不同的环境或者网络,同时对目标实例拨测。仅当超过半数的拨测节点(也就是两台拨测机都发生告警时),才认为目标实例异常时,才发出拨测告警。

before:

after:

「 配 置 说 明 」

1.针对主机配置拨测采集策略,并且指定两台拨测机。

2.配置汇聚指标,这里作详细说明:

拨测的指标:detect_code包含着多个维度,而我们希望把detectAgentId和detectAgentName这两个维度降维了,让detect_code可通过jobId来汇聚成一个指标。

因此,需要作如下配置表达式:avg(detect_code ) by (stepName,jobId,customTag)

上述表达式,说明新指标的维度是stepName,jobId,customTag,把agent相关的维度聚合在一起了。

此时,两台拨测机的汇聚结果可参考如下表格:

可知,只有当两台拨测机都返回1的返回码时,也就是两台拨测机都认为实例故障时,多点决策返回码才大于0.5,因此0.5可以作为多点决策的判断阈值。

3.配置告警规则

此时,当两台拨测机都探测目标实例失败时,才会发出拨测失败的告警。如果只有一台拨测机认为拨测失败,并不会发出告警,以实现了半数以上判断为失败才失败的逻辑。

该实践提供了多点决策的能力,弥补了拨测节点的单点缺陷。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/127896.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在家庭网络中开启 IPv6内网穿透

随着互联网的不断发展,IPv4地址资源逐渐枯竭,而IPv6作为它的继任者,为网络连接提供了更多的IP地址。启用IPv6对于家庭网络来说变得越来越重要,因为它可以提供更稳定、更安全、更快速的互联网连接。本文将指导如何在家庭网络中启用…

【Linux】服务器间免登陆访问

准备两台服务器,服务器A,服务器B 在服务器A中实现免登陆服务器B 进入服务器A操作 进入目录/root/.ssh cd /root/.ssh秘钥对使用默认文件名 生成秘钥对,在输入秘钥文件时直接回车则会使用默认文件名:id_rsa ssh-keygen -t rsa…

软考 系统架构设计师系列知识点之系统架构评估(1)

所属章节: 第8章. 系统质量属性与架构评估 第2节. 系统架构评估 8.2.1 系统架构评估中的重要概念 1. 概述 系统架构评估是在对架构分析、评估的基础上,对架构策略的选取进行决策。它利用数学或逻辑分析技术,针对系统的一致性、正确性、质量…

Paddle炼丹炉炸了Unexpected BUS error encountered in DataLoader worker

Paddle训练报错,内存不足 python train.py -c config/ResNet_W18.yaml修改配置文件config/ResNet_W18.yaml # 原配置 loader:num_workers: 4use_shared_memory: True# 修改后 loader:num_workers: 2use_shared_memory: False

基于GB28181-2022实现web无插件播放H265视频

目前发布的GB28181-2022增加了对前端设备视频H265编码格式的支持,所以实现国标平台通过浏览器对H265视频流的无插件的解码播放将是未来的趋势。 目前大多的方案都是通过平台端把H265转码为H264,再推送到web前端进行解码播放,这种方式因为需要…

MAA连不上MUMU模拟器

之前一直能正常用,最近突然连接不上,最终发现是adb版本不同造成的,我系统变量的adb版本如下: MUMU自带adb版本如下: 解决办法: 把mumu的adb复制到系统变量路径下,或者把adb的系统变量删除

小红书协议算法最新版

如果您想通过学习来了解小红书的点赞、关注、私信等功能的实现,以下是一些一般性的思路和示例代码,供您学习参考: 1. 点赞功能: - 后端实现:在后端,您可以创建一个用于存储用户点赞信息的数据库表。对于每…

uniapp/H5富文本复制文本功能

代码实现: copy() {let replacedContent this.form.resTaskBaseInfoDetail.content;let text readHtml(replacedContent)// #ifdef H5let textarea document.createElement("textarea")textarea.value texttextarea.readOnly "readOnly"d…

STM32-创建项目流程

一、基于STM官网得库进行开发 准备工作:下载STM库文件 1、创建项目文件夹 2、在keil 中new uVision project,然后选择刚刚创建得文件夹,在文件夹里面创建一个文件,用来存放这个项目,然后在文件夹里面,写个文件名&am…

基于机器视觉的银行卡识别系统 - opencv python 计算机竞赛

1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于深度学习的银行卡识别算法设计 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://gitee.com/dancheng…

HIve部署

文章目录 1.部署hadoop集群2.部署HIVE 1.部署hadoop集群 机器准备3台,关闭防火墙 hadoop1 192.168.200.41 hadoop2 192.168.200.43 hadoop2 192.168.200.43安装java环境,并设置java环境变量/etc/profile.d/java.sh #java export JAVA_HOME/opt/java/jdk1…

在基于亚马逊云科技的湖仓一体架构上构建数据血缘的探索和实践

背景介绍 随着大数据技术的进步,企业和组织越来越依赖数据驱动的决策。数据的质量、来源及其流动性因此显得非常关键。数据血缘分析为我们提供了一种追踪数据从起点到终点的方法,有助于理解数据如何被转换和消费,同时对数据治理和合规性起到关…

使用Redis实现延迟队列

1. 步骤 在 Redis 中,可以使用有序集合(Sorted Set)和延迟队列的概念来实现延迟队列功能。延迟队列允许你按一定的延迟时间执行任务或者事件。 基本的实现步骤如下: 将任务和对应的执行时间加入有序集合: 在有序集合…

HarmonyOS(二)—— 初识ArkTS开发语言(上)之TypeScript入门

前言 Mozilla创造了JS,Microsoft创建了TS,而Huawei进一步推出了ArkTS。因此在学习使用ArkTS前,需要掌握基本的TS开发技能。 ArkTS介绍 ArkTS是HarmonyOS优选的主力应用开发语言。它在TypeScript(简称TS)的基础上&am…

奇富科技引领大数据调度革命:高效、稳定、实时诊断

日前,在世界最大的开源基金会 Apache旗下最为活跃的项目之一DolphinScheduler组织的分享活动上,奇富科技的数据平台专家刘坤元应邀为国内外技术工作者献上一场题为《Apache DolphinScheduler在奇富科技的优化实践》的精彩分享,为大数据任务调…

历年网规上午真题笔记(2015年)

解析: 变更控制为“问题识别”——“问题分析与变更描述”——“变更分析与成本计算”——“变更实现”——“修改后的需求” 自动化工具能够帮助变更控制过程更有效地运作,能有效收集、存储、管理变更,工具应该具备的特征如下: 可定义变更请求中的数据可定义变更请求生命…

云原生环境下JAVA应用容器JVM内存如何配置?—— 筑梦之路

Docker环境下的JVM参数非定值配置 —— 筑梦之路_docker jvm设置-CSDN博客 之前简单地记录过一篇,这里在之前的基础上更加细化一下。 场景说明 使用Java开发且设置的JVM堆空间过小时,程序会出现系统内存不足OOM(Out of Memory)的…

基于SSM的餐饮掌上设备点餐系统

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

Java,面向对象,抽象类和抽象方法(abstract的使用)

关于抽象类和抽象方法的使用,以Person和student和Teacher为例,若Student类和Teacher继承于Person类,老师和学生都有Person的特征。在一个班级里,只需要创建老师和学生的实例,并不需要创建Person的实例。关于Person的方…

大数据笔记-关于Cassandra的删除问题

Cassandra是Facebook开源的一个NoSQL数据库,它除了具备一般的NoSQL分布式数据库特点以外,最大的一个特点是去中心化架构设计,这和Hadoop HDFS/HBase等不一样,比如HDFS分为NameNode和DataNode,而Cassandra集群中所有节点…