如何实现对主机的立体监控?

主机监控是保证系统稳定性和性能的重要环节之一,那应该如何实现对主机的立体监控?

本期EasyOps产品使用最佳实践,我们将为您揭晓:

  • 主机应该如何分组和管理?

  • 主机监控应该关注哪些关键性指标?

背 景

通过监控主机的各项指标,我们可以及时发现问题、诊断故障,并采取相应的措施来确保主机的正常运行。本文将结合之前的最佳实践,综合性介绍主机监控的目标和实现方式,以帮助您有效地监控主机的关键指标。

主 机 监 控 目 标

在进行主机监控时,我们通常关注以下几个重要指标:

在监控上述指标的实践中,我们不仅会进行指标的采集和监测,还会对异常情况进行告警处理。在进行告警时,我们注重提供丰富的信息和指标,以更加友好和直观的方式向用户发送告警通知,以协助用户进行告警分析和故障排查。

通过丰富的告警信息,我们可以提供更多的上下文和细节,帮助用户更好地理解告警的原因和影响。告警信息可能包括详细的指标数值、触发告警的条件、相关的主机或服务信息等,以帮助用户快速定位问题所在。

下面,我将基于EasyOps平台的优维的EasyOps监控系统,一步一步从0开始实践如何对主机实现立体监控。

实 践

1.主机分类

首先,为了更好地进行主机监控,我们需要对主机进行分类。通常情况下,我们会关注生产环境中的主机,或者具备一些特定特征的主机。通过对主机进行分类,我们可以更有针对性地进行监控和管理。而借助 CMDB 平台的查询策略,我们可以方便地对主机进行分类和查看。

主机分类的方式可以根据不同的需求和业务场景来确定。以下是一些常见的主机分类方式:

  • 按照环境分类:将主机划分为生产环境、开发环境、测试环境等,以便针对不同环境进行监控和管理。

  • 按照业务应用分类:将主机按照所承载的业务应用进行分类,例如 Web 服务器、数据库服务器、应用服务器等,以便更好地追踪和管理各个业务应用的性能和可用性。

  • 按照地理位置分类:将主机按照地理位置进行分类,例如不同地区、不同数据中心或机房的主机,以便进行地域性的监控和管理。

  • 按照硬件配置分类:将主机按照硬件配置进行分类,例如不同型号、不同规格的主机,以便更好地了解不同硬件配置对性能的影响。

在本次实践中,我的监控对象分为两种类型:

  • 按环境和用途区分,以归类于“生产环境主机”

  • 按虚拟化类型区分,已归类于“宿主机“

如下图所示:

上面可以看到有两条查询策略,仅需点击查询策略后即可过滤出主机组。

2.采集策略

在优维的EasyOps监控系统中,主机作为最基本和基础的监控资源对象,已经内置好主机采集策略。我们可能需要稍微对采集范围做一些调整,以符合我们的监控目标需求。此处我将重新建立一条监控采集策略,以帮助您了解一条采集策略需要包含哪些基本内容:

新建采集策略

点击右上角的新建,选择system套件,填入所需的任务名,指标集等信息。

特别说明:system套件是主机采集套件,将对主机的cpu、内存、网络、磁盘、文件系统和进程等信息进行采集。

选择采集实例范围

此处基于CMDB的查询策略,可快速过滤出目标主机组。此处,我们过滤出生产环境的宿主机作为监控对象。如下所示:

点击下一步保存即可。

稍等片刻,即可看到所有的实例对象的采集状态都是正常,说明指标采集成功。

针对于宿主机这个主机组,已经配置完成。

而针对于生产环境主机这个主机组,步骤也一样,此处不赘述。

3.告警规则

接下来针对监控目标的表格,设定告警规则。我们的告警规则设定如下,仅供参考:

新建规则

右上角点击新建规则

注意,选择的类型为:主机。

而后添加监控目标,此处的监控目标就是CMDB查询策略中定义好的规则。此处我们已经把规则建立好,因此可以直接绑定已有查询策略:

建立告警套件策略

我们的阈值条件判断是:主机5分钟单核平均负载大于5「或」cpu使用率大于85%,因此这是一个或条件。此时在告警来源中,我们选择「从【阈值条件.任意条件】产生」;如果是与条件,则选择「从所有条件产生」。

为了准确触发告警,系统使用连续的3个数据点来判断是否达到告警条件。每分钟采集一次数据,如果在连续的3分钟内命中告警条件,系统将触发相应的告警通知。

在设计告警策略时,系统考虑了告警的延迟,以适应可能的瞬时异常情况,从而提高告警的准确性。因此,即使出现短暂的异常情况,系统会等待一段时间确认后再触发告警,以减少误报的可能性。

告警分析

当主机发出告警后,了解关于该主机的上下文信息对于告警分析和问题解决非常重要。监控平台支持联动CMDB模型中的属性信息,可以非常灵活地在告警信息中包含来源于CMDB的实例属性,并且还能关联目标指标的关联指标信息,以提供更丰富的信息支持。比如:

  • 主机负责人:在告警通知中包含主机的负责人联系信息,以便管理员可以直接与负责人进行沟通和协调。

  • 关联指标:对于本例中的CPU负载告警,我们可以在告警通知中包含当前的CPU使用率

因此,我们可以基于告警分析中的告警丰富和信息丰富去完成。

信息丰富:添加负责人

通过选择CMDB的主机模型中的属性信息,添加到告警通知中,让我们可以得知该主机的负责人,以便当主机告警时可以得知应该谁去处理该告警。

指标丰富:丰富CPU信息

此时告警模板中就可以添加丰富的信息。

更多地,根据实际情况添加即可。如下告警分析供参考:

告警通知

最后,添加告警通知。告警通知支持多种通知媒介,此处以钉钉机器人为例子说明。

简单地填写好配置信息后,我们重点添加告警内容的模板,结合我们上一篇的最佳实践《一个“好”的告警通知是怎样的?》,我们可以得出以下的模板

这里给出一个示例,如下:

●告警模板:

{{time|ts2str:'%Y-%m-%d  %H:%M'}} 产生告警事件</font></h2>

| 事件类型 | SLO事件 |   

| --- | --- |   

| 告警等级 | {{levelName}} |   

| 告警资源 | {{******}} |   

| 告警信息 |  {{originContent}} |     

| 运营负责人 |{{instance|jsonpath:'$.owner[*].name'|unique|join:','}} |   

| 持续时长 | {{duration|duration_format:'zh'}} |   

| 首次发生时间 | {{startTime|ts2str:'%Y-%m-%d %H:%M'}} |   

| 事件详情 | [请点击](http://*****.******.*****/next/events/{{eventId}}/detail) | 

| 策略详情 | [请点击](http://*****.******.*****/next/events/alert-rule/alert-rule/{{ruleId}}/edit) |{% if  metricName != "主机agent状态" && metricName != "detect_code" && metricName != "detect_time_cost" %}| 采集任务 | [{{collectorJob|showname|default:"请点击"}}](http://*****.******.*****/next/infra-monitor/setting/collection-strategy/{{collectorJob|mvalue:"instanceId"}}/detail) |{% elif  metricName == "detect_code" || metricName == "detect_time_cost" %}| 采集任务 | [{{collectorJob|showname|default:"请点击"}}](http://*****.******.*****next/infra-monitor/setting/collection/detect/{{collectorJob|mvalue:"instanceId"}}/detail) |{% endif %}

●告警解除模板:

{{time|ts2str:'%Y-%m-%d  %H:%M'}} 告警事件解除</font></h2>

| 事件类型 | SLO事件 |   

| --- | --- |   

| 告警等级 | {{levelName}} |   

| 告警资源 | {{******}} |   

| 告警信息 |  {{originContent}} |     

| 运营负责人 |{{instance|jsonpath:'$.owner[*].name'|unique|join:','}} |   

| 持续时长 | {{duration|duration_format:'zh'}} |   

| 首次发生时间 | {{startTime|ts2str:'%Y-%m-%d %H:%M'}} |   

| 事件详情 | [请点击](http://*****.******.*****/next/events/{{eventId}}/detail) | 

| 策略详情 | [请点击](http://*****.******.*****/next/events/alert-rule/alert-rule/{{ruleId}}/edit) |{% if  metricName != "主机agent状态" && metricName != "detect_code" && metricName != "detect_time_cost" %}| 采集任务 | [{{collectorJob|showname|default:"请点击"}}](http://*****.******.*****/next/infra-monitor/setting/collection-strategy/{{collectorJob|mvalue:"instanceId"}}/detail) |{% elif  metricName == "detect_code" || metricName == "detect_time_cost" %}| 采集任务 | [{{collectorJob|showname|default:"请点击"}}](http://*****.******.*****/next/infra-monitor/setting/collection/detect/{{collectorJob|mvalue:"instanceId"}}/detail) |{% endif %}

保存后即完成了告警规则。

当告警发生时,会发出如下通知:

告警解除后,发出以下通知:

到此为止,主机监控的配置已经完成,此时您的主机已经纳入到监控系统中,通过主机监控,您可以及时掌握主机的状态和性能情况。

并且通过告警和监控dashboard,及早发现并分析潜在问题,提高系统的稳定性和可靠性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/27516.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL建表和增添改查

1.创建一个名为mydb的数据库 mysql> show database mydb; 查询 mysql> show database mydb; 2.创建一个学生信息表 mysql> create table mydb.student_informtion( -> student_id int UNSIGNED NOT NULL PRIMARY KEY, //非空&#xff08;不允许为空&#xff0…

FastAPI(七)应用配置

目录 一、在apps下新建文件夹config 二、新建配置文件app_conf.py 一、在apps下新建文件夹config 二、新建配置文件app_conf.py from functools import lru_cachefrom pydantic.v1 import BaseSettingsclass AppConfig(BaseSettings):app_name: str "Windows10 插件&qu…

WGS_1984_UTM、WGS_1984_Mercator坐标转化为经纬度坐标python

1、遥感影像的PROJECTION有哪些 遥感影像常见的投影类型有很多&#xff0c;具体选择哪种投影方式取决于数据的特性和使用需求。以下列举了一些常见的遥感影像投影类型&#xff1a; UTM (Universal Transverse Mercator) 投影&#xff1a;最常见的投影类型之一&#xff0c;将地…

uboot详解

uboot入口 在PC机上引导程序一般由BIOS开始执行&#xff0c;然后读取硬盘中位于MBR(Main Boot Record&#xff0c;主引导记录)中的Bootloader(例如LILO或GRUB),并进一步引导操作系统的启动。然而在嵌入式系统中通常没有像BIOS那样的固件程序&#xff0c;因此整个系统的加载启动…

Unity之ShaderGraph 节点介绍 UV节点

UV节点 Flipbook&#xff08;翻页或纹理帧动画&#xff09; Polar Coordinates&#xff08;将输入 UV 的值转换为极坐标。&#xff09; Radial Shear&#xff08;径向剪切变形&#xff09; Rotate&#xff08;将UV 的值旋转&#xff09; Spherize&#xff08;鱼眼镜头的球形变…

Spring系列三:基于注解配置bean

文章目录 &#x1f497;通过注解配置bean&#x1f35d;基本介绍&#x1f35d;快速入门&#x1f35d;注意事项和细节 &#x1f497;自己实现Spring注解配置Bean机制&#x1f35d;需求说明&#x1f35d;思路分析&#x1f35d;注意事项和细节 &#x1f497;自动装配 Autowired&…

【基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建逻辑回归鸢尾花分类预测模型】

逻辑回归进行鸢尾花分类的案例 背景说明&#xff1a; 基于IDEA Spark 3.4.1 sbt 1.9.3 Spark MLlib 构建逻辑回归鸢尾花分类预测模型&#xff0c;这是一个分类模型案例&#xff0c;通过该案例&#xff0c;可以快速了解Spark MLlib分类预测模型的使用方法。 依赖 ThisBui…

maven 删除下载失败的包

本文介绍了当Maven包报红时&#xff0c;使用删除相关文件的方法来解决该问题。文章详细说明了_remote.repositories、.lastUpdated和_maven.repositories文件的作用&#xff0c;以及如何使用命令行删除这些文件。这些方法可以帮助开发者解决Maven包报红的问题&#xff0c;确保项…

Linux 中利用设备树学习Ⅳ

系列文章目录 第一章 Linux 中内核与驱动程序 第二章 Linux 设备驱动编写 &#xff08;misc&#xff09; 第三章 Linux 设备驱动编写及设备节点自动生成 &#xff08;cdev&#xff09; 第四章 Linux 平台总线platform与设备树 第五章 Linux 设备树中pinctrl与gpio&#xff08;…

OBD针脚定义参考

OBD定义的一种标准的参考&#xff0c;不同的车场有不同的定义&#xff0c;貌似没有统一。 在某宝上看到的ODB转db9的不同的线序&#xff1a; 1&#xff09;1/2/3/6几个针脚都是一样的&#xff0c;分别上下针脚对应。 2&#xff09;其中一种4/5/7/8也是上下对应的&#xff1b;另…

自动化处理,web自动化测试处理多窗口+切换iframe框架页总结(超细整理)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 web 自动化之处理…

APP外包开发的学习流程

学习iOS App的开发是一项有趣和富有挑战性的任务&#xff0c;是一个不断学习和不断进步的过程。掌握基础知识后&#xff0c;不断实践和尝试新的项目将使您的技能不断提升。下面和大家分享一些建议&#xff0c;可以帮助您开始学习iOS App的开发。北京木奇移动技术有限公司&#…

小红书 KOL 种草执行策略揭秘:打造爆款产品,提升品牌影响力

随着互联网的普及和社交媒体的发展&#xff0c;小红书成为了众多年轻人购物决策的重要参考平台。小红书 KOL 种草作为一种新兴的营销方式&#xff0c;以其强大的传播力和影响力&#xff0c;越来越受到各大品牌的重视。本文伯乐网络传媒将给大家深入探讨小红书 KOL 种草的执行策…

mysql转sqlite3

在项目中需要将mysql迁移到sqlite3中&#xff0c;此时需要作数据转换 准备工作 下载mysql2sqlite转换工具 https://github.com/dumblob/mysql2sqlite/archive/refs/heads/master.zip 下载sqlite3 https://www.sqlite.org/download.html 转换 命令行中输入如下命令 1、cd …

海康威视摄像头二次开发_云台控制_视频画面实时预览(基于Qt实现)

一、项目背景 需求:需要在公司的产品里集成海康威视摄像头的SDK,用于控制海康威视的摄像头。 拍照抓图、视频录制、云台控制、视频实时预览等等功能。 开发环境: windows-X64(系统) + Qt5.12.6(Qt版本) + MSVC2017_X64(使用的编译器) 海康威视提供了设备网络SDK,设备网…

Zabbix监控系统详解及配置

前言 作为一个运维&#xff0c;需要会使用监控系统查看服务器状态以及网站流量指标&#xff0c;利用监控系统的数据去了解上线发布的结果&#xff0c;和网站的健康状态。利用一个优秀的监控软件&#xff0c;我们可以&#xff1a; 通过一个友好的界面进行浏览整个网站所有的服务…

Data analysis|Tableau基本介绍及可实现功能

一、基础知识介绍 &#xff08;一&#xff09;什么是tableau tableau 成立于 2003 年&#xff0c;是斯坦福大学一个计算机科学项目的成果&#xff0c;该项目旨在改善分析流程并让人们能够通过可视化更轻松地使用数据。Tableau可以帮助用户更好地理解和发现数据中的价值&#x…

虚拟机centos7配置网络

虚拟机centos7配置网络 centos7克隆之后需要配置网络才能联网。 实验环境&#xff1a; VMware Workstation Pro 16CentOS 7系统虚拟机主机Windows 11系统 1.VMware网络模式设置为NAT模式 虚拟机–设置–网络适配器– ​​ ‍ 2.查看虚拟机 子网IP和网关IP 编辑–虚拟网…

一、Webpack相关(包括webpack-dev-server用以热更新和html-webpack-plugin)

概念与功能&#xff1a; webpack是前端项目工程化的具体解决方案。它提供了友好的前端模块化开发支持&#xff0c;以及代码压缩混淆、处理浏览器端JavaScript的兼容性、性能优化等强大的功能。 快速上手&#xff1a;隔行变色 -S实际是--save的简写&#xff0c;表示安装的第三方…

判断是否在当前页面事件方法

页面可见性 页面可见性介绍 长期以来我们一直缺少一个判断用户是否正在浏览某个指定标签页的方法。用户是否去看别的网站了&#xff1f;他们切换回来了吗&#xff1f;现在html5里页面可见性接口就提供给了程序员一个方法&#xff0c;让他们使用visibilitychange页面事件来判断…