前言
随着科技的飞速发展,企业对于业务的稳定性和连续性要求越来越高。传统的监控方式虽然在一定程度上能够保证业务的正常运行,但在面对复杂多变的业务场景和日益增长的数据量时,往往显得力不从心。为了解决这一问题,观测云在提供全面的可配置的监控器同时,结合最新的智能算法和技术,推出了智能监控功能,帮助企业轻松应对更多业务挑战, 也使观测云可观测性系统更加完善。
强大的智能监控
智能监控综合使用 ADTK (Anomaly Detection Toolkit)中异常检测算法(Detector)以及一些常用算法和处理函数,智能化检测时间序列数据中的异常值,对于业务分析、用户行为的分析、以及出现故障的根因分析能力,提供了一套快速定位异常节点的机制;高效地帮助用户主动地发现问题并生成事件报告。在对原本的智能巡检功能优化和升级后,全新的智能监控的优势也十分明显,具体有以下几项:
- 更加快速定位异常节点:通过分析场景构建对多维指标做关键维度的定位;在定位到业务的维度范围后,围绕着微服务中服务的调用,服务的资源依赖,快速定位分析异常,大大提高了故障排查的效率。
- 完美掌控波动性强的指标:为用户预制检测规则,适用于波动性较强的业务类及其他数据指标,能够更好地应对数据的快速变化和异常波动,提供实时事件分析报告并及时告警,帮助运维人员及时关注并解决问题。
- 精准识别与预测异常数据:基于强大的智能检测算法,智能监控能够自动识别异常数据并预测未来走势,为企业提供更加及时、准确的故障预警和排查支持。
- 灵活简捷的监控配置:与传统监控方式相比,智能监控无需复杂的阈值和触发规则配置,只需设定检测范围及通知人即可一键开启监控,这种简化的设置方式使得更多企业能够减少大量的时间成本和使用门槛。
丰富的检测类型
观测云智能监控目前支持 4 种智能检测规则,不同的规则覆盖不同数据范围以及多种指标,如下列表:
规则名称 | 数据范围 | 检测频率 | 基本描述 |
---|---|---|---|
主机智能检测 | 指标(M) | 30 分钟 | 通过智能算法自动检测主机,发现主机 CPU、内存异常情况。 |
日志智能检测 | 日志(L) | 60 分钟 | 通过智能算法自动检测日志中的异常,检测指标包含日志数量,错误日志数。 |
应用智能检测 | 链路(T) | 30 分钟 | 通过智能算法自动检测应用中的异常,检测指标包含应用请求数量,错误请求数,以及请求延迟。 |
用户访问智能检测 | 用户访问数据(R) | 60 分钟 | 通过智能算法自动检测网站/APP 中的异常,包含页面性能分析,错误分析,相关检测指标有 LCP、FID、CLS、Loading Time等。 |
主机智能检测
主机智能检测基于智能检测算法,定期对主机的 CPU、内存进行智能检测。通过对出现 CPU、内存异常的主机进行根因分析,确定该主机是否存在突增/突降/区间性上升的异常情况,从而监控主机的运行状态及稳定性。适用于对稳定性和可靠性要求较高的业务主机的监控,支持对产生的异常事件提供分析报告,不仅可以看到主机的相关详情,还能对异常情况做较为全面的分析。
日志智能检测
日志智能检测基于智能检测算法,监控工作空间内采集器产生的日志数据。智能识别日志数量的突增 / 突降、错误日志突增的异常数据,及时发现不符合预期的异常状态。多适用于在 IT 监控场景下,通过事件异常总结和错误分析,对代码异常或任务调度检测等数据进行更深层次的下钻分析。
应用智能检测
应用智能检测基于智能检测算法,智能识别应用请求数量的突增 / 突降、错误请求数量的突增、请求延迟的突增 / 突降 / 区间上升等异常情况。通过应用程序服务异常指标来自动进行异常分析,您可以根据异常总结以及资源分析,快速定位故障点并恢复,有效确保服务平稳运行状态。
用户访问智能检测
用户访问智能检测基于智能检测算法,智能检测用户访问 Web / APP 的性能异常和错误突增情况。基于检测指标进行性能和错误两个方面的异常分析,并触发告警,高效地帮助您监测网站或应用程序的运行情况以及用户使用情况。相关的指标及预设阈值如下:
- 性能分析指标预设阈值: LCP(>= 2.5 s)、INP (>= 200 ms)、FID (>= 100 ms)、CLS (> 0.01);
基于性能分析指标,统计检测区间受影响用户占比,设置告警级别阈值:Critical > 76.2% 、 Warning > 47.4% 、 error > 59.8% ;
- 错误检测指标:会话错误数、页面错误数、动作错误数。
其事件分析报告的异常总结会显示查看用户访问服务标签、分析报告详情、异常分布情况统计;同时您还能够根据具体情况进行页面性能或错误分析,即关联用户访问页面仪表板,分析页面 LCP、FCP、页面错误率等指标趋势。
简单的配置过程
- 不同于传统形式的监控器需要配置复杂的阈值和触发规则,您只需要简单设置筛选数据的检测范围或自定义添加所需的属性字段作为筛选项,即可锁定更加精准的智能监控数据检测范围。
- 智能监控会在发现异常后由算法自动生成事件报告并通知相关人员,帮助您及时发现异常情况并快速定位分析。您还可以自定义配置事件通知使接受人更清楚的了解事件内容;或将同步创建 Issue 异常追踪进行高效地统一管理。
- 好用的告警配置能够根据所设置的不同事件等级、通知对象、以及告警聚合规则在该智能监控满足触发条件后,立即发送告警消息给指定的通知对象。值得注意的是,智能监控触发的事件等级为重要,您可以重点关注重要等级中的通知对象,以便高效管理告警通知。
配置告警策略,详情参见:机智的告警策略,完善监控系统的重要一环
完成创建智能监控后,监控器会获取所筛选后的各类数据,识别出现异常情况时,会生成相应的事件,您可以事件>智能监控列表中查看对应异常事件详情和分析报告,从而进一步分析并快速解决故障。
值得关注的是,分析报告是采用了仪表板模式做绑定的,如下图(以主机检测事件报告为例);在异常总结中,您可以查看异常点的具体分析数据以及相应主机的情况。同时,您可以直接跳转至该仪表板视图模版进行下钻分析,更加快速找到问题原因并解决。若您需要更加个性化的分析报告仪表板,观测云还支持您创建同名视图,更新分析看板则将覆盖现有事件分析报告,帮助您大大提升分析效率。
最后
通过本文的介绍,相信您已经了解如何快速使用智能监控,并体会到了观测云智能监控的强大优势和魅力。丰富的检测类型能够帮助各行各业的企业进行数字化改革,搭配常规的监控器使用,不仅能够全面覆盖企业的数据监控场景,还能够有效地降低各类成本。
观测云智能监控功能的上线,无疑是一次可观测系统智能化一次质的飞跃。它不仅提升了监控的智能化水平,更在业务稳定性、连续性和安全性等方面为企业提供了强有力的保障。通过运用这一功能,企业将能够更好地洞察业务运行的全貌,及时发现并解决潜在问题,从而确保业务的持续、稳定运行。我们相信,观测云智能监控功能将成为企业数字化转型道路上的得力助手;未来智能监控的持续升级也值得我们共同期待!