智能巡检告警配置实践

简介:智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中,单个任务往往会巡检大量的实体对象,涉及到的对象规则很多,我们通过SLS新版告警可以实现较好的对于巡检事件的管理。

智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中,单个任务往往会巡检大量的实体对象,涉及到的对象规则很多,我们通过SLS新版告警可以实现较好的对于巡检事件的管理。

巡检事件基础结构

在这里,我们先简单看下巡检任务的基本逻辑:

对于单个巡检作业而言,内部包含N个实体的巡检,每个巡检实体对应一个巡检模型,其中任意一个异常事件产生后,都会通过告警系统通知到用户,因此我们需要有能力通过不同的方式将结果进行分发和管理。

我们先看下巡检事件的基础结构,具体的内置模板如下所示:

## 数据源
+ Project: ${results[0].project}
+ LogStore: ${results[0].store}##  异常对象
+ Entity: ${labels}## 异常程度
+ Score: ${annotations.anomaly_score}## 异常时序图
![image](${annotations.__plot_image__})[[数据详情](${query_url})]
[[作业详情](${alert_url})][[确认](${annotations.__ensure_url__})]
[[误报](${annotations.__mismatch_url__})]

我们一起来看下具体的告警消息的样例,接下来我们所有的描述都会根据对应的如下结果进行描述。

{"results": [{"store_type": "log","region": "cn-chengdu","project": "sls-ml-demo","store": "machine_metric_logtail","start_time": 1641361140,"end_time": 1641361200}],"labels": {"ip": "192.168.1.5","name": "load_avg"},"annotations": {"__ensure_url__": "$url_path","__mismatch_url__": "$url_path","__plot_image__": "$url_path","alert_msg_type": "ml_anomaly_msg","anomaly_score": "0.8000","anomaly_type_id": "1","anomaly_type_name": "STAB_TYPE","job_id": "29030-2bbf5beba0110fa869339708a8217b67","model_id": "9c0f0d5ad4879eb75237e2ec8494f5f1","title": "metric-logtail-sql"},"severity": 8,"drill_down_url": "$url_path"
}

典型场景配置

场景一

目标:过滤特定实体的异常

操作步骤

  • 寻找到某个巡检任务的【行动策略ID】,这里要根据用户自己的实际配置来确定,具体的路径如下:

  • 在行动策略中,添加对应的条件

  • 根据上述提供的告警字段而言,我们假设目前只将【标签】中字段为【ip】且值为【192.168.1.5】的告警消息发送到特定的【钉钉机器人】中

场景二

目标:过滤特定分数的异常

操作步骤

  • 找到特定的【行动策略ID】,添加【条件】
  • 配置【异常分数】超过【0.9】分数以上的告警到特定的渠道
  • 【名称】- anomaly_score
  • 【正则】- ^((1\.0*)|(0\.9[0-9]*))$

场景三

目标:过滤特定实体的特定分数的异常

操作步骤

  • 找到特定的【行动策略ID】,添加【条件】
  • 配置【特定实体】的【异常分数】超过【0.9】分数以上的告警到特定的渠道
  • 【标注】的名称设置为 anomaly_score,【正则】- ^((1\.0*)|(0\.9[0-9]*))$
  • 【标签】的名称设置为 ip,对应的实体内容是 192.168.1.5

场景四

目标:过滤特定异常类型的异常

操作步骤

  • 找到特定的【行动策略ID】,添加【条件】
  • 配置【特定异常形态】
  • 配置【标注】anomaly_type_id,根据对应的值进行判别,具体的内容可以参考[异常类型说明](异常类型说明 - 日志服务 - 阿里云)
  • 这里只接受特定的【向上漂移类型的异常】anomaly_type_id = 7

场景五

目标:根据巡检事件和根因事件类型进行分发

操作步骤

  • 找到特定的【行动策略ID】,添加【条件】
  • 配置【智能告警的事件类型】
  • 配置【标注】alert_msg_type,对应的值是 ml_anomaly_msg (这个字段表示的是智能巡检的告警)

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511597.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于链路思想的SpringBoot单元测试快速写法

简介:本文更偏向实践而非方法论,所提及的SpringBoot单元测试写法亦并非官方解,仅仅是笔者自身觉得比较方便、效率较高的一种写法。每个团队甚至团队内的每位开发可能都有自己的写法习惯和风格,只要能实现单元测试的效果&#xff0…

access数据库文件导入mysql数据库文件怎么打开,Access数据库从外部数据导入文本文件和VF数据库-dbf文件怎么打开...

亲爱的小伙伴们,我们又见面了!上一期我们学习了Access数据库从外部数据导入Excel文件,下图学生成绩表2就是我们新导入的数据:导入Excel文件今天我们来学习如何从外部数据导入文本文件和VF数据库。导入文本文件:我们点击…

数据在网络中是如何传输的

作者 | 杰哥来源 | 杰哥的IT之旅你有想过吗,在计算机网络当中,数据是怎么样保证准确的从客户端发送到服务器端的?中间涉及到了哪些理论?01 客户端各层对数据的封装 java实现客户端的代码如下:应用层会指定发送的服务器…

龙蜥利器:系统运维工具 SysAK的云上应用性能诊断 | 龙蜥技术

简介:本文从大量的性能诊断实践出发,来介绍 SysAK 在性能诊断上的方法论及相关工具。 文/张毅:系统运维SIG核心成员、SysAK 项目负责人;毛文安:系统运维 SIG 负责人。 系统运维既要业务稳定的运行,又要最大…

以智能工具辅助报考决策,夸克发布2022年高考志愿趋势报告

1、夸克App推出高考信息服务产品,发布“暖芒计划”助学活动,为乡村考生免费提供“专家志愿辅导”和“志愿助力包” 2、报告数据显示:80后加入高考家长大军、海南大学最受欢迎、计算机类专业热度最高。 2022年高考落下帷幕,志愿填报…

Apache RocketMQ + Hudi 快速构建 Lakehouse

简介:基于RocketMQ和Hudi零代码构建Lakehouse架构,以及RocketMQ Connector & RocketMQ Stream助力ETL数据分析,为大家提供快速构建Lakehouse的技术方案和低运维成本实现实时计算的解决方案。 本文目录 背景知识大数据时代的构架演进Rock…

柔性产线的数字孪生加速器:Unity发布UMT工具包

数字化浪潮不仅深度改变了日常生活的样貌,也在不断改造工厂的运行机制,生产线的日趋智能化,几乎重构了我们对生产效率的想象。工业4.0带来的变革,既在真实世界与虚拟世界之间建立了高效链接,也改写了人与机器的关系&am…

混合云应用双活容灾实践

简介:本文会通过一个业务 Demo 案例,介绍混合云容灾建设的难点,以及如何基于 MSHA 来快速搭建应用双活架构并具备分钟级业务恢复能力。 作者:远跖 前言 越来越多的企业在数字化转型和上云进程中选择混合云的形态(云…

操作系统是如何保护自己的? CPU与保护模式

作者 | 陆小凤 在回答这个问题之前,你可能会首先想:为什么操作系统需要保护自己呢? 操作系统其实就是一个大管家,负责给应用程序搭建舞台,好让程序们过好自己的一生,但偏偏有不听话的程序可能想抢操作系统的…

如何快速调度 PTS 的百万并发能力

简介:压测是通过模拟用户行为对业务系统发起请求,测算出系统的承载能力,并对系统做一次全面的体检,压测后可根据压测表现优化系统瓶颈,防止出现线上故障。 作者:灵苒 在实际的业务场景中,压测…

架构师说低代码:走出半生,归来仍是“毒瘤”!

当今世界正在经历数字化与智能化的发展蜕变,其中软件开发技术作为推动数字化转型的必要支撑,成为企业变革的重要推手。云原生作为产业数字化的关键技术之一,催生出低代码等软件开发模式,让开发逐渐走向低门槛、迭代快、可扩展。今…

网关流控利器:结合 AHAS 实现 Ingress/Nginx 流量控制

简介:微服务的稳定性一直是开发者非常关注的话题。随着业务从单体架构向分布式架构演进以及部署方式的变化,服务之间的依赖关系变得越来越复杂,业务系统也面临着巨大的高可用挑战。 作者:涂鸦 微服务的稳定性一直是开发者非常关…

云钉一体加速,阿里云计算巢与钉钉深度融合、共建应用新生态

简介:云合计划再升级,“云钉一体”战略按下加速键。 1月13日,阿里云宣布云合计划再升级,计算巢与钉钉深度融合互通,实现一键上云、一键上钉钉,助力软件厂商更快地完成技术升级,更好地专注于自身…

DevStream 进入 CNCF 沙箱,探索云原生时代的高效 DevOps 实践

2022 年 6 月 15 日,云原生计算基金会 (CNCF) 宣布 DevStream 正式成为 CNCF 沙箱(Sandbox)项目。 DevStream 是一个开源的 DevOps 工具链管理器,可以通过一个简单的配置文件,将软件研发生命周期中各环节的 DevOps 工…

阿里云何万青:南坡VS北坡,阿里云高性能计算行业实践

简介:北坡模式:借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务。 随着数字化转型的深入,行业应用对算力提出更高要求。为满足不同行业灵活的业务形态与计算需求,以云计算技术为服务模式创新的技术…

双引擎驱动Quick BI十亿数据0.3秒分析,首屏展示时间缩短30%

简介:在规划中,Quick BI制定了产品竞争力建设的三大方向,包括Quick(快)能力、移动端能力和集成能力。针对其中的产品“报表查看打开慢”“报表开发数据同步慢”等性问题开展专项战役——Quick战役,以实现展…

Quick BI产品核心功能大图(六)开放集成

简介:企业想要拥有领先的数据分析能力,自研往往需要投入巨大的人力和财力。 Quick BI作为唯一一个连续两年入选Gartner魔力象限的中国BI产品,具备强大的全链路开放集成能力,可以轻松的与企业原有系统匹配融合,帮助企业…

低复杂度 - 服务网格的下一站

作者 | Addo Zhang来源 | 云原生指北译者:作为一个曾经在新造车公司的基础架构团队任职,为支持公司的“互联网基因”和“数字化转型”落地了云原生基础设施平台,并在尝试采用服务网格未成的我来说,看到这篇文章深有感触。尤其是文…

ADBPGGreenplum成本优化之磁盘水位管理

简介:本文我们将通过一个实际的磁盘空间优化案例来说明,如何帮助客户做成本优化。 作者 | 玉翮 来源 | 阿里技术公众号 一 背景描述 目前,企业的核心数据一般都以二维表的方式存储在数据库中。在核心技术自主可控的大环境下,政企…

阿里云图数据库GDB V3引擎发布,加速开启“图智”未来

简介:无论是学术界还是产业界,都对图数据库有比较高的预期。Gartner发布的《2021年十大数据和分析技术趋势》中提到:“到2025年图技术在数据和分析创新中的占比将从2021年的10%上升到80%。”应用需求推动着技术的发展,在GDB V3的引…