从 “香农熵” 到 “告警降噪” ,如何提升告警精度?

简介:ARMS 智能降噪功能依托于 NLP 算法和信息熵理论建立模型,从大量历史告警事件中去挖掘这些事件的模式规律。当实时事件触发后,实时为每一条事件打上信息熵值与噪音识别的标签,帮助用户快速识别事件重要性。

作者:董善东 & 白玙

对于大部分人来说,信息是一个非常抽象的概念。人们常常说信息很多或信息较少,但却很难说清楚信息到底有多少。比如一份帮助文档或一篇文章到底有多少信息量。直到 1948 年,C.E.Shannon(香农)提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是香农从热力学中借鉴而来来的。热力学中的热熵是表示分子状态混乱程度的物理量。而香农用信息熵的概念来描述信源的不确定度。

1.png

香农的信息熵本质上是对我们司空见惯的 “不确定现象” 的数学化度量。譬如说,如果天气预报说 “今天下午下雨的可能性是 60%” ,我们就会不约而同想到出门带伞;如果预报说 “有 60% 的可能性下雨” ,我们就会犹豫是否带伞,因为雨伞无用时确是累赘之物。显然,第一则天气预报中,下雨这件事的不确定性程度较小,而第二则关于下雨的不确定度就大多了。

作为数学中颇为抽象的概念,我们可以把信息熵理解成某种特定信息的出现概率。而信息熵和热力学熵是紧密相关的。根据 Charles H. Bennett 对 Maxwell's Demon 的重新解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。而产生信息,则是为系统引入负(热力学)熵的过程。当一种信息出现概率更高时,表明被传播得更广泛,或者说被引用的程度更高。我们可以认为从信息传播角度来看,信息熵可以表示信息的价值,这样子我们就有一个衡量信息价值高低的标准。

再具体到我们日常运维工作场景中,各类的告警事件作为最典型的一种信息,在面对每天海量高警事件我们该如何评估告警的信息价值成为了一个重要问题。

各大监控平台/工具一般有两种方式去识别指标异常并触发告警事件。第一种是常见的通过设定阈值/动态阈值的方式。第二种就是设定默认规则,触发系统预设规则事件,例如:机器重启等。 与此同时,运维团队往往不会依赖单一的监控工具,经常需要在各种不同层次工具中都设定对应的监控告警。

在这样的背景下,监控源多元化与监控工具类别多样化,往往导致相同故障原因在不同监控工具、不同监控规则下,触发出大量重复、冗余的告警事件。甚至在发生大范围故障时形成告警风暴。运维人员很难从这些海量告警中快速有效的识别到底哪些告警事件是重要且准确的信息,这也往往导致有效告警被淹没。因此,对于运维团队和告警产品来说,存在以下几个痛点:

  • 多处监控告警源以及频繁误报导致大量重复、冗余、低效事件,重要事件淹没在其中,无法有效识别;
  • 大范围故障导致的告警风暴;
  • 测试事件等脏数据混在事件中。

什么是 ARMS 智能降噪

ARMS 智能降噪功能依托于 NLP 算法和信息熵理论建立模型,从大量历史告警事件中去挖掘这些事件的模式规律。当实时事件触发后,实时为每一条事件打上信息熵值与噪音识别的标签,帮助用户快速识别事件重要性。

智能降噪的实现原理介绍

事件中心中大量的历史事件沉积,很难人工实现从这些大量历史事件中抽象出事件模式与价值。应用实时监控服务 ARMS ITSM 产品智能降噪功对不同告警源收归到统一平台进行告警事件处理,将这些历史事件进行模式识别,挖掘内在关联,建立基于信息熵的机器学习模型辅助用户进行事件重要性的识别,模型核心步骤包括:

2.png

  • step 1:基于自然语言处理和领域词汇库, 完成事件内容的词向量化,实现事件最小粒度的度量;
  • step 2:基于信息论中信息熵的概念, 结合 tfidf 模型,构建词向量的信息熵值和重要性度量模型;
  • step 3:利用 sigmod,完成事件的非线性和归一化 “信息熵” 度量;
  • step 4:结合历史事件的处理记录和反馈, 构建模型迭代训练与验证。

利用自然语言处理算法,基于信息论中的信息量和信息熵概念来表征事件重要性,帮助用户利用大量历史事件训练迭代出识别事件重要性的模型。当新实时事件触发时,快速识别事件重要性。同时,结合信息熵阈值设定,来完成噪音事件过滤与屏蔽。并根据时间演进以及事件类型与内容变化,模型通过自适应定期实现迭代式更新(更新频率为每周一次),无需用户进行任何操作,即可保证模型准确性。

智能降噪业务价值

业务价值一:智能化识别重复、低效事件,挖掘新奇事件

(1)大量重复、相似事件的识别

对于大量重复、相似事件,该类事件持续大量出现在事件告警中,模型对于这类事件的信息熵值会持续给予降低的信息熵,即:这类事件的信息熵值会越来越低,直到最后接近为 0。这是因为模型期待对于重要的事件,用户可以更多关注响应, 而如果事件一直重复、大量触发,往往说明这类事件用户根本不关心,从业务逻辑上也辅证了模型机理。

(2)挖掘新奇事件

对于在历史事件中不曾出现、比较少出现的事件,模型则会重点关注,认定该类事件为新奇事件,给予当前事件较大的信息熵值,以期待用户更多的关注该类事件。因此,ARMS 智能降噪模型还具备帮助用户识别重要事件的功能。

业务价值二:定制化需求支持设定

对于一些用户测试事件或特定字段事件,我们常常希望对这类事件进行定制化处理,例如:测试事件只触发查看整个流程,但不需要去点击做任何处理。再比如,有些事件中包含了特别重要字段信息,对于这类事件需要优先处理。

业务价值三: 模型具备高成长性

对于历史事件数量较少的用户(事件数量<1000), 一般不推荐打开该功能,这是因为历史事件数量过少的情况下,模型很难充分训练,识别其内在模式和规律。但是在开启后, 模型每周会在本周新发生的事件基础上,进行模型迭代训练。在用户无需关心的前提下,模型一方面自适应追踪事件模式变化,另外一方面对于原有事件数量不充足的模型, 也在持续进行充分迭代。

最佳实践

使用流程说明

step 0:入口

3.png

step 1:开启

当觉得事件量过多, 重复事件,低效/无效事件过多时, 可以选择开启智能降噪。

4.png

step 2:使用

开启后, 则会拉取历史 1 个月的事件数据(如果一个月内事件数量过多, 目前会拉取一部分进行训练)进行智能模型训练。点击智能降噪,进入详情页。

5.png

step 3:参数设定

深入了解该功能后, 用户可以开始考虑设定一些关键来进行事件的优先处理和屏蔽。优先词和屏蔽词的详情可以参考名词解释。

6.png

名词解释

  • 噪音事件阈值:开启智能降噪后, 我们会对每一条新事件计算信息熵值。噪音事件阈值设定则是划分噪音/非噪音事件的分界线。
  • 噪音事件:事件信息熵低于设定信息熵阈值的事件,统称为噪音事件。
  • 非噪音事件:事件信息熵大于或等于设定信息熵阈值的事件,统称为非噪音事件。
  • 优先词:在关键词设定中,用户可以设定一些自己想要优先看到的词汇, 如:重要, critical 等。当发生事件的事件名称和事件内容包含设定的优先词时, 当前事件的优先级相对应提高, 避免被识别成噪音事件。
  • 屏蔽词:在关键词设定中,用户可以设定一些自己认为不重要的词汇, 如:测试, test 等。当发生事件的事件名称和事件内容包含设定的屏蔽词时, 当前事件会被直接认定为信息熵为 0(如果信息熵阈值设定 >0,则被认定为噪音事件)。
  • 常见词 Top50:根据历史事件的统计学习, 模型会保存一份事件词汇的词频表。常见词则是词频表按照出现频率大小排序, 选择 Top50 进行展示。

常见问题

什么时候开启该功能

对于历史事件数量 > 1000 的用户,ARMS 智能降噪将进行自动开启操作。

对于历史事件数量仍较少的用户,用户可自行打开,但是模型效果需要一段时间时间迭代调优。

需不需要修改模型参数

建议在初期使用,不作修改,采取默认即可。

在了解功能后,可以尝试设定优先词和屏蔽词, 以及信息熵阈值,实现更定制化的需求。

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511785.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI 机器学习如何不被底层资源和数据“拉胯”,听听亚马逊云科技怎么说

编辑 | 宋慧 出品 | CSDN 云计算 在人工智能从爆火到普及应用之后&#xff0c;数据分析今年又一次被技术界广泛关注&#xff0c;热度再次到达高点。 分析与咨询机构也纷纷发表与数据相关的报告&#xff0c;德勤在刚刚发布的《 2022年度技术趋势 》中&#xff0c;第一个趋势即是…

Flow vs Jenkins 实操对比,如何将Java应用快速发布至ECS

简介&#xff1a;Jenkins 由于其开源特性以及丰富插件能力&#xff0c;长久以来都是中小企业搭建 CICD 流程的首选。不过 Jenkins 存在维护成本高、配置复杂等缺点&#xff0c;云效 Flow 较好地解决了这些问题。 本文从一个 Java 应用部署到云服务器&#xff08;ECS&#xff09…

CSS 中的简写到底有多少坑?以后不敢了...

作者 | 零一来源 | 前端印象简写&#xff08;语法糖&#xff09;可能给我们编码带来了很多便利&#xff0c;但简写也会带来一些问题&#xff0c;今天来讨论一下 CSS 中的简写的"爱恨情仇"为什么说是爱恨情仇呢&#xff1f;因为简写给我们带来了很多的便利&#xff0c…

智能巡检云监控指标的实践

简介&#xff1a;在真实的企业生产中&#xff0c;对研发和运维的同学都会面临一个十分繁复且艰难的问题&#xff0c;就是对指标的监控和告警。具体我枚举一些特定的问题请对号入座&#xff0c;看看在算力爆炸的时代能否通过算力和算法一起解决&#xff01; 背景介绍 在真实的…

新常态成型,飞连联手Forrester聚焦数字化办公新体验

随着互联网技术不断发展&#xff0c;在企业办公领域时间与空间的限制正在逐步消弭。但是&#xff0c;当企业面对内外部大量的不确定因素时&#xff0c;以往的办公模式无论是效率、安全性还是体验等各方面都将大打折扣。而在数字时代&#xff0c;混合办公模式则有望成为企业办公…

聊聊我们在业务链路升级中做的数据洞察

简介&#xff1a;关于数据相关的词条很多&#xff0c;虽然有不同的定义&#xff0c;但是本质上是相辅相成&#xff0c;通常结合使用才能拿到结果。类比词条诸如 数据分析&#xff0c;数据挖掘&#xff0c; 数据洞察。本文将聊聊我们在业务链路升级中做的数据洞察。 作者 | 金铎…

阿里云佘俊泉:创新探索不停,边缘云持续为客户创造价值

简介&#xff1a;在12月15日上午举办的分布式云领袖论坛中&#xff0c;阿里云边缘云产品负责人佘俊泉先生发表了《阿里云边缘云产品创新与场景探索》的主题演讲&#xff0c;分享了阿里云在边缘云领域的探索和思考&#xff0c;如何从产品演进、技术创新、场景应用等方面助力企业…

oracle 如何迁移到 mysql_怎么将数据库从Oracle迁移到SQL Server,或从Oracle迁移到MySQL...

有时候我们有迁移数据库的需求&#xff0c;例如从Oracle迁移到SQL Server&#xff0c;或者从MySQL迁移到Oracle。很多江湖好汉一时不知如何手工操作&#xff0c;所幸的是Navicat提供了迁移的自动化操作界面。当然&#xff0c;Navicat的数据库迁移无法做到完美&#xff0c;一些依…

深度解析单线程的 Redis 如何做到每秒数万 QPS 的超高处理能力!

作者 | 张彦飞allen来源 | 开发内功修炼服务器端只需要单线程可以达到非常高的处理能力&#xff0c;Redis 就是一个非常好的例子。仅仅靠单线程就可以支撑起每秒数万 QPS 的高处理能力。今天我们就来带大家看看 Redis 核心网络模块的内部实现&#xff0c;学习下 Redis 是如何做…

阿里云李克:边缘云技术发展与实践

简介&#xff1a;7年磨砺&#xff0c;阿里云边缘云的技术积累和沉淀哪了些&#xff1f;今年全面升级后的技术形态具有什么特性&#xff1f;它可以成熟地赋能哪些商业化技术应用场景&#xff1f;阿里云资深技术专家李克带来分享。 备受关注的2021全球分布式云大会深圳站于12月1…

小程序下一破局点?钉钉小程序卡片,应用与平台的深度集成

简介&#xff1a;卡片技术在钉钉上的运用。 20秒了解小程序卡片 案例1&#xff1a;幸福大巴一键抢座 “幸福大巴”是阿里员工在域内使用的城际客运功能&#xff0c;但因为需要来回跳转VPN工具和H5页面&#xff0c;在用户体验上带来了一定的障碍 抢座流程对比&#xff1a; 以…

建站就用这个方法,无需购买服务器10分钟快速部署你的静态网页

简介&#xff1a;阿里云云开发平台重磅推出开源应用中心&#xff0c;聚合最热门的开源应用&#xff0c;让你像安装app一样快速上线一个网站。面向新人和持续活跃的开发者用户推出上线激励加油包&#xff0c;最高100元无门槛代金券免费送&#xff0c;现在体验还能够领取年轻人的…

用 Spring boot 简单搭建一个微服务项目

作者 | 桃花键神来源 | CSDN博客前言&#xff1a;工欲善其事&#xff0c;必先利其器。在对Spring Cloud各部分组件进行具体介绍之前&#xff0c;我们会对Spring Cloud微服务的基础Spring Boot进行介绍。Spring Boot是Spring一套快速配置开发的脚手架&#xff0c;可以基于Spring…

云未来、新可能 - 绿色、无处不在、可信的计算

简介&#xff1a;阿里云资深技术专家、容器服务研发负责人易立在大会主论坛进行了主题为 “云未来&#xff0c;新可能” 的演讲&#xff0c;分享了阿里云基于大规模云原生实践下的技术趋势判断和技术创新进展。 2021 年 12 月 9 日至 10 日&#xff0c;KubeCon CloudNativeCo…

线上教育核心竞争力是什么?声网发布在线素质、职业教育解决方案

5月11日&#xff0c;声网在线上举办了主题为“聚焦场景力&#xff0c;释放生态力”的在线教育发布会&#xff0c;正式发布了新生态下在线教育多场景教学解决方案&#xff0c;包括在线音乐、在线美术、在线职业教育、在线编程、Stem在线教学解决方案。同时为兼顾降低教学场景研发…

ClickHouse Keeper 源码解析

简介&#xff1a;ClickHouse 社区在21.8版本中引入了 ClickHouse Keeper。ClickHouse Keeper 是完全兼容 Zookeeper 协议的分布式协调服务。本文对开源版本 ClickHouse v21.8.10.19-lts 源码进行了解析。 作者简介&#xff1a;范振&#xff08;花名辰繁&#xff09;&#xff0c…

pidof -x 不管用_专业摄影师最佳助手富士X-T200评测

作为X-T100的升级款&#xff0c;X-T200可谓是一经发布就受到了众多关注。相对来说&#xff0c;前作X-T100我们认为已经足够出色&#xff0c;而这次的富士X-T200又有多方面的提升&#xff0c;尤其是视频及视频对焦性能。关于这款机器实际的表现究竟如何我们接下去看。富士X-T200…

Oracle数据到MaxCompute乱码问题详解

简介&#xff1a;集成Oracle数据到MaxCompute&#xff0c;乱码问题分析&#xff1b; 为什么&#xff0c;在oracle数据不乱码&#xff0c;集成到MaxCompute就乱码了? 问题在哪里&#xff1f; 1.1 乱码现象 DataWorks的数据离线集成(DataX)集成Oracle数据到MaxCompute的数据有…

Gartner:2022年全球半导体收入预计将增长13.6%

半导体元件供应链所受到的限制预计将在2022年逐步缓解 根据Gartner的预测&#xff0c;2022年全球半导体收入预计将达到6760亿美元&#xff0c;相比2021年增长13.6%。 Gartner研究副总裁Alan Priestley表示&#xff1a; “由于芯片短缺而引发的半导体平均销售价格&#xff08;AS…

V8 编译浅谈

简介&#xff1a;本文是一个 V8 编译原理知识的介绍文章&#xff0c;旨在让大家感性的了解 JavaScript 在 V8 中的解析过程。 作者 | 子弈 来源 | 阿里技术公众号 一 简介 本文是一个 V8 编译原理知识的介绍文章&#xff0c;旨在让大家感性的了解 JavaScript 在 V8 中的解析过…