勇攀监控高峰-EMonitor之根因分析 背景

背景

阿里集团针对故障处理提出了“1/5/10”的目标-- 1 分钟发现、5 分钟定位、10 分钟恢复,这对我们的定位能力提出了更高的要求。


EMonitor 是一款集成 Tracing 和 Metrics,服务于饿了么所有技术部门的一站式监控系统,其覆盖了

  • 前端监控、接入层监控;
  • 业务 Trace 和 Metric 监控;
  • 所有的中间件监控;
  • 容器监控、物理机监控、机房网络监控。

每日处理总数据量近 PB,每日写入指标数据量上百 T,日均几千万的指标查询量,内含上万个图表、数千个指标看板,并且已经将所有层的监控数据打通并串联了起来。但是在故障来临时,用户仍然需要花费大量时间来查看和分析 EMonitor 上的数据


比如阿里本地生活的下单业务,涉及到诸多应用,每个应用诸多 SOA 服务之间错综复杂的调用关系,每个应用还依赖 DB、Redis、MQ 等等资源,在下单成功率下跌时,这些应用的负责人都要在 EMonitor 上查看指标曲线以及链路信息来进行人肉排障以自证清白,耗时耗力,所以自动化的根因分析必不可少。

根因分析建模

业界已经有好多在做根因分析的了,但是大都准确率不高,大部分还在 40% 到 70% 之间,从侧面说明根因分析确实是一个难啃的骨头。


根因分析看起来很庞大,很抽象,无从下手,从不同的角度(可能是表象)去看它,就可能走向不同的路。那如何才能透过表象来看到本质呢?


我这里并不会一开始就给你列出高大上的算法解决方案,而是要带你重新认知根因分析要解决的问题到底是什么。其实好多人对要解决的问题都模糊不清,你只有对问题理解清楚了,才能有更好的方案来解决它。

要解决什么样的问题

举个例子:现有一个应用,拥有一堆容器资源,对外提供了诸多 SOA 服务或者 Http 服务,同时它也依赖了其他应用提供的服务,以及 DB 资源、Redis 资源、MQ 资源等等;那我们如何才能够全面的掌控这个应用的健康状况呢


我们需要掌控:

  • 掌控这个应用的所有入口服务的「耗时」和「状态」
  • 掌控每个入口服务之后每种操作的「耗时」和「状态」


一个应用都有哪些入口?

  • SOA 服务入口;
  • Http 服务入口;
  • MQ 消费消息入口;
  • 定时 job 入口;
  • 其他的一些入口。


进入每个入口之后,都可能会有一系列的如下 5 种操作和 1 种行为(下面的操作属性都是以阿里本地生活的实际情况为例,并且都包含所在机房的属性):

  • DB 远程操作:有 dal group、table、operation(比如select、update、insert等)、sql 的操作属性;
  • Redis 远程操作:有 command 的操作属性;
  • MQ 远程操作(向MQ中写消息):有 exchange、routingKey、vhost 的操作属性;
  • RPC 远程操作:有 远程依赖的 appId、远程 method 的操作属性;
  • Local 操作(即除了上述4种远程操作之外的本地操作): 暂无属性;
  • 抛出异常的行为:有异常 name 的属性。


那我们其实就是要去统计每个入口之后的 5 种操作的耗时情况以及状态情况,以及抛出异常的统计情况


针对远程操作其实还要明细化,上述远程操作的每一次耗时是包含如下 3 大部分:

  • 客户端建立连接、发送请求和接收响应的耗时;
  • 网络的耗时;
  • 服务器端执行的耗时。

有了上述三要素,才能去确定远程操作到底是哪出了问题,不过实际情况可能并没有上述三要素。

故障的结论

有了上述数据的全面掌控,当一个故障来临的时候,我们可以给出什么样的结论?

  • 哪些入口受到影响了?
  • 受影响的入口的本地操作受到影响了?
  • 受影响的入口的哪些远程操作受到影响了?

    • 具体是哪些远程操作属性受到影响了?
    • 是客户端到服务器端的网络受到影响了?
    • 是服务器端出了问题吗?
  • 受影响的入口都抛出了哪些异常?


上述的这些结论是可以做到非常高的准确性的,因为他们都是可以用数据来证明的。


然而第二类根因,却是无法证明的:

  • GC 问题;
  • 容器问题。

他们一旦出问题,更多的表现是让上述 5 种操作耗时变长,并且是没法给出数据来明确证明他们和 5 种操作之间的关联,只是以一种推测的方式来怀疑,从理论上来说这里就会存在误定位的情况。


还有第三类更加无法证明的根因:

  • 变更问题

昨天的变更或者当前的变更到底和当前的故障之间有没有关联,更是无法给出一个证明的,所以也只能是瞎推测。


我们可以明确的是 5 种操作的根因,还需要进一步去查看是否是上述第二类根因或者第三类根因,他们只能作为一些辅助结论,因为没法给出严谨的数据证明。

根因分析实现

在明确了我们要解决的问题以及要求的故障结论之后,我们要采取什么样的方案来解决呢?下面首先会介绍一个基本功能「指标下钻分析」。

指标下钻分析

一个指标,有多个 tag,当该指标总体波动时,指标下钻分析能够帮你分析出是哪些 tag 组合导致的波动。


比如客户端的 DB 操作抖动了,利用指标下钻分析就可以分析出

  • 哪个机房抖动了?
  • 哪个 dal group 抖动了?
  • 哪张表抖动了?
  • 哪种操作抖动了?
  • 哪个 sql 抖动了?


再比如远程 RPC 操作抖动了,利用指标下钻分析就可以分析出

  • 哪个机房抖动了?
  • 哪个远程 appId 抖动了?
  • 哪个远程 method 抖动了?


其实这个就是去年 AIOPS 竞赛的题目,详细见:
http://iops.ai/competition_detail/?competition_id=8&flag=1


通常的方案:

  1. 对每个时序曲线都要进行数据预测,拿到预测值;
  2. 针对每个方案根据实际值和预测值的差异算出一个方案分数;
  3. 遍历所有可能性方案,挑选出分数最高的方案(通过蒙特卡洛树搜索进行剪枝优化)。


我们的方案:

  1. 确定整体的波动范围
  2. 确定计算范围 = 该波动范围 + 前面一段正常范围,在计算范围内算出每根时间线的波动值(比如波动的方差,实际肯定不会这么简单,有很多的优化点);
  3. 对所有时间曲线进行一些过滤(比如和整体抖动方法相反,整体都向上抖动,它向下抖动);
  4. 对过滤后的时间曲线按照波动值进行 KMeans 聚类
  5. 从排名靠前的分类中挑选出方案,为每个方案计算方案分数(这个方案个数就非常之少了);
  6. 得出分数最高的方案


针对去年的决赛题目,我们的这个方案的跑分达到了 0.95 以上,应该就在前三名了。

根因分析流程

有了指标下钻分析功能之后,我们来看如何进行根因分析:
1

  • 针对入口服务的响应时间和成功率判断是否异常,若无异常则无根因可分析;
  • 针对入口服务的 5 种操作进行指标下钻分析,得出异常波动的操作类型有哪些;
  • 然后到对应操作类型的指标中再次进行指标下钻分析,得出该操作下:

    • 哪些入口受到该操作的波动影响了?
    • 哪些操作属性异常波动了?
    • 假如该操作是远程操作,还要继续深入服务器端进行分析:

假如你有远程操作数据的 3 要素的话,那么是可以分析出:

- 客户端建立连接、发送请求和接收响应耗时问题;
- 网络耗时问题;
- 服务器端耗时问题。


假如没有相关数据的话,那就只能相对来说进行推测了(准确率也会受到影响):

- 假如服务器端耗时正常的话,那就相对划分为客户端发送请求或接收响应耗时是根因;
- 假如服务器端耗时异常抖动的话,那么就需要到服务器端进行深入分析;
- 比如 DB 操作来说,可以继续深入到 DAL 层面分析:

DAL 是我们的分库分表的数据库代理层,同时起到一些熔断限流的作用,所以一条 SQL 执行时间会包含在 DAL 代理层的停留时间、以及在 DB 层的执行时间,利用指标下钻分析,可以分析出如下的一些根因:

    - 某个 table 的所有操作耗时抖动?- 某条sql操作耗时抖动?- 某台具体DB实例抖动?- SQL的停留时间 or 执行时间抖动?
- 比如客户端的 RPC 操作来说,可以继续递归到远程 appId 的;
  • 针对受影响的这些入口使用指标下钻分析,哪些异常也抖动了(有些异常一直在抛,但是跟本次故障无关);
  • 再次查看上述抖动的操作是否是由 GC 问题、容器问题、变更问题等引起的。

落地情况

阿里本地生活的根因分析能力,1 个月内从产生根因分析的想法到实现方案上线到生产(不包括指标下钻分析的实现,这个是之前就已经实现好的了),1 个月内在生产上实验和优化并推广开来,总共 2 个月内实现了从 0 到 1 并取得了如下成绩

  • 50 个详细记载的案例中准确定位 48 次,准确率 96%;
  • 最高一天执行定位 500 多次;
  • 平均定位耗时 1 秒;
  • 详细的定位结果展示。


我们对定位准确性的要求如下:

  • 要明确给出受到影响的入口服务有哪些;
  • 每个受到影响的入口服务抖动的操作根因以及操作属性都要正确;

每个入口服务抖动的根因很可能不一样的,比如当前应用的 SOA1 是由于 Redis 操作抖动,当前应用的 SOA2 是由于远程 RPC 依赖的其他 SOA3 抖动导致,SOA3 是由于 Redis 操作抖动导致;

  • 客户端操作耗时抖动到底是客户端原因还是服务器端原因要保证正确;
  • 容器问题时,要保证不能定位到错误的容器上。

准确率为什么这么高?

我认为主要是以下 3 个方面:

数据的完整度

假如是基于采样链路去分析,必然会存在因为漏采导致误判的问题。


我们分析的数据是全量链路数据转化成的指标数据,不存在采样的问题,同时在分析时可以直接基于指标进行快速分析,临时查采样的方式分析速度也是跟不上的。

建模的准确性

你的建模方案能回答出每个 SOA 服务抖动的根因分别是什么吗?


绝大部分的建模方案可能都给不出严谨的数据证明,以 DB 是根因为例,他们的建模可能是 SOA 服务是一个指标,DB 操作耗时是一个指标,2 者之间是没有任何关联的,没有数据关联你就给不出严谨的证明,即没法证明 DB 的这点抖动跟那个 SOA 服务之间到底有没有关联,然后就只能处于瞎推测的状态,这里就必然存在误判的情况。


而我们上述的建模是建立了相关的关联,我们会统计每个入口后的每种操作的耗时,是可以给到严谨的数据证明。

异常判定的自适应性

比如 1 次 SOA 服务整体耗时 1s,远程调用 RPC1 耗时 200ms,远程调用 RPC2 耗时 500ms,到底是哪个 RPC 调用耗时抖动呢?耗时最长的吗?超过一定阈值的 RPC 吗?


假如你有阈值、同环比的限制,那么准确率一定不高的。我们的指标下钻分析在解决此类问题的时候,是通过当前情况下的波动贡献度的方式来计算,即使你耗时比较高,但是和之前正常情况波动不大,那么就不是波动的根因。

速度为什么这么快?

我认为主要是以下 2 方面的原因:

业内领先的时序数据库 LinDB

根因分析需要对诸多指标的全量维度数据进行 group by 查询,因此背后就需要依靠一个强大的分布式时序数据库来提供实时的数据查询能力。


LinDB 时序数据库是我们阿里本地生活监控系统 E-Monitor 上一阶段的自研产物,在查询方面:

  • 强悍的数据压缩:时序数据原始数据量和实际存储量之比达到 58:1,相同 PageCache 的内存可以比别的系统容纳更多的数据;
  • 高效的索引设计:索引的预过滤,改造版的 RoaringBitmap 之间的 and or 操作来进行高效的索引过滤;
  • 单机内充分并行化的查询机制:利用 akka 框架对整个查询流程异步化。


整体查询效率是 InfluxDB 的几倍到几百倍,详细见文章
分布式时序数据库 - LinDB   https://zhuanlan.zhihu.com/p/35998778

指标下钻分析算法的高效

  • 我们不需要每个时间线都进行预测;
  • 实际要计算的方案个数非常之少
  • 方案算分上可以适应于任何加减乘除之类的指标计算上,比如根因定位中的平均响应时间 = 总时间 / 总次数

SOA1 的平均响应时间 t1 和 SOA2 的平均响应时间 t2,SOA1 和 SOA2 的总体平均响应时间并不是 t1 和 t2 的算术平均而是加权平均,如果是加权平均,那么久需要多存储一些额外的信息,并且需要进行额外的加权计算

实际案例

案例 1

故障现场如下,某个应用的 SOA 服务抖动上升:
2

直接点击根因分析,就可以分析到如下结果
3

AppId1 的 SOA 服务在某个机房下抖动了

  • 依赖的 AppId2 的 SOA 服务抖动

    • 依赖的 AppId3 的 SOA 服务抖动

      • 依赖的 AppId5 的本地处理和 Redis 操作耗时抖动
      • 依赖的 AppId6 的本地处理和 Redis 操作耗时抖动
    • 依赖的 AppId4 的本地处理和 Redis 操作耗时抖动


这里的本地处理包含获取 Redis 连接对象 Jedis 的耗时,这一块没有耗时打点就导致划分到本地处理上了,后续会进行优化。这里没有给出详细的 Redis 集群或者机器跟我们的实际情况有关,可以暂时忽略这一点。


点击上面的每个应用,下面的表格都会列出所点击应用的详细故障信息

  • 受影响的 SOA 服务有哪些,比如 AppId1 的 3 个 SOA 服务受到影响;
  • 每个 SOA 服务抖动的根因,比如 AppId1 的 3 个 SOA 服务都受到 AppId2 的 1 个 SOA 服务的抖动影响;
  • 表格中每一个链接都可以跳转到对应的指标曲线监控面板上。


再比如点击 AppId4,显示如下:
4

AppId4 的 1 个 SOA 方法抖动

  • 该方法的本地处理抖动(实际是获取 Redis 连接对象 Jedis 的耗时抖动);
  • 该方法依赖的 Redis 操作抖动;
  • 该方法抛出 Redis 连接异常;

案例2

故障现场如下,某个应用的 SOA 服务抖动上升
5

点击根因分析,就可以帮你分析到如下结果
6

AppId1 的 SOA 服务在某个机房下抖动了

  • 依赖的 AppId2 的 SOA 服务抖动

    • 依赖的 DB 服务抖动
  • 依赖的 AppId3 的 SOA 服务抖动

    • 依赖的 AppId2 的 SOA 服务抖动

      • 依赖的 DB 服务抖动


点击 AppId2,可以看下详细情况,如下所示:
7

从表格中就可以看到,根因是 DB 的一台实例抖动导致这个 dal group 所有操作抖动。

作者

李刚,网名乒乓狂魔,饿了么监控组研发专家,饿了么内部时序数据库 LinDB 的项目负责人,饿了么根因分析项目负责人,目前致力于监控的智能分析领域以及下一代全景监控的体系化构建;
林滨(予谱),饿了么监控组前端工程师,现负责一站式监控系统 EMonitor 的前端开发,旨在将繁杂的数据以高可视化输出。

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/516018.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

还在做Excel分析师?HR:对不起,我们还要求会Python!

一份好的数据报告可以帮助企业做出正确的商业决策,可以成功获取业务资源,甚至可以给企业带来巨额投资。数据分析有着很多种有效用途,每个行业都在充分利用数据分析。我们常见的数据分析妙用:对消费者行为进行分析和预测确定产品优…

终极搜索 - Find 方法指南

目录 1. 概述2. 为什么要使用 Find 方法?3. Find 方法工作原理4. 如何使用5. 将“查找”对话框重置为其默认设置6. 实例:在一张表中查找特定文本并将数据从另一张表复制到单元格1. 概述 当我们想要在 Range 或 Sheet 中搜索内容时,一般会选择 For...Next 循环。好吧,For...…

CDN百科 | 假如没有CDN,网络世界会变成什么样?

很多人都知道CDN是内容分发加速,所谓内容分发,就是将本来位于源站的内容分发到全国各地的节点,方便用户去就近访问所需的内容。随着移动互联网、云计算等一代代技术变革,CDN已经成为了缓解互联网网络拥塞、提升应用响应速率、改善…

你可能也会掉进这个简单的 String 的坑

作者 | 程序猿石头责编 | 晋兆雨头图 | 付费下载于视觉中国关于作者:程序猿石头(ID: tangleithu),现任阿里巴巴技术专家,清华学渣,前大疆后端 Leader。背景作者的同学是某大公司高级开发工程师,某日收到不少错误告警信…

FileZilla客户端连接腾讯云FTP服务器时出现“227 Entering Passive Mode”

FTP的主动模式(PORT Mode)及被动模式(Passive Mode) FTP的特殊性: 大多数的TCP服务是使用单个的连接,一般是客户向服务器的一个周知端口发起连接,然后使用这个连接进行通讯。但是,FTP协议却有所不同,它使用双向的多个连…

Excel VBA 巧用自定义函数进行数组去重

目录 一. Dictionary方法删除重复项二. Collection 方法删除重复项三. 使用这两个函数1. RemoveDupesDict 函数调用示例:2. RemoveDupesColl函数调用示例:本贴将展示两种从数组中删除重复项的方法。 第一种方法使用字典,第二种方法使用集合。每种方法都有优点和缺点,但都能…

分享实录 | 企业CICD规模化落地浅析

【以下为分享实录,有删节】 今天分享的题目是《企业CICD规模化落地》,因此我们不会侧重讲解CICD是什么以及怎样做CICD,而是你已经知道怎样“玩转”CICD了,要如何在一个比较大的企业中规模化地落地。 研发流程与持续交付简析 持…

重磅发布:阿里云云安全中心一键防勒索功能上线!

5月6日,阿里云云安全中心重磅发布一键防勒索功能,致力于帮助客户实现对勒索病毒的一键式纵深防御。 勒索病毒对企业来说是危害极大的安全风险之一,一旦核心数据或文件被加密,除了缴纳赎金,基本上无法解密。两年前爆发…

用 Excel VBA 提取小数部分-自定义函数

利用VBA 提取小数部分 Function GetDec(cell As Range, Optional ConvertToWhole As Boolean) As Variant 示例:2.154a)如果忽略或设置为FALSE,则函数返回小数,类似于“0.154”的形式b)如果设置为TRUE,则函数返回一个整数,如“154”Dim i%If

【数据湖存储】数据湖的终极奥秘,无招胜有招

作为海量数据存储与分析的重要承载方式的数据湖,从2011年概念诞生至今,已经发展了9个年头。而数据湖是什么?又能为数字化经济带来什么?《阿里云数据湖存储解决方案蓝皮书》将为您揭开数据湖的终极奥秘——无招胜有招 关注“阿里云…

科天云会议产品升级,打造企业数字化转型办公协同新基建

2020年11月24日,科天云会议宣布升级科天章鱼云并发布科天aPaas办公协作中台。依托科天aPaas办公协作中台核心技术架构,科天章鱼云10大音视频通讯核心能力,科天云会议将以便捷轻量的SaaSPaaS模式,为大中型企业提供云到端、全场景的…

社区首款 OAM 可视化平台发布!

作者 | 徐运元,杭州谐云科技合伙人及资深架构师,云计算行业和 Kubernetes 生态资深从业者 导读:什么是 OAM?2019 年 10 月 17 日,阿里巴巴合伙人、阿里云智能基础产品事业部总经理蒋江伟(花名:小…

linux:根据关键字或日期查找日志

文章目录脚本11. 脚本描述2. 要点3. 格式4. 脚本原型5. shell脚本6. 效果图脚本22.1. 脚本描述2.2. 要点2.3. 格式2.4. 脚本原型2.5. shell脚本2.6. 效果图脚本1 1. 脚本描述 查询指定日志文件中是否包含指定的关键词的日志信息 2. 要点 包含则输出包含的关建行所在日志信息…

Go 语言成为最受欢迎的语言

<关注阿里巴巴云原生公众号&#xff0c;回复 Go 即可下载清晰知识图谱> 对 Go 语言感兴趣但又不知从何学起的同学&#xff0c;可以参考一下 Go 语言系列文章&#xff1a; 为什么你要选择 Go&#xff1f;Go 面向失败编程带着服务器编程金刚经走进 2020 年敢问路在何方&a…

如何在DevSecOps道路上快速、安全地抵达终点

作者 | 吴翔责编 | 晋兆雨出品 | CSDN云计算头图 | 付费下载于视觉中国近年来&#xff0c;移动互联网的迅猛发展给人们带去不少便利&#xff0c;在软件安全领域内&#xff0c;一种名为敏捷开发的模式正悄然流行&#xff0c;而可打破业务隔离、提高效率的DevOps&#xff08;开发…

构建更动态更灵活的分布式计算生态

0. 前言 作为阿里巴巴核心大数据底座&#xff0c;伏羲调度和分布式执行系统&#xff0c;支撑着阿里集团内部以及阿里云上大数据平台绝大部分的大数据计算需求&#xff0c;在其上运行的MaxCompute(ODPS) 以及PAI等多种计算引擎&#xff0c;每天为用户进行海量的数据运算。 在&q…

企业微信H5_身份验证,H5应用网页授权登录获取身份

文章目录一、调用流程1. 企业微信OAuth2接入流程2. 使用OAuth2前须知3. 构造网页授权链接4. 获取访问用户身份二、调试前准备2.1. 配置域名映射2.2. 跨域域名请求2.3. 设置可信任域名2.4. 登录企微2.5. 选择自建应用三、实战演练3.1. 前端编码触发后端api3.2. 后端构造授权链接…

Istio 网关之南北向流量管理

作者 | 王夕宁 阿里巴巴高级技术专家 参与阿里巴巴云原生公众号文末留言互动&#xff0c;有机会获得赠书福利&#xff01; 本文摘自于由阿里云高级技术专家王夕宁撰写的《Istio 服务网格技术解析与实践》一书&#xff0c;文章介绍将集群外部的客户端连接到集群内运行的服务&…

想在边缘运行计算机视觉程序?先来迎接挑战!

作者 | alwaysAI翻译 | 火火酱~&#xff0c;责编 | 晋兆雨出品 | CSDN云计算头图 | 付费下载于视觉中国人工智能可以让计算机聪明地行动&#xff0c;并且在真实环境中快速做出决策&#xff0c;同时收获相对理想的效果。当然&#xff0c;这个概括性的定义较为宽泛和模糊&#xf…

企业微信_通讯录管理,获取部门列表部门成员及详情

企业微信H5_通讯录管理,获取部门列表部门成员及详情 文章目录一、POSTMAN调试1. 获取access_token2. 获取部门列表3. 获取部门成员4. 获取部门成员详情5. 获取成员详情二、实战演练2.1. 获取部门列表2.2. 获取部门成员2.3. 获取部门成员详情2.4. 获取人员详情三、代码讲解3.1.…