KDD 2024|基于隐空间因果推断的微服务系统根因定位

简介:本文介绍了由清华大学、南开大学、eBay、微软、中国科学院计算机网络信息中心等单位共同合作的论文《基于隐空间因果推断的受限可观测性场景的微服务系统根因定位》。该论文已被KDD 2024会议录用。

论文标题:Microservice Root Cause Analysis With Limited Observability Through Intervention Recognition in the Latent Space

作者:谢哲,张圣林,耿一彤,张尧,马明华,聂晓辉,姚振翮,徐龙龙,孙永谦,李文滔,裴丹


摘 要

随着微服务系统的广泛应用,许多根因定位(Root Cause Analysis, RCA)算法被提出。然而,现有算法大多集中在单级别(如指标级或服务级)的候选根因集(Root Cause Candidates, RCCs)排序上,并依赖完整的监控指标。然而,在实际的微服务系统中,候选根因的可观测性往往是有限的,在很多情况下,这可能导致不准确的根因分析。

为了解决这一问题,论文首次提出将候选根因建模为隐变量,通过相关的监控指标来推断候选根因的状态,而不是直接根据某个可观测指标判断候选根因的状态。基于此思想,论文提出了LatentScope,一种在受限可观测性下处理异构候选根因的无监督RCA框架。LatentScope通过双空间图(Dual-Space Graph)模型(包括可观测变量和不可观测变量)来实现快速的隐变量推断和RCA。基于eBay的实际故障数据与Testbed数据的评估结果表明,与基线算法相比,我们模型的根因定位效果取得了显著的提升。

背景与挑战

随着在线应用需求的日益复杂和多样化,微服务架构在在线服务系统中被广泛使用。然而,由于频繁的变化和扩展,系统故障是不可避免的。因此,近年来提出了越来越多的RCA算法来定位故障根因。

在应用RCA算法时,一个重要的挑战是微服务系统内部各个候选根因(例如,Pod、Service、Host)的有限可观测性。在微服务系统中,可观测性通常是通过监控指标、日志与调用链等方式实现的。现有RCA算法通常要求具有良好的可观测性,但实际情况中,由于微服务系统的架构通常较为复杂多变,大量候选根因的可观测性是受限的。

图片

图1 在微服务系统中,Service 1发生了故障,并且由于故障传播,系统中不同部件的监控指标均出现了异常波动

上图展示了一个由Service 1引起的微服务系统故障及其对应的候选根因集RCCs。这些RCCs可以是异构的和多层次的。此外,由于Service 1与Pod 1-1和Pod 1-2均有包含关系,Service 1的故障也造成了对应Pod的异常波动。如果没有指标能够独立反映Service 1的状态情况,那么现有的RCA算法通常难以区分出具体的根因是来自于Pod 1-1、Pod 1-2或Service 1。

方法设计

在这里插入图片描述

图2 LatentScope的整体结构

在这里插入图片描述

图3 双空间图与其符号表示

LatentScope的整体结构如图2所示。为了实现对异构候选根因的准确建模,LatentScope建立了一个双空间图模型,分别表示隐空间层(Latent Space)和可观测层(Observable Space)。

其中,隐空间层的每一个节点代表一个候选根因,可观测层的每一个节点代表一个指标。隐空间层与可观测层的节点间存在多对多的连接关系,即每一个候选根因可能对应了多个监控指标,而每一个监控指标可能也同时与多个候选根因存在关系。

LatentScope的任务是,基于上述的双空间图,根据现有的监控指标,推断出其中隐空间层的根因节点。然而,正如前文所述,监控指标可能同时会受到故障根因与来自其他RCC的故障传播造成的影响而产生波动。因此,我们需要同时考虑这两种导致指标波动的因素,推断故障根因。为此,LatentScope提出了一种可应用于隐空间的因果推断(Latent-Space Intervention Recognition)算法,根据可观测的指标,求解隐空间的根因。

实验评估

在这里插入图片描述

表1 基线模型对比表格

论文分别基于了来自eBay真实故障案例的数据集(Dataset A)与来自Testbed故障注入的数据集(Dataset B)进行了评估,对比LatentScope与基线模型的根因定位准确率。其实验结果如表1所示。结果表明,LatentScope在所有的评估指标中,均能够超过现有的基线模型。

在这里插入图片描述

图4 基线模型MRR对比结果雷达图

此外,文章还分别对不同模型在异质根因上的定位结果进行了对比,其结果如图4所示。可以发现,现有的大多数基线模型往往只能对有限的几类根因中取得不错的定位效果,而文章提出的LatentScope算法对于不同类别的根因均取得较好的定位效果。这验证了LatentScope算法在应对异质RCC与有限观测性下良好的根因定位能力。

总 结

微服务系统的根因分析(RCA)对于确保系统的稳定性和可靠性至关重要,论文提出了一种新的无监督RCA框架LatentScope,能够在受限的可观测性条件下推断异构的候选根因。LatentScope通过构建双空间图模型,将可观测变量和隐空间变量分离开来,从而缓解了候选根因的异构性与受限可观测性带来的根因定位不准确的问题。创新地提出了隐空间下的因果推断技术,实现了对于候选根因隐变量的精确推断。通过真实故障案例的实验,验证了LatentScope在应对异质候选根因与有限观测性下良好的根因定位能力。


欢迎报名2024 CCF国际AIOps挑战赛!

2024 (第七届)CCF国际AIOps挑战赛由中国计算机学会(CCF)主办,中国计算机学会互联网专委会、清华大学、中国科学院计算机网络信息中心承办,中兴通讯、北京智谱华章科技有限公司、中南大学计算机学院、清华大学计算机科学与技术系、北京必示科技有限公司协办。同时,本届AIOps挑战赛也是OpenAIOps社区成立之后第一届重要年度赛事。

本次挑战赛以“基于检索增强的运维知识问答”为赛题,旨在探索如何结合领域私有技术文档进行高效私域知识问答。首次采用大模型检索增强(RAG)技术,基于中兴5G领域运维技术文档,揭示在通用大语言模型基座下,垂直领域知识问答面临的领域知识缺失、公私域知识冲突、多模态图表并存等一系列挑战。

目前挑战赛报名进行中,欢迎报名参赛!(报名网址:https://aiops-challenge.com)更多赛事相关信息将在社区“智能运维前沿”公众号发布,同时OpenAIOps社区群将提供赛事通知、技术答疑,有意者可扫码添加官方微信号(OpenAIOps社区小助手)入群。

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/18958.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10年老运营人吐血整理,给新媒体运营人的20条建议!沈阳新媒体运营培训

对于企业,在新媒体平台开设官方账号应该是已经成为标配。不仅是对企业新媒体运营需求量提高,新媒体人的薪资也是水涨船高。 另外值得注意的是,企业对资深新媒体运营人才尤为重视,这表现在他们不惜重金招聘高薪新媒体运营人才&…

Linux新增磁盘挂载分区

1. 查看磁盘分区名称 lsblk 可见,新增的分区为 sdb 2.格式化磁盘 mkfs.xfs -f /dev/sdb 3.挂在磁盘到 /ocean目录,挂在前先创建空目录 /ocean mkdir /oceanmount /dev/sdb /ocean 执行后,可用 df -h 查看分区是否成功 4.持久化磁盘分区&a…

计算机图形学入门03:二维变换

变换(Transformation)可分为模型(Model)变换和视图(Viewing)变换。在3D虚拟场景中相机的移动和旋转,角色人物动画都需要变换,用来描述物体运动。将三维世界投影变换到2D屏幕上成像出来,也需要变换。 1.缩放变换 缩放(Scale)变换: …

【B站 heima】小兔鲜Vue3 项目学习笔记 Day06

文章目录 购物车本地1. 列表购物车基础数据渲染2. 列表购物车单选功能3. 列表购物车全选功能4. 列表购物车统计列表实现5. 接口-加入购物车6. 接口-删除购物车7. 退出登录-清空购物车数据8. 合并购物车到服务器(重要) 结算1. 路由配置和基础数据渲染2. 地址切换-打开弹框交互实…

跨境人必读:X(原Twitter)和Facebook区别是什么?

在今日全球化的商业环境中,跨境电商领域的企业和独立站卖家正逐渐认识到社交媒体营销的巨大潜力。特别是X(原Twitter)和Facebook,作为领先的社交媒体平台,它们的使用不仅能够提升品牌知名度,还能直接影响销…

基于Java实现的图书管理系统

前言:该图书管理系统实现了查找、添加、删除、显示、借阅、归还等功能,分为两个用户群体:管理者和普通用户。使用了类与对象,封装继承多态,抽象类和接口等Java基础知识。 一.思路 面向对象三部曲:找对象&…

OrangePi_Kunpeng_Pro开发板测验——性能巨人

文章目录 📑前言一、开箱初体验的愉悦二、产品规格概述三、前置工作四、性能测试4.1 CPU 性能测试4.1.1 单线程 CPU 测试4.1.2 多线程 CPU 测试 4.2 内存性能测试4.2.1 内存读写性能测试4.2.2 高负载内存测试 4.3 I/O 性能测试4.4 网络性能测试4.5 测试小结4.5.1 CP…

基于异构图的大规模微服务系统性能问题诊断

简介:本文介绍由南开大学、清华大学、腾讯、国家超级计算天津中心共同合作的论文:基于异构图的大规模微服务系统性能问题诊断。该论文已被IEEE Transactions on Services Computing期刊录用 论文标题:Diagnosing Performance Issues for Lar…

docker删除所有容器

笔记 要使用 Docker 删除所有容器(无论是停止的还是正在运行的),可以按照以下步骤操作: 1. **删除所有正在运行的容器**: 首先,您需要停止所有正在运行的容器。可以使用以下命令: dock…

MATLAB分类与判别模型算法:K-近邻法(KNN)分类代码 【含Matlab源码 MX_001期】

算法简介: K-近邻法(KNN)是一种简单而有效的分类算法,也可用于回归问题。它的基本原理是根据待分类样本与训练样本的距离,选取最近的K个样本进行投票决定分类。该算法无需训练过程,而是利用训练数据集直接…

小白windows系统从零开始本地部署大模型全记录

大家好,最近两年大语言模型风靡全球,最近,不少开源大模型,将模型部署到自己的电脑上,用个性化的数据微调想必是不少人的愿望,这次,让我来分享从hugging face上下载部署chatglm3-6b中的经验。 1.…

自动控制: 最小二乘估计(LSE)、加权最小二乘估计(WLS)和线性最小方差估计

自动控制: 最小二乘估计(LSE)、加权最小二乘估计(WLS)和线性最小方差估计 在数据分析和机器学习中,参数估计是一个关键步骤。最小二乘估计(LSE)、加权最小二乘估计(WLS&…

wifi贴码推广哪家靠谱?

如今越来越多的人想轻资产创业,WIFI贴码是共享行业最无成本的创业项目了,而在选择厂商的时候,大家就想要知道哪家公司靠谱,更好、更便宜、可靠。那么wifi贴码推广哪家靠谱?别急,下面小编将带你一起了解。 目…

OpenAI开始训练新的前沿模型——但GPT-5至少在90天内不会推出

ChatGPT 制造商 OpenAI 今早宣布,已开始训练其新的“前沿模型”,并成立了一个新的安全委员会,由现任董事会成员 Bret Taylor(OpenAI 董事会主席兼客户服务初创公司 Sierra AI 联合创始人、前谷歌地图负责人和前 Facebook 首席技术…

BGP路由策略实验

一、实验拓扑 二、IP分配(骨干) R1: 0/0/0 15.0.0.1 24 0/0/1 18.0.0.2 24 0/0/2 19.0.0.1 24 R2: 0/0/0 16.0.0.1 24 0/0/1 15.0.0.2 24 R3: 0/0/0 17.0.0.2 24 0/0/1 18.0.0.1 24 R4: 0/0/0 16.0…

元宇宙vr工业产品展示空间降低研发成本

元宇宙产品虚拟展厅搭建编辑器为您提供了一个自助式元宇宙场景搭建的绝佳平台。无论您是设计公司、摄影公司、营销公司还是教育机构,我们都能为您量身打造专属的元宇宙解决方案,满足您的多样化需求。 元宇宙产品虚拟展厅搭建编辑器具备强大的3D编辑功能&…

【吊打面试官系列】Java高并发篇 - ThreadLocal 是什么?有什么用?

大家好,我是锋哥。今天分享关于 【ThreadLocal 是什么?有什么用?】面试题,希望对大家有帮助; ThreadLocal 是什么?有什么用? ThreadLocal 是一个本地线程副本变量工具类。主要用于将私有线程和该…

dust3r部署踩坑全记录

目前dust3r是三维重建最新最好的技术,运用了ViT编码器、Transformer、注意力机制、回归等技术,无需相机参数标定。 但是我部署过程中有很多坑,记录一下。 1.OSError: CUDA_HOME environment variable is not set. Please set it to your CU…

数字工厂管理系统可以和哪些软件集成

随着工业4.0时代的到来,数字工厂管理系统已成为制造业转型升级的核心驱动力。数字工厂管理系统通过集成各种软件和技术,实现了生产过程的数字化、网络化和智能化,大大提高了生产效率和管理水平。本文将探讨数字工厂管理系统可以与哪些软件集成…

Axure RP软件汉化操作步骤

随着互联网产业的发展,设计师已经成为一个越来越受欢迎的职业,设计软件已经成为设计师必不可少的工具。说到设计软件,不得不说的是 Axure rp ,越来越多的设计师使用它来设计产品原型,作为美国 Axure Software Solution…