AIOps在线评测基准首阶段建设完成,面向社区发布真实运维数据!

本文根据必示科技算法研究员、产品总监聂晓辉博士在2024 CCF国际AIOps挑战赛线下宣讲会上的演讲整理成文。


2024年1月份OpenAIOps社区成立,随着越来越多的社区成员加入,各项工作在有条不紊的推进中。在线评测基准系统(AIOps Live Benchmark)是今年社区工作中的重点之一。

历届AIOps挑战赛都是一次评测。比如2018年的赛题是指标异常检测、 2022年的赛题是微服务架构下电商系统的故障识别与分类。大赛组委会根据赛题搭建真实的运维评测系统去产生真实的数据,然后把真实的故障注入到该系统中,最后由参赛选手提供各种思路的解决方案参赛评选。

但是,赛事结束之后评测系统也会随之关闭,如果选手们后续有了更好的改进方案也无法继续评测。OpenAIOps社区着手推进在线评测基准工作,目标之一也是希望把每届挑战赛的成果都沉淀下来。

在线评测基准简介

在这里插入图片描述

在线评测基准系统包含了几个重要模块。首先是运维的IT系统,这部分系统是可以扩展的;还部署了混沌工程相关的工具,模拟出真实的运维场景;同时部署了一些可观测性的工具来获取运维数据,像开源的Promethues、Jeager等。数据收集好后通过具体的AIOps应用或者评测方法,提供一个实时在线评审榜单。在线评测基准系统的最终目标是提供真实系统、真实数据、真实评测,让大家共同探讨研究AIOps技术。

在线评测基准系统(AIOps Live Benchmark)建设架构

在这里插入图片描述

上图是在线评测基准系统的整体架构,分为基础设施、 IT系统、平台工具和AIOps应用。整个架构相当于一个小型企业的 IT运维平台,麻雀虽小五脏俱全。图片中绿色部分是邀请社区专家和企业界的同仁一起已完成系统模块。目前实现了注入故障模拟、采集各种各样的运维数据功能,并且部署了业界开源和专业可观测性工具,最后把数据统一汇总,对上提供服务,也成功部署了像异常检测、告警分析等应用工具。

1、微服务系统——Online Boutique

在这里插入图片描述

Online Boutique是谷歌的一个开源的电商系统,能够模拟一些常见的IT系统使用环境。它还是微服务的架构,支持多种语言的开发,对于可观测性工具,包括运维场景,具备一些典型的代表性。

同时系统是开源的,可以根据不同的运维场景对系统进行改造升级,目前实现了支持信创数据库TiDB、支持OpenTelemetry数据采集、模拟变更场景等功能。欢迎大家把自己的开源服务部署到社区中来,构建典型的运维场景。

2、混沌工程工具

在这里插入图片描述

架构中部署了混沌工程的开源工具并做了集成,其中典型的是ChaosMesh。图片中右边部分是一个具体的例子,在容器中注入一个CPU使用率负载高的故障,然后观察在上面部署的这些应用能否检测到对应异常。

3、可观测性工具

在这里插入图片描述

目前已经部署Jaeger、Promethues等开源的工具。Jeager是开源的分布式跟踪系统,用于采集电商系统的trace数据;Promethues是开源的监控数据采集和告警工具,用于采集电商系统的指标数据。

在这里插入图片描述

同时我们也邀请了云杉网络、乐维、基调听云、蓝鲸等企业,针对上文提到的微服务系统Online Boutique做了全面的数据采集。

4、开源数据集

在这里插入图片描述

完成数据采集后,平台构建了一个数据的指标体系,按照规则把数据清洗分类,并定时在系统上发布。大家可以在OpenAIOps社区网站(https://www.aiops.cn)上获取这些数据,希望提供的这些真实数据可以推动AIOps的技术研究和工业落地。

5、AIOps应用

在这里插入图片描述

系统上也部署了AIOps的应用,图片中展示的是必示科技提供的两款标准化的产品。

(1) 智能业务指标异常检测。通过具体指标数据,不需要人工设置就能够识别出阈值,图中展示的是真实的效果。这款应用好处是无需人工配置阈值,同时自动学习哪些指标能够做监控,扩大监控范围,减少人工运维成本。

(2) 智能告警管理,提供基础的告警管理功能,在告警智能化分析上,主要解决告警风暴检测和分析问题,当告警量突增,系统自动检测并生成分析报告,辅助运维人员快速处置异常。

网站正式发布对外开放,欢迎大家学习交流。

网址:https://www.aiops.cn/aiops-live-benchmark/

在线评测基准系统(AIOps Live Benchmark)建设情况

在这里插入图片描述

在线评测基准系统(AIOps Live Benchmark)工作自3月份开始推进,我们快速搭建了整套的系统和具体的可观测性工具。5月份,第一批数据清洗出来并成功发布,同时开始准备指标异常检测的评测基准工作。

来自社区的专家成员积极参与,贡献力量。目前基准专家组已经有59个成员,来自高校研究所、科技公司、银行、证券等各行各业。工程师团队超过40+,来自中科院、南开大学、必示科技、云杉网络、乐维、听云、蓝鲸等单位。

未来展望

在这里插入图片描述

目前在线评测系统可以提供真实的IT应用场景,可以学习前沿的AIOps技术,发布对应的权威数据集,推动行业发展。

在线评测系统搭建完之后,我们未来重点工作为应用评测,例如业务指标的异常检测、机器指标的异常检测、调研链的异常检测和定位等。在做评测应用的同时,进一步的完善系统的可观测性和混沌工程能力。


关于CCF 国际AIOps挑战赛

CCF国际AIOps挑战赛(China Computer Federation International AIOps Challenge)由清华大学联合中国计算机学会(CCF)自2018年共同发起。旨在借助社区力量,运用人工智能算法解决各类运维难题。迄今为止已经成功举办六届,吸引了大量AIOps从业者和关注者,随着赛事规模和影响力的不断扩大,形成了运维行业著名的专业赛事品牌,并逐渐发展为智能运维领域最具影响力的专业赛事。

2024 (第七届)CCF国际AIOps挑战赛由中国计算机学会(CCF)主办,中国计算机学会互联网专委会、清华大学、中国科学院计算机网络信息中心承办,中兴通讯、北京智谱华章科技有限公司、中南大学计算机学院、清华大学计算机科学与技术系、北京必示科技有限公司协办。同时,本届AIOps挑战赛也是OpenAIOps社区成立之后第一届重要年度赛事。

更多赛事相关信息将在社区“智能运维前沿”公众号发布,同时OpenAIOps社区群将提供赛事通知、技术答疑,有意者可扫码添加官方微信号(OpenAIOps社区小助手)入群。

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/19347.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

积鼎CFDPro水文水动力模型,专为中小流域洪水“四预”研发的流体仿真技术

水动力模型与水文模型是水利工程与水文学研究中不可或缺的两大工具。水动力模型着重于流体运动的动力学机制,通过一系列方程组捕捉水流的时空变化,而概念性水文模型则侧重于流域尺度的水文循环过程,利用物理概念与经验关系进行近似模拟。两者…

Windows系统部署YOLOv5 v6.1版本的训练与推理环境保姆级教程

文章目录 一 概述二 依赖环境(prerequisites)2.1 硬件环境2.2 软件环境 三 环境安装3.1 创建并激活虚拟环境3.2 安装Pytorch与torchvision3.3 校验Pytorch安装3.4 下载 YOLOv5 v6.1 源码3.5 安装 YOLOv5 依赖3.6 下载预训练模型3.7 安装其他依赖3.8 测试环境安装3.9 测试训练流…

jupyter notebook更改位置

1.找到jupyer的配置文件 一般在c盘用户的.jupter文件夹下 2. 用记事本打开这个配置文件,定位到c.NotebookApp.notebook_dir /path_to_your_directory 替换你的位置 3.找到jupyer图标的位置,打开属性 添加要存放的位置在目标文件的末尾,重新…

一个全面了解Xilinx FPGA IP核的窗口:《Xilinx系列FPGA芯片IP核详解》(可下载)

随着摩尔定律的逐渐放缓,传统的芯片设计方法面临着越来越多的挑战。而FPGA以其并行处理能力和可编程性,为解决复杂问题提供了新的途径。它允许设计者在同一个芯片上实现多种不同的功能模块,极大地提高了资源的利用率和系统的综合性能。 FPGA…

HCIA-ARP

ARP的由来 ARP这一种协议它会是在我们HCIA中第一个需要完全掌握的一个协议,不然对于数据通讯来说大家都会一直觉得很绕圈 协议栈,网线,网卡,它们组成了我们最小的数据通信的小脉络注:可以了解ARP攻击(冒充访…

文献解读-群体基因组第二期|《中国人群中PAX2新生突变的检测及表型分析:一项单中心研究》

关键词:应用遗传流行病学;群体测序;群体基因组;基因组变异检测; 文献简介 标题(英文):Detection of De Novo PAX2 Variants and Phenotypes in Chinese Population: A Single-Cente…

new CCDIKSolver( OOI.kira, iks ); // 创建逆运动学求解器

demo案例 new CCDIKSolver(OOI.kira, iks); 在使用某个特定的库或框架来创建一个逆运动学(Inverse Kinematics, IK)求解器实例。逆运动学在机器人学、动画和计算机图形学等领域中非常重要,它用于根据期望的末端执行器(如机器人的…

建设现代智能工业-智能化、数字化、自动化节能减排

建设现代智能工业-智能化节能减排 遵循“一体化”能源管理(Integrated Energy Management)的设计宗旨,集成城市各领域(如工业.交通、建筑等)的能源生产和消费信息,面向城市政府、企业、公众三类实体,提供“一体化”的综合能源管理…

uniapp h5项目切换导航栏及动态渲染按钮颜色

1.效果图 2.html,动态渲染按钮样式---三元判断 <!-- 切换栏 --><view class"statusList"><block v-for"(item,index) in list" :key"index"><view class"swiper-tab-list" :class"current item.id?activ…

CEEMDAN +组合预测模型(CNN-Transfromer + XGBoost)

注意&#xff1a;本模型继续加入 组合预测模型全家桶 中&#xff0c;之前购买的同学请及时更新下载! 往期精彩内容&#xff1a; 时序预测&#xff1a;LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较-CSDN博客 VMD CEEMDAN 二次分解&#xff0c;Transformer-BiGRU预测模…

【JAVA WEB实用与优化技巧】如何自己封装一个自定义UI的Swagger组件,包含Swagger如何处理JWT无状态鉴权自动TOKEN获取

目录 一、Swagger 简介1. 什么是 Swagger&#xff1f;2. 如何使用 Swagger3. Springboot 中swagger的使用示例1. maven 引入安装2. java配置 二、Swagger UI存在的缺点1.不够方便直观2.请求的参数没有缓存3.不够美观4.如果是JWT 无状态登录&#xff0c;Swagger使用起来就没有那…

STL-stack的使用及其模拟实现

在C标准库中&#xff0c;stack是一种容器适配器&#xff0c;它以后进先出的方式组织数据&#xff0c;其删除只能从容器的栈顶进行元素的插入与取出操作。 stack的使用 stack的构造函数 stack的成员函数 empty&#xff1a;判断栈是否为空back&#xff1a;返回当前栈中元素的数量…

推荐一个 Java 开源企业级新能源汽车智能共享充电桩管理平台

文末可获取 Orise 平台源码 01 Orise 智能充电桩管理平台 奥升( Orise ) 新能源汽车充电桩管理 Saas 云平台是一个集充电设备管理、用户充电管理、线上小程序内容管理于一体的综合管理平台。Orise充电桩平台支持高并发业务、业务动态伸缩、桩通信负载均衡&#xff0c;通过Docke…

Golang项目代码组织架构实践

Golang在项目结构上没有强制性规范&#xff0c;虽然这给了开发者很大的自由度&#xff0c;但也需要自己沉淀一套可行的架构。本文介绍了一种项目布局&#xff0c;可以以此为参考设计适合自己的 Golang 项目组织模式。原文: Golang Project Layout Go 有很多强制的或是约定俗成的…

收藏:六款好用的企业防泄密软件推荐

企业数据如同企业的生命线&#xff0c;保护数据安全免遭泄露变得至关重要。 面对日益复杂的网络安全威胁&#xff0c;一套高效的企业防泄密软件成为企业安全架构的基石。 以下是精心挑选的六款企业防泄密软件&#xff0c;它们在数据加密、访问控制、行为监控等方面表现出色&am…

lua vm 常识一: attempt to yield across a C-call boundary 的原因分析

使用 lua 的时候有时候会遇到这样的报错&#xff1a;“attempt to yield across a C-call boundary”。 1. 网络上的解释 可以在网上找到一些关于这个问题的解释。 1.1 解释一 这个 issue&#xff1a;一个关于 yield across a C-call boundary 的问题&#xff0c;云风的解释是…

轮廓系数(Average silhouette) | 最佳聚类数的判定

1.最佳分类个数 # 辅助确定最佳聚类数 4.7*2.6 factoextra::fviz_nbclust( t(DPAU_2), kmeans, method "silhouette")在2有下降拐点&#xff0c;但是样本较多时分成2类一般意义不大。 在7时也有下降拐点。 2.查看每个分类的轮廓系数 (1) pam k5 library(cluste…

【Paddle】Inplace相关问题:反向传播、影响内存使用和性能

【Paddle】Inplace相关问题&#xff1a;反向传播、影响内存使用和性能 写在最前面inplace 的好处有哪些&#xff1f;能降低计算复杂度吗在反向传播时&#xff0c;Inplace为什么会阻碍呢&#xff1f;“计算图的完整性受损”表达有误原地操作 sin_()为什么原地操作会阻碍反向传播…

活动会议邀请函制作易企秀源码系统 清爽的画面轻轻滑动自动翻页 带完整的前后端搭建教程

系统概述 在当今数字化时代&#xff0c;活动会议的组织和宣传变得至关重要。为了满足这一需求&#xff0c;活动会议邀请函制作易企秀源码系统应运而生。它不仅为用户提供了一个便捷、高效的工具&#xff0c;还具备一系列令人瞩目的特色功能&#xff0c;为活动会议的成功举办提…

Ubuntu22.04设置程序崩溃产生Core文件

Ubuntu22.04设置程序崩溃产生Core文件 文章目录 Ubuntu22.04设置程序崩溃产生Core文件摘要Ubuntu 生成Core文件配置1. 检查 core 文件大小限制2. 设置 core 文件大小限制3. 配置 core 文件命名和存储路径4. 重启系统或重新加载配置5. 测试配置 关键字&#xff1a; Ubuntu、 C…