运维智能化转型:AIOps引领IT运维新浪潮

1. AIOps是什么?

AIOps(Artificial Intelligence for IT Operations),即人工智能在IT运维中的应用,通过机器学习技术处理运维数据(如日志、监控信息和应用数据),解决传统自动化运维无法应对的复杂问题。

早期的运维工作是手工运维或自动化运维,但是随着互联网业务的快速发展和人力成本的增加,传统的手动运维模式已不再适用。自动化运维通过预设规则的脚本执行重复性任务,降低了成本并提高了效率,但面对业务的复杂性,这种方法也显得力不从心。

智能运维(AIOps)的出现,将人工智能技术应用于运维,利用机器学习和深度学习分析历史数据,自动提炼规则,解决自动化运维难以处理的问题。AIOps不依赖于人工规则,而是通过机器学习算法从运维数据中不断学习,提炼规则。

AIOps结合了自动化运维和人工智能,需要以下三方面的知识:

  • 行业知识:了解不同行业的运维挑战;
  • 运维场景知识:熟悉监控、异常检测、故障处理等运维场景;
  • 机器学习:将实际问题转化为算法问题,并运用聚类、决策树等算法。

AIOps是自动化运维的进化,适用于互联网、电信、金融等多个行业,标志着运维领域的未来发展。

2. AIOps 目标、指导原则、应用场景

AIOps,简而言之,就是将运维规则自动化和智能化。它把人工制定运维规则的过程转变为机器的自动学习过程。具体来说,AIOps对现有的自动化运维和监控系统进行智能化改造,消除了对预设规则的依赖,旨在实现一个由AI控制的高效、低成本、高质量的无人值守运维系统,以最大化运营的综合效益。

2.1  AIOps 目标

利用大数据、机器学习和其他分析技术,通过预防预测、个性化和动态分析,直接和间接增强IT业务的相关技术能力,实现所维护产品或服务的更高质量、合理成本及高效支撑。

2.2  AIOps 指导原则

要实现AIOps,即在运维中应用AI技术,必须融合数据、策略和工程三大要素。

  • 数据:作为AI的基础,需要构建运维数据仓库或知识库,实现数据的标准化和平台化,这相当于AIOps的眼睛。
  • 策略:包括异常检测、根因分析等算法,构成了AIOps的核心,即大脑。
  • 工程:涉及数据的采集、处理和存储,以及将AI策略应用于实际业务,这是AIOps的支撑基础。

在构建AIOps时,应遵循三个原则:

  • 书同文:建立标准化的运维描述,使AI能够统一理解和学习不同来源的数据。
  • 车同轨:创建统一或通用的运维平台,避免数据和操作的不一致性,确保AI模型的可扩展性和适用性。
  • 行同伦:构建一致的运维模式,从感知到决策再到执行,使AIOps能够广泛应用于不同的程序、业务和场景,发挥其最大效能。

2.3  AIOps 应用场景

AIOps主要应用场景如下图所示:

AIOps的关键功能包括:

  • 异常检测:利用AI快速识别系统异常,提升故障诊断效率。
  • 趋势预测与容量规划:基于历史数据预测性能趋势,优化资源配置。
  • 关联告警:分析告警相关性,提供全局问题视图。
  • 告警聚合:合并相关告警,减少冗余,提高告警清晰度。
  • 故障根因分析:应用AI技术定位故障根源,加快问题解决。
  • 故障自愈:自动检测并修复系统故障,减少人工干预,缩短恢复时间。

3. AIOps 能力框架

AIOps的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的运维AI“学件”,再由多个具有AI能力的单运维能力点组合成一个智能运维流程。AIOps 能力框架基于如下 AIOps 能力分级。如下图所示,AIOps 能力分级可具体可描述为5级:

 所谓学件,亦称AI运维组件,类似程序中的API或公共库,但API及公共库不含具体业务数据,只是某种算法,而AI运维组件则是在类似API的基础上,兼具对某个运维场景智能化解决的“记忆”能力,将处理这个场景的智能规则保存在了这个组件中,学件(Learnware)= 模型(Model)+规约(Specification)。AIOps具体的能力框架如下图所示:

4. AIOps价值

在高性能计算集群的运维中,AIOps通过监控服务器、存储、网络等关键资产,实现全面的基础设施和环境监控,并采用可视化技术管理资产和数据。在此基础上,AIOps利用人工智能和机器学习技术,自动化执行异常检测、故障诊断、自愈操作,并进行精准的趋势预测和资源规划。

AIOps的主要优势包括:

  • 自动化异常检测:减少漏报,提高告警准确性。
  • 故障根因分析与自愈:减少人工干预,缩短故障恢复时间。
  • 告警关联与聚合:简化告警信息,提供清晰的上下文,降低告警负担。
  • 智能预测与规划:合理分配资源,避免资源短缺或浪费。

与传统运维相比,AIOps提升了系统的可靠性、可用性和安全性,同时降低了运维成本和人为错误,有效减少了业务中断风险,提高了运维效率和响应速度。简而言之,AIOps通过智能化手段,优化了IT运维的多个方面,实现了成本效益的最大化。

5. AIOps业内实践

美团技术团队凭借在行业和业务领域的深厚积累,已经开发出一系列工具和产品,实现了自动化运维,并在AIOps领域取得了初步成果。美团的AIOps实践专注于提升运维智能化,特别是在故障发现和事件管理这两个关键环节。通过构建AIOps平台Horae,美团在单指标时序异常检测方面积累了丰富经验,其智能告警功能有效支持了监控系统和异常检测场景

5.1  故障发现

美团利用机器学习算法对海量时序数据进行自动分类,并适配相应的检测策略。通过自动异常注入和特征工程,Horae平台能够实现对周期型指标的精准异常检测,减少人工参与的成本并提高告警准确率。

在故障管理体系中,从故障开始到结束主要有四大核心能力,即故障发现、告警触达、故障定位、故障恢复。具体关系如下图所示:

 

其中故障发现作为故障管理中最开始的一环,在当前海量指标场景下,自动发现故障和自动异常检测的需求甚为迫切,能极大地简化研发策略配置成本,提高告警的准确率,减少告警风暴和误告,从而提高研发的效率。整个AIOps体系的探索和演进路线如下图所示。

以异常发现为例,故障发现需要快速、准确。为避免误报,服务运维团队开发了一种基于历史上邻近的点分布相似(时序特征相似)思想的智能异常检测算法。如果当前待检测点相较其他历史参考点相对异常(存在点异常或者模式异常),检测流程会将异常点识别出来,并告知用户待测指标出现异常现象。

 

在进行实时检测流程中,待检测点会先进入预检测流程。预检测组件会拦截绝大多数正常点,而当预检测异常时,才会执行特征提取阶段,进入模型异常分类;同时分类结果通过反馈机制可以增加到样本集,提高模型泛化能力和精召率。整个算法流程训练、检测、反馈闭环。

该项能力为美团监控系统提供无阈值的时序检测能力。目前检测流程中的分类器在真实线上样本的精确率和召回率均在98%以上。团队会每周定时抽样核心指标并对检测结果进行复盘,核心指标的异常检出准确率在90%左右。

5.2  事件管理

美团的AIOps实践覆盖了事前预防、事中处理和事后运营三个阶段。在事前预防中,美团通过变更风险智能检测来预防潜在的变更风险。在事中处理阶段,美团实现了快速的异常发现、根因诊断和相似事件推荐,以降低服务异常的影响并提升服务可用性。事后运营则侧重于故障复盘,通过主题分析等NLP技术,帮助用户发现更多相似的故障,挖掘共性问题。

事件管理的复杂性体现在两个方面:

  1. 数据繁多:

数据多样化:需要整合告警、链路、指标、日志等多种数据类型,以全面识别、诊断和解决问题。

实时性和复杂性:运维数据需实时采集与处理,且数据间关系错综复杂,要求精细的统一处理。

领域知识要求高:运维涉及网络、硬件、系统等多个层面的知识,对运维人员和工具提出了高要求。

       2. 流程复杂:

事件管理的时间线如下,每个环节都提效才能达成事件管理的效率提升。

 

面对上述挑战,美团运维团队在过去几年建设了丰富的工具体系,基于专家经验、规则配置、流程管控等方式进行事件管理。具体工作可拆解为四个模块:

  • 风险预防——变更风险智能检测:以用户和实体为对象,结合规则以及机器学习模型,对用户行为进行分析和异常检测。
  • 故障发现——智能识别指标异常:基于统计算法和机器学习算法识别指标的异常模式,帮助用户快速发现故障。
  • 事件处理——诊断和预案推荐:通过多模态数据和算法规则引擎来帮助用户快速定位故障,推荐止损预案。
  • 事件运营——相似故障推荐:基于NLP技术推荐相似故障复盘,挖掘共性问题。

美团的AIOps实践展示了智能化技术在提升运维效率和准确性方面的潜力。通过这些实践,美团不仅提高了服务的可用性和稳定性,还为整个行业提供了宝贵的经验和启示,推动了AIOps的发展和创新。更多内容请参考AIOps在美团的探索与实践——事件管理篇

6. 参考资料

[1] 周志华. 机器学习: 发展与未来[R]. 报告地: 深圳, 2016.

[2] 裴丹, 张圣林, 裴昶华. 基于机器学习的智能运维[J]. 中国计算机学会通讯, 2017, 13(12): 68–73.

[3] 赵建春, 张戎, 周荣, 等. 《企业级AIOps实施建议》白皮书[M]. 高效运维社区、AIOps 标准工作组, 2018: 8–44.

[4] Bogatinovski J, Nedelkoski S, Acker A, et al. Artificial intelligence for it operations (aiops) workshop white paper[J]. arXiv preprint arXiv:2101.06054, 2021.

[5] Bhanage D A, Pawar A V, Kotecha K. It infrastructure anomaly detection and failure handling: A systematic literature review focusing on datasets, log preprocessing, machine & deep learning approaches and automated tool[J]. IEEE Access, 2021, 9: 156392-156421.

[6] Dang Y, Lin Q, Huang P. Aiops: real-world challenges and research innovations[C]. 2019 IEEE/ACM 41st International Conference on Software Engineering: Companion Proceedings (ICSE-Companion). IEEE, 2019: 4-5.

[7] 智能运维入门介绍[EB/OL].https://mp.weixin.qq.com/s/P4_IERYgVBfpk4Z344U7GA, 2022-10-15.

[8] AIOps在美团的探索与实践——故障发现篇[EB/OL]. https://tech.meituan.com/2020/10/15/mt-aiops-horae.html, 2020-10-15.

[9] AIOps在美团的探索与实践——事件管理篇[EB/OL]. https://tech.meituan.com/2023/12/22/aiops-based-incident-management.html, 2023-12-22.

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/58978.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 与 Vue 共筑航空机票预定卓越平台

作者介绍:✌️大厂全栈码农|毕设实战开发,专注于大学生项目实战开发、讲解和毕业答疑辅导。 🍅获取源码联系方式请查看文末🍅 推荐订阅精彩专栏 👇🏻 避免错过下次更新 Springboot项目精选实战案例 更多项目…

2024 第五次周赛

A: 直接遍历即可 #include<bits/stdc.h> using namespace std;typedef long long ll; typedef pair<ll, ll>PII; const int N 2e6 10; const int MOD 998244353; const int INF 0X3F3F3F3F;int n, m; int main() {cin >> n;int cnt 0;for(int i 0; i …

斐波那契数的第n个数代码分享(c基础)

1&#xff1a;迭代 //斐波那契数的第n个数 #include<stdio.h> //unsigned long long Fib(n) //{ // // if (1 n || 2 n) // return 1; // else return Fib((n - 1) Fib((n - 2); // // //} unsigned long long Fib(n) {if (n 1 || n 2)return 1;else{int j 3;u…

STM32单片机WIFI语音识别智能衣柜除湿消毒照明

实践制作DIY- GC0196-WIFI语音识别智能衣柜 一、功能说明&#xff1a; 基于STM32单片机设计-WIFI语音识别智能衣柜 二、功能介绍&#xff1a; STM32F103C系列最小系统板LCD1602显示器ULN2003控制的步进电机&#xff08;柜门开关&#xff09;5V加热片直流风扇紫外消毒灯DHT11…

qt QShortcut详解

1、概述 QShortcut是Qt框架中的一个类&#xff0c;它提供了一种创建键盘快捷键的方式。通过QShortcut&#xff0c;开发者可以将特定的键盘组合&#xff08;如CtrlC、AltF4等&#xff09;与应用程序中的动作&#xff08;如复制、关闭窗口等&#xff09;关联起来。当用户在应用程…

C语言笔记(字符串函数,字符函数,内存函数)

目录 前言 1.字符串函数 1.1.strlen 1.2.strcpy 1.3.strcat 1.4.strcmp 1.5.strncpy 1.6.strncat 1.7.strncmp 1.8.strstr 1.9.strtok 1.10.strerror 2.字符函数 2.1字符分类函数 2.2字符转换函数 3.内存函数 3.1.mencpy 3.2.memmove 3.3.memcmp 前言 本文重…

Debian 12环境里部署nginx步骤记录

前言 浅记录一下 在Debian 12环境里安装nginx的过程&#xff0c;这个过程并没有特别顺利&#xff0c;有遇到各种报错&#xff0c;这些报错&#xff0c;我也会记录进来&#xff1b;方便自己后续查看以及供需要的小伙伴参考吧~~ 主要参考资料&#xff1a;https://blog.csdn.ne…

详解基于C#开发Windows API的SendMessage方法的鼠标键盘消息发送

在C#中&#xff0c;SendMessage方法是一个强大的工具&#xff0c;它允许我们与Windows API交互&#xff0c;模拟键盘和鼠标事件。本文将详细介绍如何使用SendMessage方法来发送鼠标和键盘消息。 1. SendMessage方法概述 SendMessage是Windows API中的一个函数&#xff0c;它用…

单片机入门知识

1单片机系统的int是16位 计算机系统的int是32位&#xff08;数据总线&#xff09; 2的16次方是65536 所以在单片机中&#xff0c;如果表示一个正整数&#xff0c;这个数字的范围是0~65535&#xff0c;总共有65536种可能 2内存条用于存储计算机运行时的数据&#xff0c;是连接…

ABAP:SET CURSOR FIELD设置鼠标焦点

SET CURSOR FIELD <字段名>&#xff1a;设置鼠标焦点到该字段 SET CURSOR 设置到鼠标焦点列还是行 SET CURSOR LINE 设置鼠标焦点到行 GET CURSOR field <字段名> &#xff1a;这个相对应的获取鼠标焦点得到的字段

ArcGIS从Excel表格文件导入XY数据并定义坐标系与投影的方法

本文介绍在ArcMap软件中&#xff0c;从Excel表格文件中批量导入坐标点数据&#xff0c;将其保存为.shp矢量格式&#xff0c;并定义坐标系、转为投影坐标系的方法。 已知我们有一个Excel表格文件&#xff08;可以是.xls、.xlsx、.csv等多种不同的表格文件格式&#xff09;&#…

三周精通FastAPI:38 针对不同的编程语言来生成客户端

官方文档&#xff1a;https://fastapi.tiangolo.com/zh/advanced/generate-clients/ 生成客户端 因为 FastAPI 是基于OpenAPI规范的&#xff0c;自然您可以使用许多相匹配的工具&#xff0c;包括自动生成API文档 (由 Swagger UI 提供)。 一个不太明显而又特别的优势是&#…

Linux【基础篇】T

--已经不知道幸福是什么味道了 Linux命令行 linux命令提示符 linux目录结构 Windows的目录结构是N个顶点&#xff0c;可以是C盘 可以是D盘 可以是E盘 往下。 linux的目录结构是只有一个订单 &#xff0c;像一颗倒状的树木一样的。 linux常用目录含义 /etc目录下一些重要的配置…

Mesh网格

Mesh(网格) 定义&#xff1a;Mesh 是一个包含顶点、三角形、顶点法线、UV坐标、颜色和骨骼权重等数据的对象。它定义了3D模型的几何形状。 功能&#xff1a; 顶点&#xff08;Vertices&#xff09;&#xff1a;构成3D模型的点。 三角形&#xff08;Triangles&#xff09;&…

【从零开始的LeetCode-算法】540. 有序数组中的单一元素

给你一个仅由整数组成的有序数组&#xff0c;其中每个元素都会出现两次&#xff0c;唯有一个数只会出现一次。 请你找出并返回只出现一次的那个数。 你设计的解决方案必须满足 O(log n) 时间复杂度和 O(1) 空间复杂度。 示例 1: 输入: nums [1,1,2,3,3,4,4,8,8] 输出: 2示例…

传输协议设计与牧村摆动(Makimoto‘s Wave)

有一条活鱼和一条死鱼&#xff0c;你准备怎么做&#xff0c;你会将活鱼红烧或将死鱼清蒸吗&#xff1f;好的食材只需要最简单的烹饪&#xff0c;不好的食材才需要花活儿。 我此前的文字几乎都在阐述一个观点&#xff0c;广域网就是那条死鱼&#xff0c;数据中心则是那条活鱼。…

【AI学习】Mamba学习(十五):关于S4模型计算优化的再学习

前面理解了S4模型&#xff0c;但是对于具体的优化算法&#xff0c;还是没有完全理解透彻。现在补充学习。 S4 SSM HiPPO Structured Matrices 具体方案&#xff1a;Structured State Spaces (S4) 简单总结&#xff1a;用HiPPO-LegS的矩阵形式初始化SSM&#xff0c;解决训…

【C++】新手入门指南

> &#x1f343; 本系列为初阶C的内容&#xff0c;如果感兴趣&#xff0c;欢迎订阅&#x1f6a9; > &#x1f38a;个人主页:[小编的个人主页])小编的个人主页 > &#x1f380; &#x1f389;欢迎大家点赞&#x1f44d;收藏⭐文章 > ✌️ &#x1f91e; &#x1…

小程序开发进阶之路-AI编程助手

之前&#xff0c;我独自一人开发了一个名为“心情追忆”的小程序&#xff0c;旨在帮助用户记录日常的心情变化及重要时刻。从项目的构思、设计、前端&#xff08;小程序&#xff09;开发、后端搭建到最终部署&#xff0c;所有环节都由我一人包办。经过一个月的努力&#xff0c;…

Cursor的chat与composer的使用体验分享

经过一段时间的试用&#xff0c;下面对 Composer 与 Chat 的使用差别进行总结&#xff1a; 一、长文本及程序文件处理方面 Composer 在处理长文本时表现较为稳定&#xff0c;可以对长文进行更改而不会出现内容丢失的情况。而 Chat 在更改长的程序文件时&#xff0c;有时会删除…