服务韧性工程(SRE)论坛演讲实录 | 雅菲奥朗: 人工智能的未来之路引领智能运维新纪元

image1

2024年5月24日,第二届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中关村人才协会作为指导单位,中国移动通信集团浙江有限公司和SRE创新联合体(中关村人才协会SRE专委会)联合主办,中移动信息技术有限公司,PeopleCert,雅菲奥朗、观测云等单位协办。会议邀请了来自通信、金融、制造、互联网行业等150余位SRE领域专业人士,共同探讨在数字经济时代下,如何通过技术创新和最佳实践提升企业的服务韧性和运维效率,以及SRE和人工智能领域的最新发展、创新和未来趋势。


在数字化转型的浪潮中,人工智能技术的飞速发展为运维领域带来了革命性的变化。雅菲奥朗作为SRE培训与咨询的引领者,雅菲奥朗的刘峰老师凭借其在AIOps和AI领域的深厚背景和国际视野,发起了主题为《人工智能的未来之路:引领智能运维新纪元》的演讲。刘峰的演讲不仅聚焦于人工智能如何推动运维领域的创新,更深入探讨了大模型技术在提升系统稳定性、可靠性和安全性方面的应用,为SRE领域带来了全新的技术实践趋势。

image2

SRE创新联合体发起人、雅菲奥朗总监 刘峰

SRE创新联合体发起人、雅菲奥朗总监刘峰,带来了一场主题为《人工智能的未来之路:引领智能运维新纪元》的精彩演讲。他深入探讨了新一代人工智能技术,特别是大模型与大语言模型、AIGC等结合,如何在运维研发领域带来创新。这些技术在SRE领域提升了系统的稳定性、可靠性和安全性,成为技术实践的新趋势。与传统AIOps相比,大模型提供了迅速生成解决方案,提供故障修复的代码,从而提升系统的自我修复能力。作为国际认证课程AIOps的授权讲师,刘峰在本次演讲中分享了如何利用大型模型赋能SRE和智能运维的见解,并与SRE专家和爱好者们交流了最新的实践成果。

一、人工智能运维的起源与新发展

​AIOps是人工智能在IT运维领域的应用,它通过大数据和机器学习技术,解决云计算设施的运维难题,实现自动化和系统的高效稳定运行。与传统的ITOAIT 运维分析)不同,AIOps更侧重于机器学习和AI算法的运用。

image3

OEA闭环是AIOps的核心,包括观测、介入和自动化三个阶段。观测阶段,通过监控和数据采集建立可观测性;介入阶段,利用自动化措施如Chatbox机器人或脚本处理故障,同时保留人工介入的选项;自动化阶段,通过脚本、自愈和人工处理形成闭环,实现问题的快速解决。AIOps的实践,特别是在最近五年的云计算环境中,推动了一系列新技术的发展,为IT运维带来了创新和变革。

人工智能发展分为三个阶段:狭义AI,依赖监督学习,任务单一;广义AI,通过自监督和端对端模型实现多任务处理;AGI作为终极目标,追求超越人类智能的自主学习与不断进步,同时需加强治理与监管。

大模型作为通用人工智能技术变革的驱动力,通过在海量数据上的预训练,展现出涌现能力、大规模参数和通用性。自2005年以来,从CNN到Transformer架构,大模型发展迅速,参数规模从数亿到万亿级别。代表性模型如Google的BERT、OpenAI的GPT系列,推动了自然语言处理和多模态大模型的进步。2024第二届SRE服务韧性工程论坛强调了大模型在服务韧性工程中的重要性,标志着技术路线优势的显现和"百模大战"态势的形成。

image4

全面可观测性结合大模型和OEA(Observe, Engage, Act)框架,为AIOps带来革新。观测阶段,利用大数据平台收集和监控实时信息。介入阶段,通过机器学习算法分析数据,实现自动化决策支持。行动阶段,执行自动化脚本和措施,形成闭环,提升运维效率和系统稳定性。这一整合框架推动了运维向智能化、自动化的转型,优化了IT服务管理。

 

二、SRE发展和AI技能要求

在现代IT组织中,运维团队、开发团队和DevOps团队各自扮演着关键角色,共同推动着企业的技术发展和服务质量的提升。运维团队专注于系统的稳定运行和维护,确保服务的可靠性和安全性。开发团队则致力于新功能的开发和现有应用的改进,推动产品的创新和迭代。而DevOps团队则是连接开发与运维的桥梁,通过自动化流程和持续集成/持续部署(CI/CD)实践,加速软件交付周期,提高团队协作效率。这三个团队的紧密合作,是实现高效、敏捷和高质量IT服务的基石。

image5

在2024年第二届运维体系服务韧性工程(SRE)论坛上,AIOps岗位技能要求被明确提出。这些要求包括精通机器学习和数据科学,熟悉云计算技术,掌握自动化和容器化技术如AnsibleDockerKubernetes。同时,岗位还要求具备监控和可观测性知识、应急事件处理能力、问题根源分析、AI算法和大模型实操经验、大数据知识、持续实验和优化、自动化运维以及生产环境管理。此外,敏捷和DevOps知识、结构化决策能力、学习和创新能力也是必不可少的行为技巧。

对比传统IT技能与AIOps工程师的新要求。AIOps工程师需掌握基于AIGC的运维研发,结合大模型与大数据技术,强化信息安全与数据安全,同时注重个人隐私保护。职场软技能也需适应云时代的技术发展,包括自动化、智能化生产环境管理,以及持续的学习和创新能力。这标志着IT运维领域正朝着智能化和数据驱动的方向快速演进。

三、大模型引导智能运维的未来

image6


 

大模型技术正成为智能运维领域的领航者,引领着运维实践的未来发展。这些先进的模型利用AIGC技术,不仅能够自动生成内容,还能通过机器学习深入分析故障,从而实现更加精准的故障预测和快速响应。在数据治理方面,大模型通过智能决策支持系统,优化数据管理和信息流,确保运维过程中的数据安全和合规性。

开源和商业大模型的结合使用,为运维团队提供了丰富的工具和资源,这些模型在处理大规模数据集时展现出卓越的性能,帮助运维人员从繁杂的数据中提取有价值的洞察。随着人工智能算法的不断演进,智能运维系统变得更加自动化和智能化,能够自主执行复杂的任务,减少人为错误,提高运维效率。

智能运维的未来,将是一个高度集成、自我优化的生态系统,大模型技术在其中扮演着核心角色,推动着运维工作向更高层次的智能化发展,为企业的稳定运营和持续创新提供坚实的技术支撑。

四、SRE结合AIGC实现智能运维

SRE(Site Reliability Engineering)领导的自动化,即AI能力的“左移”,是当前IT运维领域的一大趋势。这种趋势强调在软件开发生命周期的早期阶段引入人工智能和机器学习技术,以提高系统的可靠性和稳定性。通过将AI能力前置,SRE能够更早地识别和解决潜在问题,从而减少生产环境中的故障和中断。

SRE领导的自动化不仅仅是技术的引入,更是一种文化和流程的变革。通过“左移”AI能力,SRE团队能够在软件开发的早期阶段就开始优化系统设计,实现更加精细化的故障预防和管理。这种自动化不仅提高了系统的稳定性,还提升了开发和运维团队的协作效率。

此外,AIGC技术的发展为SRE带来了新的机遇和挑战。在代码生成、图像生成、机器人客服等领域,AIGC已经展现出其强大的能力。然而,如何确保AIGC生成内容的准确性和可靠性,如何平衡自动化与人工干预的关系,是SRE领域需要深入探讨的问题。

SRE领导的自动化是IT运维向智能化、自动化转型的关键一步。通过引入大模型和AIGC技术,SRE团队能够更早地介入问题解决过程,实现更高效、更可靠的系统运维。同时,这也要求SRE团队不断学习和适应新技术,以确保在快速变化的技术环境中保持领先地位。

结语:

在雅菲奥朗刘峰老师的精彩演讲中,我们得以一窥人工智能如何塑造智能运维的未来。他不仅展示了大模型技术在SRE领域的创新应用,更激发了我们对智能运维新纪元的无限憧憬。随着大模型和AIGC技术的不断进步,系统的自我修复能力将得到前所未有的提升。刘峰老师的分享和交流,为SRE专家和爱好者们提供了宝贵的知识财富,也为智能运维的发展指明了方向。让我们共同期待,在人工智能的引领下,智能运维将迎来更加辉煌的明天。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/50071.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 某进程 CPU 高问题,用 Shell 脚本发现处理

发现高CPU使用率进程 首先,我们需要编写一个Shell脚本来发现系统中CPU使用率最高的进程。以下是一个简单的脚本示例: #!/bin/bash# 设置 CPU 使用率的阈值,一般设置90;这里是demo,所以用30 CPU_THRESHOLD30# 获取占用 CPU 最高的…

pikauchu之Unsafe Fileupload(不安全的文件上传)

Client check&#xff08;客户检查&#xff09; 第一步先新建一个一句话木马 <?php eval($_POST[1]);?> 然后上传文件 有限制&#xff0c;只能上传那几种类型 现在看看源代码 我们将一句话木马文件的后缀改为png 然后用burp抓包&#xff0c;将png改成php 就能上传成功 …

运维上云/直播上云EasyNVS视频上云管理平台配置域名时的注意事项

EasyNVS视频上云管理平台拥有完整的视频流媒体服务能力和运维管理服务能力&#xff0c;不仅可以通过平台对EasyNVR、EasyGBS进行统一管理&#xff0c;还能解决设备现场没有固定公网IP却需要在公网直播的需求。 有用户反馈&#xff0c;在项目现场配置了EasyNVS的HTTPS证书&#…

Studying-代码随想录训练营day44| 1143.最长公共子序列、1035.不相交的线、53.最大子序和、392.判断子序列

第44天&#xff0c;动态规划part11&#xff0c;子序列题型part02(ง •_•)ง&#x1f4aa;&#xff0c;编程语言&#xff1a;C 目录 1143.最长公共子序列 1035.不相交的线 53.最大子序和 392.判断子序列 总结 1143.最长公共子序列 文档讲解&#xff1a;代码随想录最长公…

【微信小程序实战教程】之微信小程序原生开发详解

微信小程序原生开发详解 微信小程序的更新迭代非常频繁&#xff0c;几乎每个月都会有新版本发布&#xff0c;这就会让初学者感觉到学习的压力和难度。其实&#xff0c;我们小程序的每次版本迭代都是在现有小程序架构基础之上进行更新的&#xff0c;如果想要学好小程序开发技术&…

面试经典 114. 二叉树展开为链表

最近工作越来越难找&#xff0c;裁员越来越懂了&#xff0c;焦虑的睡不着&#xff0c;怎么办呢&#xff0c;只能刷面试题&#xff0c;卷死你们 今天这个题目没刷过&#xff0c;我思考了半天才只能用暴力&#xff0c;后来苦思冥想才想出来简单的方法&#xff0c;废话不多说&…

【机器学习】激活函数:神经网络的灵魂

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 激活函数&#xff1a;神经网络的灵魂什么是激活函数?常见激活函数类型1. Sigmo…

深入了解 JMeter 中的响应断言

JMeter 是一个强大的性能测试工具&#xff0c;能够模拟大量用户并发访问网站或应用程序&#xff0c;以便测试其性能和稳定性。在进行性能测试时&#xff0c;我们需要对响应结果进行断言&#xff0c;以确保应用程序或网站的功能和性能符合预期。 JMeter 提供了一套丰富的响应断…

VINS-FUSION 优化-IMU预积分因子(二)

VINS-FUSION 优化-IMU预积分因子(一)完成了IMU预积分及对于优化变量的全部雅克比矩阵的推导,本文结合VINS-FUSION源码,完成优化-IMU预积分因子的使用。 一、IMU预积分因子雅克比 VINS-FUSION源码中将优化变量分组如下: 1.对i时刻优化变量的雅可比

8.0.32 mysql 配置主从数据库

配置前提&#xff1a; 两台服务器都需要安装同一版本的mysql数据库 我的版本是8.0.32 数据库参数修改 主数据库my.cnf(linux)或my.ini(win)配置&#xff1a; 这里需要注意&#xff1a;server-id必须唯一主从两个库必须要不一样 log_binmysql-bin server-id24 gtid-modeON …

chapter08-面相对象编程的三大特征——封装

1、基础介绍 对电视机的操作就是典型封装 封装的好处&#xff1a;隐藏实现细节&#xff1b;可以对数据进行验证 2、封装的实现 3、入门案例 altinsert&#xff0c;getter and setter&#xff0c;自动插入

生成式人工智能的未来之路:对话系统与自主代理的交汇与展望

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…

RAS--APEI 报错解析流程(2)

RAS--APEI 报错解析流程(1) 除了APEI 中除了GHES会记录错误&#xff0c;在Post过程中的错误通常是通过BERT Table汇报 1.BERT Boot Error Record Table is used to report unhandled errors that occurred in a previous boot&#xff0c;it is reported as a ‘one-time polle…

HarmonyOS Next 省市区级联(三级联动)筛选框

效果图 完整代码 实例对象 export class ProvinceBean {id?: stringpid?: stringisSelect?: booleandeep?: objectextName?: stringchildren?: ProvinceBean[] }级联代码 import { MMKV } from tencent/mmkv/src/main/ets/utils/MMKV import { ProvinceBean } from ..…

基于 HTML+ECharts 实现智慧运维数据可视化大屏(含源码)

智慧运维数据可视化大屏&#xff1a;基于 HTML 和 ECharts 的实现 在现代企业中&#xff0c;运维管理是确保系统稳定运行的关键环节。随着数据量的激增&#xff0c;如何高效地监控和分析运维数据成为了一个重要课题。本文将介绍如何利用 HTML 和 ECharts 实现一个智慧运维数据可…

深入理解 Java NIO:ByteBuffer和MappedByteBuffer的特性与使用

目录 前言 ByteBuffer是什么 重要特点 分配缓冲区 读写模式切换 操作文本数据 操作基本数据类型 案例解析-循环输出数据 MappedByteBuffer是什么 MappedByteBuffer 的工作机制 刷盘时机 总结 前言 在深入学习 RocketMQ 这款高性能消息队列框架的源码时&#xff0c…

醒醒,别睡了...讲《数据分析pandas库》了—/—<1>

一、了解pandas No.1 Pandas 是 Python 语言的一个扩展程序库&#xff0c;用于数据分析&#xff0c;是一个强大的分析结构化数据的工具集&#xff0c;基础是Numpy库&#xff0c;可以去参考前面所讲的课。&#xff08;提供高性能的矩阵运算&#xff09; No.2 应用 &#xff1a;P…

vue上传Excel文件并直接点击文件列表进行预览

本文主要内容&#xff1a;用elementui的Upload 组件上传Excel文件&#xff0c;上传后的列表采用xlsx插件实现点击预览表格内容效果。 在项目中可能会有这样的需求&#xff0c;有很多种方法实现。但是不想要跳转外部地址&#xff0c;所以用了xlsx插件来解析表格&#xff0c;并展…

Docker安装kkFileView实现在线文件预览

kkFileView为文件文档在线预览解决方案,该项目使用流行的spring boot搭建,易上手和部署,基本支持主流办公文档的在线预览,如doc,docx,xls,xlsx,ppt,pptx,pdf,txt,zip,rar,图片,视频,音频等等 官方文档地址:https://kkview.cn/zh-cn/docs/production.html 一、拉取镜像 do…

1 深度学习网络DNN

代码来自B站up爆肝杰哥 测试版本 import torch import torchvisiondef print_hi(name):print(fHi, {name}) if __name__ __main__:print_hi(陀思妥耶夫斯基)print("HELLO pytorch {}".format(torch.__version__))print("torchvision.version:", torchvi…