2024年5月24日,第二届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中关村人才协会作为指导单位,中国移动通信集团浙江有限公司和SRE创新联合体(中关村人才协会SRE专委会)联合主办,中移动信息技术有限公司,PeopleCert,雅菲奥朗、观测云等单位协办。会议邀请了来自通信、金融、制造、互联网行业等150余位SRE领域专业人士,共同探讨在数字经济时代下,如何通过技术创新和最佳实践提升企业的服务韧性和运维效率,以及SRE和人工智能领域的最新发展、创新和未来趋势。
在数字化转型的浪潮中,人工智能技术的飞速发展为运维领域带来了革命性的变化。雅菲奥朗作为SRE培训与咨询的引领者,雅菲奥朗的刘峰老师凭借其在AIOps和AI领域的深厚背景和国际视野,发起了主题为《人工智能的未来之路:引领智能运维新纪元》的演讲。刘峰的演讲不仅聚焦于人工智能如何推动运维领域的创新,更深入探讨了大模型技术在提升系统稳定性、可靠性和安全性方面的应用,为SRE领域带来了全新的技术实践趋势。
SRE创新联合体发起人、雅菲奥朗总监 刘峰
SRE创新联合体发起人、雅菲奥朗总监刘峰,带来了一场主题为《人工智能的未来之路:引领智能运维新纪元》的精彩演讲。他深入探讨了新一代人工智能技术,特别是大模型与大语言模型、AIGC等结合,如何在运维研发领域带来创新。这些技术在SRE领域提升了系统的稳定性、可靠性和安全性,成为技术实践的新趋势。与传统AIOps相比,大模型提供了迅速生成解决方案,提供故障修复的代码,从而提升系统的自我修复能力。作为国际认证课程AIOps的授权讲师,刘峰在本次演讲中分享了如何利用大型模型赋能SRE和智能运维的见解,并与SRE专家和爱好者们交流了最新的实践成果。
一、人工智能运维的起源与新发展
AIOps是人工智能在IT运维领域的应用,它通过大数据和机器学习技术,解决云计算设施的运维难题,实现自动化和系统的高效稳定运行。与传统的ITOA(IT 运维分析)不同,AIOps更侧重于机器学习和AI算法的运用。
OEA闭环是AIOps的核心,包括观测、介入和自动化三个阶段。观测阶段,通过监控和数据采集建立可观测性;介入阶段,利用自动化措施如Chatbox机器人或脚本处理故障,同时保留人工介入的选项;自动化阶段,通过脚本、自愈和人工处理形成闭环,实现问题的快速解决。AIOps的实践,特别是在最近五年的云计算环境中,推动了一系列新技术的发展,为IT运维带来了创新和变革。
人工智能发展分为三个阶段:狭义AI,依赖监督学习,任务单一;广义AI,通过自监督和端对端模型实现多任务处理;AGI作为终极目标,追求超越人类智能的自主学习与不断进步,同时需加强治理与监管。
大模型作为通用人工智能技术变革的驱动力,通过在海量数据上的预训练,展现出涌现能力、大规模参数和通用性。自2005年以来,从CNN到Transformer架构,大模型发展迅速,参数规模从数亿到万亿级别。代表性模型如Google的BERT、OpenAI的GPT系列,推动了自然语言处理和多模态大模型的进步。2024第二届SRE服务韧性工程论坛强调了大模型在服务韧性工程中的重要性,标志着技术路线优势的显现和"百模大战"态势的形成。
全面可观测性结合大模型和OEA(Observe, Engage, Act)框架,为AIOps带来革新。观测阶段,利用大数据平台收集和监控实时信息。介入阶段,通过机器学习算法分析数据,实现自动化决策支持。行动阶段,执行自动化脚本和措施,形成闭环,提升运维效率和系统稳定性。这一整合框架推动了运维向智能化、自动化的转型,优化了IT服务管理。
二、SRE发展和AI技能要求
在现代IT组织中,运维团队、开发团队和DevOps团队各自扮演着关键角色,共同推动着企业的技术发展和服务质量的提升。运维团队专注于系统的稳定运行和维护,确保服务的可靠性和安全性。开发团队则致力于新功能的开发和现有应用的改进,推动产品的创新和迭代。而DevOps团队则是连接开发与运维的桥梁,通过自动化流程和持续集成/持续部署(CI/CD)实践,加速软件交付周期,提高团队协作效率。这三个团队的紧密合作,是实现高效、敏捷和高质量IT服务的基石。
在2024年第二届运维体系服务韧性工程(SRE)论坛上,AIOps岗位技能要求被明确提出。这些要求包括精通机器学习和数据科学,熟悉云计算技术,掌握自动化和容器化技术如Ansible、Docker、Kubernetes。同时,岗位还要求具备监控和可观测性知识、应急事件处理能力、问题根源分析、AI算法和大模型实操经验、大数据知识、持续实验和优化、自动化运维以及生产环境管理。此外,敏捷和DevOps知识、结构化决策能力、学习和创新能力也是必不可少的行为技巧。
对比传统IT技能与AIOps工程师的新要求。AIOps工程师需掌握基于AIGC的运维研发,结合大模型与大数据技术,强化信息安全与数据安全,同时注重个人隐私保护。职场软技能也需适应云时代的技术发展,包括自动化、智能化生产环境管理,以及持续的学习和创新能力。这标志着IT运维领域正朝着智能化和数据驱动的方向快速演进。
三、大模型引导智能运维的未来
大模型技术正成为智能运维领域的领航者,引领着运维实践的未来发展。这些先进的模型利用AIGC技术,不仅能够自动生成内容,还能通过机器学习深入分析故障,从而实现更加精准的故障预测和快速响应。在数据治理方面,大模型通过智能决策支持系统,优化数据管理和信息流,确保运维过程中的数据安全和合规性。
开源和商业大模型的结合使用,为运维团队提供了丰富的工具和资源,这些模型在处理大规模数据集时展现出卓越的性能,帮助运维人员从繁杂的数据中提取有价值的洞察。随着人工智能算法的不断演进,智能运维系统变得更加自动化和智能化,能够自主执行复杂的任务,减少人为错误,提高运维效率。
智能运维的未来,将是一个高度集成、自我优化的生态系统,大模型技术在其中扮演着核心角色,推动着运维工作向更高层次的智能化发展,为企业的稳定运营和持续创新提供坚实的技术支撑。
四、SRE结合AIGC实现智能运维
SRE(Site Reliability Engineering)领导的自动化,即AI能力的“左移”,是当前IT运维领域的一大趋势。这种趋势强调在软件开发生命周期的早期阶段引入人工智能和机器学习技术,以提高系统的可靠性和稳定性。通过将AI能力前置,SRE能够更早地识别和解决潜在问题,从而减少生产环境中的故障和中断。
SRE领导的自动化不仅仅是技术的引入,更是一种文化和流程的变革。通过“左移”AI能力,SRE团队能够在软件开发的早期阶段就开始优化系统设计,实现更加精细化的故障预防和管理。这种自动化不仅提高了系统的稳定性,还提升了开发和运维团队的协作效率。
此外,AIGC技术的发展为SRE带来了新的机遇和挑战。在代码生成、图像生成、机器人客服等领域,AIGC已经展现出其强大的能力。然而,如何确保AIGC生成内容的准确性和可靠性,如何平衡自动化与人工干预的关系,是SRE领域需要深入探讨的问题。
SRE领导的自动化是IT运维向智能化、自动化转型的关键一步。通过引入大模型和AIGC技术,SRE团队能够更早地介入问题解决过程,实现更高效、更可靠的系统运维。同时,这也要求SRE团队不断学习和适应新技术,以确保在快速变化的技术环境中保持领先地位。
结语:
在雅菲奥朗刘峰老师的精彩演讲中,我们得以一窥人工智能如何塑造智能运维的未来。他不仅展示了大模型技术在SRE领域的创新应用,更激发了我们对智能运维新纪元的无限憧憬。随着大模型和AIGC技术的不断进步,系统的自我修复能力将得到前所未有的提升。刘峰老师的分享和交流,为SRE专家和爱好者们提供了宝贵的知识财富,也为智能运维的发展指明了方向。让我们共同期待,在人工智能的引领下,智能运维将迎来更加辉煌的明天。