线上观看 3 万+!「智能运维MeetUp」精彩回顾,探讨智能体构建新方向

龙蜥社区“走进系列”第 11 期走进中兴通讯-智能可观测运维技术 MeetUp 于成都圆满结束,由中兴通讯联合龙蜥社区系统运维联盟(SOMA)(以下简称“联盟”)共同举办。本次活动现场汇聚了阿里云、谐云科技、乘云数字、中兴通讯、云杉网络、浪潮信息等企业和社区资深技术专家们,围绕大模型、可观测性、智能机器人、SysOM 等热门话题,和我们分享系统运维硬核技术、优化实践等干货,本次活动线上观看人次 3 万+。

图片

(图/活动现场合照)

会议伊始,龙蜥社区系统运维联盟主席冯富秋介绍了本次 MeetUp 的全程安排。他表示龙蜥社区系统运维联盟作为运维技术创新的前沿阵地,承载着双重使命:第一通过强化联盟与各成员单位间的协同合作,打造出运维能力跃升新引擎;第二,致力于制定并推广运维产业标准,为用户提供一盏明灯,让他们清晰洞悉市场运维水准的现状与未来趋势。同时,他也详细介绍了联盟当前的工作进展,强调通过联盟,牵引国内系统运维健康、有序、领先的发展。

图片

(图/冯富秋)

接着,龙蜥社区系统运维联盟副主席、中兴通讯操作系统产品部副部长蒋学鑫表示,作为本次大会的承办单位,中兴通讯持续为联盟的运作提供了资金、服务和技术的支持,在操作系统运维领域积极参与共建,为联盟成员做好服务,助力联盟健康发展。同时,中兴通讯也是龙蜥社区副理事长单位,秉承开发合作,共创共赢的理念积极参与社区建设,力争打造国内社区生态底座,促进社区繁荣发展。

图片

(图/蒋学鑫)

致辞结束后,进入技术分享阶段,9 位技术大咖分享了大模型、智能机器人、可观测性等运维领域的前沿技术。

谐云科技技术总监蒋玉芳就谐云科技在容器化架构下,如何利用可观测技术实现应用性能和资源优化的一些探索进行了分享。她详细阐述了容器环境下应用性能影响的第一性原理,并分析了 CPU、IO、内存在容器环境中对应用性能的影响。蒋玉芳分享了相关的性能优化具体案例和常用的应用性能优化手段,并提到通过 eBPF 技术实现共享指标采集,为应用性能优化以及资源优化提供基础支持。资源优化方面,她介绍了谐云在应用混部方面的实践,讲述了如何利用算法构建应用性能画像,并通过自定义扩展调度、智能 HPA 以及 VPA 等资源优化方案,提升资源利用效率。

图片

(图/蒋玉芳)

企业面对多样化的监控需求,往往采用购买不同专业产品的“数码时代”模式,但这种模式在云原生、微服务、容器化等新技术环境下显得力不从心。杭州乘云数字技术有限公司运营副总裁张怀鹏会上分享了《如何打造开放领先的可观测性数据底座》演讲。乘云数字提出了构建可观测性数据底座的理念,以实现数据融合和自由开发应用。通过统一数据模型和统一组织构建的思路进行设计指导,全面拥抱 OpenTelemetry,确保了与业界生态的紧密接轨。通过 OneGate 高度自动化治理引擎实现多源异构的数据治理。基于自主研发的 MoreDB 和 TracingX ,在时序数据和链路数据的存储处理上降本增效。基于这套开放领先的可观测底座,提升监控数据质量,不断的开拓应用场景,包括但不限于 NGAIOps、IoT、故障预警、云网空间地图等等高级分析能力。可观测底座是打破传统监控孤岛,实现由 IT 进阶到 DT 数据驱动场景分析的必备基建。

图片

(图/张怀鹏)

中兴通讯系统工程师黄军华分享了《组装式 OS 可靠性增强组件实践》。他表示,越来越多的场景对可靠性有更高的要求,如基站、卫星、工业网关、智能汽车等,而当前 Linux 聚焦资源管理机制的实现,不重点关注资源使用策略导致的异常,其主要提供了硬件的可靠性处理,整体上没有体系化的管理手段。同时对于操作系统而言,可组装的定制功能将能在不同的场景下最大化功能价值。面对可靠性增强的需求和挑战,中兴通讯进行了组装式 OS 可靠性增强组件实践,充分覆盖系统各类亚健康事件,并进行对应策略处理,尽可能保障系统的可靠运行,同时提供必要的维测信息,方便后续故障定位。设计上采用可组装思路,利用 ftrace、kprobes 及 eBPF 技术进行功能解耦,可以很好地满足多场景下 OS 可靠性增强需求。

图片

(图/黄军华)

用 AI 实现 Ops 解决运维困境,一直是 IT 界的梦想。DeepFlow 解决方案负责人李飞分享了《零侵扰数据能力,构建可观测性智能体的基石》。他表示,自从以 GPT 为代表的大模型出现之后,用 AI 实现 Ops 解决运维困境的梦想看起来实现近在咫尺,但 AIOps 发展的核心瓶颈是数据。现阶段的运维体系存在大量的数据盲区、数据孤岛、数据关联等问题,运维诊断更多的是依靠经验、猜测、直觉和灵感,而不是依靠数据。数据的问题导致运维诊断工作难以模型化,AIOps 技术发展缓慢。云杉网络开发的 DeepFlow 可观测性平台,聚焦于解决运维数据中的盲区、孤岛等核心问题,通过 eBPF 技术带来的零侵扰、全栈采集能力消除数据盲区,通过 AutoTagging 技术带来的高性能数据统一标注能力消除数据孤岛,以高质量的可观测性数据体系构建基于数据的运维能力,消灭运维中的猜测、直觉和灵感,打造 AIOps 落地应用的稳定基石。DeepFlow 可观测性数据结合大模型 AI 能力,在广泛拓扑分析、海量指标分析、复杂函数性能剖析等运维诊断中已经取得令人惊艳的效果表现。当前, DeepFlow 可观测性平台正在探索全生命周期的 AI 运维技术,探索通过  eBPF 技术将“可观测性+ AI”延伸到包括智能驾驶、智能工厂等更广泛的领域。

图片

(图/李飞)

SysOM 作为社区与阿里云联合推出的开源运维平台产品,针对传统监控场景中用户的痛点以及运维的“碎片化”带来的问题,发布系统健康分和 Livetrace 热点进程分析功能。阿里云产品专家周絮、阿里云高级技术专家毛文安共同分享了《SysOM 健康度和 Livetrace 的评测方法探索》。周絮表示,相比于传统监控指标,健康分旨在分别通过饱和度、延迟、负载和错误形成统一的评分标准来指导用户分层来展示系统健康程度并定位系统健康问题。Livetrace 作为一种先进的操作系统级性能分析方法,能够通过不断地监测操作系统、容器运行环境以及应用程序等多个层次的性能指标,深入揭示整体性能瓶颈。借助 Livetrace,软件的性能管理更加稳健,性能表现的可预测性得到显著提升。毛文安介绍了系统运维联盟的主要工作为建立运维相关的标准以及对业务和运维平台的评测系统。如系统健康度评分标准、网络观测标准、持续剖析 Continues Profiling 标准、北极星指标定界标准;并通过详细分析健康度涉及的资源、性能、错误等聚合指标的四类评测方法。

图片

(图/从左至右:周絮、毛文安)

浪潮电子信息产业股份有限公司产品架构师张鑫分享了《某国有银行大规模带外监控管理技术实践分享》张鑫指出,随着数据中心设备量的不断增大,传统基于带外通道的监控方式面临诸多挑战。为此,他介绍了一种创新的系统架构,即多采集器、多分析器及微服务分布式架构。该架构以资源为作业单位,根据不同类型的作业实施差异化的数据采集与监控周期,从而显著提升了采集效率,降低了系统负载,并有效减少了数据延时。这一创新方案为数据中心的运维管理提供了更加全面、细致的数据支持,充分展现了浪潮电子信息产业股份有限公司在大规模带外监控技术领域的创新实力与丰富经验,也为行业提供了新的发展思路和实践路径。

图片

(图/张鑫)

中兴通讯系统工程师况明富分享了《调测容器实践》。在生产环境中的同一节点上, 通常都承载运行着大量的业务容器,但由于业务镜像大小以及资源限制,业务容器内通常不会预先部署调测工具及环境。这导致一旦容器内部出现问题时,业务容器就缺乏有效的调试工具。另一方面,生产节点的宿主机系统上也往往欠缺必要的调试工具及环境,调试工具的部署和使用受到限制。 为保障问题出现后,快速的部署所需的调试工具及环境,提高调试工具的部署效率,况明富提出了将调测工具打包到一个容器内,以容器的方式完成调试环境的"一键式"部署。 调试容器部署后,即可在调测容器内对业务容器或主机系统上的目标的调测,所有的调测活动都可以在此调测容器中进行,使用完后清理此调测容器即可,这样也可避免对主机环境产生污染。这种基于容器的调试方式和策略不仅提高了问题诊断的速度和效率,同时也减少了对生产环境的影响,体现了中兴通讯在容器技术和运维实践方面的先进理念和技术实力。

图片

(图/况明富)

阿里云技术专家陈诗雁分享了《基于 LLM Agent 的智能诊断机器人》。智能运维是运维技术发展的必然趋势,智能运维机器人可以把问题、告警处理流程、知识库、诊断工具等融合在一起,给运维人员更好的运维体验,高效协助运维人员诊断和解决问题。陈诗雁介绍了系统运维的现状和难点、智能对话机器人的发展、大模型在系统运维的应用、基于大模型智能体的诊断机器人设计,并演示了 SysOM 智能诊断机器人。智能机器人和运维平台是相辅相成的关系,运维平台的诊断能力成就了智能机器人解决实际问题的能力,智能机器人帮助运维平台更好地发挥和展示运维能力。

图片

(图/陈诗雁)

除了硬核技术和实践案例分享外,现场还准备了精美茶歇和伴手礼:

图片

最后,感谢本次活动各位嘉宾的精彩演讲,也感谢中兴通讯及龙蜥社区伙伴成员:徐立锋、杨光、胡捷、李康雅、毛文安、金美琴、蔡佳丽、刘寅、孙林林、林莉、池福睿、陈昊楠、陈晓源、冯艳、刘洪村、李鹏、李兴、刘家瑜、宋梦芝、解潞丹、周峻苇、王天助、袁艳桃(以上排名不分先后)等人的组织与配合,也特别感谢 DeepFlow 社区、乘云数字、51CTO、阅码场等媒体/企业对本次活动直播的支持,有各位的辛苦付出,使得 MeetUp 活动圆满结束。

课件、视频获取

本次活动技术 PPT 已上传,关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。视频回放将会尽快上传至龙蜥官网(动态-视频-龙蜥MeetUp)。

—— 完 ——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/45673.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL数据库day7.11

一,SQL概述 1.1 SQL语句语法 MySQL 数据库的 SQL 语句不区分大小写,关键字建议使用大写, 以分号结尾。例如: SELECT * FROM user; 使用 /**/ 、 -- 、 # 的方式完成注释 /* 多行注释 */ -- 单行注释 # 单行注释 SELECT * FRO…

计算机硬件---如何更新自己电脑的BLOS

1找官网 例如“我使用的是HP(惠普)品牌的电脑”我只需要在浏览器上搜索“惠普官网”或“惠普-blos更新” 就可以看到,来自官网中更新blos的信息 2.有些品牌要查序列号该怎么办呢? 有许多方法可以查询,例如&#xf…

android13 frameworks里面常用的保存信息或者版本判断的方法

总纲 android13 rom 开发总纲说明 目录 1.前言 2. 数据库 2.1 代码读取用法参考 3.prop 属性配置 3.1 property的key值有哪些特点 4.区别 5. 其他数据存储 6.彩蛋 1.前言 frameworks 不像我们一般开发app那样,很多应用保存的方法都无法使用。这里记录我们系统rom开…

关于java的反射

❓❓❓反射是啥呀相信许多学java的同学非常困惑在学的时候,总是感觉懂了却又没懂或者直接忽略过去了,那么本文就带大家探讨一下什么是反射在java中以及它的机制和运用。 ⭐️什么是反射: 首先我们知道一些知识: 维基百科的解释 …

springboot项目 导入 maven坐标 错误 Could not transfer artifact XXX

1.报错原因 当时导入的是 redis坐标 ,导入jar 包报错(当时是网速太慢了,一直卡着不动 就关了 idea 重新下载)结果报错 之前的redis 项目都可以的,网上找了一下 都没解决 2.解决办法 既然说不能传输, 就说…

有用的工具

一、appuploader Appuploader home -- A tool improve ios develop efficiency such as submit ipa to appstore and manage ios certificate这是一款p12证书查看的工具, 需要建立一个apple ID专用密码:Manage your Apple ID

redis其他类型和配置文件

很多博客只讲了五大基本类型,确实,是最常用的,而且百分之九十的程序员对于Redis只限于了解String这种最常用的。但是我个人认为,既然Redis官方提供了其他的数据类型,肯定是有相应的考量的,在某些特殊的业务…

C++相关概念和易错语法(22)(final、纯虚函数、继承多态难点)

1.final final在继承和多态中都可以使用,在继承中是指不想将自己被继承,在多态中是指不想该函数被重写,比较简单,下面是一些使用例子。 2.纯虚函数 当我们需要抽象一个类的时候,我们就需要用到纯虚函数。所谓抽象的类…

如何设计统计量及相关假设检验

一、如何设置H0和H1假设 谁做H0,谁做H1,在统计学的假设检验里是有约定俗成的规定的。即:status quo(默认/现状)是H0,而新观点或试图challenge现状的是H1。H1也叫research hypothesis,所以我们做…

【多个Python版本存在,使用pip+不同版本安装库时,windows弹出打开方式窗口的解决方法】

问题描述 电脑上存在python3.9,3.10,3.11,安装顺序也是先安装3.9,然后3.10,最后3.11,那么直接使用pip安装,会装在3.11的位置,经过搜索可以通过pip版本,比如pip3.9 insta…

如何在勒索软件攻击中幸存下来:最佳备份实践、勒索拦截方案

无论身处什么业务或行业,数据都是您业务的关键资产。没有针对数据进行安全可靠的备份保护,您将会受到许多“可能性”的威胁,无论数据丢失是由于在键盘上洒了饮料还是遭受到了勒索软件的攻击。 为了确保业务不被中断,企业数据不会…

Python: 初识Python

文章目录 1. Python的背景知识1.1 Python是咋来的?1.2 Python的特点1.3 Python能干啥?1.4 Python的缺点 2. 搭建Python环境2.1 安装Python2.2 安装PyCharm2.3 用pycharm编写python程序 1. Python的背景知识 1.1 Python是咋来的? 由Guido van Rossum于1989年圣诞节为打发无…

一个用于管理多个 Node.js 版本的安装和切换开源工具

大家好,今天给大家分享一个用于管理多个Node.js版本的工具 NVM(Node Version Manager),它允许开发者在同一台机器上安装和使用不同版本的Node.js,解决了版本兼容性问题,为开发者提供了极大的便利。 在开发环…

路网双线合并单线——ArcGISpro 解决方法

路网双线合并成单线是一个在地图制作、交通规划以及GIS分析中常见的需求。双线路网定义:具有不同流向、不同平面结构的道路。此外,车道数较多的道路(例如,双黄实线车道数大于4的道路)也可以视为双线路网,本…

iPhone 如何修改锁屏密码?修改密码的具体步骤总结

修改 iPhone 锁屏密码 当你还记得当前设置的锁屏密码时,想要修改密码就非常的简单了,只需要简单的点几下就可以重新设置新密码,下面是具体的操作步骤: 首先我们进入设置应用程序,然后找到“面容 ID 与密码”。 然后需…

(01)Unity使用在线AI大模型(使用百度千帆服务)

目录 一、概要 二、环境说明 三、申请百度千帆Key 四、使用千帆大模型 四、给大模型套壳 一、概要 在Unity中使用在线大模型分为两篇发布,此篇文档为在Python中使用千帆大模型,整体实现逻辑是:在Python中接入大模型—>发布为可传参的…

护眼台灯的功能作用有哪些?深挖台灯护眼是真的吗

随着现代生活方式的改变,孩子们面临着越来越多的视力挑战。在近视学生中,近10%为高度近视,且占比随年级升高而增长。幼儿园6岁儿童中有1.5%为高度近视,而高中阶段则达到了17.6%。为了守护孩子们的视力健康,在科技飞速发…

无符号数和有符号数的转换

1、有符号数转换成无符号数 1.1 例一 首先,我们需要清楚 C语言中负数是以补码的形式进行存储的。 示例:负数-1, (此处,假设是8位二进制表示) 对应正数的原码:0000 0001;取反&…

通俗易懂多图透彻讲解二叉树的遍历--前序, 中序和后序

二叉树的遍历是一个数据结构中经常会遇到的知识点, 具体又分为前序, 中序和后序三种. 什么是树? 先来理解一下什么是树, 从一个我们相对熟悉的家谱树(Family Tree)说起吧. 家族的根是爷爷, 然后生了两个娃, 大伯和你爸爸. 继续往下, 有堂哥堂姐, 还有你以及你妹, 等等. 一个…

简化流程,强化协作——揭秘可道云TeamOS文档审批的实用魅力

在团队协作的过程中,文档审批是确保信息安全和流程规范的重要环节。然而,传统的文档审批流程往往繁琐且僵化,难以满足团队快速响应和灵活协作的需求。 可道云teamOS的文档审批功能,以其独特的灵活性和便捷性,为团队带…