万人在线,一站式自动化运维 SysOM 3.0重磅发布!龙蜥社区系统运维 MeetUp 回顾来了

8 月 12 日,由龙蜥社区系统运维 SIG 主办,乘云数字协办的,主题为“观测,让运维更简单!”的系统运维 MeetUp 于杭州圆满结束。来自乘云数字、谐云科技、乐维、云杉网络、擎创科技、观测云、阿里云以及浙江大学等众多厂商及高校的 11 位专家和教授,分享了精彩主题演讲,带来了前沿技术见解。现场来自浪潮信息、神州数码、阿里云等企业超 50 位开源爱好者,就云场景下运维的核心痛点及解决方案展开讨论,大家围绕 Linux 应用和系统可观测、eBPF 跟踪以及诊断技术等打卡体验了龙蜥硬核运维技术,线上超万人观看并参与了互动。

图片

(图/活动现场合影)

图片

(图/龙蜥社区理事长马涛)

活动开场,龙蜥社区理事长马涛发表了开场致辞:“看到大家今天齐聚杭州,一起来交流讨论系统运维技术,我的第一感觉是三个’多‘。第一是现场的参与者众多。咱们现场有高校教授、云厂商、运维厂商及很多 Linux / eBPF 爱好者等。第二是现场分享的议题多,既有 eBPF 技术、也有一站式运维平台 SysOM 3.0 的发布,还有龙蜥社区和 Kindling 社区联合发布的北极星指标及可观测性技术的分享等。第三是我个人觉得龙蜥社区在创新、面向未来的思考工作做了很多。相信大家或多或少都有体感,在系统运维领域,过去更多靠个人/专家的能力去解决问题,没有形成一个标准。但随着云原生、eBPF、可观测、AI 等技术大规模兴起,我觉得对于系统运维领域是一个契机。龙蜥社区也已深刻的体会到存在的机会和挑战,希望能够结合社区的力量更好、更高效的去解决。本次活动后面也会有针对成立‘系统运维联盟’的讨论,大家一起探索通过‘系统运维联盟’的方式,以创新的形式来解决问题。最后,不论是通过系统运维 SIG 还是所有工程师的努力,最终希望在龙蜥社区能够形成一整套完整地、高效地运维方式,帮助企业去解决面临的运维难题。”

致辞结束后,正式开始技术分享环节,本次 MeetUp 有 9 大议题、11 位技术大咖就 Linux 和 eBPF 技术的魅力展开演讲。

图片

(图/浙江大学软件学院副教授、博士生导师才振功)

浙江大学软件学院副教授、博士生导师才振功分享了《 Gartner 2023 可观测性魔力象限解读和启示》主题演讲。才振功围绕 Gartner 关于 APM 和可观测性魔力象限谈了谈他的一些想法。据 2023 年最新的可观测性魔力象限报告显示,可观测性已受到社会各界广泛关注,市场空间占比也很大,而入选魔力象限的企业综合考虑了“技术”和“非技术”类多项指标。接着,他详细介绍了 Leader 象限供应商的特点、Visionaries 象限供应商的前瞻性、Niche Players 象限解决了用户哪些痛点等。最后总结了可观测性的发展趋势。  

图片

(图/谐云科技 CTO 苌程)

图片

(图/龙蜥社区系统运维 SIG Owner 毛文安)

谐云科技 CTO 苌程、龙蜥社区系统运维 SIG Owner 毛文安联合分享了《龙蜥社区 & kindling社区联合发布:北极星指标体系构建》

苌程和毛文安共同分享了关于排障北极星指标理论的独到见解。尽管在传统的可观测性领域,涵盖了 tracing、metrics、logging 等要素,但依然存在一些无法观测到的盲区。这些盲区的存在使得我们在故障排除过程中常常感到困惑。由于 Linux 内核的复杂性,即使是专家们也常常受限于某一特定领域,例如网络、存储、CPU 调度等。因此,故障排查的挑战在于,虽然问题表面看起来可能出现在某一领域,但根本原因可能却隐藏在另一个领域。这意味着解决故障通常需要集结来自多个领域的专家,而这也导致了 1-5-10 等迅速恢复业务的问题难以解决和实施。为了解决这一问题,Kindling 社区与龙蜥社区合作,共同推出了排障北极星理论。 

北极星理论可以指导我们快速的进行问题定界,根据某个指标值,确定问题下一步的排查思路。龙蜥社区基于这套理论,也进行了一些启发性的实现,毛文安介绍了北极星指标的代码实现方法,并通过具体场景指出排查问题的方向,给出问题的根因结论,从理论到实践进一步诠释了北极星指标对排查问题的极大帮助。

图片

(图/乘云数字 DataBuff  产品线架构师狂魔)

乘云数字 DataBuff  产品线架构师狂魔分享了《云观测场景下的 Trace 全量存储技术研究》主题演讲。狂魔在分享上提到,DataBuff 正在构建以“ Trace、Metric、Log、Topo、eBPF Flow” 观测五件套为数据原材料的一体化观测平台,Trace 是一体化观测的核心要素,是拓扑驱动现代 AIOps 分析的关键,有着不可替代的地位。当前,业界大多可观测性软件厂商无法解决“Trace 全量存储”的技术难题,大量丢弃客户的交易链数据是普遍现象,在安全合规、故障回溯、算力成本等方面均受到了巨大挑战。乘云数字专门开发了一款 “TraceX 调用链全量存储系统”,面向可观测分析场景、尤其适合大规模交易系统、云原生容器场景,帮助系统实现全量化存储调用链数据。TraceX 能够有效的降低 Tracing 数据的存储成本、提升分析效率,真正达到降本增效的目的。通过 TraceX 辅助一体化观测系统构建应用系统的空间地图,实现故障定位的按图索骥不丢痕,真正解决客户的业务问题。

图片

(图/乐维创始人丁振兴)

乐维创始人丁振兴分享了《开源运维工具使用现状及思考》主题演讲。Metric 做为可观测性的入口,丁振兴结合开源产品的优缺点分析和现状,提出一种监控的最佳实践,衍生基于监控发现的 CMDB,探索 CMDB 融合APM、NPM、安全、日志、ITSM 等,实现立体保障业务的可观测性平台,实现业务的观测保障 。

图片

(图/阿里云系统服务负责人冯富秋)

阿里云系统服务负责人冯富秋向大家分享了《SysOM 3.0 发布:基于应用视角的智能运维》主题演讲。

冯富秋从当前运维产品的现状出发,讨论了一些工具平台在问题结论的展现和处理上面临的一些挑战:不知其然,只知其然而不知其所以然,难知所以然;并且很多开源中间件的发展和 FaaS 的演进让问题离根因越来越远,只站在传统运维平台和 IaaS 提供商的视角,造成鸡同鸭讲的情况,此外,内核的复杂性导致问题解决难度居高不下,比如一个 pagecache 异常变多可能引发内存不足告警、内存访问时延高等问题,更糟的是,大家没有办法知道究竟在哪个时刻会引发问题。面对这些挑战,是不是需要换一个视角,从用户的角度去分析和解决这类问题?

首先,要从应用的视角自顶向下进行分析来降低应用的运维门槛。实现指标与应用表象的关联, 通过全链路根因追踪,得到应用调用情况和各个阶段的延时分布;基于内核深度剖析发挥内核的全视角优势,深度分析进程间行为关联和资源使用情况。

其次,要从集群的视角实现监控告警到诊断分析的智能一体化运维,通过集群风险告警和集群健康度深入分析,这样才能知其然又知其所以然。

最后,通过具体案例,特别介绍了 SysOM 3.0 基于应用的观测方案,从 Java 运行时火焰图热点和 Mysql 数据库慢查询异常事件进行深入分析,得出了客户能看得懂的根因和结论。同时,也重点介绍了 SysOM 集群、节点、容器三位一体监控方案,实现集群视角的资源健康度评估,对 CPU、内存、IO、网络等系统资源的深入监控和诊断分析,让诊断监控化,监控诊断联动,所见即所得。 

图片

(图/清华大学博士、云杉网络研发 VP 向阳)

清华大学博士、云杉网络研发 VP 向阳做了《使用 eBPF 帮助应用开发实现零侵扰的可观测性》主题分享。他从 DeepFlow 的实践经验出发,以业务运维、应用开发的视角分享了一系列典型实战案例。通过他的分享,我们更生动的了解到了 eBPF 作为一项非常底层的内核编程技术,是如何支撑银行分布式核心快速上云,如何让层层网关呵护下的 Serverless 应用快速实现全栈链路追踪,如何帮助 C++ 技术栈的游戏应用解决插桩难的观测痛点,如何为祖传代码遇到的降本增效难题提供解决方案,如何化解公有云服务商和租户之间的工单卡死难题,以及如何结合 Wasm 技术让新一代证券交易系统实现零侵扰的分布式追踪。 

图片

(图/擎创科技可观测产品总监何晶)

擎创科技可观测产品总监何晶分享了《云原生转型之路的多系统运维》。企业面向几百个转型中间态的系统,通过建设统一对象模型,对异源同域的数据进行解析丰富处理,实现多维数据自主关联。算法和机器学习为复杂的体系提供了动态问题感知和预测的能力。在问题发生后基于根因推荐、同源分析等措施快速故障定界并开始应急处置,保障业务的连续性是首要之责,数智化观测为排障和系统调优提供有效的决策能力。 

图片

(图/观测云系统工程师张文杰)

观测云系统工程师张文杰同大家分享了《eBPF 与网络可观测性研究》。eBPF 在网络可观测上具有安全灵活、实时追踪等优点,通过运行时加载 DataKit 探针能实现对网络流量的实时分析和统计;基于网络协议的分析,能够为链路系统提供系统侧的 Span 补充。最终在观测云统一可观测平台上展示出请求数、响应时间、错误率等关键指标。 

在技术主题分享结束后,阿里云系统服务负责人冯富秋主持了主题为《云场景下运维的核心痛点及解决方案研讨》的圆桌讨论,来自清华大学博士、云杉网络研发 VP 向阳,谐云科技 CTO 苌程,乘云数字公司创始人度远,乐维创始人丁振兴,龙蜥社区系统运维 SIG Maintainer 张毅,观测云系统工程师张文杰,擎创科技可观测产品总监何晶,浙江大学城市学院教授李飞参加了讨论,嘉宾就运维的痛点、突破点和价值点三个方向的议题展开了热烈的讨论。

图片

在圆桌讨论环节,各位嘉宾就议题展开了讨论。乘云数字公司创始人度远就大模型的议题展开了分享。他提到:乘云数字较早的发布商业化的 OpsGPT 引擎,是将大语言模型在 IT 运维领域的垂直应用落地。我们初步计划将 OpsGPT 打造成一位低成本、高效率的运维老专家。初期的探索中,我们的一点小小体会是,大模型作为人工智能领域的重大技术变革,将会对企业 IT 服务领域产生重大而深远的影响。但现阶段也不适合过早过度神话,无论是底层数据质量、算力支撑、指令级的专业知识、向量数据库逻辑等都是需要进一步演进和积累。这个领域需要有使命感的领军企业来带动,以大模型为抓手,大家以更开放的态度,共同协作,才能为用户提供更大的价值。希望 OpsGPT 在可观测领域能够发挥越来越大的作用,为我们的客户在实际生产环境中的根因定位、故障自愈等技术难题提供更多的能量。

针对国内是否有必要成立自己的运维联盟,大家众说纷纭,现场讨论氛围热烈。谐云科技 CTO 苌程表示,在国内,很多甲方公司通常会从自身的经验出发来理解故障。如果我们自身尚未遇到过相关故障,往往会认为这些问题可能与我们的系统无关。因此这种被动的心态导致,甲方一线人员一直感觉在救火。

此外,在技术领域,大家的共识并不一致。故障通常会通过表象呈现出来,比如无法访问。然而,故障的深层原因和导致它的因素可能多种多样。技术界缺乏一种共识机制,来使得甲方和乙方能够达成共识。作为甲方,需要了解可能会遇到的问题以及可能的原因,而作为乙方,他们需要明确应该提供什么样的技术服务。另外,技术在不断的向前演进,但不是每一个企业都有足够的技术实力、财力等去研究和推动,这就非常需要有一个组织快速的将先进成果进行转化到具体实践中,服务千行百业的客户。

运维联盟可以扛起这面旗帜,促使甲方和乙方先达成共识,推动技术进步。例如,在云原生环境中,到底可能会有哪些故障,这些故障的表现是什么。具体来说,可以基于复旦大学开源项目的经验,演进出一个关于不同场景故障的共识。欢迎所有感兴趣的人,无论是甲方还是乙方,抑或是高校,都来分享他们可能遇到过的故障案例。甲方收获了一个全网最全的故障知识库,理解了自己系统可能存在薄弱的地方,高校也可以通过这个平台获得一个实验环境,而不同的厂商可以合作构建一个技术生态。在联盟内部,每家厂商可以根据自身的专业领域分工,然后互相打通接口,共同为用户的生产环境提供支持和保障。

最后,感谢本次活动各位嘉宾的精彩演讲,也感谢龙蜥社区伙伴及乘云数字工作人员:毛文安、周絮、蔡佳丽、刘寅、金美琴、孙林林、张毅、尹斌斌、廖肇燕、李光水、程书意、赵航、刘海龙、邹涛、陈诗雁、刘馨蔚、张永德、阙建明、袁艳桃、夏敏琪 、度远、 张怀鹏、贾慧艳 (以上排名不分先后)等人的组织与配合,也特别感谢 Linux 中国、InfoQ、思否、51CTO、阅码场等媒体的支持,有各位的辛苦付出,使得本次系统运维 MeetUp 活动圆满结束。

课件、视频获取:本次活动视频回放及技术 PPT 已上传:

视频回放:https://space.bilibili.com/1247819550

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

更多相关的活动内容将在这里或者龙蜥社区交流群剧透推送,记得持续关注龙蜥社区公众号,谨防走丢哦!

—— 完 ——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/59461.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 多线程同步机制(上)

文章目录 前言一、线程同步二、互斥量 mutex三、死锁总结 前言 一、线程同步 在多线程环境下,多个线程可以并发地执行,访问共享资源(如内存变量、文件、网络连接 等)。 这可能导致 数据不一致性, 死锁, 竞争条件等 问题。 为了解…

医院常见的HIS、CIS、LIS、EMR、PACS、RIS医疗信息化中的介绍

医院常见的HIS、CIS、LIS、EMR、PACS、RIS分别是: HIS(Hospital Information System):医院信息系统,是医院管理信息化的核心系统,包括病人管理、医生管理、药品管理、医疗设备管理、财务管理等多个方面&am…

Unity插件---Dotween

1.什么是DOTween DoTween 是由 Demigiant 开发的,被广泛应用于 Unity 游戏开发中。它是一个流行的动画插件,被许多开发者用于创建流畅、高效的动画效果,提升游戏体验。 2.DOTween的初始配置 ①set up 首先找到DOTween Unity Panel 的面板 点…

c# 本地化中英文切换

区域 线程默认区域为当前计算机所选区域 设置当前区域: Thread.CurrentThread.CurrentCulture new CultureInfo(“zh-cn”); 获取当前区域: Console.WriteLine(Thread.CurrentThread.CurrentCulture.ToString()); 区域名称: “zh-cn” 中文…

数据结构(Java实现)-栈和队列

栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。 先进后出 栈的使用 栈的模拟实现 上述的主要代码 public class MyStack {private int[] elem;private int usedSize;public MyStack() {this.elem new int[5];}Overridepublic …

【数学建模竞赛】各类题型及解题方案

评价类赛题建模流程及总结 建模步骤 建立评价指标->评价体系->同向化处理(都越多越好或越少越少)->指标无量纲处理 ->权重-> 主客观->合成 主客观评价问题的区别 主客观概念主要是在指标定权时来划分的。主观评价与客观评价的区别…

Django实现音乐网站 ⒁

使用Python Django框架制作一个音乐网站, 本篇主要是歌手页-全部歌手页功能开发。 目录 分出首页样式内容 创建首页样式文件 首页引入样式文件 全部歌手列表 创建路由 显示视图 引入分页实现库 视图方法 创建歌手首页 增加歌手跳转 导航条改活 首页增加…

STM32H750+LAN8720无操作系统移植lwip

前言 本文提供移植好的工程&#xff0c;见本文绑定资源 环境 STM32CubeMX&#xff1a; V6.8.1 STM32H7 HAL Pack&#xff1a; V1.11.1 硬件连接 STM32H750 GPIO定义如下&#xff1a; LAN8720 GPIO定义如下&#xff1a; 连接方式如下&#xff1a; LAN8720       <—…

畅捷通T+用户中locked勒索病毒后该怎么办?勒索病毒解密数据恢复

Locked勒索病毒是一种近年来在全球范围内引起广泛关注的网络安全威胁程序。它是一种加密货币劫持病毒&#xff0c;专门用于加密用户的数据并要求其支付赎金。Locked勒索病毒通过攻击各种系统漏洞和网络薄弱环节&#xff0c;使用户计算机受到感染并被加密锁定时&#xff0c;无法…

easyexcel poi根据模板导出Excel

1.导入依赖 <!-- poi依赖--> <dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>4.0.1</version> </dependency> <!-- poi对于excel 2007的支持依赖--> <dependency…

基于Spring Boot 的 Ext JS 应用框架之coworkee

Ext JS 官方提供了一个人员管理的完整应用框架 - coworkee。该框架的显示如下: 该框架的布局特点如下: 布局方式: 左右布局, 左侧导航栏默认收合特点:左侧导航区占用空间小, 工作区较大, 适合没有二级导航栏,工作区需要显示的内容较多的系统。如果导航栏是横向底部,就…

❤ 给自己的mac系统上安装java环境

❤ 给自己的mac系统上安装java环境 &#x1f353; 作为前端工程师如何给自己的mac系统上安装java环境 &#x1f34e; 最近因为自己的一些项目需求&#xff0c;mac电脑上需要安装一些后台的java环境&#xff0c;用来跑后台的java程序&#xff0c;于是从一个前端工程师的角度安…

域名解析与http服务器实现原理

域名解析函数gethostbyname struct hostent *gethostbyname(const char *name); 主机结构在<netdb.h>中定义如下&#xff1a; 结构的成员包括&#xff1a; h_name&#xff1a;主机的正式名称 h_aliases&#xff1a;主机的备用名称数组&#xff0c;以NULL结尾指针 h_…

C语言——程序执行的三大流程

顺序 : 从上向下&#xff0c; 顺序执行代码分支 : 根据条件判断&#xff0c; 决定执行代码的分支循环 : 让特定代码重复的执行

jsp+servlet+mysql阳光网吧管理系统

项目介绍&#xff1a; 本系统使用jspservletmysql开发的阳光网吧管理系统&#xff0c;纯手工敲打&#xff0c;系统管理员和用户角色&#xff0c;功能如下&#xff1a; 管理员&#xff1a;修改个人信息、修改密码&#xff1b;机房类型管理&#xff1b;机房管理&#xff1b;机位…

【腾讯云 Cloud studio 实战训练营】真正做到让你的开发成本只在编码

文章目录 写在前面CODINGCloud studio工具在线编码运行项目代码上传Cloud Studio 开发贪吃蛇写在最后 写在前面 期待已久的体验活动终于来了&#xff0c;Clound Studio用了才知道有多爽&#xff0c;Cloud Studio 是基于浏览器的集成式开发环境 (IDE)&#xff0c;为开发者提供了…

leetcode 17.电话号码字母组合

⭐️ 题目描述 &#x1f31f; leetcode链接&#xff1a;https://leetcode.cn/problems/letter-combinations-of-a-phone-number/description/ 代码&#xff1a; class Solution { public:const char * letterCombine(int i) {static const char *letter[] { "" , …

maven推包The environment variable JAVA_HOME is not correctly set

解决办法&#xff1a; 打开idea查看jdk安装位置 1.在/etc下面创建&#xff08;如果存在就是更新&#xff09;launchd.conf。里面添加一行&#xff1a; setenv JAVA_HOME /Library/Java/JavaVirtualMachines/jdk1.8.0_351.jdk/Contents/Home #JAVA_HOME后面是我的java安装路径…

一文讲透:低代码平台是什么?低代码平台应该如何挑选?

低代码平台是什么&#xff1f;低代码平台的边界在哪&#xff1f;低代码平台的优势&#xff1f;低代码平台哪个好用&#xff1f;2023年有哪些国内值得关注的低代码平台&#xff1f;本文将深入浅出的带大家了解低代码平台&#xff0c;并且为大家带来2023年国内最热六款低代码平台…

Lora升级!ReLoRa!最新论文 High-Rank Training Through Low-Rank Updates

目录 摘要1 引言2 相关工作3 方法4 实验5 结果6 结论7 局限性和未来工作 关注公众号TechLead&#xff0c;分享AI与云服务技术的全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验&#xff0c;同济本复旦硕&#xff0c;复旦机器人智能实验室成员&#xff0…