龙蜥正式开源 SysOM:百万级实战经验打造,一站式运维管理平台 | 龙蜥技术

简介:SysOM集监控、告警、诊断、修复、安全能力于一体的操作系统运维平台。

文/系统运维 SIG

如果你被突如其来的 OOPS 和满屏奇怪的函数弄得满头问号?机器内存明明很大,却申请不出来内存?业务周期抖动,ping 命令偶尔时间很长,但无从下手?程序就这么几行但程序怎么跑 CPU 都跑不高,业务流量上不去?亦或是 CPU 使用率 90% 以上,ps 一下一堆乱七八糟的任务导致你不知如何取舍……

当你试图去社区寻找运维的开源产品时,将彻底从 Linux 免费、美味的天堂掉进地狱,因为你将搜索到的是一堆专业、重复甚至互相冲突的命令以及千篇一律的监控系统。这些命令你看不懂,监控系统也仅仅都是些监控 CPU 使用率、内存使用率、网络吞吐的面板, 根本无法解决你的问题,还有 Linux 的低前期投入,带来的是极高的运维成本。

因此,SysOM 来了, SysOM ( System Operation&Maintenance)是由龙蜥社区系统运维 SIG 打造的一站式操作系统运维平台,融入了 SIG 成员的成功商用运维实践经验,能够帮助用户在统一平台上实现主机管理、系统监控、异常诊断、日志审计、安全管控等复杂操作系统管理。

SysOM 诞生主要是为了解决以下各方面的问题:

  • Linux 社区存在大量的运维管理工具、监控工具、诊断工具,但是工具碎片化严重,单个工具解决单个场景问题,需要用户花费大量时间研究该工具才能使用,没有统一的平台为用户提供好的操作系统运维体验
  • 操作系统作为非常底层的基础设施,运维难度大,宕机问题、内存问题、网络问题等各类疑难问题的分析都需要非常专业的操作系统知识,对于一般运维人员入门门槛过高
  • 一般的开源操作系统都有提供软件安全更新,但是却没有运维平台来统一管理安全漏洞的影响范围、漏洞的发现、漏洞的修复

基于以上问题,龙蜥社区 SysOM 应运而生,当前 SysOM 提供了以下 4 方面能力:

  • 统一平台:一个平台解决操作系统运维过程中所需要的多种关键能力。SysOM 将主机管理、监控、诊断、审计、修复、安全能力集于一体,通过 Web 化的界面管理方式,用户可以轻松运维所有机器;
  • 简单易用:提供统一监控系统,用户无需配置即可多维度的观测到所管理主机的状态;提供统一的诊断系统,用户用过 Web 化的界面即可完整各类深入的操作系统问题诊断;
  • 深度分析:集成 SysAK 工具集深度诊断解决方案,沉淀百万级的运维经验,进行内核源码级别的问题剖析;
  • 安全可靠:提供统一的安全中心,为用户所管理主机提供全方位的漏洞监控、管理、修复,保障系统的安全性;同时提供各类安全加固能力,满足不同应用不同程度的安全要求。

SysOM 介绍

1、架构介绍

SysOM 整体架构分为:前端展示、服务端分析、客户数据收集。通过统一的前端 Web 将所有运维服务的分析数据展示给用户:

2、功能介绍

SysOM 主题功能包括以下 6 类:

  • 主机管理

作为 SysOM 管控界面,承担管理节点的增删改查、终端操作系统等功能。你可以通过简单的 Web 界面操作将需要管理的机器添加进管理界面,也可以一键登录到对应的机器进行 shell 操作。

  • 监控中心

监控中心主要为用户全方位的展示操作系统情况,包括但不限于:网络延迟、资源使用、任务负载、系统任务等。它将提供类似基于特定场景(如游戏、金融等)的网络抖动监控 Netinfo 功能,也能提供操作系统全方位基础指标监控。

  • 宕机中心

宕机问题作为操作系统异常的一种极端情况,往往会对用户的应用产生重大影响。SysOM 宕机中心将会为用户提供统一的宕机问题管理,包括宕机监控、已知问题管理、在线分析、解决方案等能力。通过多维度的宕机管理,降低宕机问题对用户的影响,提升用户业务的稳定性。

  • 诊断中心

操作系统作为非常底层的软件基础设施,运维难度较高,针对操作系统层面的问题,SysOM 集成了龙蜥社区的 SysAK 能力,为用户提供了全方位的诊断能力,包括:系统健康检查(即一键诊断)、网络/内存/存储/调度深度诊断,通过全方位诊断帮助用户分析操作系统层面的各类问题。

  • 日志中心

日志中心将会为用户提供日志审计的功能,便于管理员监控、管理所负责集群的运维情况。

  • 安全中心

安全问题越来越受到大家的重视,而操作系统包含大量的开源软件包,无时无刻不在产生新的安全漏洞。作为操作系统管理员最关心的是能够及时发现系统中存在的安全漏洞,并能够快速修复。SysOM 安全中心为用户提供实时的安全漏洞检测,同时根据操作系统的修复进展提供白屏修复操作。

使用实践

1、环境准备

操作系统:Anolis OS 8.4 ANCK 64 位 系统规格:2 核 8 g

数量:3台

网络:公网IP

2、SysOM 部署

2.1 监控组件部署

#选择 Server 节点,执行下述命令部署监控组件

#部署目录

mkdir -p /usr/local/sysom/server/monitor/

#下载 grafana + prometheus + node-exporter

#下载 grafana 到 /usr/local/sysom/server/monitor/

wget https://dl.grafana.com/oss/release/grafana-8.2.5-1.x86_64.rpm -P /usr/local/sysom/server/monitor/

#下载 prometheus 到 /usr/local/sysom/server/monitor/

wget https://github.com/prometheus/prometheus/releases/download/v2.29.1/prometheus-2.29.1.linux-amd64.tar.gz -P /usr/local/sysom/server/monitor/

#下载 node-exporter 到 /usr/local/sysom/server/monitor/

wget https://github.com/prometheus/node_exporter/releases/download/v1.2.2/node_exporter-1.2.2.linux-amd64.tar.gz -P /usr/local/sysom/server/monitor/

2.2 诊断组件部署

#在 Client 节点,执行下述命令部署监控组件

#如未安装诊断组件,SysOM的诊断中心将无法运行

#部署目录

mkdir -p /usr/local/sysom/server/diagnose

#下载诊断组件 sysAK

wget https://gitee.com/anolis/sysak/attach_files/1011048/download/sysak-4.19.91-24.8-1.2.1-1.an8.x86_64.rpm -P /usr/local/sysom/server/diagnose/

#安装 sysAK

rpm -idv /usr/local/sysom/server/diagnose/sysak-4.19.91-24.8-1.2.1-1.an8.x86_64.rpm --nodeps

2.3 SysOM 部署

#下载 SysOM

wget https://gitee.com/anolis/sysom/attach_files/1010533/download/sysomRelease-20220329115704.tar.gz -P /usr/local/sysom/

cd /usr/local/sysom/

tar -zxvf sysomRelease-20220329115704.tar.gz

cd sysomRelease-20220329115704

#安装 Sysom。选择前面准备好的机器中的一台作为 SysOM 服务器,如果只有公网 IP,只需要填一样即可(暂不支持离线安装)。

./deploy.sh /usr/local/sysom 内网 IP 公网 IP

3、使用 SysOM

部署成功后,用户就可以通过浏览器访问已部署的 SysOM 平台了。直接在浏览器中输入公网 IP(如果只有内网 IP 也可以用内网 IP)。

3.1 登录界面

3.2 系统界面

3.3 功能使用

本文为 SysOM 系列第一篇,SysOM 功能详细介绍参见后续系列文章,还请持续关注龙蜥公众号不迷路。

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510890.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微软在华商业应用战略全面升级,首次推出面向医疗和生命科学的云行业套件

2022年9月29日,微软宣布进一步升级在华商业应用战略,落地一系列智能商业应用(Biz App)功能的同时,以Dynamics 365和Power Platform为基础,进一步完善商业应用战略与价值定位,助力更多客户和合作…

使用Databricks进行零售业需求预测的应用实践

简介:本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。 作者:李锦桂 阿里云开源大数据平台开发工程师 本文从零售业需求预测痛点、商店商品模型…

龙蜥开源内核追踪利器 Surftrace:协议包解析效率提升 10 倍 | 龙蜥技术

简介:如何将网络报文与内核协议栈清晰关联起来精准追踪到关注的报文行进路径呢? 文/系统运维 SIG Surftrace 是由系统运维 SIG 推出的一个 ftrace 封装器和开发编译平台,让用户既能基于 libbpf 快速构建工程进行开发,也能作为 ft…

开源要正式写进法律了?

作者 | 何苗 出品 | CSDN(ID:CSDNnews)去年,当大家还在为开源的快速发展而欢呼之际,影响了全球数百万台计算机Log4j 漏洞事件给开源软件开发者与使用者敲响了一记警钟。因而今年,开源软件及其供应链安全…

阿里云软著申请|这项保护,让我得到了10万赔偿

简介:对于企业来说,申请软件著作权是证明自己和保护自己的强力护盾。除此之外,它还有着很多不可忽视的意义与价值。阿里云软著申请,一站式智能服务,助力企业和开发者高效发展,省时省力更省心。 前几日&…

宜搭小技巧|海量数据管理难?这招帮你事半功倍

简介:一键生成数据管理页,海量数据随心管理! 话接上回,宜小搭组织大家团建,当收集完大家的报名信息后,有小伙伴想要修改已提交的信息,面对海量的数据,整理查找太费时间。 如何快速…

1024 程序员节官方剧透:重磅大咖再聚,共话中国技术新生态

在二进制垒起的计算机世界里,1024 对于程序员而言,早已不再是单纯的一串数字,不断演进的开发时代赋予了它特殊的意义。 伴随着一份份热衷与期盼,10 月 22-24 日,由湖南湘江新区管委会主办,长沙工业与信息化…

前端性能优化实战

简介:引用彼得德鲁克的一句话,“You cant manage what you cant measure。一件事如果你无法衡量它、你就无法管理它”,性能同样如此。如果没有一个准确的方案来对性能进行度量,那优化就无从谈起。那么对于我们来说,哪些…

Elastic与阿里云助力汽车及出行产业数字化转型

简介:目前,阿里云和Elastic在全国已经有很多的项目正在开展合作,而在移动出行领域与享道出行的合作案例,则是代表性的。 在汽车产业变革逐步深入的当下,云计算、大数据等信息技术成为了汽车企业经历数字化转型时的“刚…

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

简介:本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。 前提条件 已注册阿里云账号,详情请参见阿里云…

解决微服务架构下流量有损问题的实践和探索

简介:绝⼤多数的软件应⽤⽣产安全事故发⽣在应⽤上下线发布阶段,尽管通过遵守业界约定俗成的可灰度、可观测和可滚回的安全⽣产三板斧,可以最⼤限度的规避发布过程中由于应⽤⾃身代码问题对⽤户造成的影响。但对于⾼并发⼤流量情况下的短时间…

5月25日,阿里云开源 PolarDB-X 将迎来升级发布

简介:2022年5月25日,阿里云开源 PolarDB-X 将升级发布新版本!PolarDB-X 从 2009 年开始服务于阿里巴巴电商核心系统, 2015 年开始对外提供商业化服务,并于 2021 年正式开源。本次发布会将重磅推出在稳定性、生态融合以…

技术分享丨云企业网CEN2.技术揭晓

简介:随着企业数字化转型的加速,越来越多的企业选择了将业务部署在云上,这其中有超过20%的企业有全球组网的需求,这就使得云上网络的规模越来越大,复杂度也越来越高,为了应对这些变化,阿里云推出…

MAE 自监督算法介绍和基于 EasyCV 的复现

简介:自监督学习(Self-Supervised Learning)能利用大量无标注的数据进行表征学习,然后在特定下游任务上对参数进行微调。通过这样的方式,能够在较少有标注数据上取得优于有监督学习方法的精度。近年来,自监…

企业实践|分布式系统可观测性之应用业务指标监控

简介:本文主要讲述如何建立应用业务指标Metrics监控和如何实现精准告警。Metrics 可以翻译为度量或者指标,指的是对于一些关键信息以可聚合的、数值的形式做定期统计,并绘制出各种趋势图表。透过它,我们可以观察系统的状态与趋势。…

1024 程序员节城市嘉年华,共话技术生涯的一万种可能!

更硬核的技术峰会,更多元的主题论坛,更丰富的科技元素……更热血的 1024 程序员节闪亮登场!由湖南湘江新区管委会主办,长沙工业与信息化局、长沙信息产业园管委会与 CSDN 联合承办的第三届 2022 1024 程序员节将于 10 月 22 - 24 …

作业帮在线业务 Kubernetes Serverless 虚拟节点大规模应用实践

简介:目前方案已经成熟,高峰期已有近万核规模的核心链路在线业务运行在基于阿里云 ACKECI 的 Kubernetes Serverless 虚拟节点。随着业务的放量,未来运行在 Serverless 虚拟节点上的服务规模会进一步扩大,将节省大量的资源成本。 …

浅析微服务全链路灰度解决方案

简介:帮助应用发布版本过程中更精细化,提高了发布过程中的稳定性。服务转移⾄请求链路上进行流量控制,有效保证了多个亲密关系的服务顺利安全发布以及服务多版本并⾏开发,进⼀步促进业务的快速发展。 作者: 十眠&…

译:零信任对 Kubernetes 意味着什么

这篇是 Buoyant 的创始人 William Morgan 文章《# What Does Zero Trust Mean for Kubernetes?》[1]的翻译,文章很好的解释了什么是零信任、为什么要实施零信任,以及服务网格如何以最小的代码实现零信任。零信任是营销炒作,还是新的机会&…

Serverless 应用中心:Serverless 应用全生命周期管理平台

简介:Serverless 应用中心,是阿里云 Serverless 应用全生命周期管理平台。通过 Serverless 应用中心,用户在部署应用之前无需进行额外的克隆、构建、打包和发布操作,即可快速部署和管理应用。Serverless 应用中心帮助用户快速联动…