系统运维工具KSysAK——让运维回归简单

系统运维工具KSysAK——让运维回归简单

1.基本信息

1.1概述

系统异常定位分析工具KSysAK是云峦操作系统研发及运维人员总结开发及运维经验,设计和研发的多个运维工具的集合,可以覆盖系统的日常监控、线上问题诊断和系统故障修复等常见运维场景

工具的整体设计上,力图让运维工作回归简单,让系统运维人员不需要深入了解内核就能找出问题的所在。


在这里插入图片描述

系统运维工具按功能划分可分为监控和诊断模式:

  • 系统监控:针对各种系统资源(CPU、内存、网络、文件 IO、内核管理结构等)提供更精细化的资源监控,帮助业务运维实现细粒度的运维调度,高效运用资源。

  • 系统诊断:诊断的典型问题如负载异常、网络抖动、内存泄漏、IO毛刺、性能瓶颈、应用异常等,针对性的提供工具,同时尽量减少工具的专业性,让用户更易使用和解读。

而为了实现以上功能,并能够为用户提供简单易用操作界面,系统运维工具KSysAK提供了多个子工具,着重解决不同场景下的监控数据的采集、统计及数据诊断。

1.2环境详解

IP地址:100.2.93.133

架构:x86_64

类型:虚拟机

操作系统版本:KOS5.8-sp1

内核版本:4.19.91-27.4.7.kos5.x86_64

KSysAK版本:1.3.0

用户名:root

密码:123456a?

1.3工具

分类工具名称备注
内存泄露memleaktest_page_leak.ko模拟page泄露的工具
test_slab_leak.ko模拟slab泄露的工具
test_vmalloc_leak.ko模拟vmalloc 泄露的工具
延迟抖动runlatencytestrunlatency模拟进程运行延迟情况

Linux内核内存泄漏检测

内核内存泄漏是指在Linux系统中,由于代码中的错误或缺陷,分配给内核的内存未能被正确释放而导致的问题。这可能会导致系统性能下降,最终耗尽系统的可用内存,甚至导致系统崩溃。下面我将介绍一些在Linux系统中检测和解决内核内存泄漏的方法:

Linux内核内存分配有几种不同的机制,其中包括slab、page和vmalloc。

ksysak memleak内存泄露检测工具,包含以下几个步骤:

  1. 集成到项目中:将ksysak memleak的内存泄漏检测代码集成到需要检测的项目中。这通常涉及将检测代码插入到项目的适当位置,以确保能够准确追踪内存分配和释放情况。

  2. 编译和运行项目:使用适当的编译选项编译项目,并确保项目成功编译。然后运行项目,让其正常执行一系列操作,包括内存的申请和释放。

  3. 收集内存泄漏数据:在项目运行期间,ksysak memleak将记录内存分配和释放的详细信息。这些数据包括每次内存分配的调用堆栈、分配大小、分配位置等。收集这些数据用于后续的内存泄漏分析。

  4. 分析内存泄漏数据:使用ksysak memleak提供的分析工具,对收集到的内存泄漏数据进行分析。这可以帮助识别潜在的内存泄漏源头、内存泄漏的大小以及泄漏发生的位置。通过这些信息,开发人员可以准确地定位问题并采取相应的修复措施。

  5. 修复内存泄漏:一旦通过分析工具确定了内存泄漏的位置和原因,开发人员就可以修复这些问题。修复可能涉及修改代码以确保正确释放内存、修复内存管理逻辑的错误等。在修复后,可以重新运行项目并使用ksysak memleak进行验证,确保内存泄漏问题已得到解决。

需要注意的是,ksysak memleak是一种基于宏调用的内存泄漏检测工具,它可能会对项目性能产生一定的影响。因此,在使用ksysak memleak进行内存泄漏检测时,建议仅在开发和调试阶段使用,并在完成内存泄漏修复后将其从项目中移除,以确保项目的性能和稳定性不受影响。

2.1 page内存泄露检测

执行ksysak memleak -t page -i 80启动检测page内存泄露程序,运行80s(若来不及执行检测程序则可以延长时间)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.2 slab内存泄露检测

执行 slabtop 命令以查看当前系统的 Slab 使用情况

执行 cat /proc/slabinfo 命令,获取更详细的 Slab 缓存信息。

使用perf工具跟踪内核中的 Slab 分配和释放操作

执行ksysak memleak -t slab -i 80检测启动slab内存泄露检测程序,运行80s(若来不及执行检测程序则可以延长时间)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

OS 异常分析

OS异常分析是操作系统中的一种重要技术,用于处理在程序运行过程中发生的异常情况。当程序执行时遇到某些无法处理的错误或特殊情况时,操作系统会通过异常处理机制来响应,以保护系统的稳定性和安全性。

3.1系统巡查

执行#ksysak ossre_client -d 可扫描日志文件查看系统运行过程中的所有异常信息。

在这里插入图片描述

等等异常信息

检测系统中延迟抖动

服务器操作系统运行过程中,对应用运行的干扰源可能会很多,但干扰不一定会对业务造成影响,所以至少需要包含这些干扰源的频率和运行时间,来评估是否是关键因素。

至少需要包括以下干扰源的统计:

  • 设备硬件中断 如果在业务运行过程中,某一类中断频率过高或者集中到某个 cpu,或者单次运行过长,那么都可能会影响到业务的性能,可以对中断进行打散绑定等操作观察效果。

  • 系统定时中断 系统定时器过多,也可能会对业务的唤醒造成延迟,通常可以分析业务进程是否有大量的使用高精度定时器。

  • 软中断 可能是网络流量是否有突发增加等。

Runlatency 作为系统运维工具KSysAK的一个子工具,用于诊断系统中可能影响应用运行延迟抖动的地方并输出延迟因素。其内核中监控影响进程调度的延时因素(关中断、长时间不调度、运行队列长)。可监控整个系统或单个进程的中断和调度信息,监控的数据包括:

进程/线程调度延迟,比如运行队列挤压、排队时间过长以及高优先级应用抢占或本身调度策略设置不合理。

中断和软中断响应不及时,业务运行过程会依赖于中断和软中断执行过程,包括网络收发包、IO 读写等。因此可以分析关中断时长来判断中断的响应时间。

内核态执行过长:包括系统本身存在的瓶颈以及内核里其他资源竞争等情况。

4.1检测系统中延迟抖动

执行系统延迟抖动模拟程序 testrunlatency.python (在/root)

在这里插入图片描述

执行ksysak runlatency -e 启动延迟抖动监控

在这里插入图片描述

执行 ksysak runlatency -r ./out , 将监控数据输出到out目录下

在这里插入图片描述

执行ksysak runlatency -d 关闭监控

在这里插入图片描述

查看out目录下的输出结果如下:

在这里插入图片描述

nosch, hard, soft 类型的延迟信息,所属CPU,进程id,延时时间, 命令行,堆栈信息等。

使用curl用于测试Web应用的响应和时间,较小的延迟时间通常表示系统或服务能够更快地响应用户的请求

在这里插入图片描述

产品总结

KSysAK是一款多个运维工具集合的“结晶”,它可以大大提高运维人员的工作效率,其主要功能是系统的日常监控、线上问题的诊断和系统故障修复,对于系统的检测非常的详细,该产品的主要特点是覆盖面广,使用不受限,这大大体现了产品的实用和广泛性,让运维工作回归简单,让系统运维人员不需要深入了解内核就能找出问题的所在,非常方便!

总体来说,不管是对用户个人还是在岗的工作人员,这款工具一当之无愧的,但是在某些方面还是可以再优化的,例如:

  • 可以增强定制化:工具应该允许用户更细粒度地定制模拟泄漏的场景。比如,用户应该能够指定泄漏的大小、速度、以及泄漏发生的位置。

  • 详细的报告:工具应该生成详细且易于理解的报告,以帮助用户识别和解决内存泄漏问题。报告应该包括泄漏的大小、位置、以及可能的解决方案。

  • 实时检测和警报:工具应该能实时监测内存泄露,并在发现潜在问题时向用户发出警报,这样有助于在问题严重前及时解决问题。

还可以做一个可视化界面,对于很多用户来说,命令行可能不爱看,或者说有点复杂,一个直观的用户界面将有助于用户更方便地使用这些工具。

最后,为了确保这些工具的有效性和准确性,建议定期进行质量测试和验证。这样可以确保它们在不同场景和配置下都能可靠地工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/198460.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从一个bug认识 Spring 单例模式

大家好,我是风筝,公众号「古时的风筝」 谁还没在 Spring 里栽过跟头呢,从哪儿跌倒,就从哪儿睡一会儿,然后再爬起来。 讲点儿武德 这是由一个真实的 bug 引起的,bug 产生的原因就是忽略了 Spring Bean 的…

网络层之无分类编址CIDR(内涵计算例题)

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

初学vue3与ts:element-plus的警告(Extraneous non-props attributes (ref_key) ...)

用了vue3与ts,ui我就选了element-plus element-plus官网:https://element-plus.org/zh-CN/ element-plus官网(国内镜像站点):https://element-plus.gitee.io/zh-CN/ 国内镜像站点如果进不去的话,在element-plus官网最下面的链接-&…

Jupyter Notebook中设置Cell主题

1. 获取本机Jupyter的配置目录 C:\Users\Administrator>jupyter --data-dir C:\Users\Administrator\AppData\Roaming\jupyter2. 进入获取的目录,创建指定路径 C:\Users\Administrator>cd C:\Users\Administrator\AppData\Roaming\jupyter C:\Users\Adminis…

TikTok新闻视角:短视频如何改变信息传递方式?

随着数字时代的不断发展,信息传递的方式也在不断演变。近年来,短视频平台TikTok崭露头角,通过其独特的15秒短视频形式,逐渐在新闻传播领域占据一席之地。本文将深入探讨TikTok在新闻视角下是如何改变信息传递方式的,以…

计算机毕设:基于机器学习的生物医学语音检测识别 附完整代码数据可直接运行

项目视频讲解: 基于机器学习的生物医学语音检测识别 完整代码数据可直接运行_哔哩哔哩_bilibili 运行效果图: 数据展示: 完整代码: #导入python的 numpy matplotlib pandas库 import pandas as pd import numpy as np import matplotlib.pyplot as plt #绘图 import se…

jupyter notebook中添加内核kernel

step1 检查环境中是否有kernel python -m ipykernel --versionstep2 若没有kernel,则需要安装 kernel conda install ipykernel -i https://pypi.tuna.tsinghua.edu.cn/simplestep3 查看已添加的内核 jupyter kernelspec liststep4 添加内核 python -m ipykerne…

学习php中使用composer下载安装firebase/php-jwt 以及调用方法

学习php中使用composer下载安装firebase/php-jwt 以及调用方法 1、安装firebase/php-jwt2、封装jwt类 1、安装firebase/php-jwt composer require firebase/php-jwt安装好以后出现以下文件: 2、封装jwt类 根据所使用的php框架&#xff0c;在指定目录创建 Token.php <?ph…

外贸建站要国外服务器吗?海外服务器推荐?

外贸建站如何选国外服务器&#xff1f;海洋建站用什么服务器好&#xff1f; 外贸建站已经成为企业拓展国际市场的一项重要举措。然而&#xff0c;一个关键问题摆在许多企业面前&#xff1a;外贸建站是否需要选择国外服务器呢&#xff1f;这个问题涉及到多方面的考虑因素&#…

智能优化算法应用:基于吉萨金字塔建造算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于吉萨金字塔建造算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于吉萨金字塔建造算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.吉萨金字塔建造算法4.实验参数设…

航空复合材料行业分析:预计2028年全球市场规模将达3725.28亿元

航空复合材料是由多种材料层面组合而成的&#xff0c;在冷热不均的环境中&#xff0c;各个组成材料之间的温度承受度不同很容易引起部件损坏等情况的发生&#xff0c;因此随着复合材料在通用航空中应用的增加&#xff0c;航空复合材料维修市场已形成一定规模。目前&#xff0c;…

Node.js入门指南(完结)

目录 接口 介绍 RESTful json-server 接口测试工具 会话控制 介绍 cookie session token 上一篇文章我们介绍了MongoDB&#xff0c;这一篇文章是Node.js入门指南的最后一篇啦&#xff01;主要介绍接口以及会话控制。 接口 介绍 接口是前后端通信的桥梁 &#xff0…

【Unity动画】Unity 动画播放的流程

本文以2D为案例&#xff0c;讲解Unity 播放动画的流程 准备和导入2D动画资源 外部导入序列帧生成的 Unity内部制作的 外部导入的3D动画 2.创建动画过程 打开时间轴Ctrl6 选中场景中的一个未来需要播放动画的物体 回到时间轴点击Create一个新动画片段 拖动2D动画资源放入…

【数据结构和算法】到达首都的最少油耗

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、题目描述 二、题解 三、代码 四、复杂度分析 前言 这是力扣的2477题&#xff0c;难度为中等&#xff0c;解题方案有很多种&…

Interpretable Multimodal Misinformation Detection with Logic Reasoning

原文链接 Hui Liu, Wenya Wang, and Haoliang Li. 2023. Interpretable Multimodal Misinformation Detection with Logic Reasoning. In Findings of the Association for Computational Linguistics: ACL 2023, pages 9781–9796, Toronto, Canada. Association for Computa…

前后端验证码分析(字母计算)

样式&#xff1a; 前端&#xff1a; login.vue <template> <view class"normal-login-container"> <view class"login-form-content"> <view class"input-item flex align-center"> <view class"iconfont ic…

【Android】解决安卓中并不存在ActivityMainBinding

安卓中并不存在ActivityMainBinding这个类&#xff0c;这个类是在XML布局的最外层加入就会自动生成。但是你在最后绑定主布局时会报错获取不到根节点getRoot(). 最好的办法就是&#xff0c;删除原来的最外层节点&#xff0c;再重新添加&#xff0c;感觉是因为复制时并没有让系…

基于阿里云服务网格流量泳道的全链路流量管理(一):严格模式流量泳道

作者&#xff1a;尹航 概述 灰度发布是一种常见的对新版本应用服务的发布手段&#xff0c;其特点在于能够将流量在服务的稳定版本和灰度版本之间时刻切换&#xff0c;以帮助我们用更加可靠的方式实现服务的升级。在流量比例切换的过程中&#xff0c;我们可以逐步验证新版本服…

人工智能时代AIGC绘画实战

系列文章目录 送书第一期 《用户画像&#xff1a;平台构建与业务实践》 送书活动之抽奖工具的打造 《获取博客评论用户抽取幸运中奖者》 送书第二期 《Spring Cloud Alibaba核心技术与实战案例》 送书第三期 《深入浅出Java虚拟机》 送书第四期 《AI时代项目经理成长之道》 …

编译WSL内核,用于操作usb读卡器

wsl2默认不能操作usb读卡器&#xff0c;但是对于嵌入式linux开发来说&#xff0c;需要经常对tf卡进行操作&#xff0c;随时都会使用到usb读卡器的访问。下面讲述如何开启wsl2的usb读卡器的访问&#xff0c;主要涉及到以下2个步骤&#xff1a; wsl2本质是一个虚拟机&#xff0c…