从运维故障中你都学到了什么?

一阵急促尖锐的铃声响起,王一搏忐忑不安地接起电话,被告知系统有20台服务器批量重启。

20 台!批量重启!意识到问题的严重性,王一搏迅速调整好状态,准备投身一场激烈的救火工作中。

然而事件的走向却远远超出预期.....请看word VCR。

P1-故障发现

一,上午9点监控系统异常报告:20台服务器批量重启。

图片

值守专家推测2种可能:一是内网i53主机硬件告警,初步判断是X86设备i53发生故障,导致设备上的虚拟服务器进行迁移重启。

而通过告警详情,显示磁盘运行正常。推测排除。

图片

二,在批量重启中,内网i54主机硬件-x86-温度状态异常告警。    

图片

定位问题,进一步求证。

P2-准确定位,快速解决

二级moc工程师登录主机管理软件。发现i53、i54两台主机的虚拟机服务器批量重启时间与内存PCH和PCLe同时温度状态异常告警相符合。

图片

基本锁定内存故障。沟通更换内存条后,故障再没有出现,问题解决。

在故障处理的整个过程中,王一搏只接了两个电话,一个是告知系统故障,一个是提醒更换内存条。预想的问题排查,专家会诊,故障定位和技术支持乃至通宵加班......竟然一个都没有出现,故障就这么轻松解决了。

实际上,除了紧急问题的处理效率,从全年的数据上看,管家式运维服务也是颇有成效,例如,全年没发生过一次非计划性停机时间,过去每年总会有十次八次的出现;告警问题更是减少65%以上,运维事故减少80%......运维工作再也不用又肝又氪,放得下手机,拿得起报告,从业七年终于对齐了工作颗粒度。   

故障教会了什么?最直接有效的是利用好工具!

用好工具,能够准确的事前预测,被动救火转变为主动预防;

用好工具,能够获得准确的告警信息,便于快速定位解决问题;

用好工具,能够共享行业技术发展成果,AI场景化落地,更快、更准,更高效!

这就是LinkSLA智能运维管家的核心服务——管家型运维平台。

 一站式监控

通过构建统一监控平台,对业务系统和IT基础架构进行统一监控和集中管理,可实时掌握系统、设备的运行状,通过可视化大屏可直观地查看。

平台支持集中对象展示与自动分类展示,可直观了解当前IT系统运行状态,运维人员无需单独登录每个系统、检索个别设备,监控和管理相结合,提高IT系统及设备的整体运行质量,增强IT基础设施运行的稳定性和可靠性,同时提升信息部门的IT管理水平。

 风险感知能力

包含故障告警与风险预测。

故障告警针对突发故障情况,如硬件损坏、网络中断等不可预知、不可抗因素,通过实时监控和发送告警信息,提醒运维人员响应故障解决。

风险预测主要针对资源消耗,如存储消耗、CPU性能消耗等,通过AI算法,预估资源消耗趋势,推算出阈值告警触发时间,事先做好资源配置,提高系统的稳定性。

 可视化能力

将复杂的数据转为易于理解的图表,如可配置的网络拓扑、业务拓扑,及时反映重点关注的如网络健康状况、专线链路状况等。当出现异常时,可以快速定位故障,大幅缩短故障定位、排查时间,并为解决故障提供有效依据。

 moc值守服务

moc提供7*24在线值守,并配备二线专家团队,提高事件的响应及处理效率,大大降低人力成本和专家技术成本。

 个性化报表服务

满足客户个性化需求,平台内置报表功能,可针对特定的业务系统,提供日报表、周报表,展示数据趋势,以及性能分析结果;也可以通过告警统计功能,从不同的视角观测系统健康状况。

以智能驱动运维精细化管理,统一监控构建全面的IT资源梳理和实时告警的智能运维模式,帮助用户实现功能完善,效率优先的运维支撑,推动用户信息化发展。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/23009.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM的内存结构

JVM 内存结构 方法区: 方法区主要用于存储虚拟机加载的类信息、常量、静态变量,以及编译器编译后的代码等数据。 程序计数器 由于在JVM中,多线程是通过线程轮流切换来获得CPU执行时间的,因此,在任一具体时刻,一个CP…

kali配置静态ip

kali配置静态ip 因为一些环境需要,本地linux主机需要搭建一个桥接模式的网络,那么直接就在kali中配置了, 打开vim /etc/network/interfaces 这里就需要自己配置一下ip,网关,路由等内容 这里参考:参考链接 …

排序方法——《选择排序》

P. S.:以下代码均在VS2019环境下测试,不代表所有编译器均可通过。 P. S.:测试代码均未展示头文件stdio.h的声明,使用时请自行添加。 博主主页:Yan. yan.                        …

关于文件上传失败问题的排查思路

问题场景: 最近公司的app有很多用户反馈上传文件失败了。业务路径就是简单的app前端调用后端文件上传接口,所以发生上传失败的可能因素可能是:1、文件大小/文件类型等是否有问题,公司用的是七牛的文件服务器,对文件上…

我成功创建了一个Electron应用程序

1.创建electron项目命令: npm create quick-start/electron electron-memo 2选择:√ Select a framework: vue √ Add TypeScript? ... No √ Add Electron updater plugin? ... Yes √ Enable Electron download mirror proxy? ... Yes 3.命令&am…

保护关键业务资产的四个步骤

提到 “关键资产 ”,相信大家并不陌生,它是企业 IT 基础设施中对组织运作至关重要的技术资产。如果这些资产(如应用服务器、数据库或特权身份)出现问题,势必会对企业安全态势造成严重影响。 但每项技术资产都被视为关…

IT项目常用考核指标

在IT项目管理中,考核指标是用来评估项目进展和成果的重要依据。以下是一些常用的IT项目考核指标,包括具体的指标名称、计算公式、基准达标值以及常见问题: 1 项目进度准时率 项目的生命线是什么?没错,是时间&#xf…

【UML用户指南】-01-UML基本元素的介绍(一)

目录 1、UML的词汇表 2、UML的4种事物 2.1、结构事物 1)类 2)接口 3)协作 4)用例(use case) 5)主动类(active class) 6)构件(component&a…

揭秘c语言储存类别

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文将整理c语言的储存类型的知识点 储存类型概念 描述:用于解决内存开辟与解放的时间的问题。跟作用域没啥关系。 但是呢,他也是能影响到程序的运行的,所以是很关键的。 类型: auto :自…

拉取代码编辑器中报错`Delete ␍ prettier/prettier` 问题的解决方案

当您在使用 git clone 下载Web前端代码仓库后,可能会遇到 Delete ␍ prettier/prettier 的提示时,这通常意味着您的代码中存在不兼容的换行符问题。 问题产生的原因 在不同的操作系统中,文本文件的换行符是不同的。Windows系统通常使用回车…

Pytorch常用函数用法归纳:Tensor张量之间的计算

1.torch.add() (1)函数原型: torch.add(input, other, alpha, out) (2)参数说明: 参数名称参数类型参数说明inputtorch.Tensor表示参与运算的第一个输入Tensor张量othertorch.Tensor或者Number表示参与运算的第二个输入Tensor张量或标量alphaNumber, optional一个可选的缩放…

idea mac快捷键

Mac快捷键 快捷键 说明 ⌘ F 在当前窗口查找 ⌘ ⇧ F 在全工程查找 ⌘ ⇧ ⌥ N 查找类中的方法或变量 F3 / ⇧ F3 移动到搜索结果的下/上一匹配处 ⌘ R 在当前窗口替换 ⌘ ⇧ R 在全工程替换 ⌘ ⇧ V 可以将最近使用的剪贴板内容选择插入到文本 ⌥…

负压实验室设计建设方案

随着全球公共卫生事件的频发,负压实验室的设计和建设在医疗机构中的重要性日益凸显。负压实验室,特别是负压隔离病房,主要用于控制传染性疾病的扩散,保护医护人员和周围环境的安全。广州实验室装修公司中壹联凭借丰富的实验室装修…

MQTT.FX的使用

背景 在如今物联网的时代下,诞生了许多的物联网产品,这些产品通过BLE、WIFI、4G等各种各样的通信方式讲数据传输到各种各样的平台。 除了各个公司私有的云平台外,更多的初学者会接触到腾讯云、阿里云之类的平台。设备接入方式也有着多种多样…

神经网络应用场景——图像识别

神经网络在图像识别中的应用是一项重要且广泛的技术,下面将详细解释和说明神经网络在图像识别中的定义、特点以及应用场景。 一、定义 神经网络在图像识别中的应用,主要是指利用神经网络模型对图像进行特征提取和分类,从而实现对图像中物体…

Spring自带定时任务@Scheduled注解

文章目录 1. cron表达式生成器2. 简单定时任务代码示例:每隔两秒打印一次字符3. Scheduled注解的参数3.1 cron3.2 fixedDelay3.3 fixedRate3.4 initialDelay3.5 fixedDelayString、fixedRateString、initialDelayString等是String类型,支持占位符3.6 tim…

2004NOIP普及组真题 4. 火星人

线上OJ&#xff1a; 【04NOIP普及组】火星人 核心思想&#xff1a; 本题的难点是阅读理解。通读后发现&#xff0c;题目的本质是全排列&#xff0c;加上的数字 m &#xff0c;起始就是调用 m 次 next_permutation() 。 题解代码&#xff1a; #include <bits/stdc.h> u…

C++部分关键字的作用-__declspec(dllexport)、__declspec(dllimport)、__attribute__、__cdecl

__declspec(dllexport)和__declspec(dllimport) 这个关键字主要用于Windows平台上的DLL编程。当你在一个DLL中定义一个函数或变量&#xff0c;并希望它能够被其他应用程序导入和使用时&#xff0c;你可以使用__declspec(dllexport)来标记这个函数或变量&#xff0c;这样编译器…

C语言从头学16——数据类型(二)

继续学习数据类型。 3、浮点型数float 有小数点的数值称为浮点数。浮点数用 float 进行声明。 float 类型占用4个字节&#xff08;32位&#xff09;&#xff0c;float 类型表示十进制数时至少能够提供6位有效数字&#xff0c;例如&#xff1a; float x 1020.25; …

程序员应该有什么职业素养?【模板】

程序员应该有什么职业素养&#xff1f; 简介&#xff1a;你认为对于程序员而言&#xff0c;什么职业素养是最为重要的呢&#xff1f;在你的职业生涯中&#xff0c;有什么切实的案例发生吗&#xff1f;让我们探讨程序员在职业生涯中应具备的职业素养&#xff0c;讲述你在工作中…