从运维故障中你都学到了什么?

一阵急促尖锐的铃声响起,王一搏忐忑不安地接起电话,被告知系统有20台服务器批量重启。

20 台!批量重启!意识到问题的严重性,王一搏迅速调整好状态,准备投身一场激烈的救火工作中。

然而事件的走向却远远超出预期.....请看word VCR。

P1-故障发现

一,上午9点监控系统异常报告:20台服务器批量重启。

图片

值守专家推测2种可能:一是内网i53主机硬件告警,初步判断是X86设备i53发生故障,导致设备上的虚拟服务器进行迁移重启。

而通过告警详情,显示磁盘运行正常。推测排除。

图片

二,在批量重启中,内网i54主机硬件-x86-温度状态异常告警。    

图片

定位问题,进一步求证。

P2-准确定位,快速解决

二级moc工程师登录主机管理软件。发现i53、i54两台主机的虚拟机服务器批量重启时间与内存PCH和PCLe同时温度状态异常告警相符合。

图片

基本锁定内存故障。沟通更换内存条后,故障再没有出现,问题解决。

在故障处理的整个过程中,王一搏只接了两个电话,一个是告知系统故障,一个是提醒更换内存条。预想的问题排查,专家会诊,故障定位和技术支持乃至通宵加班......竟然一个都没有出现,故障就这么轻松解决了。

实际上,除了紧急问题的处理效率,从全年的数据上看,管家式运维服务也是颇有成效,例如,全年没发生过一次非计划性停机时间,过去每年总会有十次八次的出现;告警问题更是减少65%以上,运维事故减少80%......运维工作再也不用又肝又氪,放得下手机,拿得起报告,从业七年终于对齐了工作颗粒度。   

故障教会了什么?最直接有效的是利用好工具!

用好工具,能够准确的事前预测,被动救火转变为主动预防;

用好工具,能够获得准确的告警信息,便于快速定位解决问题;

用好工具,能够共享行业技术发展成果,AI场景化落地,更快、更准,更高效!

这就是LinkSLA智能运维管家的核心服务——管家型运维平台。

 一站式监控

通过构建统一监控平台,对业务系统和IT基础架构进行统一监控和集中管理,可实时掌握系统、设备的运行状,通过可视化大屏可直观地查看。

平台支持集中对象展示与自动分类展示,可直观了解当前IT系统运行状态,运维人员无需单独登录每个系统、检索个别设备,监控和管理相结合,提高IT系统及设备的整体运行质量,增强IT基础设施运行的稳定性和可靠性,同时提升信息部门的IT管理水平。

 风险感知能力

包含故障告警与风险预测。

故障告警针对突发故障情况,如硬件损坏、网络中断等不可预知、不可抗因素,通过实时监控和发送告警信息,提醒运维人员响应故障解决。

风险预测主要针对资源消耗,如存储消耗、CPU性能消耗等,通过AI算法,预估资源消耗趋势,推算出阈值告警触发时间,事先做好资源配置,提高系统的稳定性。

 可视化能力

将复杂的数据转为易于理解的图表,如可配置的网络拓扑、业务拓扑,及时反映重点关注的如网络健康状况、专线链路状况等。当出现异常时,可以快速定位故障,大幅缩短故障定位、排查时间,并为解决故障提供有效依据。

 moc值守服务

moc提供7*24在线值守,并配备二线专家团队,提高事件的响应及处理效率,大大降低人力成本和专家技术成本。

 个性化报表服务

满足客户个性化需求,平台内置报表功能,可针对特定的业务系统,提供日报表、周报表,展示数据趋势,以及性能分析结果;也可以通过告警统计功能,从不同的视角观测系统健康状况。

以智能驱动运维精细化管理,统一监控构建全面的IT资源梳理和实时告警的智能运维模式,帮助用户实现功能完善,效率优先的运维支撑,推动用户信息化发展。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/23009.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM的内存结构

JVM 内存结构 方法区: 方法区主要用于存储虚拟机加载的类信息、常量、静态变量,以及编译器编译后的代码等数据。 程序计数器 由于在JVM中,多线程是通过线程轮流切换来获得CPU执行时间的,因此,在任一具体时刻,一个CP…

kali配置静态ip

kali配置静态ip 因为一些环境需要,本地linux主机需要搭建一个桥接模式的网络,那么直接就在kali中配置了, 打开vim /etc/network/interfaces 这里就需要自己配置一下ip,网关,路由等内容 这里参考:参考链接 …

排序方法——《选择排序》

P. S.:以下代码均在VS2019环境下测试,不代表所有编译器均可通过。 P. S.:测试代码均未展示头文件stdio.h的声明,使用时请自行添加。 博主主页:Yan. yan.                        …

关于文件上传失败问题的排查思路

问题场景: 最近公司的app有很多用户反馈上传文件失败了。业务路径就是简单的app前端调用后端文件上传接口,所以发生上传失败的可能因素可能是:1、文件大小/文件类型等是否有问题,公司用的是七牛的文件服务器,对文件上…

我成功创建了一个Electron应用程序

1.创建electron项目命令: npm create quick-start/electron electron-memo 2选择:√ Select a framework: vue √ Add TypeScript? ... No √ Add Electron updater plugin? ... Yes √ Enable Electron download mirror proxy? ... Yes 3.命令&am…

保护关键业务资产的四个步骤

提到 “关键资产 ”,相信大家并不陌生,它是企业 IT 基础设施中对组织运作至关重要的技术资产。如果这些资产(如应用服务器、数据库或特权身份)出现问题,势必会对企业安全态势造成严重影响。 但每项技术资产都被视为关…

【UML用户指南】-01-UML基本元素的介绍(一)

目录 1、UML的词汇表 2、UML的4种事物 2.1、结构事物 1)类 2)接口 3)协作 4)用例(use case) 5)主动类(active class) 6)构件(component&a…

揭秘c语言储存类别

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文将整理c语言的储存类型的知识点 储存类型概念 描述:用于解决内存开辟与解放的时间的问题。跟作用域没啥关系。 但是呢,他也是能影响到程序的运行的,所以是很关键的。 类型: auto :自…

idea mac快捷键

Mac快捷键 快捷键 说明 ⌘ F 在当前窗口查找 ⌘ ⇧ F 在全工程查找 ⌘ ⇧ ⌥ N 查找类中的方法或变量 F3 / ⇧ F3 移动到搜索结果的下/上一匹配处 ⌘ R 在当前窗口替换 ⌘ ⇧ R 在全工程替换 ⌘ ⇧ V 可以将最近使用的剪贴板内容选择插入到文本 ⌥…

负压实验室设计建设方案

随着全球公共卫生事件的频发,负压实验室的设计和建设在医疗机构中的重要性日益凸显。负压实验室,特别是负压隔离病房,主要用于控制传染性疾病的扩散,保护医护人员和周围环境的安全。广州实验室装修公司中壹联凭借丰富的实验室装修…

MQTT.FX的使用

背景 在如今物联网的时代下,诞生了许多的物联网产品,这些产品通过BLE、WIFI、4G等各种各样的通信方式讲数据传输到各种各样的平台。 除了各个公司私有的云平台外,更多的初学者会接触到腾讯云、阿里云之类的平台。设备接入方式也有着多种多样…

Spring自带定时任务@Scheduled注解

文章目录 1. cron表达式生成器2. 简单定时任务代码示例:每隔两秒打印一次字符3. Scheduled注解的参数3.1 cron3.2 fixedDelay3.3 fixedRate3.4 initialDelay3.5 fixedDelayString、fixedRateString、initialDelayString等是String类型,支持占位符3.6 tim…

GD32F407ZGT6/GD32F450ZGT6(3)外部中断实验

本文章基于兆易创新GD32 MCU所提供的2.2.4版本库函数开发 向上代码兼容GD32F450ZGT6中使用 后续项目主要在下面该专栏中发布: https://blog.csdn.net/qq_62316532/category_12608431.html?spm1001.2014.3001.5482 感兴趣的点个关注收藏一下吧! 电机驱动开发可以跳转…

用幻灯片讲解C++手动内存管理

用幻灯片讲解C手动内存管理 1.栈内存的基本元素 2.栈内存的聚合对象 3.手动分配内存和释放内存 注意:手动分配内存,指的是在堆内存中。 除非实现自己的数据结构,否则永远不要手动分配内存! 即使这样,您也应该通过std::allocator…

进入新公司有焦虑感怎么办?

前因 前两天技术交流群里有童鞋问了一个很有意思的问题,他问如何克服进入新公司的焦虑感?很多热心的童鞋都纷纷支招,比如 “主动干活”、“专注干活”、“让时间冲淡焦虑感”、……等等,这些都很有道理,不过&#xff…

今时今日蜘蛛池还有用吗?

最近不知道哪里又开始刮起“蜘蛛池”这个风气了,售卖、购买蜘蛛池的行为又开始在新手站长圈里开始蔓延和流行了起来,乍一看到“蜘蛛池”这个词给明月的感受就是陌生,要经过回忆才能想起来一些残存的记忆,所谓的蜘蛛池说白了就是利…

grpc接口调用

grpc接口调用 准备依赖包clientserver 参考博客&#xff1a; Grpc项目集成到java方式调用实践 gRpc入门和springboot整合 java 中使用grpc java调用grpc服务 准备 因为需要生成代码&#xff0c;所以必备插件 安装后重启 依赖包 <?xml version"1.0" encoding&…

mysql buffer pool 详解

概念&#xff1a;为了缓存磁盘中的页&#xff0c;mysql服务器启动时会向操作系统申请一片连续的内存空间&#xff0c;这片连续的内存空间叫做buffer pool&#xff0c;即缓冲池。 buffer pool 默认大小&#xff1a;128M innodb_buffer_pool_size&#xff1a;自定义缓冲池大小 …

ECS搭建redis4.0集群版

在 CentOS 上安装 Redis 4.0 集群版涉及多个步骤&#xff0c;包括安装 Redis、配置集群并启动它。下面将详细介绍整个过程&#xff1a; 1. 系统更新 首先&#xff0c;保证系统是最新的。 sudo yum update2. 安装依赖项 安装构建 Redis 所必需的依赖&#xff1a; sudo yum …

计算机三级等级考试

计算机等级考试&#xff1a; 一&#xff1a;理论知识考试 100分考60分 1&#xff1a;题库 二&#xff1a;技能考试 100分考60分 1&#xff1a;写文档 项目概述 功能描述 数据库设计 UML 绘 图 用例图 与 包图&#xff08;两个图&#xff09; 2&…