一阵急促尖锐的铃声响起,王一搏忐忑不安地接起电话,被告知系统有20台服务器批量重启。
20 台!批量重启!意识到问题的严重性,王一搏迅速调整好状态,准备投身一场激烈的救火工作中。
然而事件的走向却远远超出预期.....请看word VCR。
P1-故障发现
一,上午9点监控系统异常报告:20台服务器批量重启。
值守专家推测2种可能:一是内网i53主机硬件告警,初步判断是X86设备i53发生故障,导致设备上的虚拟服务器进行迁移重启。
而通过告警详情,显示磁盘运行正常。推测排除。
二,在批量重启中,内网i54主机硬件-x86-温度状态异常告警。
定位问题,进一步求证。
P2-准确定位,快速解决
二级moc工程师登录主机管理软件。发现i53、i54两台主机的虚拟机服务器批量重启时间与内存PCH和PCLe同时温度状态异常告警相符合。
基本锁定内存故障。沟通更换内存条后,故障再没有出现,问题解决。
在故障处理的整个过程中,王一搏只接了两个电话,一个是告知系统故障,一个是提醒更换内存条。预想的问题排查,专家会诊,故障定位和技术支持乃至通宵加班......竟然一个都没有出现,故障就这么轻松解决了。
实际上,除了紧急问题的处理效率,从全年的数据上看,管家式运维服务也是颇有成效,例如,全年没发生过一次非计划性停机时间,过去每年总会有十次八次的出现;告警问题更是减少65%以上,运维事故减少80%......运维工作再也不用又肝又氪,放得下手机,拿得起报告,从业七年终于对齐了工作颗粒度。
故障教会了什么?最直接有效的是利用好工具!
用好工具,能够准确的事前预测,被动救火转变为主动预防;
用好工具,能够获得准确的告警信息,便于快速定位解决问题;
用好工具,能够共享行业技术发展成果,AI场景化落地,更快、更准,更高效!
这就是LinkSLA智能运维管家的核心服务——管家型运维平台。
一站式监控
通过构建统一监控平台,对业务系统和IT基础架构进行统一监控和集中管理,可实时掌握系统、设备的运行状,通过可视化大屏可直观地查看。
平台支持集中对象展示与自动分类展示,可直观了解当前IT系统运行状态,运维人员无需单独登录每个系统、检索个别设备,监控和管理相结合,提高IT系统及设备的整体运行质量,增强IT基础设施运行的稳定性和可靠性,同时提升信息部门的IT管理水平。
风险感知能力
包含故障告警与风险预测。
故障告警针对突发故障情况,如硬件损坏、网络中断等不可预知、不可抗因素,通过实时监控和发送告警信息,提醒运维人员响应故障解决。
风险预测主要针对资源消耗,如存储消耗、CPU性能消耗等,通过AI算法,预估资源消耗趋势,推算出阈值告警触发时间,事先做好资源配置,提高系统的稳定性。
可视化能力
将复杂的数据转为易于理解的图表,如可配置的网络拓扑、业务拓扑,及时反映重点关注的如网络健康状况、专线链路状况等。当出现异常时,可以快速定位故障,大幅缩短故障定位、排查时间,并为解决故障提供有效依据。
moc值守服务
moc提供7*24在线值守,并配备二线专家团队,提高事件的响应及处理效率,大大降低人力成本和专家技术成本。
个性化报表服务
满足客户个性化需求,平台内置报表功能,可针对特定的业务系统,提供日报表、周报表,展示数据趋势,以及性能分析结果;也可以通过告警统计功能,从不同的视角观测系统健康状况。
以智能驱动运维精细化管理,统一监控构建全面的IT资源梳理和实时告警的智能运维模式,帮助用户实现功能完善,效率优先的运维支撑,推动用户信息化发展。