一、项目背景
2023年12月,安徽某县医院接入226个资产,正式成为平台客户。
据moc介绍,客户经历了3个月的长效试用期,通过对平台的监控效果、趋势预测、故障响应速度、技术支持、moc服务等全方位体验后,才谨慎地成为正式用户。不得不夸,运维工程师的认真严谨最让人服气!
二、故障处理
客户资产接入后,需求和服务的极限挑战正式开始。通过3个小案例了解。
1、夜间HIS系统反复重启
客户接入系统后,发现HIS系统总会在夜间反复重启,平台告警后数据工程师认为集群未产生异常报警,并未着急处理。
moc工程师认为核心系统告警需要提高警惕,要求数据工程师排查重启原因,最终锁定SQL Server数据库bug导致,进行打补丁更新,反复重启故障彻底解决。
2、大面积断电引发的网络问题
1月21日清晨7点半,平台接到该医院资产离线告警。
moc工程师沟通用户,得知该地区遭遇极端暴雪天气导致大面积停电。在恢复供电后,部分交换机未能自动重启。用户现场有一百多台交换机且分散在医院各个区域,靠人工检查定位重启,至少要半天时间才能完成,将会影响业务的正常开展。时间紧任务重,MOC工程师结合平台告警和设备状态监测,逐步定位排查,在30分钟内协助用户迅速恢复所有故障网络设备,保障业务的稳定进行。
3、磁盘空间使用率问题
接入平台后,值守工程师发现凌晨总会接到磁盘空间使用率不足告警,在处理工单时,告警磁盘的容量又恢复正常,完全能满足业务的需求。
通过三日空间使用时序图显示,磁盘每日凌晨开始备份,产生大量备份文件,在短时间内磁盘空间使用率就达到100%,空间不足导致备份失败,重新释放磁盘容量。这就是处理工单时一切看起来很正常的原因。数据备份失败可能导致数据丢失,moc工程师及时与现场工程师沟通,调整备份方案,将5日备份数据量调整为2日备份,在适合的时间对该磁盘进行扩容。
异常早发现,故障快处理,保障系统日常稳定运行,客户满意度持续飙升。
三、痛点分析
在医院信息化建设中,大部分医院已完成核心业务系统建设,且配套一定规模的网络、服务器、动环等系统。因此在制定运维服务方案时,需要在这几点特别关注。
1、厂商独立监控、数据割裂,形成数据孤岛。影响告警和根因定位的准确性,甚至告警风暴的产生,需要监控统一集中的监控。
2、资源管理难,缺乏对服务器CPU、内存等计算资源,磁盘空间、磁盘I/0等存储资源的监控,对系统应用节点和数据的各项性能参数配置等数据把控不足,难以实现科学的容量规划。
3、缺乏对核心业务系统监控,设备厂商监控工具仅对设备状态进行检测,无法对医院核心业务,如HIS、PACS等进行全链路可用性监控分析。
4、日常巡检以人工巡检为主,问题发现被动、滞后,难以保障系统稳定运行。同时人工巡检摸排时间长、问题处理效率低,也使运维KPI成效不显著。
四、方案亮点
一站式监控
异常、风险尽在掌握
—
以集中式采集监控和告警管理,将资产统一并入监控系统,对每个资源节点的状态、性能进行实时监控。监控不漏报、少误报、高响应,高效应对医院规模庞大的基础设施,网络设备、服务器、存储、应用等。
通过全栈数据采集分析,精准定位提供丰富数据分析,提升风险异常的精准度。用户可以避免无效告警、告警风暴的发生,快速对故障的排查和定位,全面提升告警管理能力。
自动巡检+AI精准预测
运维提速增效
—
自动巡检可大幅提高巡检效率,内置多种常见的操作系统、数据库、中间件等巡检模版,满足日常巡检需求。支持灵活配置巡检指标以及阈值,高亮展示异常指标,组件性能状态一目了然。支持定时执行策略、巡检通知、生成word模版供存档,保证巡检任务有计划地执行。
AI精准预测,主动发现问题,对具有周期性、趋势性、季节性的指标,AI机器学习建立自适应的异常检测,自动调整动态阈值,高效管理告警。
7*24h在线+专家响应
事件能闭环
—
依托于平台的实时监测分析,MOC专家做到分秒级响应,不到30分钟就能完成一次事件的“分析-定位-响应”。
为医院量身打造相应的应急处理流程,确保问题的响应时间和处理速度,MOC工程师全程在线,提供专业的解决方案,协调专家支持,保障系统快速恢复;故障解除后,MOC工程师会针对事件进行复盘汇报,查漏补缺,故障闭环处理大幅降低同类型事件再发概率。
平台内置大量案例,集中管理历史沉淀经验及常用场景知识,便于知识应用即查即用,提升问题解决效率,减少对专业人才的依赖;
智能运维使原来错综复杂的运维管理工作变的简单轻松,真正实现职责分明、安全高效、稳定可靠、智能管控的目标。