告警闪现后的故障排查

长期以来,医院信息化运维中存在着科室复杂、应用场景多、终端运维工作量大、软件系统兼容需求强等诸多痛点,且对技术设备的稳定性、连续性要求极高,在日常运维中,需要应对和解决这些问题来保障业务稳定、健康运行。

1、数据孤岛 

在信息化建设中,医院基本完成核心业务系统的建设,且配置一定规模的网络、服务器、动环等系统。因此也会出现各厂商独立监控、数据割裂,形成运维孤岛。

2、问题发现被动、滞后 

传统人工巡检的方式,存在问题发现被动、滞后,难以保障业务的稳定运行。且人工摸排时间长、效率低,运维工作效果不显著。

3、告警不准确 

部分医院有动环、基础设施监控等管理系统, 医院业务系统复杂,易产生告警冗余,难以在告警风暴中判断故障根因。

4、对资源和性能数据掌握不足 

对服务器CPU、内存等计算资源,磁盘空间、磁盘I/O等存储资源的缺乏监控管理,对系统应用节点和数据的各项性能参数配置等数据把控不足,不能提前发现隐患问题。

近5年,LinkSLA智能运维管家在医疗领域服务满意度95%以上,通过建立主动监控和御防,MOC在线值守的线上+线下的大运维服务,帮助医院实现高效、稳定的业务环境。下面通过一组小案例看LinkSLA智能运维管家在医院运维实践中的价值。

一、告警问题

11月14日9点,平台接到安徽某三甲医院HuaweiOceanStor9000设备告警,告警提示3点异常:

  • 文件系统服务状态异常;

  • Node-01存储节点异常;

  • 协议共享服务异常;

图片

(告警列表)

奇怪的是,告警仅持续5分钟,随后文件系统、存储节点和协议共享服务状态又全部恢复正常。期间无任何技术性调整,告警自动解除,是产生误报吗?设备问题需要再确认一下吗?答案是肯定的,对平台告警准确率深信不疑的moc工程师不错过任何隐患问题,坚持再次检查设备的健康状况。

二、问题的排查过程

moc工程师沟通现场工程师,建议查看设备运行状态,并查看运行日志,检查是否有硬件故障发生。

次日,厂家检查设备发现Node1没有备用节点,手动添加节点Node2,这一操作导致存储节点Node4健康状态和磁盘状态异常,平台收到告警建议进行整改,存储节点Node4恢复正常,厂家将检测日志带回做进一步分析。

图片

图片

图片

3、厂家持续远程观察该设备运行状况,并将日志回传进一步分析。

4、在持续观察以及日志分析后,判断内存条问题导致14日Node1节点和文件系统告警。更换掉内存条后,问题得以解决。

图片

三、案例小结

这个案例的细节惊喜在于告警闪现5分钟后快速恢复,如果没有MOC值守工程师的关注,很容易忽视这个异常告警,MOC工程师快速响应沟通现场,联系厂家进行设备检查,跟进故障修复进度,隐患问题最终得到解决。

LinkSLA智能运维平台抓住瞬间闪现的故障,将问题扼杀在萌芽中。充分体现平台对故障的敏锐度,没有空穴来风的报警,只有尚未明确的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/711720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Centos6安装PyTorch要求的更高版本gcc

文章目录 CentOS自带版本安装gcc 4的版本1. 获取devtoolset-8的yum源2. 安装gcc3. 版本检查和切换版本 常见问题1. 找不到包audit*.rpm包2. 找不到libcgroup-0.40.rc1-27.el6_10.x86_64.rpm 的包4. cc: fatal error: Killed signal terminated program cc1plus5. pybind11/pybi…

安达发|可视化APS高级排产系统实现精益制造

精益制造已经成为了一种重要的生产模式,它的目标是通过消除浪费,提高生产效率,以实现更高的质量和更低的成本。而可视化APS高级排产系统则是实现精益制造的重要工具。下面,我将从接单可视化、BOM工艺可视化、计划与排程可视化、制…

【Flink精讲】Flink性能调优:CPU核数与并行度

常见问题 举个例子 提交任务命令: bin/flink run \ -t yarn-per-job \ -d \ -p 5 \ 指定并行度 -Dyarn.application.queuetest \ 指定 yarn 队列 -Djobmanager.memory.process.size2048mb \ JM2~4G 足够 -Dtaskmanager.memory.process.size4096mb \ 单个 TM2~8G 足…

Android 性能优化--APK加固(1)混淆

文章目录 为什么要开启混淆如何开启代码混淆如何开启资源压缩代码混淆配置代码混淆后,Crash 问题定位结尾 本文首发地址:https://h89.cn/archives/211.html 最新更新地址:https://gitee.com/chenjim/chenjimblog 为什么要开启混淆 先上一个 …

【会议征稿通知】第十届人文学科与社会科学研究国际学术会议(ICHSSR 2024)

第十届人文学科与社会科学研究国际学术会议(ICHSSR 2024) 2024 10th International Conference on Humanities and Social Science Research 第十届人文学科与社会科学研究国际学术会议(ICHSSR 2023)将于2024年4月26-28日在中国厦门隆重举行。会议主要…

工厂生产效率如何提升?这8个重点你不得不看!

企业的竞争本质上就是效率与成本的竞争(当然是保证产品质量的前提下),如何持续不断地提高生产效率是企业永续发展的关键问题,提高生产效率也是降低制造成本的根本途径。 当然,我们必须严格根据工艺标准来操作&#xf…

如何通过ip查询用户的归属地

背景 最近公司做了一些营销活动,投入资金进行了流量推广,pv、UV都做了统计。老板说,我要看下用户的区域分布的数据。 以前的文章我讲过,pv、UV如何统计?我们是基于ip进行统计的。用的ip能获取到,那通过ip…

JavaScript继承

JavaScript继承 1、JS 的继承到底有多少种实现方式呢? 2、ES6 的 extends 关键字是用哪种继承方式实现的呢? 继承种类 原型链继承 function Parent1() {this.name parentlthis.play [1, 2, 3] }function Child1() {this.type child2 }Child1.prototype new Parent1(…

应用稳定性优化1:ANR问题全面解析

闪退、崩溃、无响应、重启等是应用稳定性常见的问题现象,稳定性故障大体可归类为ANR/冻屏、Crash/Tombstone、资源泄露三大类。本文通过对三类故障的产生原因、故障现象、触发机制及如何定位等,展开深度解读。 本文将详解ANR类故障,并通过一…

【前端素材】推荐优质后台管理系统cassie平台模板(附源码)

一、需求分析 1、系统定义 后台管理系统是一种用于管理网站、应用程序或系统的管理界面,通常由管理员和工作人员使用。它提供了访问和控制网站或应用程序后台功能的工具和界面,使其能够管理用户、内容、数据和其他各种功能。 2、功能需求 后台管理系…

解锁AI大模型秘籍:未来科技的前沿探索

在当今这个技术高速发展的时代,人工智能(AI)已经成为了我们生活中不可或缺的一部分。从简单的个人助手到复杂的数据分析和决策制定,AI的应用范围日益扩大,其目的是为了让我们的生活变得更加智能化。本文旨在探讨AI如何…

【单片机学习的准备】

文章目录 前言一、找一个视频是二、画图软件三、装keil5 仿真protues总结 前言 提示:这里可以添加本文要记录的大概内容: 项目需要: 提示:以下是本篇文章正文内容,下面案例可供参考 一、找一个视频是 https://www.b…

农产品质量追溯系统—简介

概要 农产品质量安全事关广大人民群众的食用安全和身体健康。解决农产品质量安全问题,需要从源头开始抓好、抓实农产品安全监管工作。通过建立从产地到市场的全程质量控制系统和追溯制度,对农产品产地环境、生产过程、产品检测、包装盒标识等关键环节进行监督管理,提高广大…

Kubernetes(k8s第一部分)

这个技术一定会成为以后企业技术的标准 尙硅谷的王阳这个部分这个讲的特别好,可以自己去看 1,发展经历 阿里云iaas Infrastructure as a Service 平台及服务paas新浪云 platform as a service(号称免运维)(docker是下一代的标准&#x…

模板初阶的补充和string一些函数的用法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 模板初阶的补充 一、C语言中的字符串 二、标准库中的string类 2.1 string类(了解) 2.2 string类的常用接口说明(注意下面我只讲解最常用的接口&…

精品ssm的社区团购系统购物商城小程序

《[含文档PPT源码等]精品基于ssm的社区团购系统[包运行成功]》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程、包运行成功! 软件开发环境及开发工具: Java——涉及技术: 前端使用技术:HTML5,CSS3、Jav…

Sophon AutoCV推动AI应用从模型生产到高效落地

随着技术市场和应用方向的逐渐成熟,人工智能与各行各业的结合和落地逐渐进入了深水区。 虽然由于行业规模化和应用普及度的限制,人工智能在“传统”行业的落地不如消费互联网行业,但是借助人工智能为“传统”行业的发展注入新能量一直是相关…

lottie加载带图片的json 预览

背景 产品看到一款app的动效很不错,让我去模仿实现。 第一步 获取apk中的静态资源 拿到这个app的apk后,直接使用压缩工具解压, assets文件夹就是静态资源的目录 静态资源里面有lottie 那么大部分的动效应该都是lottie实现的 网上找了很多…

经销商文件分发 怎样兼顾安全和效率?

经销商文件分发是指将文件、资料、产品信息等从制造商或经销商传递给经销商的过程。这一过程对于确保经销商能够获取最新的产品信息、销售策略、市场活动资料等至关重要。 想要管理众多经销商合作伙伴之间的文件传输并提高效率,可以采取以下措施: 1、建…