衡量标准是IT服务管理的核心,可提供有关运营的见解,并帮助确定需要持续改进的领域。通常的服务台指标有助于展示内部运营效率。例如,衡量在规定时间内解决问题的工单数量的 SLA 是展示服务台效率的关键因素。另一方面,故障指标可帮助团队找出 IT 基础设施中的薄弱环节,并帮助评估对故障事件的响应。这有助于 IT 团队最大限度地减少故障可能对关键系统造成的连带影响。
需要跟踪的关键失败指标是什么?在本文中,我们将看到探讨以下三个关键绩效指标:
1、平均无故障工作时间(MTBF)
当 IT 基础设施资产(无论是网络、服务器还是工作站等)频繁发生故障时,会对 IT 和业务服务的可用性产生连带影响。这些中断会导致收入和声誉的损失。如果某项 IT 资产经常出现故障,通常需要进行维修或更换。在此之前,调查并了解资产经常宕机的原因,以及是在什么情况下宕机,有助于制定资产维护计划,提高系统可用性。
平均无故障工作时间(MTBF)是帮助确定宕机原因的指标,有助于减少宕机时间或制定快速恢复计划,提高 IT 系统的可用性。如果某项 IT 资产的 MTBF 很低,就意味着该资产会经常停机,导致 IT 和业务中断。
MTBF 示例
在一家企业中,每当应用新的 Windows 固件更新时,存储驱动器的新更新总是失败。这种情况发生了几次,平均无故障工作时间变得越来越短。在对问题进行分析后,团队确定是第三方驱动程序导致执行更新所需的 API 无法实施或存在故障。当计划进行新的更新时,如果第三方驱动程序没有实施必要的 API,有两种可能的解决方案可供探索。比如将 API 与 SATA 和 NVMe 存储协议的 Windows 替代方案进行交换,或从原始设备制造商处获取新的、更好支持的驱动程序版本,都有助于实施更新、修复漏洞并堵塞安全漏洞。监控和跟踪驱动程序升级以及停机时间都有助于提高存储驱动器的可用性。
如何提高 MTBF
实施观察资产健康状况的流程,以跟踪和监控故障,有助于找出故障原因。
分析问题的根本原因,以提高认识、解决长期原因并提高资产性能。
制定快速反应战略,有效解决并减少影响运营的停机时间。目标是减少停机次数,延长停机时间。
2、平均失效前时间(MTTF)
资产经常出现故障会中断企业的 IT 运营,导致 IT 基础设施性能下降。MTTF 指标有助于确定资产、设备或组件的使用寿命。对于 MTTF 较低的 IT 资产和组件,通常更换 IT 组件比修复组件更省时,并能最大限度地降低运营影响和成本。
这尤其适用于与基础设施关键运行元素(如大型机服务器堆栈或网络接入点)相关联的 IT 组件。如果资产的 MTTF 不理想且经常出现故障,则表明 IT 资产不可靠,需要频繁更换,以免影响 IT 运营。
MTTF 示例
在一家 IT 软件开发公司,当数据和网络服务器堆栈中的交换机连接或断开电缆时,网络电缆就会松动、断开或损坏。由于数据传输中断,导致文件损坏。网络团队的进一步分析表明,CAT6 RJ45 跳线上的无卡塑料盖不断断裂。这是因为电缆是从使用廉价材料的制造商那里采购的。随后,IT 团队用质量更好的电缆替换了旧电缆,以确保今后移动电缆时不会出现数据丢失或损坏等问题。这是一个典型的例子,但定期跟踪电缆的 MTTF 有助于 IT 团队了解关键资产(如组件)的影响,从而就维修和更换做出明智的决策。
如何提高 MTTF
通过采购高质量的资产和停用低质量、低成本的资产来延长资产的使用寿命。
通过定期检查与关键资产相关的组件,防止大规模中断业务运营。
实施及时库存流程,估算资产的运行时间,从而降低资产存储的间接成本。
3、平均修复时间 (MTTR)
当关键 IT 系统发生故障时,IT 团队必须尽快恢复系统运行。延迟恢复 IT 系统会导致收入损失并影响关键业务运营。一个组织良好的恢复和响应系统可以帮助 IT 团队应对计划外停机,并有效地恢复运行。MTTR 衡量的是修复资产或排除故障并使其恢复运行能力所需的平均时间。
停机成本随着 MTTR 的增加而增加。MTTR 高说明恢复和响应操作不够迅速有效。系统故障是不可避免的,但 MTTR 能让团队对资产故障做出及时和战略性的反应。
MTTR 示例
一家软件公司正在开发的一款视频游戏因代码漏洞而遭到零时差攻击。这次攻击破坏了 Wi-Fi 和监控系统等操作。这导致攻击者访问了组织的网络域和机密业务文件。网络安全团队告知员工有关零日攻击的信息,以及他们可以在哪里报告这些攻击。该组织的所有 IT 资产都配备了下一代杀毒软件 (NGAV)。这次攻击导致局域网和员工自助服务门户瘫痪,使组织的运营陷入瘫痪。在攻击发生后一小时内,网络安全团队得到了 NGAV 的通知和帮助,NGAV 利用威胁分析和用户行为模式,识别出了可疑活动。网络安全团队立即运行补丁管理脚本,修正了代码中的漏洞,并锁定了内部网络,以避免进一步影响运营和数据窃取。
如何降低 MTTR
通过识别瓶颈、指定资产维修或更换,实行高效的资产管理战略,有助于推动更好的决策,还能够可以节省资金和存储空间。
明确技术人员的责任和角色,简化事故检测和解决流程。
为技术人员提供详细的标准操作程序,以减少停机期间的误传和混乱。
使用集中管理资产维护和监控信息的企业资产管理解决方案来衡量 MTTR。这还有助于优化资产利用率、收集资产数据和预测可能的停机时间。
结语
这些指标可帮助团队识别运营中的瓶颈及其对事件的响应能力,它们通过准确定位持续性事件的根本原因,帮助 IT 团队实现更高的运营效率。IT 团队可以清楚地了解 IT 运营受到影响的领域,从而改进其事件响应策略。企业可以将这些指标作为关键绩效指标而不仅仅是绩效目标来实施。这些指标指出了流程简化和运营改进的领域,而不仅仅是要达到的目标。