什么是故障管理
故障管理是网络管理的组成部分,涉及检测、隔离和解决问题。如果实施得当,网络故障管理可以使连接、应用程序和服务保持在最佳水平,提供容错能力并最大限度地减少停机时间。专门为此目的设计的平台或工具称为故障管理系统。
另一方面,只有在停电发生后才发现故障并将其告知现场团队是没有用的。当网络管理员努力定位、分析和解决问题时,可能会出现明确的生产力损失和操作故障。理想的故障管理系统应该能够在潜在的中断发生之前检测到它,并在它影响最终用户之前采取预防措施。它甚至可以自动执行 L1 和 L2 故障排除任务,使网络管理员能够专注于其他关键任务。
故障在任何网络中都是不可避免的,如果没有实施适当的机制来处理它们,它可能会意外造成严重的中断。这就是为什么 IT 管理团队依赖于具有故障解决功能的监视工具的原因。
功能强大的网络故障管理工具在以下方面有所帮助:
- 它使您能够分析网络性能趋势并接收警报以主动解决问题。
- 它使管理员能精确定位网络瓶颈。
- 加快故障解决过程,并最大限度地缩短平均修复时间(MTTR)。
- 通过电子邮件/短信发送有关网络故障的即时通知。
网络故障管理工具
OpManager是一个强大的网络故障监控解决方案,其强大的故障整改功能有助于保持理想的网络性能。
通过在OpManager 中配置网络发现配置文件,管理员可以一次性将设备添加到网络中并批准它们。设备列表将在清单页面上提供,此外,可以向下钻取以从快照页面获得更深入的见解(导航到清单 -> 设备,然后单击设备以查看其快照页面)。
为了确保网络正常运行时间,OpManager会ping设备的可用性(轮询间隔可由用户定义),并在设备在ping后无法响应时发出警报以通知网络管理员。当设备在多次 ping 后仍无法响应时,警报的严重性会上升。有 4 个基于严重性的阈值级别:注意、困难、严重和重置
此外,对于与设备关联的每个监视器(例如:CPU 利用率),您可以配置阈值级别。因此,每当该值超过给定的阈值水平时,都会发出警报。例如,当设备违反注意力阈值级别时,将发出具有注意力严重性的警报,管理员可以在它达到下一个严重性级别之前采取纠正措施。
这使管理员能够在问题成为潜在威胁之前主动修复问题。针对阈值违规引发的警报可用于:
- 配置通知配置文件以获取即时通知
- 配置告警升级规则,升级无人值守告警
- 设计并执行工作流以自动纠正问题
警报通知
配置通知配置文件是处理引发的警报的一种方式。您可以根据自己的喜好配置为接收选择性警报的详细信息。虽然它主要用于通过短信或电子邮件向 IT 管理员/管理团队发送警报的详细信息,但它也可用于运行程序/记录工单和执行其他操作。
OpManager的移动平台适用于Android和iOS用户,使您能够在手机上监控整个IT基础设施。该应用程序允许您在设备关闭和其他性能下降问题时获得即时推送通知。您还可以配置自定义推送通知以获取关键服务器的状态,这样您就不会在远程时错过任何网络更新。
告警升级
UI 上的“警报”选项卡提供了警报的完整列表,您可以向下钻取以了解有关每个警报的更多详细信息。每个警报都有一组关联的操作:确认、取消确认、删除和清除。
有时,当警报长时间无人看管时,可以通过警报升级规则进行升级,您可以在其中配置升级警报的条件。这可确保由于人为错误而无人看管的严重违规行为不会影响您的网络性能。
报警抑制
有时,当某些设备处于维护状态时,可能会考虑到这些设备不可用而发出警报。为避免这种情况,您可以配置警报抑制规则,从而防止在定义的时间段内引发警报。
自动修复网络故障
OpManager的故障管理系统以自动化的分步方式执行故障修复过程,如下所示:
- 故障检测:系统发现服务交付已中断或性能下降。
- 故障诊断与隔离:确定故障的根源(例如组件故障或断电)及其在网络拓扑中的位置。
- 事件关联和聚合:单个故障可能导致多个告警,故障管理系统通常会为管理员对相关事件进行分组并提供根本原因分析。
- 恢复服务:网络管理系统会自动执行任何预配置的脚本或程序,以尽快启动并运行服务。
- 问题解决:纠正、修理或更换故障源。根据病因,可能需要人工干预。
- IT 工作流自动化:OpManager中的工作流大大缩短了平均修复时间,并加快了故障解决速度。工作流无需代码,易于实施,可自动执行某些日常操作,您可以简单地设计一个工作流,以便在故障识别或阈值违规或任何其他重复性任务后执行纠正措施。