手动梳理大量告警和事件以获取任何潜在性能瓶颈的上下文信息非常繁琐。这就是为什么减少与告警相关的噪声成为优先事项。
例如,假设您的数据中心中有10个UPS系统。如果10个系统中有7个出现故障,您需要接收一级告警;如果5个系统故障,则为二级告警;3个系统故障时为三级告警。您无需为不同优先级的每个设备配置多个监控器,只需配置一个告警关联规则并应用于所有设备。这不仅确保了网络级依赖,还确保了业务级依赖。
网络管理员不能只单独监控各项指标,而需要将多台设备的多个指标上下文地结合起来,才能全面了解情况。上下文相关告警及主动监控满足预定义条件的基础设施,将帮助您优先处理告警,尽早修复问题。
此外,单一系统可由多个团队监控多个优先级。因此,您无需为同一个设备配置不同优先级的多个监控器,只需配置一条关联规则并添加到相应设备即可。
这就是 ManageEngine OpManager 的告警关联规则发挥作用的地方。通过 OpManager 的告警关联规则,用户可以配置不同监控器之间的预定义关联条件,从而可针对特定场景配置告警,而不是为每个监控器单独设置阈值。
鉴于企业网络中的设备和接口数量众多,找到有意义的告警模式以采取行动着实不易。再加上复杂的拓扑结构和异构环境,您会发现很难跟上进度。因此,单独跟踪和修复每个告警并非可扩展方案。
此外,作为 IT 管理员,您需处理来自不同来源、性质(手动或自动)及速度的告警。通过自动化阈值配置流程,并利用告警关联规则减少初期学习曲线中的告警噪声,您能确保数据模型通过清晰的历史数据和使用模式得到正确训练,同时有效管理告警级联。这样,您就可以正确捕捉、跟踪和分析告警,排查潜在瓶颈,确保基础设施的正常运行和最佳性能。
通过配置告警关联规则并关联通知配置文件,您可以将 OpManager 的告警自动转发至相应的第三方工具,帮助您尽快跟踪和解决问题。您可以利用多种渠道,如邮件、短信或工单系统,转发告警。这也有助于您合理优先处理问题并快速修复故障,从而优化 平均修复时间(MTTR),进一步实现网络管理,减少故障和中断的发生。
在 IT 运营管理中,上下文信息对于做出明智决策至关重要。使用 OpManager 的告警关联规则,您可以预定义查找有意义上下文信息的条件,当满足配置条件时,OpManager 会发送告警,帮助您快速轻松地修复问题。
例如,假设您是电商公司的 IT 管理员,一个托管您网站的虚拟机服务器 CPU 利用率高。虽可能因使用增加导致,但通过关联处理监控器、事件日志监控器和虚拟机资源分配等其他指标,您可能会发现该高利用率是由某个资源密集型进程引起。
该进程似乎仅在最近推出的软件更新后出现。此外,事件日志监控器显示 CPU 峰值与软件更新时间高度吻合。通过关联可用上下文信息,您可得出结论:该更新并未针对虚拟环境进行优化。
告警捕获后,您还可以选择自动化初步修复过程。使用 OpManager 的工作流功能,可自动执行初步操作,如重启服务器、确认告警或执行脚本等。通过自动化这些操作,您可以加快故障修复过程,使服务迅速恢复运行。这不仅提升了网络正常运行时间,也简化了运维流程。
了解如何在 OpManager 中配置告警关联规则。若需由专家协助的产品技术演示, 请填写此表格.
了解更多 关于 OpManager。