公司新闻

 

 

通过根本原因分析加强网络监控

 

如果您是企业的IT管理员,那么您一定很清楚健康网络的价值以及网络中断对您的业务造成的严重损害。但是网络问题是不可避免的,为满足不断变化的客户和内部使用需求对网络维护造成了沉重的负担。

这使网络容易受到常见问题的影响,例如计划外突然停机、高资源利用率和硬件故障。因此,关键在于如何降低问题的频率。


减少网络问题的两个重点领域



平均修复时间 (MTTR):它衡量修复故障并使网络恢复正常所需的平均时间。高 MTTR 值可能会在成本上造成巨大损失,因此,拥有一个有效、强大的网络故障管理系统至关重要。

根本原因分析:网络是一个由多种设备和接口组成的复杂系统,精确定位网络瓶颈的根因是网络管理员面临的巨大挑战。定位网络问题所花费的时间意味着您的网络的 MTTR 不断上升,这最终可能会影响您的业务。


OpManager中的根本原因分析



问题识别是尝试减轻 MTTR 时面临的最大挑战。保持较低的 MTTR 将保持客户对您业务的信任,并保护您的业务免于分崩离析。为了让您能够深入分析网络性能,我们在 OpManager 中引入了根本原因分析 (RCA) 功能。

使用 RCA,您可以在集中式控制台中全面了解所有设备、接口和 URL 的网络监控数据。通过对相关监控信息的完全可见性,分析性能和缩小根本原因所花费的时间显著减少,从而降低了整体 MTTR 值。


RCA重要功能




1.以图表的方式展现



只需拖放所选设备、接口或 URL 的性能指标,RCA 就会自动构建一个带有性能曲线的图表,每条曲线代表一个监视器。在一个视图中比较多个设备的单个指标或单个设备的多个指标的性能。

 


2.记录注释



找到根本原因是收集必要的监控数据,深入比较和分析,最后记录注释。使用注释选项,您可以记录您的发现并在找到根本原因后添加解决注释。当您想中途停止分析时,您可以记录您的注释并保存它们。

当您返回时,您可以从上次中断的地方继续。当多个团队成员合作寻找根本原因时,这也非常有帮助。例如,网络管理员可以执行 RCA 并记录他们的发现,然后,高级管理人员可以阅读注释说明并对网络中的配置更改做出数据驱动的决策。

 


3.为组执行RCA



此选项对于整体分析一组设备或接口的性能很有用。例如,当特定站点中的特定网络出现故障时,您可以选择网络(组),它会自动填充特定于该组的设备,您可以立即开始分析性能问题。


RCA如何简化网络监控?



如果没有 RCA,确定根本原因是非常繁杂。例如,假设当您网络中的核心路由器出现故障时会发出告警。您需要深入了解告警数据并访问设备的快照页面以了解有关该问题的更多信息。

当您只需要对一台设备执行根本原因分析时,此方法可能看起来很简单。但是,如果您网络中的多个设备出现故障并导致网络完全故障怎么办?

 

通过 RCA,您可以在一个集中模块中查看各种监视器的性能图表,并在单个窗格中比较所有监视器。借助屏幕上的全面信息,分析性能和定位问题的根本原因变得轻松自如。


应用实例



假设用户在访问您的应用时报告加载速度缓慢。要彻底解决问题,必须查明真正原因,然后采取纠正措施。

首先,您可以跟踪应用服务器的 CPU 和内存利用率,以了解加载速度缓慢是否是由于服务器过载所致。排除这种可能性将使您能够分析下一组可能的原因。

当您的应用程序服务器在您的文件系统所在的存储设备上等待时,也可能会出现加载速度缓慢的情况。您可以检查存储设备的 IOPS、延迟、吞吐量和利用率,以了解问题是否是由于存储设备性能不佳和过度使用造成的。

有时,由于连接服务器和存储环境的接口中的带宽问题,也可能会出现加载速度缓慢的情况。监控 接口流入和 接口流出 指标将帮助您定位瓶颈(如果有)。

因此,当您遇到如上所述的复杂场景时,您将需要比较多个网络组件的性能。RCA 提供了一个平台,可以在一个视图中收集所有数据,对其进行分析,排除各种可能性,并在更短的时间内缩小问题的确切根本原因。