网络故障排除,解决网络问题

计算机网络构成了数字业务的基础,为了确保业务连续性,需要全天候监控和管理这些网络背后的 IT 基础设施。IT 管理员在管理 IT 基础设施时经常遇到问题,而IT 基础设施是他们工作的关键部分,更重要的部分是解决网络问题。

什么是网络故障排除?

网络故障排除是识别、分析和解决网络问题的系统过程,换句话说,排查网络问题是指纠正与网络的连接性、安全性、性能和其他方面相关的问题。网络故障排除对于减少 MTTR、恢复网络正常运行时间和规范网络操作至关重要。

网络问题的类型

  • 硬件问题
  • 软件问题
  • 带宽问题
  • DNS 问题
  • 配置问题
  • 防火墙和 IP 管理问题

硬件问题

  • 性能问题:硬件不可用和性能问题是主要的网络问题,通常是由于设备配置错误和硬件负载造成的。常见的硬件问题包括温度突然飙升、通风不当、电压/电源波动、处理器速度异常、电池不足等,这些硬件问题会对网络正常运行产生不利影响,导致不可预见的停机或网络中断,因此硬件监控至关重要。
  • 物理连接问题:主要网络问题之一可能是由于电缆或连接器有缺陷而导致的物理连接不良。当网络电缆断裂、电缆松动或意外断开连接并在它们所连接的设备上造成网络问题时,就会发生这种情况。

软件问题

服务不可用、进程不可用、操作系统问题和服务响应时间缓慢等软件问题可能会损害服务器的可用性和运行状况,进而影响关键应用程序的正常运行时间和性能。这会影响最终用户体验,从而使企业失去声誉,就需要不时监控应用程序和服务并防止软件问题。

带宽问题

带宽是一个重要的指标,它定义了网络在给定时间内在设备或互联网之间传输数据的能力,更高的带宽意味着更快的数据通过网络传输,使许多设备同时连接在一起。当运行大型应用程序时,会导致网络拥塞,从而造成其他网络设备带宽不足的风险,这反过来又导致互联网上的下载速度变慢。

高带宽需求的主要原因包括WAN 链接不稳定、抖动导致的 VoIP 通话不佳、延迟和丢包、下载量较大、文件共享等。

DNS 问题

DNS问题是网络管理员有时容易忽略的网络问题,但也是非常常见的问题,当无法访问互联网或连接到IP地址时,就会出现DNS问题。几个小时的离线时间可能会对最终用户产生负面影响。这就是为什么尽早使用网络管理软件识别和修复DNS问题非常重要。DNS问题也可能是由于DNS 配置不佳,高DNS延迟,高TTL值,硬件或网络故障等造成的。

配置问题

无论何时配置或重新配置设备,连接到VLAN或VPN网络,或升级网络上的硬件,都需要确保设备配置正确,以确保网络正常运行。许多网络问题是由于设备配置错误造成的,这些错误会对网络的不同部分产生影响,并产生重大问题。为了防止此类问题,可以使用网络监控应用程序来监控和管理设备配置。

防火墙和 IP 管理问题

  • 防火墙管理:企业的网络中有多个防火墙,每个防火墙都有独特的配置和规则。管理员需要管理这些规则不重叠,并确保规则是最新的,如果不这样做,网络会容易受到威胁,而防火墙监控对这些威胁至关重要。
  • IP 管理:在网络中,没有两台设备可以共享相同的 IP 地址,发生这种情况时,两个系统都无法连接到网络。检测和管理此类恶意 IP 对于网络以最佳方式运行非常重要。

如何解决网络问题?

IT管理员需要准备好处理网络问题并缩短平均修复时间(MTTR),为了实现较低的MTTR,管理员应该清楚地了解网络问题。以下方法可以帮助管理员更好地了解潜在的网络问题和解决方案,防止网络故障问题。

  • 步骤1:确定网络问题。
  • 步骤2:收集信息并跟踪根本原因。
  • 步骤3:排查问题。
  • 步骤4:记录问题、过程和网络故障排除解决方案。

通过以上过程,管理员可以清楚地了解网络问题,并指导其他网络技术人员了解可能存在的网络陷阱和必要的故障排除步骤。然而,真正的挑战是在最终用户受到影响之前识别并解决网络问题。

OpManager:更快地诊断和解决网络问题

ManageEngine OpManager网络监控和网络故障排除软件,可以帮助管理员诊断交换机、路由器、服务器和存储设备中的网络问题,以了解可用性、运行状况和性能。OpManager还监控响应时间、服务、进程和其他硬件指标,以及数据包丢失监控。通过提供对网络的实时洞察,OpManager可在最终用户受到影响之前识别和解决网络问题。

如何使用OpManager解决网络问题?

快速识别网络问题对于防止重大停机至关重要。OpManager可以有效地识别和解决各种设备中的网络问题,包括应用服务器、路由器、交换机、WLAN控制器等。例如,当OpManager提醒您应用服务器的CPU利用率时,您可以:

  • 立即定位应用服务器。
  • 分析CPU利用率峰值。
  • 跟踪导致CPU利用率峰值的进程。
  • 远程终止进程。

OpManager使管理员能够通过其全面的功能集(包括根本原因分析、网络路径分析、自适应阈值、网络拓扑图)快速识别网络问题,并通过工作流和网络工具集(如ping、MIB浏览器、陷阱查看器等)解决网络问题,从而实现主动故障管理。

根本原因分析

分析问题的根本原因是排查网络问题的第一步。OpManager的根本原因分析使网络管理员能够建立RCA配置文件,促进在统一控制台中聚合和关联来自网络设备的性能指标和其他关键监视器。OpManager的RCA通过提供图形可视化来突出显示网络设备的各种监视器上的告警峰值,从而进一步增强了这一过程。此外,通过创建与警报数据集成的RCA配置文件,使网络管理员能够及时解决问题,从而在超出阈值时立即进行故障排除。

网络路径分析

OpManager的网络路径分析工具有助于可视化和监控网络路径性能,提供流量模式可视化和逐跳分析等功能。通过利用TCP请求,OpManager可以识别关键路径,跟踪数据包传输时间并预测潜在的中断。凭借全面的可见性、历史数据分析和可自定义的警报,它可确保不间断的网络连接。

自适应阈值

OpManager的自适应阈值通过动态调整网络设备性能变化来简化阈值设置。使用预测算法和机器学习,可以预测跨网络设备设置阈值,无需手动分析。该方法需要最少的设置工作,并通过适应性能指标的周期性趋势来确保有效的监控,从而实现有效的故障管理和故障排除。

网络问题的常见原因及如何使用OpManager修复它们

网络管理员通常需要解决以下网络问题:

  • 网速慢
  • WAN 和 VoIP 性能不佳
  • 应用程序响应时间慢
  • CPU 利用率高
  • Wi-Fi 问题

以下是出现这些网络问题的根本原因及其解决方法。

内部网络速度慢

  • 阻塞请求:同时请求数量多会导致网速变慢,这可以通过增加网络带宽来解决,通常是通过与你的ISP重新协商。
  • 多媒体流:长时间流式传输或下载大型文件会导致网络速度变慢,从而影响其他业务功能。管理员可以在防火墙后屏蔽流媒体网站,除了屏蔽这些网站,还可以通过OpManager来识别流量最高程序。
  • 过时的硬件:过时的硬件严重影响网络速度。使用OpManager,可以持续监控硬件设备,并识别长时间高CPU和RAM利用率的硬件,并对出现的硬件问题进行故障排除。借助资源利用率数据,管理员可以在权衡当前和未来的需求后决定购买或升级硬件。
  • 交换环路:当网络中的两台交换机之间存在多个连接,或者同一台交换机的两个端口相互连接时,就会出现交换环路,这使得网络充斥着广播,并增加了到达目的地所需的时间。使用OpManager,管理员可以监控单个交换机端口,主动检测广播风暴,并更快地排除环路问题。

WAN 和 VoIP 性能不佳

  • 延迟:延迟是请求与其相应响应之间的时间。当延迟较高时,请求的响应时间会增加,最终用户体验会受到很大影响。OpManager的WAN RTT监视器可以配置往返时间的阈值,并在超出阈值时立即通知管理员。
  • 抖动和丢包:抖动是数据包传输不对称的结果,它使音频和视频通话变得不稳定,网络中的数据包丢失通常是由于网络拥塞造成的。1%-2.5%的数据包丢失是可以接受的。使用OpManager,管理员可以设置阈值以接收有关抖动和数据包丢失问题的实时告警并对其进行故障排除。
  • 平均意见评分(MOS):MOS是对通话质量的集体度量。它是根据延迟、抖动和数据包丢失等参数计算的。评分范围从1(差)到5(优)。使用OpManager,可以为MOS设置下限,并在通话质量超过设置的限制时收到告警。这有助于管理员立即查看网络拥塞、排查问题并提高通话质量。

应用程序或服务器响应时间较慢

缓慢的网络速度和较差的 WAN 性能主要影响内部团队,但应用程序或应用程序服务器响应时间缓慢的影响可能是灾难性的,响应时间慢会影响收入和组织声誉。响应时间慢的常见原因有:

  • 服务器负载增加:应用程序服务器负载增加可能导致CPU和RAM利用率过高,使服务器无法处理所有传入请求,响应时间会增加,从而影响客户。使用OpManager,管理员可以设置阈值以获得服务器性能问题的即时警报并对其进行故障排除。
  • 服务:某些应用程序或应用服务器需要在后台运行某些服务才能成功处理请求,当这些服务不再可用时,应用程序可能无法响应请求。使用OpManager,管理员可以监控对托管应用程序重要的服务,并在任何服务不可用时收到实时告警,以启动更快的故障排除。
  • 服务器进程:应用服务器上运行的某些进程可能会占用较多的RAM和CPU,导致响应时间较慢。此外,进程可能正在侦听应用程序需要的重要端口,这将阻止应用程序侦听关键端口,从而导致响应时间变慢和应用程序故障。这个网络问题可以通过OpManager主动监控服务器进程来解决,除了监控之外,还可以使用OpManager远程停止任何服务器上的进程。

CPU 利用率高

高CPU利用率是网络可用性的关键因素。当设备运行高端应用程序并需要更多资源来执行时,CPU 利用率有可能达到峰值以支持执行。在这种情况下,如此高的CPU利用率将增加网络流量,使服务器过载,并最终导致用户界面中断。

当这种情况经常发生时,CPU性能将受到影响,因为CPU的处理速度往往会耗尽,并且很少有传入请求会被丢弃。换句话说,CPU 使用率高的常见原因是网络流量增加,导致 CPU 和服务器过载。

使用OpManager的CPU使用率监视器,可以监控CPU使用率并设置阈值,以便在异常的CPU使用率限制或处理器时间达到其水平时提醒管理员。这些告警可以通过多个通知渠道发送,例如短信、电子邮件、Slack和Web警报,管理员可以使用这些渠道尽早解决 CPU 利用率问题。

Wi-Fi 问题

Wi-Fi网络的核心部分,可能会因干扰而中断网络运行,在网络中,来自其他无线设备(如蓝牙设备、无线电话等)的信号也会干扰WiFi信号,给用户带来较差的Wi-Fi体验。常见的Wi-Fi问题包括信号强度低,互联网连接缓慢,文件传输缓慢,间歇性Wi-Fi断开等,当此类事件发生时,网络管理员需要确定问题的原因并迅速修复。Wi-Fi网络测试工具可以帮助确定干扰的根本原因。

OpManager的Wi-Fi监视器使管理员能够跟踪Wi-Fi环境的关键性能指标,包括信号强度、资源利用率、网络流量、可用性和客户端数量。这可以帮助管理员更快地诊断和排除 Wi-Fi 问题,从而保持 Wi-Fi 网络及其组件的运行状况和可用性。

OpManager中的网络故障排除工具包

OpManager还提供用于解决网络问题的内置工具,这些网络故障排除工具包括简单的基于命令行的故障排除实用程序,可以采用系统、有效的方法进行网络故障排除。这些网络故障排除工具有:

  • Ping
  • 路由跟踪
  • SNMP Ping
  • DNS 解析器
  • DHCP作用域监视器
  • WMI 查询工具
  • CLI 查询工具
  • SNMP 工具
  • Cisco 工具

无论是应用程序服务器问题还是网络故障问题,OpManager都能满足您的需求。下载试用30天,并能申请在线演示进行技术指导。