可用性监控 - 故障排除

OpManager 中的可用性监控可让你持续监控网络设备、服务器、application和服务的可用性。通过监控诸如运行时间、响应时间和中断时长等关键指标,OpManager 帮助 IT 团队在整个网络基础架构中保持高可用性和高可靠性。借助主动告警和实时监控功能,OpManager 能确保潜在问题得到迅速处理,最大限度减小对业务运行的影响,并维持最佳性能水平。

本帮助文档介绍如何排查在可用性监控中遇到的错误。

  1. 错误:无法联系 IP 驱动程序。常规故障(Unable to contact IP driver. General failure)
  2. 错误:设备可用性报表中的可用性值不匹配
  3. 错误:设备实际可用,但在 OpManager 中状态显示为宕机

1. 错误:无法联系 IP 驱动程序。常规故障(Unable to contact IP driver. General failure)

OpManager 服务器在周期性可用性状态轮询过程中无法联系被监控设备时,会生成此告警信息。此错误通常出现在虚拟机环境中:虚拟设备运行的是某个 Windows 操作系统,并且由于以下任一原因无法访问外部网络。

错误:Hyper V — WinSock 问题

原因:

当你的虚拟机中 WinSock 和 WinSock2 设置可能已损坏时,会出现该错误。

解决方案:

你可以尝试定位到以下注册表路径:

  • HKLM\SYSTEM\CurrentControlSet\Services\WinSock
  • HKLM\SYSTEM\CurrentControlSet\Services\WinSock2
  • 备份上述注册表。
  • 前往另一台(运行相同操作系统配置的)服务器,进入上述注册表路径,导出注册表并复制到当前服务器。
  • 双击 reg 文件进行注册,然后重启系统以查看效果。

来源

错误:VM 安全标识符(SID)重复问题

原因:

当 Windows 2008 或 Windows 2012 虚拟机是通过模板或克隆虚拟机部署,并且在部署虚拟机时未选择来宾自定义选项时,会因 Windows 安全标识符(SID)重复而导致该问题。

解决方案:

要解决此问题,你需要运行 sysprep 工具,为虚拟机生成新的安全标识符。具体步骤如下:

  1. 打开受影响 Windows 虚拟机的控制台。
  2. 以提升模式打开命令提示符。右键单击 Windows 命令处理器的快捷方式,然后选择 以管理员身份运行
  3. 将路径切换到 C:\Windows\System32\sysprep。
  4. 运行 sysprep 命令。
  5. 当 sysprep 向导出现时,勾选“generalize(通用化)”复选框,其余设置保持默认值。
  6. 重启虚拟机以应用更改。

来源

错误:TCP/IP 问题

原因:

当你无法 ping 回环地址/本地环境时,很可能是你的 TCP/IP 协议栈已损坏。

解决方案:

关闭用户帐户控制(UAC),并使用域管理员帐户登录。按照以下步骤将 TCP/IP 重置为初始状态:

  1. 在“开始”屏幕中键入 CMD。在搜索结果中右键单击“命令提示符”,然后选择“以管理员身份运行”。
  2. 在命令提示符下输入以下命令并按 Enter。

netsh int ip reset resetlog.txt

  1. 重启计算机。

运行重置命令时,会覆盖以下 TCP/IP 使用的注册表项:

  • SYSTEM\CurrentControlSet\Services\Tcpip\Parameters
  • SYSTEM\CurrentControlSet\Services\DHCP\Parameters

来源

2. 错误:设备可用性报表中的可用性值不匹配

即使可用性为 100%,“设备可用性”报表中的“运行时间(Uptime)”列仍显示不正确的值。

原因:

报表中的可用性数据是根据生成报表时指定的时间范围,从按小时或按天的归档表中获取的。默认情况下,时间范围为“最近 24 小时”。而在设备快照页面,可用性数据则是从原始表中获取的。如果生成报表中“运行时间”列的值不匹配,其根本原因可能是相应归档表在该时间段内缺少记录。
例如,如果可用性监控间隔为 15 分钟,则原始表中每小时会有 4 条记录。这 4 个值会取平均值并写入小时表。在向小时表归档的过程中,如果 OpManager 服务处于停止状态,或者发生数据库断连(MSSQL 环境下),则小时表更新会失败,从而导致生成的报表中出现错误数据。

解决方案:

这是一个与环境相关的问题。请密切关注数据库的停机时间或 OpManager 服务器不可用的情况,以避免此类问题。如需进一步协助,请联系我们的支持团队:opmanager-support@manageengine.com。

3. 错误:设备实际可用,但在 OpManager 中状态显示为宕机

当被监控设备在网络中可达,但 OpManager 仍将其显示为宕机时,会出现此问题。请按照以下步骤验证轮询和状态同步条件:

  1. 确认监控间隔已到,或等待下一次轮询周期以更新状态。
  2. 当设置为使用 IP 地址进行轮询(Poll using IP Address)时,检查该设备的 IP 地址是否可从 OpManager 服务器访问。
  3. 当设置为使用 DNS 进行轮询(Poll using DNS)时,验证设备的 DNS 名称是否可从 OpManager 访问。
  4. 如果监控方式(Monitoring Via)选项为 ICMP,确保 IP 地址有效,并尝试在 OpManager 服务器上手动 ping 该设备。
  5. 如果监控方式选项为 TCP,确保配置的 TCP 端口已开启并可从 OpManager 服务器访问。
  6. 如果监控方式选项为 SNMP,确认已为设备关联有效的 SNMP 凭据。如有需要,请尝试增加 SNMP 超时值。
  7. 如果已配置高可用性(HA),请验证设备是否可从故障切换服务器访问。
  8. 在企业版(Enterprise Edition)中,检查设备状态在中央(Central)和探针(Probe)服务器中是否一致。如果探针上显示的状态正确,则会在下一个轮询或定期同步操作中同步到中央服务器。
  9. 检查 OpManager 中是否产生了网络连接丢失告警,以指示由于网络延迟或断线导致服务器从网络中分离。

感谢您的反馈!

此内容对您有帮助吗?

很抱歉给您带来不便。请帮助我们改进此页面。

我们该如何改进此页面?
您是否需要有关此主题的协助?
点击“提交”,即表示您同意根据隐私政策处理个人数据。