OpManager 中的可用性监控可让你持续监控网络设备、服务器、application和服务的可用性。通过监控诸如运行时间、响应时间和中断时长等关键指标,OpManager 帮助 IT 团队在整个网络基础架构中保持高可用性和高可靠性。借助主动告警和实时监控功能,OpManager 能确保潜在问题得到迅速处理,最大限度减小对业务运行的影响,并维持最佳性能水平。
本帮助文档介绍如何排查在可用性监控中遇到的错误。
当 OpManager 服务器在周期性可用性状态轮询过程中无法联系被监控设备时,会生成此告警信息。此错误通常出现在虚拟机环境中:虚拟设备运行的是某个 Windows 操作系统,并且由于以下任一原因无法访问外部网络。
当你的虚拟机中 WinSock 和 WinSock2 设置可能已损坏时,会出现该错误。
你可以尝试定位到以下注册表路径:
当 Windows 2008 或 Windows 2012 虚拟机是通过模板或克隆虚拟机部署,并且在部署虚拟机时未选择来宾自定义选项时,会因 Windows 安全标识符(SID)重复而导致该问题。
要解决此问题,你需要运行 sysprep 工具,为虚拟机生成新的安全标识符。具体步骤如下:
当你无法 ping 回环地址/本地环境时,很可能是你的 TCP/IP 协议栈已损坏。
关闭用户帐户控制(UAC),并使用域管理员帐户登录。按照以下步骤将 TCP/IP 重置为初始状态:
netsh int ip reset resetlog.txt
运行重置命令时,会覆盖以下 TCP/IP 使用的注册表项:
即使可用性为 100%,“设备可用性”报表中的“运行时间(Uptime)”列仍显示不正确的值。
报表中的可用性数据是根据生成报表时指定的时间范围,从按小时或按天的归档表中获取的。默认情况下,时间范围为“最近 24 小时”。而在设备快照页面,可用性数据则是从原始表中获取的。如果生成报表中“运行时间”列的值不匹配,其根本原因可能是相应归档表在该时间段内缺少记录。
例如,如果可用性监控间隔为 15 分钟,则原始表中每小时会有 4 条记录。这 4 个值会取平均值并写入小时表。在向小时表归档的过程中,如果 OpManager 服务处于停止状态,或者发生数据库断连(MSSQL 环境下),则小时表更新会失败,从而导致生成的报表中出现错误数据。
这是一个与环境相关的问题。请密切关注数据库的停机时间或 OpManager 服务器不可用的情况,以避免此类问题。如需进一步协助,请联系我们的支持团队:opmanager-support@manageengine.com。
当被监控设备在网络中可达,但 OpManager 仍将其显示为宕机时,会出现此问题。请按照以下步骤验证轮询和状态同步条件:
感谢您的反馈!