在 OpManager 中配置故障切换
故障切换是一种备用监控实例,用于确保即使主监控环境宕机,您的网络仍能持续被监控。OpManager 通过允许您在单独的Server上配置一个次要监控实例,帮助确保您的网络监控不中断。
主Server会在数据库中更新一个称为心跳的数值。心跳值是一个计数器,由主Server按特定时间频率递增。次Server监视该心跳值,以检查其是否在指定的时间间隔内被更新。当主Server宕机时,将无法在数据库中更新心跳值。如果数据库中的心跳值在过去 60 秒内没有被更新,则认为主Server已经宕机,此时次监控实例将接管。该次Server将在其保持正常运行的情况下持续监控网络。与此同时,如果主Server恢复并重新启动,它将进入待机模式,并让次Server继续监控。
主、次实例之间的信息会定期同步,从而确保当主 OpManager 实例宕机时,您不会错过关键监控数据(例如设备状态、Trap、Syslog 消息等)。

- 应用故障切换附加组件:在主实例中应用 Failover - Hot Standby Engine 附加组件。您可以在 此处购买专业版的附加组件,在 此处购买 OpManager Plus 的附加组件。(注意:故障切换支持 MSSQL 和远程 PGSQL 部署。要为远程 PGSQL 部署配置故障切换,请点击这里。)
- 将数据库放在单独的Server上:确保您的 OpManager 安装所使用的数据库部署在单独的Server上,而不是与主或次 OpManager 实例位于同一Server上(适用于 MSSQL 或远程 PGSQL 部署)。
- 在单独的Server上创建共享文件夹:OpManager 中有一些数据存储在本地目录中的文件里。当配置了故障切换后,这些文件将不再保存在本地目录,而是保存在一个由主、次Server都可访问的共享文件夹中。这样可以确保当次Server接管监控过程时,不会发生数据丢失。
在单独的Server上创建一个文件夹,并将其共享给主、次Server。确保主、次Server都拥有对此共享文件夹的写权限。
(注意:创建该文件夹的Server应与主、次Server处于同一域中。同时,该Server不得与主或次实例所在的Server相同)。了解如何在 Windows 和 Linux 中将文件夹共享给主、次实例。 - 选择连接类型: 连接类型指的是用户在网络环境中与Server建立通信的方式。根据在灵活性、冗余度或特定配置方面的需求,用户可以在三种连接类型之间进行选择。更多信息请点击这里。
- 硬件和软件要求
- 两台Server上安装的 OpManager 版本必须相同。
- 主、次 OpManager 服务应使用相同的端口和协议(http / https)。
- 主、次Server应具有相同的时间和时区设置。
- 主、次Server应具有相同的硬件配置。
- 网络要求
- 主、次Server都应使用静态 IP 地址。
- 主Server和次Server应能够解析彼此的主机名和 IP 地址。
- 两台Server都应具有高带宽和稳定的连接。
- 主、次以及创建共享文件夹的Server都应处于同一域中。
- Syslog、SNMP Trap 和流量(Flows)应转发到虚拟 IP 地址。
在主实例中,依次进入 Settings -> General Settings -> Failover Details,并填写以下信息:
- 连接类型:用户可以灵活选择不同的连接类型:虚拟 IP、虚拟主机名或无。主、次Server既可以位于同一子网,也可以位于不同子网。
- 虚拟 IP:虚拟 IP(VIP)地址是在同一子网上由主、次Server共享的 IP 地址。当其中一台Server宕机时,另一台Server会接管该 VIP,并响应发往该 VIP 的请求。VIP 和两台Server必须处于同一子网中。

保存这些信息后,在主、次Server上分别执行以下步骤:
在 Windows 中:
在主Server上:
- 停止 OpManager 服务。
- 将 <OpManagerHome> 文件夹共享给次Server。了解方法。
- 以管理员权限打开命令提示符/终端,进入 <OpManagerHome>\bin 并执行以下命令:
Clone_primary_Server.bat - 启动 OpManager 服务。

在次Server上:
- 下载 Configure_failover_Server.bat 文件,并将其移动到您希望配置次实例的文件夹中(例如:C:\Program Files\ManageEngine)。
- 以管理员身份打开命令提示符,进入该 <Location> 并执行 Configure_Failover_Server.bat。
- 将 <OpManagerHome> 文件夹共享给主Server。了解如何操作。
- 启动次 OpManager 实例。
在 Linux 中(自 12.8.401 版本起):
在主Server上:
- 停止 OpManager 服务。
- 配置到次Server的 SSH 认证。了解方法。
- 在命令行或终端中,进入 <OpManagerHome>\bin 并执行以下命令:
Clone_primary_Server.sh - 启动 OpManager 服务。

在次Server上:
- 下载 Configure_failover_Server.sh 文件,将其移动到目标文件夹,并通过命令行执行。
- 配置到主Server和共享文件夹Server的 SSH 认证。了解更多。
- 启动次 OpManager 服务。
注意:
- 自 12.5.140 及以上版本起,提供配置虚拟 IP的选项;自 12.8.401 版本起,引入了配置虚拟主机名和“无”的选项。
- 自 12.8.401 版本起,用户可以在 Linux 版 OpManager 中配置故障切换。
- OpManager 不提供任何数据库层面的故障切换支持,仅提供application层面的故障切换支持。
- 务必在主实例完全启动后再启动次实例。
- 次Server完全接管主服务器大约需要 3—4 分钟。在此期间接收的部分 SNMP Trap、Syslog 或流量数据可能会有少量丢失。
- 如果配置了虚拟 IP 地址,则 Syslog、SNMP Trap 和 Flow 应转发到该虚拟 IP 地址。
升级故障切换部署:
在升级 OpManager 服务时,只需在主部署上应用 PPM,次Server会自动更新。有关故障切换Server升级前提条件的更多信息,请了解更多。
在基于虚拟 IP 的故障切换中,主、次部署的配置文件会定期同步。从版本 127189 起,将支持主、次Server之间的加密文件传输。请联系技术支持团队以启用该功能。
注意:加密文件传输仅在 Windows 上受到支持,且要求使用 Windows Server 2012、Windows 8 及更高版本。请确保主、次以及共享文件夹路径所在的Server均支持加密文件传输。
要为企业版配置故障切换,请按照上述步骤进行操作。请注意,这些配置步骤必须在中央Server和探针Server上都执行一次。