在 OpManager 中配置故障切换
故障切换是一个备用监控实例,用于在主监控环境宕机时,确保您的网络依然处于被监控状态。OpManager 通过允许您在另一台单独的Server上配置次级监控实例,帮助确保网络监控不中断。
主Server会在数据库中更新一个称为心跳(heartbeat)的值。心跳值是一个计数器,会由主Server按特定时间频率递增。次Server监视该心跳值,以检查其是否在指定时间间隔内被更新。当主Server宕机时,将无法在数据库中更新心跳值。如果数据库中的心跳值在最近 60 秒内未更新,则认为主Server已经宕机,由次级监控实例接管。此次级Server将在其保持正常运行期间持续监控网络。同时,如果主Server恢复并重新启动,它将进入待机模式,并让次Server继续监控。
主实例和次实例之间的信息会定期同步,从而确保在主 OpManager 实例宕机时,您不会丢失关键的监控数据(如设备状态、Trap、Syslog 消息等)。

当在 OpManager 部署中配置了 SQL Always ON 以及故障转移后,数据库层同样会被纳入高可用性保护。如果 SQL 主服务器发生故障,OpManager 会在尝试重新连接数据库之前,先等待一个已配置的超时时长。该超时时长是在进行 SQL Always ON 配置时定义的。
在此等待期间,OpManager 会持续重试数据库连接,从而为 SQL Always ON 故障转移切换留出时间,在此过程中,辅助 SQL 服务器会被提升为新的主服务器。
- 如果 SQL 高可用切换在配置的超时时间内完成:OpManager 会自动重新连接到新的主 SQL 服务器,并在无需重启的情况下恢复正常运行。
- 如果 SQL 高可用切换未能在配置的超时时间内完成:OpManager 会触发重启并将用户重定向到维护页面。在 SQL 高可用切换完成、数据库连接恢复后,OpManager 会自动重新上线。
注意:请确保在配置 SQL Always ON 时设置的超时时间,能够涵盖您 SQL 环境中典型的故障转移切换时长,以避免不必要的application重启。配置详情请参考SQL Always ON 启用步骤。
- 应用故障切换附加组件:在主实例中应用 Failover - Hot Standby Engine 附加组件。您可以在 此处为专业版购买该附加组件,在 此处为 OpManager Plus 购买。(注意:故障切换在 MSSQL 和远程 PGSQL 部署中均受支持。要为远程 PGSQL 部署配置故障切换,请点击这里。)
- 将数据库部署在单独的Server上:确保您的 OpManager 安装所使用的数据库部署在单独的Server上,而不是与主或次 OpManager 实例同一台Server(MSSQL 或远程 PGSQL 部署)。
- 在单独的Server上创建共享文件夹:OpManager 中的一些数据存储在本地目录中的文件中。配置故障切换后,这些文件将不再存储在本地目录,而是存储在一个主、次Server均可访问的共享文件夹中。这样可以确保当次Server接管监控过程时不会发生数据丢失。
在单独的Server上创建一个文件夹,并将其共享给主、次Server。确保主、次Server都对共享文件夹具有写权限。
(注意:创建该文件夹的Server必须与您的主、次Server位于同一域中。此外,创建该文件夹的Server不能与主或次实例所在的Server相同)。了解如何在 Windows 和 Linux 中将文件夹共享给主、次实例。 - 选择连接类型: 连接类型是指用户在网络环境中与Server建立通信的方式。根据对灵活性、冗余或特定配置的需求不同,可以从三种连接类型中进行选择。更多信息请点击这里。
- 硬件和软件要求
- 两台Server中安装的 OpManager 版本必须相同。
- 主、次 OpManager 服务应使用相同的端口和协议(http / https)。
- 主、次Server的时间和时区必须相同。
- 主、次Server的硬件配置应保持一致。
- 网络要求
- 主、次Server必须拥有静态 IP 地址。
- 主、次Server应能够解析彼此的主机名和 IP 地址。
- 两台Server都应具备高带宽和高连通性。
- 主、次以及创建共享文件夹的Server必须位于同一域中。
- Syslog、SNMP Trap 和流量(Flows)应转发至虚拟 IP 地址。
在主实例中,进入 Settings -> General Settings -> Failover Details 并填写以下信息:
- 连接类型:用户可以灵活选择不同的连接类型:虚拟 IP、虚拟主机名或无。主、次Server可以位于同一网段,也可以位于不同网段。
- 虚拟 IP:虚拟 IP(VIP)地址是在同一子网内由主、次Server共享的 IP 地址。当某一台Server宕机时,另一台Server会接管该 VIP,并响应发送至 VIP 的请求。VIP 和两台Server必须处于同一子网中。

保存上述信息后,在主、次Server上执行以下操作:
在 Windows 中:
在主Server上:
- 停止 OpManager 服务。
- 将 <OpManagerHome> 文件夹共享给次Server。了解方法。
- 以管理员权限打开命令提示符/终端,切换到 <OpManagerHome>\bin 并执行以下命令:
Clone_primary_Server.bat - 启动 OpManager 服务。

在次Server上:
- 下载 Configure_failover_Server.bat 文件,并将其移动到希望配置次实例的目标文件夹(如:C:\Program Files\ManageEngine)。
- 以管理员身份打开命令提示符,切换到 <Location> 并执行 Configure_Failover_Server.bat。
- 将 <OpManagerHome> 文件夹共享给主Server。了解方法。
- 启动次级 OpManager 实例。
在 Linux 中(自 12.8.401 版本起):
在主Server上:
- 停止 OpManager 服务。
- 配置到次Server的 SSH 认证。了解方法。
- 在命令行或终端中,切换到 <OpManagerHome>\bin 并执行以下命令:
Clone_primary_Server.sh - 启动 OpManager 服务。

在次Server上:
- 下载 Configure_failover_Server.sh 文件,将其移动到目标文件夹,并通过命令行执行。
- 配置到主Server和共享文件夹Server的 SSH 认证。了解更多。
- 启动次级 OpManager 服务。
注意:
- 配置虚拟 IP的选项从 12.5.140 及更高版本开始提供,而配置虚拟主机名和“无”选项则从 12.8.401 版本开始提供。
- 自 12.8.401 版本起,用户可以在 OpManager 的 Linux 安装中配置故障切换。
- OpManager 不提供任何形式的数据库级故障切换支持,仅提供application级故障切换支持。
- 务必在主实例完全启动后,再启动次实例。
- 次Server完全接管主Server大约需要 3-4 分钟。在此期间,可能会有少量 SNMP Trap、Syslog 或流量数据丢失。
- 如果配置了虚拟 IP 地址,则 Syslog、SNMP Trap 和流量应转发到该虚拟 IP 地址。
升级故障切换配置:
在升级 OpManager 服务时,只需在主环境上应用 PPM,次Server会自动更新。有关故障切换Server升级前提条件的更多信息,请点击这里。
在基于虚拟 IP 的故障切换中,主、次部署中的配置文件会定期进行同步。自 127189 版本起,将支持主、次Server之间的加密文件传输。请联系技术支持团队以启用该功能。
注意:加密文件传输仅在 Windows 平台上受支持,适用于 Windows Server 2012、Windows 8 及更高版本。请确保主、次以及共享文件夹路径所在的Server均支持加密文件传输。
要为企业版配置故障切换,请按照上述步骤操作。请注意,这些配置步骤必须在中央Server和探针Server上都执行。