在 OpManager 中配置故障切换

故障切换是一种备用监控实例,用于确保即使主监控环境宕机,您的网络仍能持续被监控。OpManager 通过允许您在单独的Server上配置一个次要监控实例,帮助确保您的网络监控不中断。

故障切换如何工作?

主Server会在数据库中更新一个称为心跳的数值。心跳值是一个计数器,由主Server按特定时间频率递增。次Server监视该心跳值,以检查其是否在指定的时间间隔内被更新。当主Server宕机时,将无法在数据库中更新心跳值。如果数据库中的心跳值在过去 60 秒内没有被更新,则认为主Server已经宕机,此时次监控实例将接管。该次Server将在其保持正常运行的情况下持续监控网络。与此同时,如果主Server恢复并重新启动,它将进入待机模式,并让次Server继续监控。

主、次实例之间的信息会定期同步,从而确保当主 OpManager 实例宕机时,您不会错过关键监控数据(例如设备状态、Trap、Syslog 消息等)。

OpManager 中的故障切换配置:架构

前提条件有哪些?

  • 应用故障切换附加组件:在主实例中应用 Failover - Hot Standby Engine 附加组件。您可以在 此处购买专业版的附加组件,在 此处购买 OpManager Plus 的附加组件。(注意:故障切换支持 MSSQL 和远程 PGSQL 部署。要为远程 PGSQL 部署配置故障切换,请点击这里。)
  • 将数据库放在单独的Server上:确保您的 OpManager 安装所使用的数据库部署在单独的Server上,而不是与主或次 OpManager 实例位于同一Server上(适用于 MSSQL 或远程 PGSQL 部署)。
  • 在单独的Server上创建共享文件夹:OpManager 中有一些数据存储在本地目录中的文件里。当配置了故障切换后,这些文件将不再保存在本地目录,而是保存在一个由主、次Server都可访问的共享文件夹中。这样可以确保当次Server接管监控过程时,不会发生数据丢失。
    在单独的Server上创建一个文件夹,并将其共享给主、次Server。确保主、次Server都拥有对此共享文件夹的写权限。
    注意:创建该文件夹的Server应与主、次Server处于同一域中。同时,该Server不得与主或次实例所在的Server相同)。了解如何在 WindowsLinux 中将文件夹共享给主、次实例。
  • 选择连接类型: 连接类型指的是用户在网络环境中与Server建立通信的方式。根据在灵活性、冗余度或特定配置方面的需求,用户可以在三种连接类型之间进行选择。更多信息请点击这里
  • 硬件和软件要求
    • 两台Server上安装的 OpManager 版本必须相同。
    • 主、次 OpManager 服务应使用相同的端口和协议(http / https)。
    • 主、次Server应具有相同的时间和时区设置。
    • 主、次Server应具有相同的硬件配置。
  • 网络要求
    • 主、次Server都应使用静态 IP 地址。
    • 主Server和次Server应能够解析彼此的主机名和 IP 地址。
    • 两台Server都应具有高带宽和稳定的连接。
    • 主、次以及创建共享文件夹的Server都应处于同一域中。
    • Syslog、SNMP Trap 和流量(Flows)应转发到虚拟 IP 地址。

如何在 OpManager 中配置故障切换实例?

在主实例中,依次进入 Settings -> General Settings -> Failover Details,并填写以下信息:

  • 连接类型:用户可以灵活选择不同的连接类型:虚拟 IP、虚拟主机名或无。主、次Server既可以位于同一子网,也可以位于不同子网。
  • 虚拟 IP:虚拟 IP(VIP)地址是在同一子网上由主、次Server共享的 IP 地址。当其中一台Server宕机时,另一台Server会接管该 VIP,并响应发往该 VIP 的请求。VIP 和两台Server必须处于同一子网中。

OpManager 中的故障切换配置:故障切换详情的虚拟 IP 地址

  • 仅当主、次Server位于同一子网时才可使用 VIP 选项。
  • 如果两台Server位于不同子网,则必须使用虚拟主机名而不是 VIP。
  • 虚拟 IP 应为静态地址,并采用 IPv4 格式。
  • 子网掩码:子网掩码用于将虚拟 IP 绑定到正确的网络接口。默认值为 255.255.255.0。请根据您Server的子网配置更新此值。
  • 虚拟主机名:虚拟主机名由主、次Server共享。只有活动的Server会响应发往虚拟主机名的请求。此配置允许您在同一子网或两个不同子网上部署故障切换Server。

    OpManager 中的故障切换配置:故障切换详情的虚拟主机名

    • DNS 类型:对于虚拟主机名配置,您需要从 OpManager 支持的 DNS 类型中进行选择,即 Microsoft 或 BIND DNS Server。
    • Microsoft:一种 DNS Server类型
      • 用户名/密码:Microsoft DNS Server的凭据

    注意:对于 Microsoft DNS,请确保在主、次Server上安装了所需的 RSAT 组件。

    • RSAT 可以安装在 Windows 客户端上。对于 Windows 10 及以上版本,可通过“可选功能(Optional Features)”进行安装。
    • 依次进入 Settings -> Apps -> Optional features -> Add a feature。
    • 搜索 “RSAT”,并安装必要的工具,如 RSAT: DNS Server Tools
    • Bind:DNS Server类型(适用于 Linux)

      • TSIG:与 BIND DNS 交互时,需要使用事务签名(TSIG),而不是管理员凭据。在配置故障切换时,请在 DNS 区域中将您的 BIND DNS 名称Server配置为使用 TSIG 密钥。该密钥必须使用 HMAC_SHA256 消息认证码,密钥长度在 1 到 512 字节之间。请使用 BIND 安装中的 dnssec-keygen 工具来生成新密钥。如果您此前未在 BIND DNS 中使用过 TSIG,请更新 BIND 配置文件,以允许使用新 TSIG 签名的 DNS 更新。

      OpManager 中的故障切换配置:故障切换详情的虚拟主机名 2

      • TSIG 共享密钥名称:在配置文件中为该密钥指定的名称。
      • TSIG 共享密钥值:创建 TSIG 密钥时生成的 .private 文件中的值。使用该文件中 Key: 后面的字符串。
      • DNS 区域:DNS 区域用于存储您所管理域的名称信息。您可以将网络划分为多个从属 DNS 区域,以便更好地管理、组织或提升性能。即使跨越多个子网,主、次 DNS Server也必须位于同一 DNS 区域内进行管理。

    注意:当故障切换使用虚拟主机名时,可能会因缓存问题出现故障切换看似不起作用的情况。客户端 DNS 缓存可能需要长达 1 分钟的时间才能将流量重定向到活动Server。

    然而,由于浏览器的 DNS 缓存通常不会严格遵守 DNS TTL 值,其保留时间会因浏览器而异,从 60 秒到 24 小时不等。为了确保成功重定向至新的活动Server,可能需要清空浏览器的 DNS 缓存。

    • 无:在既不希望也不需要使用虚拟 IP 或虚拟主机名的场景中,用户可以选择使用主、次Server各自的 IP 地址和主机名建立连接。

      OpManager 中的故障切换配置:既无虚拟 IP 地址也无虚拟主机名

      但如选择“无”选项,请注意以下事项:

      • 识别活动Server:用户必须自行判断当前活动的Server,以访问客户端application。
      • 流量重定向:终端设备需要配置为在主Server处于活动状态时将流量重定向到主Server;当主Server发生故障时,再将流量重定向到次Server。
  • 次Server IP:您的次Server的 IP 地址或主机名。
  • 共享文件夹路径:在单独的Server上创建的空共享文件夹路径。

    • 对于 Windows:通常形式为 \\<Server_名称_或_IP>\<共享名>
    • 对于 Linux:通常形式为 <Server_名称_或_IP>:/Desired/Path


     

    注意:确保该空文件夹已共享给主、次Server。了解如何在 WindowsLinux 中将文件夹共享给主、次Server。
  • 电子邮箱地址(可选):接收有关故障切换自监控告警、数据同步告警以及次Server接管告警的通知。您可以指定通知收件人,并使用逗号分隔多个邮箱地址。

保存这些信息后,在主、次Server上分别执行以下步骤:

在 Windows 中:

在主Server上:

  • 停止 OpManager 服务。
  • <OpManagerHome> 文件夹共享给次Server。了解方法。
  • 以管理员权限打开命令提示符/终端,进入 <OpManagerHome>\bin 并执行以下命令:
         Clone_primary_Server.bat
  • 启动 OpManager 服务。

OpManager 中的故障切换配置:故障切换服务器激活 1

在次Server上:

  • 下载 Configure_failover_Server.bat 文件,并将其移动到您希望配置次实例的文件夹中(例如:C:\Program Files\ManageEngine)。
  • 以管理员身份打开命令提示符,进入该 <Location> 并执行 Configure_Failover_Server.bat。
  • 将 <OpManagerHome> 文件夹共享给主Server。了解如何操作。
  • 启动次 OpManager 实例。

在 Linux 中(自 12.8.401 版本起):

在主Server上:

  • 停止 OpManager 服务。
  • 配置到次Server的 SSH 认证。了解方法。
  • 在命令行或终端中,进入 <OpManagerHome>\bin 并执行以下命令:
         Clone_primary_Server.sh
  • 启动 OpManager 服务。

OpManager 中的故障切换配置:故障切换服务器激活 2

在次Server上:

  • 下载 Configure_failover_Server.sh 文件,将其移动到目标文件夹,并通过命令行执行。
  • 配置到主Server共享文件夹Server的 SSH 认证。了解更多。
  • 启动次 OpManager 服务。

注意:

  • 12.5.140 及以上版本起,提供配置虚拟 IP的选项;自 12.8.401 版本起,引入了配置虚拟主机名和“无”的选项。
  • 12.8.401 版本起,用户可以在 Linux 版 OpManager 中配置故障切换。
  • OpManager 不提供任何数据库层面的故障切换支持,仅提供application层面的故障切换支持。
  • 务必在主实例完全启动后再启动次实例。
  • 次Server完全接管主服务器大约需要 3—4 分钟。在此期间接收的部分 SNMP Trap、Syslog 或流量数据可能会有少量丢失。
  • 如果配置了虚拟 IP 地址,则 Syslog、SNMP Trap 和 Flow 应转发到该虚拟 IP 地址。

升级故障切换部署:

在升级 OpManager 服务时,只需在主部署上应用 PPM,次Server会自动更新。有关故障切换Server升级前提条件的更多信息,请了解更多

加密文件传输

在基于虚拟 IP 的故障切换中,主、次部署的配置文件会定期同步。从版本 127189 起,将支持主、次Server之间的加密文件传输。请联系技术支持团队以启用该功能。

注意:加密文件传输仅在 Windows 上受到支持,且要求使用 Windows Server 2012、Windows 8 及更高版本。请确保主、次以及共享文件夹路径所在的Server均支持加密文件传输。

企业版的故障切换配置:

要为企业版配置故障切换,请按照上述步骤进行操作。请注意,这些配置步骤必须在中央Server和探针Server上都执行一次。

感谢您的反馈!

此内容对您有帮助吗?

很抱歉给您带来不便。请帮助我们改进此页面。

我们该如何改进此页面?
您是否需要有关此主题的协助?
点击“提交”,即表示您同意根据隐私政策处理个人数据。