在 OpManager 中配置故障切换

故障切换是一个备用监控实例,用于在主监控环境宕机时,确保您的网络依然处于被监控状态。OpManager 通过允许您在另一台单独的Server上配置次级监控实例,帮助确保网络监控不中断。

故障切换如何工作?

主Server会在数据库中更新一个称为心跳(heartbeat)的值。心跳值是一个计数器,会由主Server按特定时间频率递增。次Server监视该心跳值,以检查其是否在指定时间间隔内被更新。当主Server宕机时,将无法在数据库中更新心跳值。如果数据库中的心跳值在最近 60 秒内未更新,则认为主Server已经宕机,由次级监控实例接管。此次级Server将在其保持正常运行期间持续监控网络。同时,如果主Server恢复并重新启动,它将进入待机模式,并让次Server继续监控。

主实例和次实例之间的信息会定期同步,从而确保在主 OpManager 实例宕机时,您不会丢失关键的监控数据(如设备状态、Trap、Syslog 消息等)。

OpManager 中故障切换配置:架构

SQL 高可用性中的故障转移是如何工作的?

当在 OpManager 部署中配置了 SQL Always ON 以及故障转移后,数据库层同样会被纳入高可用性保护。如果 SQL 主服务器发生故障,OpManager 会在尝试重新连接数据库之前,先等待一个已配置的超时时长。该超时时长是在进行 SQL Always ON 配置时定义的。

在此等待期间,OpManager 会持续重试数据库连接,从而为 SQL Always ON 故障转移切换留出时间,在此过程中,辅助 SQL 服务器会被提升为新的主服务器。

  • 如果 SQL 高可用切换在配置的超时时间内完成:OpManager 会自动重新连接到新的主 SQL 服务器,并在无需重启的情况下恢复正常运行。
  • 如果 SQL 高可用切换未能在配置的超时时间内完成:OpManager 会触发重启并将用户重定向到维护页面。在 SQL 高可用切换完成、数据库连接恢复后,OpManager 会自动重新上线。

注意:请确保在配置 SQL Always ON 时设置的超时时间,能够涵盖您 SQL 环境中典型的故障转移切换时长,以避免不必要的application重启。配置详情请参考SQL Always ON 启用步骤

前提条件有哪些?

  • 应用故障切换附加组件:在主实例中应用 Failover - Hot Standby Engine  附加组件。您可以在 此处为专业版购买该附加组件,在 此处为 OpManager Plus 购买。(注意:故障切换在 MSSQL 和远程 PGSQL 部署中均受支持。要为远程 PGSQL 部署配置故障切换,请点击这里。)
  • 将数据库部署在单独的Server上:确保您的 OpManager 安装所使用的数据库部署在单独的Server上,而不是与主或次 OpManager 实例同一台Server(MSSQL 或远程 PGSQL 部署)。
  • 在单独的Server上创建共享文件夹:OpManager 中的一些数据存储在本地目录中的文件中。配置故障切换后,这些文件将不再存储在本地目录,而是存储在一个主、次Server均可访问的共享文件夹中。这样可以确保当次Server接管监控过程时不会发生数据丢失。
    在单独的Server上创建一个文件夹,并将其共享给主、次Server。确保主、次Server都对共享文件夹具有写权限。
    注意:创建该文件夹的Server必须与您的主、次Server位于同一域中。此外,创建该文件夹的Server不能与主或次实例所在的Server相同)。了解如何在 WindowsLinux 中将文件夹共享给主、次实例。
  • 选择连接类型: 连接类型是指用户在网络环境中与Server建立通信的方式。根据对灵活性、冗余或特定配置的需求不同,可以从三种连接类型中进行选择。更多信息请点击这里
  • 硬件和软件要求
    • 两台Server中安装的 OpManager 版本必须相同。
    • 主、次 OpManager 服务应使用相同的端口和协议(http / https)。
    • 主、次Server的时间和时区必须相同。
    • 主、次Server的硬件配置应保持一致。
  • 网络要求
    • 主、次Server必须拥有静态 IP 地址。
    • 主、次Server应能够解析彼此的主机名和 IP 地址。
    • 两台Server都应具备高带宽和高连通性。
    • 主、次以及创建共享文件夹的Server必须位于同一域中。
    • Syslog、SNMP Trap 和流量(Flows)应转发至虚拟 IP 地址。

如何在 OpManager 中配置故障切换实例?

在主实例中,进入 Settings -> General Settings  -> Failover Details 并填写以下信息:

  • 连接类型:用户可以灵活选择不同的连接类型:虚拟 IP、虚拟主机名或无。主、次Server可以位于同一网段,也可以位于不同网段。
  • 虚拟 IP:虚拟 IP(VIP)地址是在同一子网内由主、次Server共享的 IP 地址。当某一台Server宕机时,另一台Server会接管该 VIP,并响应发送至 VIP 的请求。VIP 和两台Server必须处于同一子网中。

OpManager 中故障切换配置:故障切换详情中的虚拟 IP 地址

  • 仅当主、次Server位于同一子网时,才可使用 VIP 选项。
  • 如果两台Server位于不同子网,则必须使用虚拟主机名而非 VIP。
  • 虚拟 IP 必须是静态的,并采用 IPv4 格式。
  • 子网掩码:子网掩码用于将虚拟 IP 绑定到相应的网络接口。默认设置为 255.255.255.0。请根据您的Server子网配置更新此值。
  • 虚拟主机名:虚拟主机名由主、次Server共享,只有活动Server会响应发送至虚拟主机名的请求。此配置允许您将故障切换Server部署在同一子网或两个不同子网中。

    OpManager 中故障切换配置:故障切换详情中的虚拟主机名

    • DNS 类型:在配置虚拟主机名时,需要选择 OpManager 支持的 DNS 类型,即 Microsoft 或 BIND DNSServer之一。
    • Microsoft:一种 DNSServer类型
      • 用户名/密码:Microsoft DNSServer的凭据

    注意:对于 Microsoft DNS,请确保在主、次Server上安装了所需的 RSAT 包。

    • RSAT 可以安装在 Windows 客户端机器上。对于 Windows 10 及以上版本,可通过可选功能(Optional Features)选项进行安装。
    • 进入 Settings -> Apps -> Optional features -> Add a feature。
    • 搜索“RSAT”,并安装所需工具,例如 RSAT: DNS Server Tools
    • Bind:DNSServer类型(适用于 Linux)

      • TSIG:与 BIND DNS 交互时,需要使用事务签名(TSIG)而不是管理员凭据。为配置故障切换,请在 DNS 区域中配置您的 BIND DNS 名称Server使用 TSIG 密钥。该密钥必须使用 HMAC_SHA256 消息验证码,密钥长度在 1 到 512 字节之间。使用 BIND 安装中的 dnssec-keygen 工具生成新密钥。如果此前未在 BIND DNS 中使用 TSIG,请更新 BIND 配置文件,以允许使用新 TSIG 签名的 DNS 更新。

      OpManager 中故障切换配置:故障切换详情中的虚拟主机名 2

      • TSIG 共享密钥名称:在配置文件中为该密钥指定的名称。
      • TSIG 共享密钥值:创建 TSIG 密钥时生成的 .private 文件中的值。使用该文件中 Key: 之后的字符串。
      • DNS 区域:DNS 区域用于存储您管理的域的名称信息。您可以将网络划分为多个子 DNS 区域,以便更好地进行管理、组织或提升性能。即使跨多个子网,主、次 DNSServer也必须在同一 DNS 区域内进行管理。

    注意:当故障切换使用虚拟主机名时,可能会因为缓存问题,看起来像是故障切换未生效。客户端 DNS 缓存可能需要长达一分钟才能将流量重定向到活动Server。

    然而,由于浏览器 DNS 缓存往往不会遵循 DNS 的生存时间(TTL)值,其保留时间在不同浏览器之间会有所差异,可能从 60 秒到 24 小时不等。为确保成功重定向到新的活动Server,可能需要清空浏览器的 DNS 缓存。

    • 无:在既不适用也不希望使用虚拟 IP 或虚拟主机名的场景中,用户可以使用主、次Server各自的 IP 地址和主机名建立连接。

      OpManager 中故障切换配置:既不使用虚拟 IP 也不使用虚拟主机名

      如果选择“无”选项,请注意以下事项:

      • 识别活动Server:用户必须自行判断当前活动的Server,以访问客户端application。
      • 流量重定向:终端设备需要配置为在主Server处于活动状态时,将流量重定向到主Server;当主Server故障时,再将流量重定向至次Server。
  • 次Server IP:次Server的 IP 地址或主机名。
  • 共享文件夹路径:在单独的Server上创建的空共享文件夹的路径。

    • 在 Windows 中:一般形式为 \\<Server_Name_or_IP>\<Share_Name>
    • 在 Linux 中:一般形式为 <Server_Name_or_IP>:/Desired/Path


     

    注意:请确保该空文件夹已经共享给主、次Server。了解如何在 WindowsLinux 中将文件夹共享给主、次Server。
  • 电子邮件地址(可选):用于接收故障切换自监控告警、数据同步告警以及次Server接管告警。您可以指定接收通知的邮件收件人地址,多个收件人之间用逗号分隔。

保存上述信息后,在主、次Server上执行以下操作:

在 Windows 中:

在主Server上:

  • 停止 OpManager 服务。
  • <OpManagerHome> 文件夹共享给次Server。了解方法。
  • 以管理员权限打开命令提示符/终端,切换到 <OpManagerHome>\bin 并执行以下命令:
         Clone_primary_Server.bat
  • 启动 OpManager 服务。

OpManager 中故障切换配置:故障切换服务器激活 1

在次Server上:

  • 下载 Configure_failover_Server.bat 文件,并将其移动到希望配置次实例的目标文件夹(如:C:\Program Files\ManageEngine)。
  • 以管理员身份打开命令提示符,切换到 <Location> 并执行 Configure_Failover_Server.bat。
  • 将 <OpManagerHome> 文件夹共享给主Server。了解方法。
  • 启动次级 OpManager 实例。

在 Linux 中(自 12.8.401 版本起):

在主Server上:

  • 停止 OpManager 服务。
  • 配置到次Server的 SSH 认证。了解方法。
  • 在命令行或终端中,切换到 <OpManagerHome>\bin 并执行以下命令:
         Clone_primary_Server.sh
  • 启动 OpManager 服务。

OpManager 中故障切换配置:故障切换服务器激活 2

在次Server上:

  • 下载 Configure_failover_Server.sh 文件,将其移动到目标文件夹,并通过命令行执行。
  • 配置到主Server共享文件夹Server的 SSH 认证。了解更多。
  • 启动次级 OpManager 服务。

注意:

  • 配置虚拟 IP的选项从 12.5.140 及更高版本开始提供,而配置虚拟主机名和“无”选项则从 12.8.401 版本开始提供。
  • 12.8.401 版本起,用户可以在 OpManager 的 Linux 安装中配置故障切换。
  • OpManager 不提供任何形式的数据库级故障切换支持,仅提供application级故障切换支持。
  • 务必在主实例完全启动后,再启动次实例。
  • 次Server完全接管主Server大约需要 3-4 分钟。在此期间,可能会有少量 SNMP Trap、Syslog 或流量数据丢失。
  • 如果配置了虚拟 IP 地址,则 Syslog、SNMP Trap 和流量应转发到该虚拟 IP 地址。

升级故障切换配置:

在升级 OpManager 服务时,只需在主环境上应用 PPM,次Server会自动更新。有关故障切换Server升级前提条件的更多信息,请点击这里

加密文件传输

在基于虚拟 IP 的故障切换中,主、次部署中的配置文件会定期进行同步。自 127189 版本起,将支持主、次Server之间的加密文件传输。请联系技术支持团队以启用该功能。

注意:加密文件传输仅在 Windows 平台上受支持,适用于 Windows Server 2012、Windows 8 及更高版本。请确保主、次以及共享文件夹路径所在的Server均支持加密文件传输。

企业版的故障切换配置:

要为企业版配置故障切换,请按照上述步骤操作。请注意,这些配置步骤必须在中央Server和探针Server上都执行。

感谢您的反馈!

此内容对您有帮助吗?

很抱歉给您带来不便。请帮助我们改进此页面。

我们该如何改进此页面?
您是否需要有关此主题的协助?
点击“提交”,即表示您同意根据隐私政策处理个人数据。