ManageEngine 的事件和计划维护响应计划

本文档概述了 ManageEngine 如何处理其云解决方案的事件和计划维护(适用于 Endpoint Central Cloud、PatchMangerPlus Cloud、RemoteAccessPlus Cloud)。

目录

  1. 定义事件
     
  2. ManageEngine 的响应计划
  3. 我们的沟通渠道
  4. 数据中心正常运行时间报告
  5. 常见问题

定义事件

我们深知我们的服务对客户至关重要,因此我们致力于透明展示服务的可用性及事件发生时我们所遵循的流程。由于停机不可避免,我们提前规划并确保团队准备就绪。

事件指因意外停机而导致无法提供良好服务的情况。

一般而言,并非所有的服务不可用或中断都是非计划性的。我们有预定的计划维护,可能也会导致停机。

计划维护

计划维护是指生产设备切换到不同服务器的预定时间,原服务器关闭或部分可用以进行维修、维护或升级。此类维护每年进行一到两次。客户将在维护前至少 7 天通过邮件或产品内横幅通知接收通知。您也可以在以下 沟通 区域查询维护状态。

受信赖的客户

非计划停机

故障/停机是指影响服务交付的事件,可能由数据中心硬件故障、自然灾害或网络连接故障引起。非计划停机发生于设备或流程意外关闭或故障。非计划停机的生命周期如下:

受信赖的客户

ManageEngine 的响应计划

事件检测

我们的监控和告警工具将在客户注意到事件之前检测并通知团队。我们使用 Zoho 的应用监控工具衡量停机时间,同时持续监控支持台、漏洞奖励及社交媒体平台以检测事件。

事件响应

事件被检测后,我们将在状态页面确认,并优先通知客户。
如果问题持续存在,我们将在 120 分钟内在状态页面分享详细信息,如事件开始时间、客户受影响情况、估计受影响客户数量、事件附加信息、应急处理方案(如适用)及预计解决时间。此步骤旨在确保客户了解我们的工程师已知晓事件并积极处理。

解决方案

我们的站点可靠性团队与开发人员协作确定事件根本原因。一旦确认问题且相关开发人员对修复方案有信心,我们将尽快恢复服务。

RCA 报告

事件结束后,将按时间顺序制作 RCA 报告,列出事件时间及具体细节,包括事件开始和结束时间、持续时间、受影响功能/服务及对客户的影响。
大多数情况下,在内部团队审核后,RCA 报告将于 10 个工作日内在状态页面提供。

沟通渠道

如果您遇到云服务问题,可先在状态页面检查服务可用性,再联系支持或尝试自行解决。
服务中断将根据事件及影响程度通过以下沟通渠道及时通知:

通过电子邮件通知合作伙伴。

沙特阿拉伯状态页面

数据中心可用性注意

美国

欧洲

印度

澳大利亚

日本

中国

加拿大

英国

沙特阿拉伯

:显示的百分比也包括计划维护

常见问题
1. 事件和故障有什么区别?

事件指云控制台性能下降/缓慢,故障指服务不可用的严重情况。
2. 如何订阅维护窗口/停机通知?

  1. 这是一个两步流程。
  2. 在浏览器中打开上述沟通部分提到的状态页面。

点击右上角的订阅按钮,选择您偏好的通信方式。
3. 我能从状态页面获取哪些状态信息?

  • 事件根据影响分为多个类别,如下所示。您可以在状态页面中看到对应标记。
  • 正常运行
  • 信息通知
  • 维护中
  • 性能下降
  • 部分故障

严重故障
4. 我在哪里可以查找过去的事件/故障记录? 过去的事件/故障会保存在我们的 事件历史

页面。点击某事件可查看事件详情及 RCA 报告。
5. 如果我遇到的问题未在状态页面列出怎么办?

如果您遇到的问题未在状态页面显示,您可以联系支持团队详细说明所遇问题。问题可能为单个客户或特定区域的问题。