IT 团队需要了解的服务连续性知识

2021 年 3 月 10 日凌晨 12 点 47 分,法国斯特拉斯堡的夜空被熊熊火光点亮。
欧洲最大的云计算提供商之一 OVHcloud 的 SBG2 数据中心突发火灾。短短数小时内,整个设施被付之一炬。欧洲各地众多企业眼睁睁看着自己的网站、应用程序和业务陷入瘫痪。电子邮件系统停摆,一些银行系统冻结,政府门户网站下线,整个数据库彻底丢失。
一些公司对这个消息陷入恐慌。他们没有备份、没有故障切换方案、也没有应急计划。
而另一些企业则迅速启动应对机制。他们立即切换至备用系统,启用备份服务。甚至在大火尚未熄灭之前,他们已经恢复上线,几乎未出现任何明显中断。
这种差异并不是运气造成的,而是 IT 服务连续性在发挥作用。
那些在火灾中幸存下来的企业,早已在会议室里策划演练过各种危机出现的场景。他们并不是单纯依赖运气,而是构建了能够承受最坏情况的系统架构。
本指南将帮助您实现相同的目标。我们将带您了解什么是 IT 服务连续性、启动该机制所需的关键要素,以及在最糟情况下依然可靠运行的计划制定实践。
IT 服务连续性对您的业务真正意味着什么
IT 服务连续性广义上说是业务连续性框架中的一个关键组成部分。业务连续性的目标是确保在各种干扰发生时,整个组织仍能保持运转——无论是自然灾害还是网络攻击。而 IT 服务连续性专注于让关键的 IT 服务不中断地持续运行。制定这一领域的稳健计划,不仅仅是为了快速恢复,更是为了未雨绸缪、及时响应,并在关键时刻最大程度减少停机损失。
IT 服务连续性不仅仅适用于重大的灾难事件,它也适用于日常中可能出现的中断,比如主数据中心断电、局部服务器故障等。在某些场景中,您可能需要将运营转移至备用站点;而在其他时候,则可能需要依赖手动流程维持运作。
不管是哪种情况,拥有事先经过充分测试的流程,能帮助团队在压力之下高效应对,这正是 IT 服务连续性计划的核心。其最终目标很简单:尽量减少中断,并以最小的代价尽快恢复正常运营。
此外,IT 服务连续性也不是一次性的计划,它是一个不断迭代和改进的过程。目前最被推崇的框架之一,是由美国国土安全部与卡内基梅隆大学联合开发的。
- 建立IT服务连续性计划。
- 制定服务连续性计划。
- 验证并测试IT服务连续性计划。
- 持续改进IT服务连续性。

那么,重大事件管理与 IT 服务连续性管理(ITSCM)之间的本质区别究竟是什么?
毕竟,这两者都涉及处理严重中断事件,例如服务器故障、数据中心宕机,或者其他对整个组织产生重大影响的 IT 问题。
关键区别在于应对方式。
重大事件管理侧重于对突发事件的快速、反应式响应。它强调一线响应团队立即介入,以尽快恢复服务。
而 IT 服务连续性管理则更具前瞻性。它关注于提前识别和规划已知风险(如数据中心断电),并制定和实施预设策略,确保业务能够在最小停机时间内持续运行。
重大事件管理 | IT 服务连续性管理(ITSCM) |
|---|---|
| 重大事件管理处理的是影响较大的 IT 基础设施问题,这些问题是不可预见的,但还没有导致整个组织陷入停顿。 | ITSCM 计划只有在发生重大灾难时才会发挥作用。每个组织自行决定什么算灾难,什么不算。 |
| 重大事件响应小组的性质是被动反应。他们的任务就是尽快介入并解决问题。 | ITSCM 更为积极主动。它是指制定保障措施和计划,从而避免或至少顺利处理大规模的中断或危机。 |
如前所述,IT 服务连续性是一个循环推进的过程,通常遵循以下四个关键步骤:
步骤 1:争取 IT 服务连续性计划的支持
- 获得高层管理支持: 制定 IT 服务连续性计划并不是 IT 部门可以单独完成的任务,它需要来自多个职能部门的协作、协调以及整个组织资源的投入。因此,尽早争取高层管理层的支持至关重要。一旦管理层对计划予以支持,就可以有效推动项目落地,调配必要资源,并明确各团队在执行过程中的职责分工。
- 明确范围与目标: 首先定义覆盖关键业务服务的初始范围。随着计划的不断成熟,可以逐步扩展其覆盖范围。此阶段,拥有一个结构良好的配置管理数据库(CMDB)将发挥重要作用,它有助于识别和排序关键业务服务的优先级、明确服务责任人、厘清对外部供应商的依赖,并支持进行详细的业务影响分析(BIA)。
- 制定政策与标准: 通过制定清晰的政策、结构化的文档和统一的执行框架,为 IT 服务连续性工作的落地提供基础支撑。内容应包括组织结构图、短期和长期目标、风险评估流程、BIA 流程与模板、供应商协调策略,以及一切能够保障计划顺利实施的相关支持材料。
步骤 2:制定实际的 IT 服务连续性计划
确保计划的基础内容正确:
在处理复杂或特殊场景之前,请务必确保您的 IT 服务连续性计划涵盖了所有基础要素。例如,在执行高级恢复程序之前,您的计划应至少包括以下内容:
- 关键联系人及其职责,以及在主要联系人无法联系时的备用联系人
- 冗余站点或系统架构
- 恢复流程和操作程序
- 明确触发计划启动的具体条件
- 与第三方的依赖关系说明
- 涉及法律、监管与合规性的相关事项
- 应急期间的沟通机制与协议
建立安全的访问库:
将 IT 服务连续性计划存储在即使发生中断或紧急情况时也能访问的位置。同时,应实施严格的访问控制措施,确保只有授权人员可以查看或修改该计划内容。
步骤 3:验证并演练业务连续性计划
定期审查和测试计划:
每当 IT 基础设施或组织结构发生可能影响恢复能力的变更时,都应重新审查并测试业务连续性计划。定期演练有助于识别潜在漏洞、重复部分或资源分配问题。以下是一些推荐的最佳实践:
- 对关键服务建议每季度进行测试,而计划的其他部分可每年验证一次。
- 演练应模拟真实场景下的沟通与协调流程,涵盖所有相关利益方,包括供应商,必要时甚至包括客户。
记录并分析结果:
作为演练或实际事件之后的关键步骤,应详尽记录过程中发现的性能问题、故障点或资源瓶颈。不仅要在演练之后记录,也应在实际中断事件发生后进行全面回顾。这些洞察将为业务连续性计划的持续完善与强化提供宝贵依据。
步骤 4:持续改进计划
使用指标和关键绩效指标(KPI):
设定与组织结构和战略目标相一致的 KPI。常见的指标包括计划的实际有效性、服务覆盖范围、实际恢复时间(RTA)以及恢复时间目标(RTO)的达成频率。这些指标可帮助评估哪些方面运行良好,哪些方面还有待提升。
密切关注潜在威胁:
不论是勒索软件攻击、供应商中断,还是即将来临的极端天气,您都应定期评估当前的连续性计划是否具备应对这些挑战的能力。这种前瞻性的风险意识不应仅在计划审查时才出现,而应融入团队的日常工作之中。连续性规划不仅是一项流程,更应成为一种组织文化。
关键 ITSM 实践与 ITSCM 之间的互动
IT 服务连续性计划由多个关键组成部分构成,而这些部分如果没有稳固的 ITSM 框架作为支撑,往往难以实现真正有效的整合。即使一项计划在纸面上看起来滴水不漏,如果组织未采纳如 ITIL® 等经过验证的服务管理框架来进行支撑,该计划也可能在实际操作中迅速瓦解。
接下来,我们将深入探讨为什么构建可靠的 IT 服务连续性管理(ITSCM)体系,必须依赖于强大的 IT 服务管理(ITSM)实践。这远不只是准备一个“备用方案”那么简单。
一个成熟的 IT 服务连续性计划通常包含以下三个核心组成部分:
- 业务影响分析(BIA)
- 恢复计划
- 定期测试与更新
而要让这三部分高效运作,离不开其他关键的 ITSM 流程的支持。
1. 开展业务影响分析(BIA)
在任何 IT 服务连续性管理(ITSCM)计划中,开展业务影响分析(BIA)并制定风险缓解策略是最初的重要步骤之一。BIA 有助于识别 IT 环境中可能对业务运营造成重大影响的关键故障点。
服务配置管理: 服务配置管理的核心目标是在配置管理数据库(CMDB)中跟踪所有基础设施之间的关系和系统依赖性。借助实时的关系图谱和依赖映射,IT 管理员能够直观了解某一故障可能带来的连锁反应。这种可视化能力使 BIA 的结果更为精准和可靠。
测量与报表: 每一个高效的服务台团队都会持续监控关键绩效指标(KPI),根据定期报告优化运营流程,并通过预测分析为未来的工作负载做好准备。这类预测有助于预判潜在风险。例如,如果趋势显示某个应用服务器在六月份可能面临高负载,IT 管理员可以结合 CMDB 的依赖关系图,进行影响分析,并提前部署额外的负载均衡器。此类措施本身就是服务连续性中的重要风险缓解策略。
2. 恢复计划的输入
可用性管理: IT 运维管理(ITOM)团队通常负责可用性管理,因此 ITSCM 团队会依赖其在关键系统(如备份服务器)管理方面的专业能力。将恢复计划与 ITOM 的标准化流程相对齐,可以大大提升在发生中断时的恢复效率与时效性。
问题管理: 维护已知错误数据库的问题管理团队在服务恢复中具有额外优势。当组件故障或基础设施问题影响恢复流程时,数据库将被及时更新。服务连续性团队可基于这些信息对恢复计划及应急方案进行调整与优化。
3. 测试和更新恢复计划
容量管理: 容量管理关注于确保 IT 基础设施具备满足客户当前和未来需求的能力,并在资源接近瓶颈时制定扩展计划。这一点在恢复模拟中尤为关键,因为灾难情况下服务往往以较低容量运行。容量管理团队需明确说明服务在降级运行状态下的能力边界。此外,备用系统与降级容量必须在模拟测试中进行验证,以确保满足客户服务级别协议(SLA)的要求。
变更管理: 在频繁变化的 IT 环境中,恢复流程也需与时俱进。为避免在危机时刻浪费时间,所有可能影响恢复计划的变更都必须被即时标记并更新计划内容。将服务连续性相关人员纳入变更咨询委员会(CAB)会议,有助于确保关键系统的恢复时间目标(RTO)不受影响。
IT服务连续性始于坚实的IT服务管理(ITSM)基础
在当今数字化时代,IT服务连续性已不再是可有可无的奢侈,而是企业运营的必需保障。从 OVHcloud 火灾等突发灾难,到电力中断或网络硬件故障等日常干扰,您的企业品牌与声誉均依赖于 IT 团队对环境的主动管理与快速响应能力。
本指南详细拆解了实现 IT 服务连续性的关键步骤:从争取高层支持、制定计划,到不断验证、测试并持续改进。然而,真正卓越的 IT 服务连续性计划,区别于其他计划的关键,在于它与核心 ITSM 实践的深度融合。无论是配置管理、问题管理、容量规划还是变更控制,您连续性工作的成效,都取决于所依托的 ITSM 基础是否稳固。
核心理念是:IT 服务连续性绝非一次性项目或束之高阁的文档,而是 IT 战略中持续演进的重要组成部分。组织越早以这种思维看待 ITSCM,其抗风险能力和业务韧性就越强。
因为当系统发生故障时,IT 服务连续性计划正是保障业务持续运营的关键所在。
感兴趣吗?
如果您正寻求为组织构建更强大的 IT 服务管理(ITSM)体系,强大的 ITSM 平台将助力您有效实施业界标准,如 ITIL。
ManageEngine ServiceDesk Plus —— 我们的旗舰 ITSM 平台,已通过 14 项 ITIL 实践认证,助您为 IT 服务连续性奠定坚实基础。
立即预约产品专家的专属演示,亲身体验 ServiceDesk Plus 如何根据您的 IT 环境实现定制化配置。