最后更新于:2025年9月3日
2021年3月10日凌晨12点47分,火焰照亮了法国斯特拉斯堡上空的天空。
欧洲最大的云提供商之一OVHcloud的SBG2数据中心发生火灾。火灾在几个小时内将整个设施夷为灰烬。欧洲各地的许多企业看着他们的网站、应用程序和运营变得黑暗。他们的电子邮件停止了。几个银行系统冻结,政府门户网站下线,整个数据库丢失。
一些公司对这个消息感到恐慌。他们没有备份。没有故障转移。没有计划。
一些企业转向了。他们的系统被重新路由,备份投入行动。甚至在火灾熄灭之前,他们又重新上线了,几乎没有错过一个节拍。
区别不在于运气。这是IT服务的连续性。
在火灾中幸存下来的企业已经在规划室、测试演习和干运行恢复中面临火灾。他们不只是希望事情能成功。他们建造了为最坏的情况做好准备的系统。
本指南在这里帮助您做同样的事情。它向您介绍什么是IT服务连续性,入门的关键组成部分,以及制定计划的最佳做法,以便在事情变得糟糕时坚持下去。
IT 服务连续性只是更广泛的业务连续性难题的一部分。业务连续性侧重于在中断期间保持整个组织的复原力,无论是自然灾害还是网络攻击,但IT服务连续性专注于保持关键IT服务的正常运行。这里的强有力的计划不仅仅是关于恢复,而是关于做好准备,保持响应,并在最关键的时候尽量减少停机时间。
IT 服务连续性不仅适用于重大灾难。它涵盖了一系列中断,从主数据中心的停电到像本地服务器崩溃一样简单的事情。在一个案例中,您可能会将操作转移到次要站点,而在另一个案例中,您可能会依靠手动变通办法来保持操作。
在这两种情况下,拥有预先定义的、经过测试的规程来帮助团队快速有效地响应,是 IT 服务连续性计划的一部分。目标很简单:尽量减少中断,并恢复正常业务,影响最小。
这也不是一次性的计划。IT服务连续性是一个持续不断发展的过程。国土安全部和卡内基梅隆大学为此开发了最受好的框架之一。
- 建立 IT 服务连续性计划。
- 制定服务连续性计划。
- 验证并运行 IT 服务连续性计划的测试。
- 不断提高IT服务连续性。

那么,重大事件管理和IT服务连续性管理(ITSCM)之间的真正区别是什么?
毕竟,两者都会处理重大中断,例如服务器中断、数据中心故障以及影响整个组织的主要IT问题。
关键的区别在于方法。
重大事件管理就是对意外事件做出快速、被动的反应。这是一线响应团队立即介入恢复服务。
另一方面,IT服务连续性是主动的。这是关于提前计划已知风险,例如数据中心的停电,以及执行预定义的策略,以尽量减少停机时间保持业务运行。
| 重大事件管理 | IT服务连续性管理 |
|---|---|
重大事件管理处理高影响的IT基础设施问题,这些问题是不可预见的,并没有使整个组织停滞不前。 | ITSCM计划只有在发生重大灾难时才会发挥作用。每个组织都自己决定什么算作灾难,什么不算灾难。 |
重大事件响应团队本质上是被动的。他们都是要尽快跳进去解决事情。 | ITSCM更积极主动。这是关于制定保障措施和计划,以便避免或至少顺利处理大规模的干扰或危机。 |
正如我们之前看到的,IT服务连续性是一个周期性的过程,它通常遵循上述四个主要步骤:
第1步:获得IT服务连续性计划的支持
- 获得高级领导层的认同:制定 IT 服务连续性计划不是 IT 部门可以孤立地做的事情。它需要来自整个组织的跨职能投入、协调和资源。这就是为什么尽早获得高级领导层的认同至关重要的原因。当领导层加入时,他们可以倡导努力,释放必要的资源,并在团队之间分配问责制。
- 定义范围和目标:从涵盖关键任务服务的范围陈述开始。随着连续性计划的成熟,您可以逐渐扩展它,以涵盖更多服务。维护良好的CMDB将在这里派上用场,以确定关键任务服务的优先次序,包括服务所有者,确定与外部供应商的依赖关系,特别是进行业务影响分析(BIA)。
- 制定政策和标准:通过明确的政策、结构化文档和定义的框架为IT服务连续性如何运作建立基础。这应该包括组织结构图、短期和长期目标、风险评估、BIA程序和模板、供应商协调计划以及确保连续性计划顺利运行所需的任何辅助材料。
第2步:制定实际的IT服务连续性计划
- 正确了解计划的基础知识:在处理利基场景之前,请确保您的IT服务连续性计划涵盖基本要素。例如,在推进高级恢复程序之前,计划必须具有以下基础知识。
- 关键联系人和角色以及备份,以防主要人员不在
- 冗余位置或系统架构
- 恢复程序
- 明确何时触发计划的标准
- 对第三方的依赖
- 法律、监管和合规相关问题
- 通信协议
- 设置安全访问存储库:将您的IT服务连续性计划存储在即使在中断或紧急情况下也能访问的位置。同时,实施严格的访问控制,以确保只有授权人员才能查看或修改内容。
第 3 步:验证并实施连续性计划
- 定期审查和测试计划:每当IT基础设施或组织结构发生变化可能影响恢复时,应重新访问和测试连续性计划。定期的演习有助于发现差距、重叠和资源问题。这方面的几个最佳做法包括以下内容:
- 关键服务可能需要每季度进行一次测试,而计划的其他部分可以每年进行一次验证。
- 模拟现实世界的沟通和协调,这应该涉及每个利益相关者、供应商,甚至客户(如果需要的话)。
- 记录和分析结果:作为自然的下一步,记录测试或真实事件期间发现的任何性能问题、故障点或资源瓶颈。不仅在演习后,而且在实际中断后进行后行动审查。这些见解是随着时间的推移发展和加强连续互通计划的关键。
第4步:持续改进程序
- 使用指标和关键绩效指标:定义与组织结构和目标一致的关键绩效指标。常见指标包括计划有效性、跨服务覆盖范围、实际恢复时间以及实现恢复时间目标的频率。这些可以帮助您衡量哪些工作有效,哪些需要工作。
- 掌握潜在威胁:无论是勒索软件、供应商相关中断还是即将来临的风暴,都要定期评估您当前的连续性计划是否能处理影响。这种心态不应该在审查期间浮出水面,而需要成为团队日常思维的一部分。连续性规划既是一种文化,也是一种过程。
IT服务连续性计划有几个组成部分,其中许多组成部分实际上可以正确组合在一起,除非您已经有一个坚实的ITSM框架。即使您的计划在纸面上看起来不错,但如果您的组织没有使用ITIL庐等经过验证的服务来管理服务,它也会很快崩溃。
让我们更深入地了解为什么坚实的ITSCM设置真的取决于是否拥有强大的ITSM实践。不仅仅是有备用计划。
IT 服务连续性计划由三个主要组成部分组成:
- 双边
- 恢复计划
- 定期测试和更新
这些部分中的每一个都依赖于其他核心 ITSM 流程来正确工作。
1.开发BIA
任何ITSCM计划的第一步之一是运行BIA并制定风险缓解计划。BIA有助于发现IT环境中可能严重影响运营的关键故障点。
- 服务配置管理:服务配置管理的目标是跟踪CMDB中的所有基础设施关系和系统依赖性。借助实时关系和依赖关系图,IT管理员可以清楚地看到故障的潜在影响。这种可见性水平使BIA结果更加精确和可靠。
- 测量和报告:每个高效的服务台团队都会监控关键绩效指标,根据定期报告调整运营,并使用预测为未来的工作量做好准备。这些预测有助于提前识别潜在风险。例如,如果趋势表明应用程序服务器可能会在6月遇到过载,IT管理员可以在CMDB依赖性地图的影响分析的指导下主动部署额外的负载平衡器。这些也是确保服务连续性的风险缓解措施的一部分。
2.恢复计划的投入
- 可用性管理:由于ITOM团队通常拥有可用性管理,ITSCM团队依靠其对备份服务器等关键系统的专业知识。通过将恢复计划与ITOM的标准化程序保持一致,ITSCM的努力更有可能在发生中断时顺利、及时地进行恢复
- 问题管理:作为问题管理实践的一部分,维护已知错误数据库的团队可以获得额外的优势。如果组件问题或基础设施问题影响了恢复过程,数据库将相应地更新。然后,服务连续性团队可以根据这些信息更新他们的恢复计划和解决方法。
3.测试和更新恢复计划
- 容量管理:容量管理侧重于确保IT基础设施能够满足客户要求,并随着资源接近充分利用而进行扩展规划。这在恢复模拟中特别有用,因为在灾难期间,服务将以降低的容量运行。容量管理团队定义了灾难期间服务如何在降低的容量下运行。当然,必须在恢复模拟期间测试回退系统和降低的容量,以确保其与客户的 SLA 相匹配。
- 变更管理:由于IT基础设施经常发生变化,恢复过程可能需要调整。为了在危机期间节省服务连续性团队的时间,任何影响恢复计划的更改都需要立即标记和更新。让服务连续性利益相关者参与变革咨询委员会会议有助于确保关键系统的恢复时间不受影响。
在当今世界,IT服务的连续性不是奢侈品,而是必需品。从OVHcloud火灾等意外灾难到电网故障或网络硬件问题等日常中断,您的业务品牌和声誉取决于IT团队如何积极主动地管理其环境。
本指南分解了基本步骤,从获得领导层支持和制定计划到验证、测试和持续改进这些计划。然而,最佳IT服务连续性计划与众不同之处在于它与ITSM核心实践的整合。无论是配置管理、问题管理、容量规划还是变更控制,您的连续性努力都取决于ITSM基础。
这里的要点是,IT 服务连续性不是一次性项目或货架上的另一个文档。这是您IT战略中不断发展的一部分——您的组织越早以这种方式对待ITSCM,组织就越有弹性。
因为当灯熄灭时,IT服务连续性计划是保持业务持续发展的原因。
















