首页
文章首页
适用于 IT 团队的事件回顾与 RCA 模板

适用于 IT 团队的事件回顾与 RCA 模板

Han Chao
2025-06-19
Service Desk
2.3K
6 分钟

在一个忙碌的周一早晨，Zylker 的 IT 团队突然陷入了混乱。事件单大量涌入支持邮箱，电话此起彼伏。公司的关键系统——订单管理平台发生故障。客户账号被锁定，销售流程中断。作为 Zylker 业务运转的核心，订单系统的宕机不仅影响用户体验，还可能导致营收损失甚至客户信任危机。

幸运的是，Zylker 针对重大故障早已制定了一套完整的应急响应计划。在恢复服务后，IT 团队立即决定对该事件进行系统性的事后分析，查找根本原因，并评估如何进一步提升基础架构的稳定性和应变能力。

在展开分析前，先弄清楚什么是“事件回顾”？

事件回顾（Post-Incident Review）是对 IT 故障进行全面审查的过程，涵盖事件的时间线、影响范围，以及为修复问题和防止再次发生所采取的措施。这不是一次“追责”会议，而是一个多部门合作、聚焦问题根源和改进措施的建设性过程。

回顾过程中，相关部门人员需共同梳理事件发生的详细时间线，识别潜在失误，并对事件响应策略的执行效果进行评估，判断是否存在优化空间。

建议在事件解决后尽快启动回顾流程，以便从响应人员和关键利益相关者处获取新鲜、准确的反馈。理想的时间是在事件发生后的一周内开始总结。

事件总结示例

下面是 Zylker 团队如何组织事件回顾的实操示例。

在事件解决后，Zylker 指定 IT 响应团队成员 John Clarke 作为事件总结负责人。他对此次故障有直接的处置经验，因此被选中负责协调回顾流程并整理文档。以下是他为此次事故准备的事件回顾记录。

标题

SEV-1 事件：2024 年 8 月 1 日订单管理系统中断 [INC-14819]

事件开始与结束时间

开始时间：2024 年 8 月 1 日上午 8:57（GMT）

结束时间：2024 年 8 月 1 日上午 9:05（GMT）

摘要

2024 年 8 月 1 日上午 8:50，对订单管理系统所依赖的遗留数据库服务器进行了升级操作。此次升级引发了与应用服务器之间的兼容性问题，导致所有终端用户无法访问订单系统。

事件时间线

日期和时间（GMT）事件说明

2024 年 8 月 1 日上午 8:50 主数据库服务器从 Microsoft SQL Server 2014 升级至 Microsoft SQL Server 2017。

2024 年 8 月 1 日上午 9:00 用户开始报告登录失败，客户无法下订单。

2024 年 8 月 1 日上午 9:04 事件响应小组确认数据库服务器与应用服务器之间的连接中断。

2024 年 8 月 1 日上午 9:05 启动灾难恢复流程，应用服务器连接至备用数据库服务器。

2024 年 8 月 1 日上午 9:47 数据库升级被回滚，主数据库服务器恢复与应用服务器的连接。

影响

员工和第三方供应商在事件发生期间无法访问订单管理系统。在 2024 年 8 月 1 日上午 9:00 至 9:05（GMT）期间，客户下单失败，导致共 6713 个订单未成功处理，直接经济损失约为 75.6 万美元。

根本原因分析（RCA）

CMDB 信息过时，导致配置关系分析不完整
应用依赖关系映射不到位
变更操作缺乏充分测试
未遵守变更冻结窗口规定
数字化转型团队与订单管理系统维护团队之间存在沟通断层

解决方案

订单管理系统应用服务器被切换至备用数据库，随后对主数据库服务器的升级进行回滚，系统恢复正常运行。

经验教训

若 CMDB 保持更新、包含完整依赖关系映射，可有效避免此次事故

数据库管理员（本次事件中相关责任人）应参与变更咨询委员会（CAB）会议

今后将由 CI 所有者与服务管理员共同审查所有变更请求，并成为 CAB 固定成员

原有的变更测试和冻结窗口建议未得到有效执行。未来将严格执行该流程，除紧急变更外，其余变更请求需遵守审核机制

纠正与预防措施

启动 CMDB 全面重构工作，系统将迁移至 ServiceDesk Plus 平台

明确指定 CI 所有者与业务服务负责人作为 CAB 的正式审批人

在电商大促等高峰期期间，严格执行变更冻结政策

全公司范围的基础设施升级计划已正式立项，并将分阶段推进实施

什么是根本原因分析（RCA）？

在事故调查过程中，最关键的步骤之一就是根本原因分析（Root Cause Analysis，简称 RCA）。

RCA 是一种系统化的方法，旨在找出引发事件的根本原因。团队会收集所有相关信息，例如事件日志、服务器配置等，并通过分析确定导致问题的核心因素。通过这一过程，组织能够从事件中吸取经验教训，从源头上防止类似问题再次发生。

RCA 分析方法类型

以下是 Zylker 在执行根本原因分析时采用的几种常见方法：

1. 五个为什么法

“五个为什么”是一种逐层追问“为什么？”以挖掘问题本质的分析工具。通常经过五轮提问，就能触及根本原因。

以 Zylker 的案例为例，IT 团队的分析过程如下：

为什么客户无法下订单？因为订单管理系统无法使用。
为什么订单管理系统无法使用？因为数据库服务器与应用服务器之间断开了连接。
为什么两者会断开连接？ Microsoft SQL Server 与现有应用代码库不兼容。
为什么在未充分评估的情况下进行了数据库升级？因为 CMDB 没有更新，未能准确反映系统依赖关系，导致评估结果不准确。
为什么 CMDB 没有及时更新？因为团队之间沟通存在问题，未按照既定流程进行依赖关系映射的更新。

2. 鱼骨图法

鱼骨图，也称为石川图或因果图，是一种可视化工具，用于将潜在问题按类别分组，帮助团队从人员、流程、技术和环境等多个维度识别可能的根本原因。

Zylker 的事件响应小组围绕“订单管理系统中断”创建了如下鱼骨图：

类别潜在原因

人员数字化转型团队与 OMS 维护团队沟通不畅

流程未遵守变更冻结窗口流程

技术过时的 CMDB 导致配置分析失效

环境缺乏完整的依赖关系映射

3. Kepner-Tregoe (KT) 方法

Kepner-Tregoe 方法是一种结构化的问题解决框架，通过一系列逻辑性问题，帮助团队清晰定义问题、分析潜在原因，并制定具体的纠正或预防措施。

以下是如何运用 KT 模型找出根本原因的流程：

定义问题：订单管理系统发生故障，导致公司遭受重大收入损失。

分析潜在原因：基于事故回顾调查所收集的信息以及鱼骨图中的头脑风暴结果，团队识别出多项潜在原因，包括沟通不畅和配置分析不完整等。

制定并测试解决方案：团队随后对每项潜在原因对应的解决方案进行评估与优先排序。包括：构建支持细粒度依赖关系映射的实时 CMDB、更新 CAB 审批流程、优化变更管理流程、设立并执行变更冻结窗口等措施。

通过结合这三种 RCA 方法，Zylker 成功识别了本次故障的根本原因。需要牢记的是，RCA 是事故处理后至关重要的一个环节，它为类似故障的预防与问题管理策略提供了清晰的方向。

结语

对于那些未开展系统化事件回顾的组织而言，IT 团队错失了一次重要机会：他们无法深入反思事件响应过程中的每一步操作，也无法从中洞察可能决定未来事件响应成效的关键因素。

而在确实开展回顾工作的团队中，如果流程设计不当，这项工作很容易沦为“相互指责”的形式主义。要让事件回顾与 RCA 真正发挥其价值，IT 团队必须以客观、中立、建设性的态度对待这项工作——不责怪任何人，而是将事件经验转化为知识资产，帮助组织构建更加具备“复原力”的 IT 服务体系。