适用于 IT 团队的事件回顾与 RCA 模板

在一个忙碌的周一早晨,Zylker 的 IT 团队突然陷入了混乱。事件单大量涌入支持邮箱,电话此起彼伏。公司的关键系统——订单管理平台发生故障。客户账号被锁定,销售流程中断。作为 Zylker 业务运转的核心,订单系统的宕机不仅影响用户体验,还可能导致营收损失甚至客户信任危机。

幸运的是,Zylker 针对重大故障早已制定了一套完整的应急响应计划。在恢复服务后,IT 团队立即决定对该事件进行系统性的事后分析,查找根本原因,并评估如何进一步提升基础架构的稳定性和应变能力。

适用于 IT 团队的事件回顾与 RCA 模板

在展开分析前,先弄清楚什么是“事件回顾”?

事件回顾(Post-Incident Review)是对 IT 故障进行全面审查的过程,涵盖事件的时间线、影响范围,以及为修复问题和防止再次发生所采取的措施。这不是一次“追责”会议,而是一个多部门合作、聚焦问题根源和改进措施的建设性过程。

回顾过程中,相关部门人员需共同梳理事件发生的详细时间线,识别潜在失误,并对事件响应策略的执行效果进行评估,判断是否存在优化空间。

建议在事件解决后尽快启动回顾流程,以便从响应人员和关键利益相关者处获取新鲜、准确的反馈。理想的时间是在事件发生后的一周内开始总结。

事件总结示例

下面是 Zylker 团队如何组织事件回顾的实操示例。

在事件解决后,Zylker 指定 IT 响应团队成员 John Clarke 作为事件总结负责人。他对此次故障有直接的处置经验,因此被选中负责协调回顾流程并整理文档。以下是他为此次事故准备的事件回顾记录。

标题

SEV-1 事件:2024 年 8 月 1 日订单管理系统中断 [INC-14819]

事件开始与结束时间

开始时间:2024 年 8 月 1 日 上午 8:57(GMT)

结束时间:2024 年 8 月 1 日 上午 9:05(GMT)

摘要

2024 年 8 月 1 日上午 8:50,对订单管理系统所依赖的遗留数据库服务器进行了升级操作。此次升级引发了与应用服务器之间的兼容性问题,导致所有终端用户无法访问订单系统。

事件时间线

日期和时间(GMT) 事件说明

2024 年 8 月 1 日 上午 8:50 主数据库服务器从 Microsoft SQL Server 2014 升级至 Microsoft SQL Server 2017。

2024 年 8 月 1 日 上午 9:00 用户开始报告登录失败,客户无法下订单。

2024 年 8 月 1 日 上午 9:04 事件响应小组确认数据库服务器与应用服务器之间的连接中断。

2024 年 8 月 1 日 上午 9:05 启动灾难恢复流程,应用服务器连接至备用数据库服务器。

2024 年 8 月 1 日 上午 9:47 数据库升级被回滚,主数据库服务器恢复与应用服务器的连接。

影响

员工和第三方供应商在事件发生期间无法访问订单管理系统。在 2024 年 8 月 1 日上午 9:00 至 9:05(GMT)期间,客户下单失败,导致共 6713 个订单未成功处理,直接经济损失约为 75.6 万美元。

根本原因分析(RCA)

  1. CMDB 信息过时,导致配置关系分析不完整

  2. 应用依赖关系映射不到位

  3. 变更操作缺乏充分测试

  4. 未遵守变更冻结窗口规定

  5. 数字化转型团队与订单管理系统维护团队之间存在沟通断层

解决方案

订单管理系统应用服务器被切换至备用数据库,随后对主数据库服务器的升级进行回滚,系统恢复正常运行。

经验教训

若 CMDB 保持更新、包含完整依赖关系映射,可有效避免此次事故

数据库管理员(本次事件中相关责任人)应参与变更咨询委员会(CAB)会议

今后将由 CI 所有者与服务管理员共同审查所有变更请求,并成为 CAB 固定成员

原有的变更测试和冻结窗口建议未得到有效执行。未来将严格执行该流程,除紧急变更外,其余变更请求需遵守审核机制

纠正与预防措施

启动 CMDB 全面重构工作,系统将迁移至 ServiceDesk Plus 平台

明确指定 CI 所有者与业务服务负责人作为 CAB 的正式审批人

在电商大促等高峰期期间,严格执行变更冻结政策

全公司范围的基础设施升级计划已正式立项,并将分阶段推进实施

什么是根本原因分析(RCA)?

在事故调查过程中,最关键的步骤之一就是根本原因分析(Root Cause Analysis,简称 RCA)。

RCA 是一种系统化的方法,旨在找出引发事件的根本原因。团队会收集所有相关信息,例如事件日志、服务器配置等,并通过分析确定导致问题的核心因素。通过这一过程,组织能够从事件中吸取经验教训,从源头上防止类似问题再次发生。

RCA 分析方法类型

以下是 Zylker 在执行根本原因分析时采用的几种常见方法:

1. 五个为什么法

“五个为什么”是一种逐层追问“为什么?”以挖掘问题本质的分析工具。通常经过五轮提问,就能触及根本原因。

以 Zylker 的案例为例,IT 团队的分析过程如下:

  1. 为什么客户无法下订单?因为订单管理系统无法使用。

  2. 为什么订单管理系统无法使用?因为数据库服务器与应用服务器之间断开了连接。

  3. 为什么两者会断开连接? Microsoft SQL Server 与现有应用代码库不兼容。

  4. 为什么在未充分评估的情况下进行了数据库升级?因为 CMDB 没有更新,未能准确反映系统依赖关系,导致评估结果不准确。

  5. 为什么 CMDB 没有及时更新?因为团队之间沟通存在问题,未按照既定流程进行依赖关系映射的更新。

2. 鱼骨图法

鱼骨图,也称为石川图或因果图,是一种可视化工具,用于将潜在问题按类别分组,帮助团队从人员、流程、技术和环境等多个维度识别可能的根本原因。

Zylker 的事件响应小组围绕“订单管理系统中断”创建了如下鱼骨图:

类别 潜在原因

人员 数字化转型团队与 OMS 维护团队沟通不畅

流程 未遵守变更冻结窗口流程

技术 过时的 CMDB 导致配置分析失效

环境 缺乏完整的依赖关系映射

3. Kepner-Tregoe (KT) 方法

Kepner-Tregoe 方法是一种结构化的问题解决框架,通过一系列逻辑性问题,帮助团队清晰定义问题、分析潜在原因,并制定具体的纠正或预防措施。

以下是如何运用 KT 模型找出根本原因的流程:

定义问题:订单管理系统发生故障,导致公司遭受重大收入损失。

分析潜在原因:基于事故回顾调查所收集的信息以及鱼骨图中的头脑风暴结果,团队识别出多项潜在原因,包括沟通不畅和配置分析不完整等。

制定并测试解决方案:团队随后对每项潜在原因对应的解决方案进行评估与优先排序。包括:构建支持细粒度依赖关系映射的实时 CMDB、更新 CAB 审批流程、优化变更管理流程、设立并执行变更冻结窗口等措施。

通过结合这三种 RCA 方法,Zylker 成功识别了本次故障的根本原因。需要牢记的是,RCA 是事故处理后至关重要的一个环节,它为类似故障的预防与问题管理策略提供了清晰的方向。

结语

对于那些未开展系统化事件回顾的组织而言,IT 团队错失了一次重要机会:他们无法深入反思事件响应过程中的每一步操作,也无法从中洞察可能决定未来事件响应成效的关键因素。

而在确实开展回顾工作的团队中,如果流程设计不当,这项工作很容易沦为“相互指责”的形式主义。要让事件回顾与 RCA 真正发挥其价值,IT 团队必须以客观、中立、建设性的态度对待这项工作——不责怪任何人,而是将事件经验转化为知识资产,帮助组织构建更加具备“复原力”的 IT 服务体系。