重大事件管理:概述

事件管理

周一早上,你的服务台一切正常。突然,你得到一个重要服务关闭的警报,在接下来的15分钟内得到大量报道同一问题的工单。可能是你的网站崩溃了您的销售点软件已经停止工作,或是其他有更大影响的事情,如股票交易所倒闭或飞机停飞。您的业务受到IT问题的严重影响,导致收入和/或声誉损失时,这就是重大事件。

你对重大事件的反应如何,将会在最大限度地减少事故影响和恢复服务方面发挥了重要作用。就像他们说的,时间就是金钱,在这种情况下,就是这样再正确不过了。如果您的组织有重大事件管理(MIM)流程,您可以快速响应和解决重大事件。如果没有,是时候制定一个应急响应计划了,也称为重大事件响应流程。

重大事件的风险比以往任何时候都高。根据信息技术情报咨询公司的一项研究,98%的组织因停机一小时而损失至少10万美元。这加强了建立MIM流程的重要性,该流程能够有效、高效地处理重大事件。

每个组织的目标都是消除重大事件,但底线就是重大事件事件是不可能完全预防的,你唯一能做的就是做好准备。

在本指南中,我们将看看如何建立一个有效的MIM过程,可能影响组织MIM的常见错误,以及改进MIM过程的最佳实践。

但首先,是什么让一个事件成为一个大事件?

什么是重大事件?

IT事件管理

重大事件是一个影响很大的紧急问题,通常会影响整个组织或其主要部分。重大事件几乎总是导致组织的服务变得不可用,这导致组织的业务受到打击,并最终影响其财务状况。一个大事件可以通过两种方式影响一个人组织的服务:

  • 通过阻止客户访问组织的服务。Cloudflare的2019年7月的停机就是客户受到重大事件影响的一个例子。这大停电几乎影响了一半的互联网,并导致数百万互联网用户无法上网访问各种服务。
  • 通过干扰员工按时完成工作的能力,导致业务中断。IndiGo在2019年11月的停机影响了该航空公司的登机手续办理导致了长时间的延误,影响了数千名乘客。

一个准备充分的服务台可以评估重大事件,并提出解决方案,以减少和控制重大事件的影响。

重大事件的四个阶段

重大事件可分为四个阶段,即:

重大事件管理

重大事件管理流程

对于组织来说,MIM过程是必须的,因为它帮助组织最小化业务重大事件的影响。MIM过程主要包括以下步骤:

阶段1:识别

重大事件管理流程

阶段1:识别

宣布重大事件:

第一步是确定可能发生的重大事件。对于组织来说,建立多种识别威胁的方法是很重要的。技术人员在遇到异常工单时可以标记重大事件,也可以通过网络监控工具等检测重大事件,这些解决方案可以自动标记网络问题并创建工单以提醒服务台。此外,还可以为服务台人员设立一条专用热线,以标记疑似重大事件。

通知利益相关者:

一旦确定了重大事件,就需要传达给所有关键利益相关者。有四个主要群体需要了解重大事件:

  • 技术团队:重要的是要立即通知技术团队开始决定解决问题的行动方案。
  • 管理:保持高层管理人员,如CIO,了解专业事件有助于问责。组织也应该保持管理获悉为解决重大事件所采取的所有步骤。
  • 关键利益相关者:部门主管及服务水平的业务管理工作人员还需要了解重大事件并定期收到最新情况。
  • 使用者:用户需要知道哪些服务可能由于某个主要原因而不可用事件。

阶段2:控制

宣布重大事件

阶段2:控制

组建重大事件小组

重大事故小组,简称MIT,由技术人员、服务级别管理负责人和其他关键利益相关者组成;有时,高技能的外部人员会被请来处理重大事件。重大事件小组共同努力,为重大事故找到解决方案,并使运营恢复正常。

搭建会议桥梁

会议桥,通常称为电话会议,有助于进行有效的故障排除和集中通信。它是MIT成员之间清晰、快速的沟通渠道。

准备一个指定的作战室

有一个指定的作战室可以让MIT的所有成员聚集在一起解决事件。这增加了协作努力,以更快地提出解决方案。

创建问题工单以识别潜在问题

可以创建问题工单来发现和了解重大事件的根本原因。通过解决重大事件的原因来帮助防止未来发生类似的重大事件。

第3阶段:解决

解决重大事件

第3阶段:解决

将解决方案作为变更来执行

将重大事件的修复作为变更来实施是一种良好的做法,以确保解决方案得到适当的记录和实施。将解决方案作为变更来实施,可以最大限度地降低因解决方案失败而中断其他服务的风险。

阶段4:维护

维护重大事件

阶段4:维护

执行实施后审查

重要的是要在一段时间内对事件进行评估,以确保它是真实的解决。如果根本问题得不到解决,可能会导致另一起重大事件。

记录清晰的文档

记录解决重大事件的整个过程有助于组织为未来类似事件做好准备。有了对过去事件的适当记录,当面临另一个类似的重大事件时,组织可以立即实施久经考验的解决方案,从而减少其影响。

测量指标

衡量服务台的性能有助于衡量服务台和MIM流程的有效性。要衡量的一些重要指标有:平均确认时间(MTTA)、平均解决时间(MTTR)、重大事件总数和重大事件的平均停机时间。

实现有效的重大事件管理

IT重大事件管理流程图

IT重大事件管理流程图

主要的事件管理角色和职责

主要的事件管理角色和职责

大事件需要专门的人员来处理和解决。MIM角色包括:

服务台工作人员

服务台技术人员是防范重大事件的第一道防线。他们分析事件工单,并将其上报给事件经理。服务台技术人员也参与决议的执行。

重大事件经理

重大事件经理是重大事件的所有者。他们的职责包括宣布该事件为重大事件,并确保遵守MIM流程并尽早解决该事件。他们充当有关重大事件的任何信息的主要联络点,并管理MIT。

MIT

MITT是一个专门的团队,负责分析重大事件并制定应对威胁的行动计划。MITT最好由服务台技术人员、服务级别管理人员、技术人员、其他相关利益相关者以及外部顾问组成(如果情况需要)。

技术人员

负责维护基础设施和操作的专业人员,包括系统管理员、网络管理员和信息安全人员,这些人员构成了组织的技术人员。技术人员帮助解决重大事件,并主要负责实施重大事件解决方案。

变更经理

变更经理是为实现重大事件的回复而创建的变更的所有者。变更经理拥有变更工单的全部所有权,并对此负责。

问题经理

如果为了响应重大事件而创建了一个问题工单,那么问题经理拥有问题工单。问题经理需要尝试确定事件的根本原因,并确保它不会再次发生,或是为下一次发生的事件做好准备。

外部顾问或第三方供应商

在某些情况下,重大事件需要高度专业化的人员来帮助理解和排除事故。重大事件经理确定所需人员,并将他们添加到MIT,以帮助减少重大事件的影响。

RACI矩阵

RACI矩阵定义了流程中各个利益相关者的责任。下表定义了MIM过程中主要事故利益相关者的角色和责任。

过程/角色 服务台工作人员 重大事件经理 MIT 技术人员 变更经理 问题经理 外聘顾问
鉴定
宣布重大事件 C A R C I I I
通知利益相关者 C A R I I I I
控制
组合的MIT I R/A C C I C I
搭建会议桥梁 I A R C I C I
准备一个指定的作战室 I A R I I C I
创建问题工单以识别潜在问题 I A R C I I I
解决
将解决方案作为变更来执行 I I I R A C C
维护
执行实现后检查 I C I R A C I
产生清晰的文档 C A R C C C C
测量指标 I A R I I I C

* R - 负责,A -负责,C - 咨询, I - 知情

重大事件管理中常见的5个错误

重大事件管理中常见的5个错误

以下是阻碍MIM进程的5个常见错误:

  1. 手动通信和升级

    到目前为止,MIM面临的最大挑战是沟通。在发生重大事件时,需要告知各利益相关者事件的状态、严重程度,以及采取了哪些故障排除措施来解决问题。人工交流这些信息是一项艰巨的任务,可能会导致沟通不一致,使情况变得更糟。通过自动化流程,关键利益相关者在整个工单生命周期内都会得到通知,重大事件经理可以将全部注意力集中在解决问题上。

  2. 没有专门报告重大事件的渠道

    每个服务台每天都会收到几十张甚至数百张工单,从笔记本电脑到各种各样的服务请求的问题;在这堆积如山的工单中,可能有一些是潜在的重大事件。没有建立单独的渠道来报告重大事件,会延迟重大事件的识别。

  3. 重复工作

    未能以有组织的方式委派任务可能会导致MIT内部的工作重复。重要的是分配任务,并让MIT了解每个成员的任务。

  4. 文件不完整

    缺乏适当的文件将迫使MITT在每次发生类似的重大事件时重新设wheel文件,导致重大事件的解决延迟,并导致不必要的停机时间。

  5. 未能分析根本原因

    与事件管理类似,MIM在范围上可能是短视的,因为它的主要重点是解决问题,并在尽可能短的时间内启动和运行服务。如果不结合问题管理来识别潜在问题,重大事件的根本原因将继续使组织容易受到重大事件的影响。

5大事件管理最佳实践

5大事件管理最佳实践

下面是处理MIM过程的最佳方法

  1. 启用多个渠道报告重大事件

    在处理重大事件时,时间至关重要。组织在发现重大事件后立即识别和分类至关重要。为用户提供多种报告事件的方法将使整个过程更快、更容易访问。您可以通过电子邮件或门户网站创建工单,甚至可以设立专门的热线来报告可疑的重大事件。设置网络监控软件来检测异常情况可以帮助您主动处理重大事件。

  2. 自动化服务台流程

    速度和效率在控制重大事件的影响方面发挥着至关重要的作用,而自动化各种服务台流程有助于将技术人员从通知利益相关者等重复任务中解放出来,从而实现这一目标。自动化通知系统和设置重大事件工作流是自动化服务台流程的好方法,可以缩短解决时间。

  3. 争取及时、相关的沟通

    重要的是要让组织的管理层和重要的利益相关者了解每一个重大事件。让管理层了解情况将有助于获得修复重大事件所需的必要批准和权限。及时沟通确保所有重大事件人员都知晓,并允许顺利、有效的协作;它还让最终用户随时了解任何可能的停机时间,以便他们做好准备。

  4. 创建清晰的文档

    清晰的文档有助于重大事件经理记录为修复重大事件所做的所有工作、其影响、受影响的服务以及有关重大事件的其他关键信息。此文档对于向管理层展示MIM流程的好处(包括投资回报率)非常重要。清晰的文档也将有助于处理未来任何类似的重大事件。

  5. 利用与ITOM软件的深度集成

    与ITOM软件的强大集成使IT部门能够主动处理重大事件。反应式重大事件识别依赖于大量工单来出重大事件正在进行的危险信号。另一方面,利用ITOM集成的主动MIM流程具有适当的系统来监控网络和服务,并可以自动标记可能是潜在重大事件的异常。

了解如何设置您自己的最佳实践重大事故管理流程

主要事件管理指标和KPI

当谈到MIM时,下面是一些需要跟踪的重要指标和KPI。

KPI 公式 注释
平均解决时间(MTTR) 从报告重大事件到解决重大事件的平均时间。 这表明你的服务台解决重大事件的速度有多快。较短的MTTR表示您的MIT是有效和高效的。
平均确认时间(MTTA) 对重大事件作出响应的平均时间。 一个较短的MTTA是一个标志,表明你的服务台对重大事件反应迅速。
平均无故障时间(MTBF) 平均无故障时间,它是总正常运行时间除以故障总数来计算的。 这表明您的IT基础设施的性能。较高的MTBF表明您的IT基础设施运行良好。
平均检测时间(MTTD) 检测重大事件或异常情况所花费的平均时间。 这是衡量识别重大事件的速度。较小的MTTD是服务台能够快速发现重大事件的标志。
重大事故的增加或减少百分比 与第一个月相比,随后几个月的问题增加百分比。 这有助于您确定重大事件发生的趋势。

重大事件的场景

重大事件的场景

重要的是要记住,并非所有高优先级事件都是重大事件。由MIM过程涉及相当大的资源投入,如实施单独的MIT,因此仔细分类重大事件很重要。

2019年Cloudflare中断是定义重大事件的一个非常好的例子。在这个案例中,更新web应用程序防火墙(WAF)的托管规则的标准操作过程使Cloudflare网络中服务器上专门用于服务HTTP/HTTPS流量的CPU的使用率飙升至近100%。随后的宕机导致Cloudflare流量减少80%,影响了全球数百万互联网用户。

影响:大

这次宕机导致Cloudflare客户(及其客户)在访问任何Cloudflare域时看到502错误页面。502个错误是由前端Cloudflare web服务器生成的,这些服务器仍然有可用的CPU核心,但无法访问提供HTTP/HTTPS流量的进程。据估计,在27分钟的停机时间里,至少有一半的互联网无法访问。

紧急:高

所有Cloudflare网站都无法访问,导致数千个组织和数百万用户的服务中断。停电也影响了Cloudflare的内部运营,使Cloudflare员工无法访问公司的变更管理工具和内部控制面板等各种服务。为了恢复正常的服务运行,必须对停机进行处理。

事件从检测到解决的时间线:

WAF管理的规则于13:42实施;三分钟后,Cloudflare的网络运营工具开始标记流量下降,许多其他Cloudflare服务的端到端测试开始失败,最终用户注意到各种502错误,Cloudflar在全球城市的运营点收到了许多CPU耗尽的报告。

现场可靠性工程团队、伦敦工程团队和其他相关团队被召集在一起进行故障排除并提出解决方案。14时,WAF被确认为事件原因。14时07分,实施了全球WAF消杀,通信水平恢复正常。

到14:52,Cloudflare对其了解停机原因并制定了解决方案感到100%满意,因此WAF在全球范围内重新启用。

Glossary

Major Incident Management metrics & KPIs

变更

添加、修改或删除任何可能对服务产生直接或间接影响的内容。

变更管理

以最小的中断和冲突完成变更的过程。

升级

基于功能或层次需求转移工单所有权的行为。

事件

对服务或资产的管理有重要意义的事件。

故障

服务或资产不按照约定的SLA运行的情况。

升级

将所有权垂直转移给上级服务台技术人员或相关部门的行为。

影响

对事件严重性的衡量。

事件

IT服务的意外中断,或IT服务质量的降低。配置项的故障,即使尚未影响服务,也是一种事件(例如,镜像集中的一个磁盘发生故障)。

事件管理

管理所有事件的生命周期的过程,以尽可能快地恢复正常的服务操作并将业务影响降到最低。

事件优先级

为事件分配优先级,并定义什么是重大事件。

重大事件

具有高度影响和高度紧急性的事件,需要与事件管理分开的流程。

重大事件经理

负责MIT和MIM流程实施的人员。

平均确认时间(MTTA))

衡量服务台确认事件的速度。

平均检测时间(MTTD)

检测服务或配置项的潜在威胁的速度

平均故障间隔时间(MTBF)

对服务或资产失败频率的度量。

平均修复/解决/响应/恢复时间(MTTR)

对服务在故障后恢复的速度的度量。

正常的服务操作

遵循服务级别协议(SLA)的服务操作。

问题

一个或多个事件的原因或潜在原因。

RACI矩阵

它定义了跨功能或部门项目和流程中的角色和职责。

服务台

服务提供者和组织用户之间的通信点。

服务台经理

监督服务台的日常工作并对其表现负责的人。

服务水平目标

它定义了服务提供商的目标,是衡量其绩效的一种手段。

SLA

服务提供者和客户之间关于预期服务水平和预期交付时间的协议。

紧急度

衡量事件解决速度的指标。

探索ITSM能真正为你的业务运作提供动力的不同方式。

现在您已经了解了重大事件以及如何设置MIM过程,同样重要的是要实施一个可靠的事件管理过程来装备您的组织的服务台处理正常和重大事件。下载你的免费副本我们的事件管理手册和我们的其他ITSM资源。

  • Major incident kpi

    事件管理手册

  • ITSM major incident management

    为更聪明的it管理而写的书

  • major incident procedure ITIL

    IT英雄的手册