《IT 问题管理综合指南》是一个由六部分组成的,旨在帮助读者理解 IT 环境中问题管理的各个方面。
本指南将深入探讨问题管理的各种方法及其背后的流程,并提供示例,帮助你为之后的问题管理之旅做好充分的准备。
什么是 IT 问题管理?

问题是多个事件的原因或潜在原因。问题可能源自影响许多用户的重大事件,或反复发生的事件。此外,还可能是在用户受到影响之前,在基础设施监控系统中识别出问题。
事件会阻碍业务生产力,而提供快速解决方案有助于确保业务运营的连续性不受影响。然而,当多个事件同时发生,或同一事件多次发生时,仅依靠临时的解决方案,或一遍又一遍地提供相同的解决措施,将难以推动业务持续前进。
IT 问题管理是一种程序化的方法,通过深入分析各类事件以查找根本原因并最终的修复方法,同时对现存问题进行适当的文档化并提供解决方法(Workaround),从而减少在 IT 基础设施运行过程中产生的事件数量,并降低这些事件的严重程度。
问题管理是一种系统化的方法,用于识别事件的根本原因并管理所有问题的生命周期。IT 问题管理流程的目标是将事件的影响降到最低并消除重复发生的事件。虽然执行问题管理没有严格固定的规则,但在你的实践中可以遵循以下三个阶段:

问题识别

问题控制

错误控制
将在之后的内容详细讨论这些阶段。
被动问题管理(Reactive problem management)处理的是当前正在影响用户的事件,而主动问题管理(proactive problem management)则是应对那些如果放任不管,未来可能会以事件形式出现的问题。
完善的问题管理流程有潜力大幅减少新产生的事件工单,为IT 服务台人员节省大量时间和精力。这一优势还会带来其他好处,例如缩短平均修复时间(MTTR)、提高客户满意度、打造健全的已知错误数据库,并显著降低 IT 服务和问题的成本。此外,实施主动问题管理的组织,通常能够在问题干扰业务流程之前加以识别和消除,从而避免损失。
作为一种 IT 服务管理(ITSM)实践,问题管理在与整体服务价值链中的其他 ITSM 实践结合使用时,将产生更大的效益。各类 ITSM 实践之间会交换信息,如事件管理、变更管理、IT 资产管理、知识管理以及持续服务改进流程。各方之间交换的信息在流经每个 ITSM 实践时会不断积累价值,进而在企业中构建起一个理想的ITSM 引擎。
在进一步深入之前,以下定义将有助于理解本指南。
- 解决方法(Workaround):用于恢复服务并确保业务连续性的临时解决方案。解决方法可减轻事件或问题带来的影响。
- 根本原因分析(Root cause analysis RCA):根本原因是问题的潜在症结。根本原因分析就是找出问题根本原因的调查技术。
- 已知错误(Known error):以前发生过且有解决方法或已知根本原因的问题。
- 已知错误数据库(Known error database KEDB):通过记录事件管理和问题管理中的已知错误而创建的数据库。
在本指南中,我们将详细探讨问题管理的各个方面,为您提供在企业中实施问题管理所需的全部知识,帮助您快速掌握相关要点。
IT 问题管理有哪些好处?

企业在建立问题管理的过程中可能会遇到一些障碍。组织可能没有资源分配给问题管理团队,或者内容可能已经有了一种非正统的问题管理方式,并且不愿意改变。也可能只是基于成本因素而否决相关申请。
因此,在问题管理过程中纳入所有利益相关者并阐明问题管理如何在不同层面上为组织的提供价值至关重要。这些好处包括:
- 通过简单的文档管理,消除企业服务中可能遇到的缺陷。
- 通过识别和解决薄弱环节来完善服务设计,确保服务交付的路径最有效且高效。
- 通过为故障事件提供永久的彻底的解决方案,而不是停留在临时解决方法上,从而提高服务故障的首次修复率。
- 在遇到影响多个用户或在关键时刻影响单个用户的事件时,减轻所带来的影响。
- 随着应用问题管理,可以预防困扰企业的大多数事件和问题,从而提升用户生产力。
- 增强用户对组织 IT 服务的信心。
- 通过对已知错误数据库(KEDB)的系统性维护,缩短从故障中恢复所需的时间。
- 促进一次性修复重复发生的事件,节省服务台在解决这些事件上投入的宝贵精力。
- 促进从已解决的问题中学习,鼓励 IT 服务随着组织的发展不断成熟。
- 促进深层次的技术认知,帮助组织培养 IT 人才。
踏出问题管理旅程的第一步
IT 问题管理角色与职责

问题管理团队的角色与现有的组织结构直接相关。组织的成立时间、文化、技术水平以及在全球范围内的办公地点数量,都会影响其问题管理团队的构成。对于小型 IT 组织而言,团队的各项职责可能集中在一起;而对于大型跨国公司,这些职责则可能是高度专业化、并且分工明确的。
无论采用哪种方式,IT 团队都需要根据自身情况,从便捷性和灵活性的角度出发设置角色与职责,确保在符合行业标准最佳实践的前提下高效解决问题。了解组织的总体战略是组建团队的前提。此外,还要注意评估企业投入问题管理团队的资源规模及意愿。
随着企业的发展,团队的角色和职责需要不断扩展、细化并成熟,否则在提供服务的过程中可能会出现责任不清的问题。
问题管理团队的角色和职责一般如下。
| 角色 | 职责 |
|---|---|
| 问题经理 | 负责整个实践的有效性和效率,类似于团队负责人。 |
| 问题所有者 | 对分配给他们的任何问题工单的整个生命周期负责。 |
| 问题处理人员 | 对问题工单中所涉及的各项任务负责。 |
| 诊断团队 | 由具有不同专长的人组成,负责对问题进行根本原因分析(RCA)。 |
IT 问题管理流程
就像一个组织为其客户创造价值一样,IT 服务管理通过最佳实践为其用户创造价值,间接帮助组织创造价值。有一个具有明确输入和输出的流程是必要的。个高效的服务台,精简后的问题流程如下所示:
你可以选择适合本组织的工具来落地问题管理流程。所采用的工具应支持 IT 问题管理三个阶段。
这三个阶段是:


问题识别
问题识别阶段应在管理工具中识别并记录问题。一个完善的服务台工具可以将问题管理实践与IT服务管理的其它实践关联起来,包括事件管理、资产管理、配置管理数据库(CMDB)以及变更管理
虽然服务台工作人员通常会根据事件的激增报告问题,但是主动的问题管理方法应该通过以下方式识别问题:
- 通过分析事件趋势,网络监控系统告警,或其他诊断软件的报告。
- 通过分析事件如果再次发生所带来的风险。
- 通过评估合作伙伴和供应商提供的报告。
- 通过评估来自内部研发人员和测试团队的反馈。
根据组织的结构,所在领域和企业文化,可能还会有更多方式来发现问题。建立一个统一的系统就十分重要,识别问题并记录下来,以便进一步调查和诊断。

问题控制
问题管理是一项协作性工作,要取得有效成果,在问题控制阶段应当让多个部门和相关方参与进来。
问题控制包括优先级划分、调查、分析,以及已知错误记录和临时解决方案记录等具体活动。有许多技术有助于问题的优先级排序和分析的方法。一个经验是,先解决那些一旦被解决就能显著减少组织服务中断的问题。
在处理问题时,需要注意解决方案的可行性。要彻底修复一个问题,可能比采用临时解决方法消耗更多的资源。快速的成本效益分析可以帮助你判断是否坚持推进永久修复方案。
临时解决方法会记录在问题工单中。通常,如果一个问题持续时间较长,我们会建议实施一个快速的临时解决方法。这个解决方法可以作为事件管理解决方案的一部分;但是,问题管理团队应审查对应的解决方法,并在必要时将其完善为最终的解决方案。一个有效的事件临时解决方法有时会演变成问题的永久解决方案。

错误控制
此阶段通过定期检查已知错误数据库( KEDB )中的已知错误,来对错误进行管理,分析成本效益后,为已知错误寻找可能的永久性修复方案。
一旦问题被分析,就会被记录为已知错误。这些已知错误会被定期重新评估,以考虑其带来的影响,并检验临时解决方法的有效性。
接下来:
现在您已经清楚了解问题管理在 IT 环境中的作用,接下来我们对比问题管理及其相关的 ITSM 实践。
评估您的事件响应准备情况,开启问题管理之旅
在迈向主动问题管理的旅程中,第零步是在您的 IT 环境中建立健全的事件管理流程。了解我们的母公司 Zoho 如何年复一年地应对各种类型的事件,并评估您在企业层面的事件管理就绪度。
免费下载我们的事件管理手册,以及用于审查问题管理解决方案的最佳实践检查清单。

问题管理功能清单

IT 事件管理手册
常见问题:
1. 问题管理的示例是什么?
2. 问题管理的三个阶段是什么?
在 ITSM 中,问题管理通常遵循三个阶段的流程:
- 问题检测和识别:此阶段包括识别重复发生的事件,并确认潜在的根本问题。这可能涉及分析事件报告中的趋势、用户反馈或其它监控工具。
- 调查和诊断:一旦确认存在问题,团队将进一步深入分析以了解其根本原因。一般包括分析日志、复现问题或咨询技术专家。
- 解决和关闭:最后阶段侧重于实施永久性修复以解决根本原因。这可能包括制定临时解决方案、应用软件补丁或建议进行硬件升级。在修复得到验证且问题不再复现后,即可关闭问题工单。
3. IT 中问题经理的职责是什么?
问题经理的职责是通过识别根本原因并解决重复性故障,确保 IT 服务长期的稳定性和效率。主要包括:1. 分析数据:分析事件数据,识别重复发生的问题或趋势;2. 问题调查:对问题进行深入调查,找到真正的根本原因;3. 跨团队协作:与技术团队密切合作,制定并实施永久性解决方案。避免问题的再次发生。用一句更容易理解的话来说:事件经理负责“快速恢复服务”,而问题经理负责“彻底解决问题”
