8个衡量IT help desk效果的
KPI和指标

最近更新时间:2018年1月13日

 
ITSM最佳实践 | 白皮书 | 视频 | 用户案例 | 管理员指南 | 用户指南 | 演示 | 询价 | IT服务台解决方案
ServiceDesk Plus功能IT服务台8个衡量IT help desk效果的KPI和指标

每个IT服务台都需要知道的8个关键绩效指标(KPI)

随着IT服务台软件报告功能的发展,现在可以测量和监控的帮助台KPI和指标多达数百个。但是,应该衡量什么?怎么才能确切地衡量?

不是所有的帮助台指标都需要衡量,您应该衡量对您IT帮助台至关重要的指标,并改进提供的服务。

本文描述了对每个IT服务台至关重要的8个KPI。这些KPI有助于实现基本的IT服务台目标,如业务连续性、组织生产力以及按时在预算内提供服务。关键绩效指标如下:

确保业务连续性

使企业组织更高效

确保业务连续性

1. 服务中断损失

由于IT帮助台不可用而导致业务中断的小时数。

目标

尽量把服务中断损失降到最低限度。

大部分IT团队通过跟踪服务可用性,来查看IT帮助台的总体性能。但服务中断损失并不总是反映在服务可用性级别上,即使这些级别很高。例如,如果服务可用性为99.9%,公司每年仍然会有8小时以上的服务中断损失。追踪服务中断损失可以突出损失及其对业务的影响。

案例:Virgin Blue 停飞故障

2010年9月,Virgin Blue遇到了对于航空公司来说噩梦般的情况。大约5万名顾客100个航班停飞。由于托管Virgin Blue应用程序的固态磁盘服务器基础设施出现故障,在接下来的几天里,又有400多个航班被推迟或重新安排。这影响了Virgin Blue的在线登记和预订系统。

尽管SLA要求立即恢复服务,但恢复服务需要11个小时,而完全恢复操作则需要10个小时。因为,试图修复一个有故障的设备,延迟了切换到应急硬件平台的时间。到那时,已经造成了破坏。尽管这11个小时在Virgin Blue的服务可用性方面花费不多,但业务损失方面,Virgin Blue损失了约1000万美元。

行业标准 - 服务中断损失

  Best in class Average Laggard
指标 (n-208) 较好的 平均的 较差的
过去12个月内的停机次数 0.56 2.26 3.92
过去12个月内每次平均停机时间 0.16 小时 1.49 小时 17.82 小时
最长停机时间 0.21 小时 4.78 小时 43.71 小时
关键应用程序可用性 99.90% 99.62% 99.58%
从上次停机事件中恢复的时间 1.13 小时 5.18 小时 27.11 小时

减少服务中断损失的技巧

  • 正确规划和执行应用程序升级、服务器迁移和任何IT变更实施过程
  • 有一个简洁且定义良好的CMDB来识别重要的故障点,并了解网络中的CI交互,以识别变更失败带来的级联影响
  • 加强IT团队在营业时间和收入方面违反SLA的风险教育
  • 通过评估IT帮助台过去的表现,深入了解如何预测和处理停机。

也就是说,很多因素都会对服务中断损失产生负面影响。在2010年Gartner就表示,“影响关键业务服务的停机中,80%由人员和流程问题造成,而超过50%的停机由更改/配置/发布集成以及移交问题造成。”

2. 变更成功率

给定时间内,成功变更的数量与变更总数的比率。

目标

实现更高比例的成功变更实施。

对于失败的变更意味着什么,人们仍然存在分歧。它基本上是指变更没有达到目标或没有按计划进行。

案例:澳大利亚证券交易所(ASX)停机

2011年10月27日,澳大利亚证券交易所(ASX)的交易因未能实施变更而被迫暂停4小时。ASX内部网络的升级(为了改善交易平台的延迟)导致交易系统的支持组件和传播网关出现了前所未有的连接问题。ASX不得不从他们的一个灾难恢复站点启动交易服务。最后,为了恢复正常,这一变更不得不在当晚撤销。

变更成功率无法达到预期标准通常是由于以下原因导致的变更实施失败:

  • 缺少相关信息,如变更的影响、所涉及资产的依赖性、变更实现窗口和业务优先级。
  • 无法在团队之间协作以成功实施变更。
  • 与变更实施的用户和相关人员沟通不当。

提高变更成功率的技巧

  • 执行适当的影响分析和详细的实施计划,并列出要完成的任务的检查清单。
  • 在实施之前,从用户和技术人员那里收集所有相关信息。
  • 组建CAB并确保严格的审批流程。

计划外的变更

为实现有效的变更管理过程,另一个应该跟踪的帮助台指标是计划外变更的数量。计划外变更一般为紧急变更。

  • 紧急变更: 由于事件而导致的服务中断的恢复操作,或需要快速实施以避免事件产生持续影响的变更。
  • 此外 还有包括一些硬性需求(如法律要求或业务需要)而需要快速实现的变更。

尽管,对于IT基础架构中允许的计划外变更数量没有行业标准或确切的数字,但此报告指标非常重要,特别是在计划外变更数量不断增加的情况下。

计划外变更的增加趋势

计划外变更数量的增加趋势表明对变更的规划不足,是对变更管理过程的效率提出的质疑。因此,必须改进变更管理流程,以确保变更的正确规划和执行。

计划外变更增加趋势

Help Desk 8 个核心衡量指标和KPI-ManageEngine ServiceDesk Plus

计划外变更中的不连续峰值

计划外变更数量的突然增加可能是由于意外的重大事件,这就需要紧急改变以恢复服务。这种情况可能是由于基础设施不稳定造成的,这可能会影响服务可用性,并最终影响业务。

计划外变更的不连续峰值

A discrete spike in unplanned changes

3. 基础设施稳定性

高度稳定的基础设施具备很高的可用性和较少的服务中断。

目标

保持基础设施的高度稳定。

为了有效衡量和监控基础设施的稳定性,IT服务台需要监控以下内容:

  • 问题资产数量减少的百分比。
  • 重大事故数量减少的百分比。

基础设施稳定性

IT infrastructure stability

问题资产数量减少的百分比

如果一个基础设施,路由器每天必须重新启动多次、服务器经常停机或工作站时不时重新启动,那么这样的基础设施无法提供高度的可用性和更好的服务。因此,要查明并更换这些有问题的资产,以确保业务的连续性。

有问题的资产可能会反复导致服务中断,并且处于报告的目的,这些资产可能有多起与之相关的事件。问题资产数量减少的百分比可使用以下公式计算:

在有限时间内问题资产更换的数量。

 

在时间框架开始时确定的问题资产数量

重大事故数量减少百分比

稳定性的另一个主要表现是IT基础设施上的重大事件再次发生,这可能导致服务中断或服务级别下降。重大事件,顾名思义,是一个影响很大、紧急程度很高的事件,它会影响到大量用户,使企业失去一两项关键服务。

我们的目标是减少重大事件的数量,这可以通过高效和减少问题积压来实现。确定根本原因和解决问题可以减少重大事件的重复发生,并随后减少向IT帮助台提交的问题数量。

减少积压问题(从而减少重大事故)的技巧

  • 更快地启动根本原因分析(RCA):在这种情况下,越快越好。RCA越早开始,找出根本原因的机会就越大。
  • 快速完成调查: 如果能够更快地确定根本原因,IT团队就可以更快地修复和解决问题,确保事件不会再次发生。

团队还可以评估这些行动项目,详细说明问题识别后启动根本原因分析所需的时间,以及完成根本原因分析所需的时间。

案例分析:减少重大事件有助于提高IT稳定性

世界领先的金融机构之一能够通过减少重大事故来改善其稳定性。事故数量的减少是通过改进根本原因分析过程实现的。

减少重大事件有助于提高IT稳定性

Reducing major incidents helps improve IT stability

大量问题积压的主要原因可能是:

  • 延迟和长时间等待的RCA。
  • RCA质量不一致,缺乏适当的文件。
  • 未能有效地向利益相关者传达调查过程。

如果不查明和纠正根本原因,重大事件再次发生的可能性相当大。不过,值得庆幸的是,问题积压可以通过以下方式减少:

  • 有一个专门的问题管理团队,由问题管理员和问题经理组成。
  • 确定和培训主题专家。
  • 培训问题管理团队掌握基本和先进的根本原因分析技术。

处理这两个简单的ITIL服务台指标(问题资产数量减少的百分比和重大事故数量减少的百分比)可以帮助您维护高度稳定的IT基础架构。

4. 工单数量趋势

在指定时间内,IT服务台处理的故障单总数及其模式。

目标

优化事件和服务请求的数量,为IT团队为处理工单做好准备。

如何对待工单数量趋势?

  • 确定高峰和低谷以优化资源管理和技术员工作量。
  • 创建更好的人员配置模型。
  • 为IT服务台团队定制培训课程。
  • 分析服务请求模式,并提前计划资产和许可证的购买。
  • 验证任何其他资源需求。

IT服务台在工单数量方面应注意一些趋势,例如:

离散峰值

工单数量趋势中的离散峰值

Number of tickets handled

工单数量突然上升的原因可能是:

  1. a. 业务活动高峰期
  2. b. IT部署导致:
    • i. 服务中断和不可用
    • ii. 常见问题出现
  3. c. IT服务中断
  4. d. 假期后密码重置工单

案例:秋季入学导致大学里工单飙升

下图表示美国一所大学的IT服务台处理的工单数量。该图清楚地表明2012年9月和2013年9月的工单高峰。这是由于秋季入学的学生人数增加。因此,IT团队确保将这个额外的负载平均分配给整个团队,并且每个成员都需要加班来处理这些突发事件。

美国大学的工单数量

Ticket volume at an American university

逐步上升的趋势

工单数量持续上升趋势

Ticket volume trends

上升趋势可能是由于以下原因:

企业组织规模扩大

随着业务的增长,IT服务台必须支持更多的用户,这通常会导致工单量的增加。可以根据业务的增长,通过有效的人员配备计划来解决工单数量逐渐增加的情况。此外,可以将用户细分到部门和用户组,来更有效地处理工单。

支持更多业务职能

随着IT开始支持更多业务功能,故障单数量(事件和服务请求)都在增加。此类情况可以通过了解用户的要求和期望,和配备IT服务台团队,来解决工单数量的提升。

基础设施稳定性下降

随着IT网络中有问题和过时资产数量的增加,工单的数量也必将增加。此类情况可以通过将事件和问题与资产相关联,帮助IT团队决定撤回资产,升级资产等来解决。

5. 首次呼叫解决率

由第一级支持解决的事件百分比(首次致电或与IT服务台联系)。

目标

具有较高的首次呼叫解决率。

一项客户关系指标的研究证实,较高的首次呼叫解决率通常与较高的客户满意度相关。此外,服务质量衡量小组进行的一项研究还表明,首次呼叫解决每提高1%,客户或用户的满意度就会提高1%。

首次呼叫解决还与每个工单的成本有关。下图表示每个级别的每个工单成本。

各种支持级别的工单平均成本

First call resolution rate (FCRR)

有时,即使没有准确的解决方案,IT服务台技术人员也会在第一次通话时急于关闭故障单。如下图所示,这种情况可能会导致首次呼叫解决率上升,而用户满意度会急剧下降。

首次通话解决率VS用户满意度

First call resolution rate Vs End user satisfaction

首次通话解决率的技巧

以下是简单的三阶段技术,可让IT服务台团队在第一通电话中解决故障单。

阶段1:了解环境

  1. 收集特定环境的知识
  2. 使用采集到的知识,在知识库中创建相关文章。
  3. 生成有关IT服务台性能的定期状态报告,其中包括经验教训,成就和克服的问题。
  4. 邀请专家评估绩效。
  5. 创建一份操作手册,明确概述支持流程,集中关键环境信息,并明确定义复杂的工单解决程序。

阶段2:微调

生成报告以确定第一阶段的工作已经展开,并确定需要改进的地方。以下是一些示例报告的指标,可帮助您。

  • 每个技术人员接听电话的百分比。
  • 每个业务代表,每小时接听的电话数。
  • 平均通话时间,按技术代表区分。
  • 我们没有关闭的工单,被转移到了哪里?
  • 在这些转换的目的中,谁收到最多工单?

阶段3:优化

建立明确定义的流程,以不断提高首次呼叫解决率。

此技术不仅可以帮助您提高首次呼叫解决率,而且还可以确保工单得到正确解决,而不仅仅是关闭而已。

另一个可能的趋势是首次呼叫解决率不断降低,如下图所示。

不断降低首次呼叫解决率

Degrading first call resolution rate

发生这种情况的原因有很多,但主要的原因如下:

  • 缺少请求者和系统信息。
  • 技术人员能力差。
  • 知识传播和共享不良。

根据MetricNet的基准测试水平,全球服务台的首次呼叫解决率范围在41%到74%之间,最高值为74%。这之中,取得高首次呼叫解决率服务的最普遍因素是:支持代理的训练有素,知识管理工具的可用性,工具(例如:远程桌面管理等工具)的使用。

改进首次呼叫解决率的技巧:

  • 向技术人员传达首次呼叫解决率的重要性。
  • 为一级技术人员制定特定的主题培训计划,以帮助更快地解决故障单。
  • 维护一个专门供技术人员使用的高级技术解决方案和文章的知识库。
  • 创建自定义表单,以便于在创建工单时收集所有相关信息,避免周转时间延迟。
  • 根据工单参数自动将工单分配到合适的技术人员或组。

6. SLA合规率

在商定的SLA时间内事件解决的百分比。

目标

保持最大的SLA合规率。

跟踪SLA合规性级别有助于IT服务台:

  • 确定服务水平是真实且可遵从的。
  • 根据与用户达成的服务水平协议,检查IT服务台的性能
  • 确定IT服务台的改进之处,优势和劣势。

有时,仅仅是为了避免违反SLA, IT服务台技术人员会在没有适当解决方案的情况下关闭故障单。发生这种情况时,尽管SLA合规率很高,但是用户满意度肯定会降低,如下图所示。

SLA compliance rate levels

SLA合规率VS用户满意度

出于其他原因,SLA遵从性级别可能会下降,以下可能性很重要,请记住:

  • • 您的团队可能不了解业务需求,这可能导致服务水平协议无法满足业务需求,或者对工单的分类和优先级划分不当,从而导致违反SLA。
  • • 关于中断影响关键任务服务及其业务影响的风险,常常缺乏适当的沟通。

在这种情况下,IT服务台团队必须了解业务需求,并适当地重新定义其SLA。

案例:虽然满足SLA但业务还是受到了影响

SLA和SLA合规性对于确保业务连续性至关重要。对于一家水泥制造公司而言,设置合适的 SLA相当重要。IT服务台未能及时响应卡车调度的问题,但是仍能够在其设定的SLA所规定的范围内,解决问题。

然而对于制造的水泥而言,需要在一个小时内运送至施工现场,否则就会因硬化问题,影响施工品质,甚至公司业务。但服务台对此一无所知,尽管有SLA的设置,但其可能并未实际考虑到业务的需求因素,从而对公司业务产生负面响应。

SLA合规率呈下降趋势

另一个值得关注的惊人趋势是SLA合规率不断降低。

SLA compliance rate

这种下降趋势可能是出于以下原因:

  • 不切实际的服务水平协议。
  • 缺乏对SLA的了解以及违反SLA的风险。
  • 缺乏适当的监控和主动上报。
  • 缺乏技术人员的专业知识。
  • 未分配的工单以及延迟和错误的工单分配。

可以通过以下方式将SLA合规率保持在较高水平:

  • 根据业务需求和IT功能设置切合实际的SLA。
  • 向业务和技术人员传达SLA和违反SLA的风险。
  • 设置必要的升级规则。
  • 自动化分配故障单的过程。
  • 培训技术人员。

7. 工单平均成本

工单平均成本是指:IT支持每月总运营成本除以工单数量。

目标

保持每张工单的成本在最低水平。

根据MetricNet,以下是2014年每张工单的基准成本。

行业标准-高密度环境下的每张工单成本

Cost per ticket high density environment

行业标准-中密度环境下的每张工单成本

Cost per ticket medium density environment

从这两种情况中可以看出,服务请求的成本通常高于事件的成本。这是因为事件通常比服务请求花费的时间更少。因此,每张工单的成本在很大程度上受事件和服务请求的混合影响。

在大多数企业组织中,IT支持被视为成本中心,并且在财务低迷期间,IT支持往往首先被削减预算。但即便是这样,IT支持也必须保持高效。每个工单的成本是一项关键的服务台性能指标,可帮助IT支持人员分析其在给定预算内处理工单的效率。目标始终是保持每个工单的最佳成本水平。

请记住,每个工单的平均成本高于平均水平未必是一件坏事,而低于每个工单的平均成本也未必总是好事,如下图所示。

End user satisfaction rate Vs Cost per ticket

该图中描绘的场景可能意味着IT服务台团队正在折衷服务质量以降低每个工单的成本,这通常会导致客户满意度降低。

工单成本与用户满意度

Increased cost per ticket

上图中,每个工单成本的增加伴随着客户满意度水平的增加。这可能意味着每个工单的增加获得了更好的服务交付,证明了额外成本的合理性。

优化每个工单成本的一个关键因素是能够快速解决工单并减少任何不必要的升级。通过遵循以下几点,可以控制每个工单的成本:

  • 分析服务请求模式,以提前计划资产和许可证的购买,从而减少关闭服务请求所需的时间。
  • 确定高峰和低谷以优化资源管理和技术人员的工作量。
  • 适当地对故障单进行分类和优先级排序,以减少错误的故障单分配,从而有助于快速解决问题。
  • 建立内容丰富的知识库。.

8. 软件资产利用率

企业实际使用的软件产品对于所购许可证的百分比。

目标

获得最大化软件投资的ROI(投资回报率)。

由于购买软件许可证是IT部门支出主要部分之一,因此跟踪软件利用率非常重要。但不幸的是,这也是讨论最少的服务台指标之一。为了便于管理,可以将软件分类如下:

  • 类别 1 - 最需要关注的软件(如参考成本因素、合规性风险、对业务的影响比重)。
  • 类别 2 - 最少关注的软件(免费软件,如Adobe Reader)。
  • 类别 3 - 禁止使用的软件和恶意软件。
Software asset utilization rate

以下服务台指标可用于跟踪软件利用率:

软件使用量与软件总量的比例

此度量标准有助于确定那些没有为组织带来任何价值的软件购买支出。理想情况下,这个比率应接近1,这意味着所有已购买软件都已得到了有效利用,从而确保了购买软件许可证的最大投资回报率。如对于使用率非常低的软件,第一类软件数量很多,这意味着大部分软件资产支出都是闲置软件。

未分配许可证占许可证总数的比例

该指标有助于分析特定软件的许可证使用情况,帮助IT团队提前计划购买许可证。为了获得最大的投资回报率,该比例应尽可能小。高比率可能意味着某些软件应用程序被过度授权,存在没有投资回报率的的闲置投资。

案例:提高软件资产利用率节省一百万美元

一家全球领先的制药公司在软件许可支持费用上节省了约一百万美元。这家制药公司在全球50多个国家/地区提供服务,并使用多种Microsoft产品。而这些软件应用主要是根据Microsoft批量许可协议获得的,但是由于缺乏对这些软件资产的可见性/可视性,以及控制该企业在许可证的购买上,是在不了解业务需求的情况下进行的。

实际上,该公司关于软件资产以及组织实际需要的资产数量和类型是有限的。这个情况增加了组织对于许可过度授权,授权不足以及合规性支出方面的风险。

IT部门首先通过IT服务台的数据进行了简单分析,通过将已安装的Microsoft软件与其持有的Microsoft许可证进行比较,获得了相关基础数据, 同时,IT部门努力理解业务需求,重新设计了Microsoft许可证的采购,例如,在满足业务需求的情况下,将微软Office专业版调整成更便宜的标准版。

此外,该企业还替换了其他几个批量许可证,从而削减了成本,为公司节省了大约100万美元的软件许可证购买费用。

许可证合规率

可能对组织产生成本的另一个重要软件资产管理指标是许可证合规率。保持最大的合规性可以让您的组织免受罚款风险。以下是取得最大合规性的一些技巧:

  • 跟踪所有软件安装和许可证购买。.
  • 将许可证分配给各个软件安装,以查找过时和不合规的软件。
  • 为软件购买正确的许可证类型。例如,最好为核心软件购买永久许可证,以避免由于许可证到期而导致合规性问题。
  • 对合规性和审计准备情况进行正式的内部评审活动。

通过三步式预审核实现最大合规性

简单的三步式预审核,百分百的许可证合规率将不再是神话。

步骤1:差距分析

  • 向特定供应商请求,给您的组织提供所有软件应用程序许可的列表。
  • 识别并固定那些企业使用,但不在供应商提供列表中的软件。

第2步:合规性分析

检查每个软件应用程序的软件安装总数与购买的许可证总数,以识别许可过度和许可不足的软件。

步骤3:软件许可优化

利用从步骤1和步骤2获得的所有见解,重新设计您的软件购买需求,以优化合规性并接近或达到100%的许可证合规率。

结论

这8个关键绩效指标,以及各自的指标,将帮助您建立一个衡量引擎,以不断衡量和持续改进您的服务台绩效。建立此度量引擎的第一步是了解IT帮助台所支持的业务,并将IT帮助台的目标与业务目标保持一致。下一步是确定对这些帮助台目标至关重要的KPI和指标,并不断地对其进行度量。

这里讨论的8个服务台KPI对于确保业务连续性、提高组织生产力、在预算内按时提供服务这三个IT服务台基本目标至关重要,这突出表明,这8个KPI是您的IT服务台最应该关心的。

自动化加速工单解析

 
全球最大的企业正在使用卓豪ServiceDesk Plus管理IT服务