资产经常发生故障会中断您组织的IT运营,并导致IT基础架构的恶化和性能下降。MTTF指标有助于确定资产、设备或组件的典型寿命。对于MTTF较低的IT资产和组件,更换IT组件而不是修复组件通常更省时,并可最大限度地降低运营影响和成本。
这尤其适用于与基础架构的关键运营要素相关的IT组件,如大型机服务器堆栈或网络接入点。

图二平均失效前时间
如果一项资产的MTTF是不利的,并且经常发生故障,这表明该IT资产是不可靠的,需要频繁更换,以避免影响IT运营。
MTTF的例子
在一家IT软件开发公司中,当电缆与数据和网络服务器堆栈中的交换机连接或断开时,网络电缆会变松、断开或损坏。这导致文件因数据传输中断而损坏。网络团队的进一步分析显示,6类RJ45跳线上的无钩塑料盖不断断裂。这是因为电缆是从使用廉价材料的制造商处采购的。然后,IT团队用质量更好的电缆替换了旧电缆,以确保将来移动电缆时不会出现数据丢失或损坏等问题。这是一个典型的例子,但定期跟踪电缆的MTTF有助于IT团队了解关键资产(如组件)的影响,以便他们能够做出有关维修和更换的明智决策。
当一个关键的IT系统出现故障时,IT团队必须尽快让系统运行起来。恢复IT系统的延迟会导致收入损失并影响关键业务运营。一个组织良好的恢复和响应系统可以帮助IT团队应对计划外停机,并有效地恢复运营。MTTR衡量对资产进行维修或故障排除并使其恢复运营能力所需的平均时间。

图3平均修复时间
停机时间的成本随着MTTR的增加而增加。高MTTR表明你的恢复和反应行动不是快速和有效的。系统故障是不可避免的,但是MTTR使团队能够及时地、战略性地对资产故障做出反应。
MTTR的例子
由于代码中的漏洞,一家软件公司正在开发的视频游戏面临零日攻击。这次攻击中断了无线网络和监控系统等操作。这导致攻击者访问组织的网络域和机密业务文件。网络安全团队向员工通报了零日攻击以及他们可以向哪里报告。组织中的每项IT资产都配备了下一代防病毒软件(NGAV)。攻击使局域网和员工自助服务门户瘫痪,严重影响了组织的运营。在攻击发生后的一个小时内,网络安全团队得到了NGAV能力的通知和帮助,该能力利用威胁分析和用户行为模式,并识别出可疑活动。网络安全团队立即运行补丁管理脚本来纠正代码中的漏洞,并锁定其内部网络,以避免进一步影响运营和数据窃取。