【IT服务台+监控】从孤岛到协同:ITSM 与监控一体化,构建高可用 IT 服务

实现“五个9”可用性:Zylker的事件管理转型之路
在 IT 运维领域,实现 99.999% 的可用性(俗称“五个9”)是每家企业梦寐以求的目标。但光有想法和雄心壮志是不够的——它需要 实时可见性 和 高效协同的事件响应。
全栈可观察性(FSO)能帮助发现性能异常,但如果洞察无法第一时间传递到事件响应团队,恢复关键服务仍会延迟。许多企业的 ITSM 与监控工具脱节,形成“运营孤岛”,最终导致:
问题定位慢
协作效率低
停机时间长,损失高
解决之道:将 ITSM 与 FSO 深度整合,打通数据与流程,实现主动、智能的事件管理。本文将通过一家虚构电商公司 Zylker 的案例,展示 ManageEngine ServiceDesk Plus、OpManager 与 Site24x7 的一体化解决方案如何让事件管理焕然一新
混乱的周一:Zylker 的教训
Zylker 一直以流畅的购物体验著称。某个周一,重磅促销上线,管理层信心满满,预计流量与转化率将创纪录。然而,现实却“当头一棒”:
应用卡顿、登录失败,购物车被放弃
呼叫中心被挤爆,社交媒体投诉不断
IT 团队还在排查时,损失已无法挽回
核心短板暴露无遗:
警报遗漏
诊断滞后
协作混乱
修复脱节
Zylker 意识到必须改革,选择通过 ServiceDesk Plus + OpManager + Site24x7 的深度整合,重构事件管理流程。
图1. 实现闪电般的事件响应与解决
转型的关键环节
1. 实时事件检测与记录
由于IT环境碎片化,Zylker的事件响应团队(IRT)经常错过关键警报。过去,该团队主要依赖外部来源,如电话、大量邮件或社交媒体上愤怒客户的投诉。这种方法导致对事件严重性理解延迟,并未能及时识别重大事件。
集成后:
Site24x7 和 OpManager 的警报 自动转化为 ServiceDesk Plus 工单
工单自带丰富上下文(性能指标、故障点)
支持 API、邮件、虚拟代理、Teams/Slack、多渠道触发
👉 价值:告别“漏报”,任何关键事件都不再错过。
集成优势
通过整合OpManager与Site24x7与ServiceDesk Plus的集成,Zylker现可从一开始便将FSO的强大功能与ITSM工作流程相结合。无论是Site24x7检测到的应用性能问题,还是OpManager发现的故障二层设备,警报都会自动转换为ServiceDesk Plus中的工单。
每个工单现在都包含来自可观察性解决方案的丰富上下文信息,使关键信息触手可及,助力事件响应团队快速行动。此外,通过定义工单属性、将通知配置文件映射到特定IT组件以及设置相关触发条件,警报的可操作性进一步提升。

图2. Site24x7警报转换为ServiceDesk Plus Cloud工单

图3. OpManager警报转换为ServiceDesk Plus本地部署工单
除了将 OpManager 和 Site24x7 的警报转换为工单外,还可以通过 API 集成、网页表单、电子邮件、虚拟代理、Microsoft Teams、Slack 和移动应用程序在 ServiceDesk Plus 中记录事件,支持全渠道方法。自定义事件模板进一步确保相关信息被准确捕获。
作为 Zylker 的第一道防线,没有任何关键问题会成为漏网之鱼。
2. 智能分类与自动指派
当大量工单涌入时,Zylker的IT响应团队(IRT)曾耗费大量人力手动分类和优先级排序,导致工单管理不一致。加剧这一问题的是,工单被随意指派,未考虑技术人员的专长。在工单生命周期中,关键更新被遗漏,削弱了团队的决策能力。
现在,Zylker 借助 AI 助手 Zia:
基于历史数据,智能推荐类别、优先级、处理人
结合业务规则,自动标记关键事件等级
自动分配,避免个别工程师被工单压垮
👉 价值:工单路由更快更准,减少人为干预。
ServiceDesk Plus的优势
为消除这些手动操作,Zylker采用了Zia的预测性AI能力,Zia是基于AI的虚拟助手。基于历史工单数据,Zia可为工单属性(如类别、子类别、项目、优先级和模板)提供智能推荐。通过自动化分类和优先级排序,Zia还能建议合适的技术人员组和技术人员,快速将工单路由至相关专家。

图4. ServiceDesk Plus Cloud中的AI驱动工单分类
除了AI驱动的工单分类,Zylker还利用业务规则对入站工单执行基于条件的操作。例如,Zylker现在能够自动将与应用程序性能相关的关键事件标记为4级。在专家技术人员参与的同时,负载均衡和轮询等算法通过技术人员自动分配功能确保工单的公平分配,防止技术人员因积压工单太多导致压力过大。

图5. ServiceDesk Plus Cloud中的AI驱动技术人员预测
为了简化沟通流程,Zylker使用通知规则在工单处理过程中向技术人员和最终用户发送关键事件提醒,确保他们及时了解信息并弥合现有沟通差距。
通过简化分类、自动化指派和加强沟通,Zylker消除了繁琐的官僚程序,使工单管理更加快速、智能和可靠。
3. 标准化响应与协作
在处理此次停机事件时,Zylker的事件响应团队(IRT)此前缺乏明确的下一步行动指南。由于缺乏标准化响应机制,技术人员对事件的处理方式不一致,导致响应延迟。依赖手动流程使得事件修复既繁琐又容易出错。
由于Zylker的IT团队地理位置分散,他们无法共享故障解决进展的可见性。这阻碍了有效协作,导致技术人员之间知识共享受阻,并延迟了高管层的关键决策。
集成后:
可视化工作流 规范每一步操作
复杂流程实现端到端自动化(审批、条件检查、自定义函数)
与 Microsoft Teams 集成,实现跨团队实时协作与决策
👉 价值:响应流程统一透明,协作不再割裂。
ServiceDesk Plus的优势
借助ServiceDesk Plus的可视化工作流程和生命周期管理,Zylker现已实现事件管理的流程优化,并在每个环节获得精细化控制。通过请求生命周期功能,系统可全程映射从事件发起到关闭的整个解决流程,为技术人员提供建议,并自动执行上下文相关操作,如更新工单详情、添加任务、发送通知及执行自定义功能。

图6. 通过请求生命周期标准化事件管理
为了在规模化环境中实现灵活性与稳健性的完美结合,Zylker设计了高度可编程、多阶段的事件响应工作流,这些工作流通过精心设计的用户过渡流程,实现了端到端的自动化。这些工作流能够自动化执行多种操作,包括审批、条件检查,以及执行自定义函数以实现最后阶段的定制化。
用户过渡作为工作流中的引导控制点,可在必要时启用人工干预以满足强制性要求或触发上下文相关操作,同时不破坏自动化流程。
Zylker 现可无缝协调跨多个企业系统的复杂操作,在其工作流程中树立了流程卓越性的新标杆。这得益于其利用 ServiceDesk Plus 的单触式工作流程自动化能力,该能力由 Zoho Circuits 驱动,这是一个无代码/低代码编排引擎。

图7. 通过可视化工作流自动化事件管理
为实现实时协作,Zylker 将 ServiceDesk Plus 与 Microsoft Teams 集成,将数字工作空间与服务台连接。每当 Zylker 面临重大故障时,所有关键利益相关者——无论是 IRT、员工还是高管——均可在 Microsoft Teams 频道内实时接收更新。IRT 还可通过同一界面访问 ServiceDesk Plus,使其能够立即启动事件解决流程而无需切换上下文。这使 Zylker 的 IRT 能够无缝协调工作,无需在不同标签间切换,从而加速集体决策过程。

图8. 通过与 Microsoft Teams 集成促进协作
4. 快速定位与故障排查
Zylker 过去依赖于手动、过时的 CMDB,导致对 IT 基础设施及其复杂的依赖关系缺乏准确的可见性。具体来说,它无法映射电子商务应用程序与支持组件(数据库和应用程序服务器、第二层设备等)之间的互联关系。因此,Zylker 难以评估影响并追踪根本原因,导致关键决策延迟。
现在:
Site24x7 & OpManager 的拓扑与关系数据同步到 ServiceDesk Plus CMDB
构建动态的端到端 IT 环境视图
加速根因定位与影响评估
👉 价值:一次停机,快速知道“影响了谁、该修哪里”。
集成优势
在“黑色星期一”事件发生后,Zylker利用ServiceDesk Plus、OpManager和Site24x7之间的集成,确保其配置管理数据库(CMDB)持续更新。首先,它将这些可观察性工具中的库存数据同步为ServiceDesk Plus中的配置项,以实现准确、实时的跟踪。但有效的事件解决不仅需要最新的库存数据,还要求对这些组件如何相互连接有清晰的可见性。

图9. 从Site24x7获取库存信息并导入ServiceDesk Plus Cloud的CMDB
为了构建这一上下文,Zylker将Site24x7和OpManager中的关系数据同步到CMDB,从而创建了一个动态的端到端IT环境视图。Site24x7的服务地图揭示了电子商务应用程序中相互连接的组件——如数据库服务器和应用程序服务器——以及它们的实时交互和可用性状态。同时,OpManager的第二层地图追踪了应用程序与底层网络设备(如交换机和路由器)之间的链接。

图10. 使用Site24x7的服务地图跟踪依赖关系

图11. 将Site24x7的服务地图与CMDB中的关系地图同步(ServiceDesk Plus Cloud)

图12. 使用OpManager的第二层地图跟踪依赖关系

图13. 将OpManager的第二层地图与CMDB中的关系地图同步(ServiceDesk Plus本地部署)
通过将Site24x7的服务地图数据与OpManager的第二层拓扑数据整合到ServiceDesk Plus的关系地图中,Zylker建立了单一数据源,为其IT响应团队(IRT)提供了全面的IT可见性,加速了影响分析和决策制定。
5. 主动沟通与客户信任
由于在“黑色星期一”事件中缺乏及时沟通,尽管IRT付出了努力,客户仍对解决进展一无所知。感到沮丧的客户向服务台涌入大量重复查询,分散了技术人员处理关键任务的精力。这些查询来自全球各地,但回复却缺乏个性化且过于通用,无法解决用户实际问题。Zylker 此前采用的“一刀切”沟通方式削弱了信任,将本可控的事件升级为损害品牌声誉的危机。
现在:
ServiceDesk Plus 公告横幅,实时同步服务状态
Zia 驱动的 AI 回复助手,自动生成个性化、情境化的沟通内容
👉 价值:客户实时知情,重复咨询减少,品牌信任增强。
ServiceDesk Plus的优势
为重建信任,Zylker采用了多管齐下的主动沟通策略。ServiceDesk Plus中的公告横幅现可实时更新服务可用性和解决进展,即使是非常微小的服务问题也能让用户随时掌握信息,并有效阻止他们提交不必要的工单。

图14. 在ServiceDesk Plus中发布公告
为了实现个性化、情境化的响应,技术人员使用Zia的生成式AI驱动的回复助手,通过简单提示生成定制化回复。内部,文本助手帮助在工单中更快速地记录笔记和描述,提升团队协作效率。

图15. 在 ServiceDesk Plus Cloud 中使用回复助手完善回复
6. 自动修复与闭环管理
此前,依赖多个外部工具进行事件修复打乱了 Zylker 的工作流程。同时使用多个工具导致上下文碎片化,增加了错误和疏漏的风险。这导致解决速度变慢,准确性下降,并造成不必要的延迟。
现在:
技术人员可在工单内直接执行 上下文修复操作(如重启数据库)
修复状态全程可追踪,避免上下文丢失
👉 价值:从检测到修复,一气呵成。
集成优势
为加速事件修复,Zylker现已整合Site24x7扩展模块至ServiceDesk Plus Cloud,使技术人员可直接在工单中触发上下文修复操作——如标记元素进行维护或重启数据库服务器。执行状态亦在工单内实时跟踪,保持上下文一致性并消除切换标签页的操作。关闭规则确保关键条件得到满足,优化工单关闭流程。

图16. 通过Site24x7扩展程序自动化修复操作
7. 事后复盘
为支持未来改进,Zylker维护了事件解决努力的中央记录。技术人员过去需手动整理分散的笔记、描述和对话以重建事件经过,常导致文档不一致或不完整。这削弱了责任追溯并限制了长期服务改进的机会。
通过 Zia:
自动生成 事后审查报告(时间线、原因、措施)
ServiceDesk Plus的优势
为简化文档记录并强化机构记忆,Zylker采用了ServiceDesk Plus Cloud中的Zia事后审查扩展。该扩展基于生成式人工智能,可自动分析工单工作区,总结关键细节、时间线、根本原因、补救措施等信息——无需人工干预。这些洞察直接嵌入工单中,实现跨团队的无缝知识共享,并消除繁琐的行政流程。

图17. 使用 Zia 事后审查扩展生成 ServiceDesk Plus Cloud 的事后审查
8. 根因分析与彻底修复
Zylker 经常陷入重复事件的循环,因为它只解决症状而非根本原因。无法确定根本原因削弱了客户信心并影响了盈利能力。
通过 Zia:
聚合重复事件,提前预测潜在风险
结合 CMDB 分析根因,直接发起变更(如补丁、固件升级)
👉 价值:事件经验沉淀,转化为长期韧性。
ServiceDesk Plus的优势
通过聚合重复出现的应用程序可用性事件,Zia现在能够准确预测并预判Zylker服务环境中潜在的问题,从而提前预警团队并实现对新兴问题的集中跟踪。

图18. 通过 Zia 在 ServiceDesk Plus 云中预测潜在问题
集成的问题管理作为单一数据源,帮助 Zylker 系统性地记录症状、分析影响并揭示 “黑色星期一”事件的根本原因。借助 ServiceDesk Plus 中的 CMDB 关系图,Zylker 锁定两个关键因素:
- 应用程序数据库服务器中的内存泄漏
- 网络交换机的高CPU利用率,导致应用程序访问中断
为实施持久修复,Zylker直接从问题记录中发起变更——部署补丁以解决内存泄漏,并升级交换机固件以稳定性能。

图19. 通过ServiceDesk Plus Cloud的问题管理分析问题根本原因
结语:实现“五个9”不是更快“救火”,而是让中断成为 持续改进与稳定性的驱动力。
通过整合ServiceDesk Plus、OpManager和Site24x7,Zylker从分散的应急处理转变为一个统一的智能生态系统,其中实时可见性、无缝协作和自动化修复将停机时间转化为战略优势。这一转变为持续的韧性奠定了基础,使Zylker能够自信地应对未来挑战,并将韧性转化为持久的竞争优势。
立即体验ServiceDesk Plus。
- 更喜欢云版本?注册试用:点击注册免费试用ServiceDesk Plus(30天全功能);
- 希望本地部署?下载地址:下载ServiceDesk Plus本地版(5个技术员永久免费!);
- 预约专家:需要定制化演示?立即预约1对1方案产品讲解;
- 获取报价,联系销售:填写信息,获取专属报价
限时福利:本月下载注册的用户赠送1小时配置指导服务,助力快速上线!
