以代理式 AI突破重大事件响应的边界
“一切都会失败,而且一直如此。为失败做好准备,就不会失败。”
这是亚马逊 CTO Werner Vogels 的一句名言,至今依然振聋发聩。
我们屡屡目睹单点故障如何让整个数字世界陷入瘫痪。回想去年的 CrowdStrike 事件,或是近期的 AWS 宕机事故——这两起事件涉及的是完全不同的企业,但它们都有一个共同点:一个看似微小的故障,迅速演变为大范围的系统中断。当终端用户承受着停机带来的直接冲击时,IT 团队则是在与时间赛跑,争分夺秒地恢复服务。
如果说这些重大中断事件让我们更加清晰地认识到一件事,那就是:有些故障几乎是不可避免的,而且往往来得猝不及防。
正因如此,IT 团队不能再仅仅依赖传统的事件管理工作流,而是需要通过引入智能化能力,对事件响应方式进行多元化与现代化升级。这种方式可以帮助事件响应团队(IRT)捕捉那些可能被人工分析忽略的细微异常。而随着我们正式迈入代理式 AI 时代,可以预见的是,AI 将在 IT 事件的检测、分析与修复方式上,发挥更加关键的重塑性作用。
AI 在重大事件响应中的应用演变
事件响应已经使用 AI 一段时间了,随着时间的推移,事件管理实践通过应用机器学习(ML)技术获得了显著的提升,比如智能分类、子分类预测以及智能技术人员分配等功能。生成式 AI 的出现以及它在 IT 服务管理平台中的广泛应用,使得技术人员能够加速问题解决,并通过更易获取的相关知识帮助终端用户自行解决问题。
鉴于重大事件带来的高风险,事件响应过程及其相关利益方可以从 AI 的其他能力中获益,如 AI 驱动的影响评估与根因分析、简化的上下文沟通等。如今,随着 AI 代理和代理式 AI 能力的崛起,我们可以构建更强大的重大事件管理工作流,不仅能够最大限度减少重大事件对业务的影响,还能主动避免此类事件的发生。接下来,我们将通过一个简短的用例,了解 AI 在重大事件管理中的应用是如何随着时间推移而不断发展的。
简短用例
a) 变更:
一家全球零售连锁企业决定启动覆盖全组织的数字化转型项目,以提升整体运营效率。作为该项目的一部分,IT 团队开始将数据库基础架构升级至更新版本的 Microsoft SQL Server。 然而,在升级上线不久后,多个门店的 POS(销售点)系统陆续离线。门店员工无法处理交易,顾客排起长队,业务运营陷入停滞。
b)根本原因分析:
最终发现,问题源于 升级后的 SQL Server 与现有 POS 系统之间存在兼容性问题。由于事前未进行充分的兼容性测试,该问题在上线前未被发现。
c) 应对与修复方式:
传统最佳实践工作流
引入基础 AI 功能的最佳实践工作流
引入代理式 AI(Agentic AI)的增强型工作流
1. 采用简单规则自动化的传统最佳实践工作流
多个门店的零售员工开始向服务台大量提交事件工单。
基于规则的自动化被触发,对符合既定条件的工单进行分诊。
技术人员需要人工审查工单,识别相似性,并判断这些事件是否属于更大的问题。
在识别出模式后,技术人员手动将相关事件关联到一个重大事件记录中。
事件响应团队(IRT)需要逐条查看技术人员备注和工单对话,以理解问题本质。
IRT 还需要从多个割裂的数据源中筛选和分析信息,例如:UEBA 日志,最近的变更记录,特权访问日志,数据库活动日志,第三方更新历史等。
团队成员在讨论可能的根因时耗费了大量时间。
干系人沟通虽然实现了自动化,但仅基于标准化、模板化通知,信息维度有限。
经过漫长的根因分析,IRT 最终确认:近期的数据库升级导致 POS 软件无法正常运行,并通过回滚至旧版本修复问题。
该工作流符合最佳实践,但整体呈现出被动、高度依赖人工、恢复速度慢的特点。
2. 引入基础 AI 辅助能力的增强型最佳实践工作流
当POS系统故障发生时,监控工具会触发告警并将其作为工单记录在ITSM平台中。
AI驱动的分诊系统可自动对新工单进行分类、优先级排序和路由指派,从而降低每个事件工单必须满足严格的规则要求才能触发分诊自动化的需求。
AI工单聚类功能将关联工单整合至单一重大事件记录,避免重复处理及手动关联相似工单。
同时,基于生成式AI的虚拟支持代理可为不同利益相关方生成定制化更新,包括组织级公告、终端用户回复及技术人员备注。这些通信内容不再依赖静态模板,而是按需生成。
虚拟代理即时生成工单摘要,通过呈现工单对话全貌、参数信息及技术人员备注,使事件响应团队(IRT)成员快速掌握情况。
IRT随后执行根本原因分析,确认数据库兼容性问题为根源并部署修复方案。
修复后,虚拟代理协助生成事件后回顾报告,减轻团队文档工作量。
3. 基于智能代理的人工智能增强工作流,推动事件响应成熟度提升
具备可观测性仪表板访问权限的人工智能代理检测到日志中出现大量指向SQL服务器的POS API调用失败记录。
该代理通过进一步检查网络流量、身份验证尝试及系统日志,发现多个门店均出现此类故障,表明存在广泛性问题。
与此同时,服务台队列开始涌入大量来自门店员工的工单。
该AI代理同时接入工单系统,向应急响应团队提交分析摘要,并询问是否应创建重大事件工单并启动响应流程。
获批后,它将所有相似工单关联为单一重大事件工单。
随后自动回复提交工单的终端用户,告知IT部门已知晓问题并积极修复中(响应内容为自主生成而非按需创建)。
另一具备变更管理记录访问权限的人工智能代理,会将事件发生时间与近期数据库升级关联分析。发现SQL服务器升级后不久,POS系统便开始出现连接故障。
该智能体整合分析结果后向故障响应团队(IRT)提交报告,使团队得以迅速锁定数据库升级为根本原因,避免耗费宝贵时间从头排查。
基于领域知识训练和服务台历史变更文档,AI智能代理建议回滚至旧版SQL服务器以解决兼容性问题。
为停止当前版本并恢复旧版备份,AI代理还提供了一份包含具体步骤的修复脚本。
经IRT批准后,AI代理协助执行回滚操作,成功恢复所有门店的正常运营。

结语
可以肯定的是,AI 在过去几年中取得了飞跃式的发展——从确定性的聊天机器人,到生成式 AI 驱动的虚拟代理,再到如今的自治型 AI 代理,我们已经走过了很长一段路。令人欣慰的是,作为一门实践体系,ITSM 也始终与这些技术变革保持同步,并在演进过程中取得了相当成熟的成果。
随着我们逐步迈入 代理式AI(Agentic AI)时代,AI 驱动的 ITSM 应用场景,尤其是在重大事件管理领域,将持续扩展。关注重点也将从单纯提升流程执行速度,转向构建具备自主思考、决策与行动能力的系统,在最小化人工干预的前提下,彻底改变组织应对中断事件和交付业务价值的方式。
常见问题(FAQ)
1) 代理式 AI(Agentic AI)与传统生成式 AI 的差异是什么?
代理式 AI 更强调在目标约束下的自主规划、决策与执行能力,能够在多个系统与数据源之间主动获取上下文并推进多步骤行动,而不仅仅是生成内容或提供建议。
2) 在重大事件响应中,AI 代理最能提升哪些环节的效率?
通常包括异常检测与聚合、工单聚类与关联、上下文摘要与沟通、变更关联分析、根因定位建议,以及在审批后协助执行回滚或修复步骤等。
3) 采用代理式 AI 是否意味着可以完全取消人工参与?
重大事件通常牵涉高风险决策与业务影响评估,实践中更常见的模式是“人类在环”:AI 代理负责分析、建议与执行辅助,人类负责批准关键动作、处理例外与最终决策。
4) 组织要落地代理式 AI,需要先具备哪些基础?
建议优先完善可观测性数据、变更记录与工单数据的结构化程度,确保关键系统日志与服务台流程可被访问和关联,并建立明确的权限边界与审批策略。
立即体验 ServiceDesk Plus
- 更喜欢云版本?注册试用:点击注册免费试用ServiceDesk Plus(30天全功能);
- 希望本地部署?下载地址:下载ServiceDesk Plus本地版(5个技术员永久免费!);
- 预约专家:需要定制化演示?立即预约1对1方案产品讲解;
- 获取报价,联系销售:填写信息,获取专属报价
限时福利:本月下载注册的用户赠送1小时配置指导服务,助力快速上线!


