AIOps智能运维来临,我们该怎么做?

AI 技术在各个应用领域的落地及实践,网络运维也将迎来一个智能化运维的新时代。算法的效率提升了 AIOps智能运维 的价值,通过持续学习,AIOps智能运维将把IT管理员从纷繁复杂的警报和噪音中解放出来。

 AIOps智能运维 - ManageEngine OpManager

在现阶段,运维中的哪些痛点适合引入智能运维技术? 如何加速落地?

这是摆在所有运维人员面前地重要问题。

如果成功的将机器学习应用到运维之中,还需要数据的支持。互联网应用本身具有海量的日志。需要做优化存储。 数据不够还需要自主生成。 标注的数据。日常运维工作会产生标注的数据。 比如出了一次事件后,IT管理员会记录下过程, 这个过程会反馈到系统之中, 反过来提升运维水平。IT管理员是AIOps智能运维系统的用户。 用户使用过程发现的问题可以对智能系统的优化起正向反馈作用。而我们的OpManager可以自定义各种不同的报表,从而提供大量的基础数据。

我们大家都知道,在运维发展的过程中,最早出现的是手工运维;在大量的自动化脚本产生后,就有了自动化的运维;后来又出现了 DevOps 和AIOps智能运维。在运维的过程中,涉及到的步骤可以概括为:产生海量的监测日志,进行分析决策,并通过自动化的脚本进行控制。

运维的发展过程,主要是分析决策步骤发生了变化:起初,由人工决策分析;后来,在采集数据的基础上,使用自动化的脚本进行决策分析;最后,用机器学习方法做决策分析。根据 Gartner Report,AIOps智能运维相关的技术产业处于上升期。OpManager作为其中的佼佼者,提供全面的网络监控功能,可帮助您监控网络性能,实时检测网络故障,及时排除故障以防止停机。作为一个功能强大的网络监视器,它支持多供应商IT环境,并且可以扩展以适应您的网络。OpManager全面可视化监控您的设备和网络,让您获得对整个网络基础架构的完全可见性和性能控制。

AIOps智能运维 - ManageEngine OpManager

如果AIOps智能运维普遍部署之后会是什么样的呢? 现在做运维的同学们会变成怎样?

从机器的角度,基础性、重复性的运维工作都交给计算机来做了;同时,机器通过机器学习算法为复杂的问题提供决策的建议,然后向运维专家学习解决复杂问题的思路。

从运维专家的角度,运维专家主要处理运维过程中的难题,同时基于机器建议给出决策和训练机器徒弟。

IT管理员将逐渐转型为大数据工程师,主要负责开发数据采集程序以及自动化执行脚本,负责搭建大数据基础架构,同时高效实现基于机器学习的算法。

机器学习科学家主要负责 AI 的落地应用,AIOps智能运维领域相对于其他 AI 应用领域的优势在于,我们不仅有大量的应用数据,而且有实际的应用场景和部署环境。 

AIOps智能运维需要三方面的知识:我们要熟悉应用的行业,比如互联网、电信或者相对传统的行业,如金融、电力等等。 我们要熟悉运维相关的场景,包括异常检测、故障预测、瓶颈分析、容量预测等。 虽然工业界熟悉运维行业和场景,熟悉生产实践中的挑战,也有数据。但是,工业界并不熟悉整个AIOps智能运维中最重要的部分——如何把实际问题转化为算法问题。因此,AIOps智能运维是一个需要三方面领域知识结合的高门槛领域。