启动并运行 您的网络

在现代 IT 中,启动和运行的不是网络,而是 IT 管理员。新设备、新技术的不断引入、补丁升级、分支机构等迫使管理员对网络进行频繁的更改,以包含新设备并采用新技术。由于频繁的变化会影响网络的性能,他们会变得疯狂,并全天候工作来修复它。

让 IT 管理员 24x7 不间断运行的因素

商务办公室激增

商务办公扩散

您的业​​务日复一日地不断扩大,您的网络以及管理网络的复杂性也随之不断扩大。它逐渐将您从管理少量设备时的快乐人转变为与黑莓一起生活的人 - 24x7 管理多个分支机构
平衡业务需求和技术进步

平衡业务需求

您必须不断采用新技术来满足您的业务需求。最初,您的企业只需要网络正常运行时间和基本的 ICMP ping/端口检查就足够了。现在,您的整个业务都依赖于 IT 网络,并且需要 SLA、SLM、BSM 等。因此,网络的任何问题都会直接影响您的收入。这促使公司在其组织内部签署服务级别协议
协调业务和最终用户的偏好

业务和最终用户偏好

作为一名 IT 管理员,您会在业务偏好和最终用户偏好之间摇摆不定。最终用户绝不希望因访问 Facebook 或 YouTube 而获得补偿或被阻止。同时,业务关键型应用程序不应争夺带宽/其他资源。如果不逐月购买额外的带宽/资源,就很难满足这两种需求。

现代网络需要什么?

不可能停止添加新设备、采用新技术,也不可能限制分支机构。适用于当今网络的唯一解决方案是 24x7 监控和智能故障管理,以识别问题的根本原因,并在您感受到问题对您的业务产生影响之前修复它。

现代网络

故障管理感知

故障管理的普遍看法是识别所有事件。然而,事实并非如此。它的内涵远不止表面所见!

任何对网络性能产生影响的事件都称为事件。它本质上可以是信息性的、已清除的事件、警告消息、故障标志甚至严重故障。如果把这些事情全部推给管理员,他就会被淹死,无能为力。相反,智能 NMS 必须对事件进行排序,并且只有可操作的故障必须提交给管理员进行处理。

故障管理感知

故障管理——四步过程

良好的故障管理计划必须具有各种机制来检测事件、隔离并仅通知管理员可解决的可操作故障

故障管理流程

检测事件 — 事件管理:

两种类型的监控——主动和被动对于响应事件检测机制同样重要。主动监控通过设置监控器阈值来帮助主动检测事件。主动监控的一些示例包括 ICMP Ping、TCP 或 UDP 端口检查以及性能计数器监控。而在被动监控中,NMS 侦听事件,例如系统日志、SNMP 陷阱和 Windows 事件日志消息

OpManager提供主动和被动监控。它使用 ICMP ping、TCP 和 UDP 端口以及性能计数器监控设备。它还监视系统日志、SNMP 陷阱、事件日志等

隔离故障 — 提出可操作的故障:

故障隔离有助于识别影响网络性能的事件。重复数据删除、关联和自动化等故障管理技术有助于识别根本原因

事件重复数据删除

考虑这样一种情况:服务器以高 CPU 运行,监控系统每 2 分钟轮询一次设备。如果CPU 占用率过高持续约20 分钟,监控系统不应发出10 个警报——这显然是重复的。相反,它应该显示一个警报

OpManager 对于每个独特的事件,都会在“警报”选项卡下创建一个带有严重性颜色代码的新行项目。如果再次发生相同的事件,则会将其追加到警报历史记录中,从而消除重复

事件历史记录 - 警报详细信息

类似地,警报关联也有助于仅显示可操作的网络故障。假设连接到 50 台服务器的核心交换机发生故障。NMS 不应发出 51 个警报,表明所有 50 台服务器和 1 个交换机均已关闭 - 相反,NMS 应自动映射设备并为交换机发出单个警报。

事件关联

OpManager 中的“设备依赖性”选项有助于避免此类警报。如果父设备已关闭,则仅针对父设备发出警报。您将收到有关交换机已关闭的单个警报。OpManager还使用其自动网络映射和自定义网络映射功能自动将您的服务器映射到网络设备。这有助于管理员查看中断或性能问题并快速排除故障。

事件自动化

最后一项是自动故障隔离,旨在丢弃不必要的事件。可以忽略不计的偶然峰值、警报恢复到清除状态、设备处于维护模式的事件等都是无根据事件的一些示例。

OpManager可以帮助您忽略此类不必要的事件。对于活动监视器,通过在阈值配置屏幕中配置“连续次数”和“重新布防值”,它允许您忽略偶然的尖峰并清除事件。对于被动监控,对此类尖峰的抑制是在规则本身中处理的。对于日常设备维护,您可以在OpManager中配置“停机调度程序”以在维护窗口期间暂停对设备的监控。

OpManager 允许您使用“暂停状态轮询”选项根据需要抑制警报。当您正在处理特定故障并希望 OpManager 停止轮询设备直到问题得到解决时,此选项会很方便。

编辑监视器

通知 — 通知管理员:

这个过程的核心功能是让你了解实际的问题。这可以通过 NOC 管理员的可视化表示、向帮助台技术人员发送故障单以及通过电子邮件或短信提醒远程管理员来实现。

为了更好地了解问题及其根本原因,OpManager通过警报、Web警报、仪表板、业务视图等的颜色编码来可视化性能瓶颈。它还通过电子邮件、短信、RSS提要和Twitter通知故障。其智能手机/iPhone 图形用户界面 (GUI) 可帮助管理员快速浏览警报并开始故障排除。

故障通知

对于故障单,OpManager 与 ManageEngine ServiceDesk Plus 集成。对于其他帮助台软件,OpManager 可以配置为发送包含故障消息和变量的电子邮件。

解决 - 帮助更快地解决问题:

为了更快地解决故障,网管在处理故障时应该拥有专有知识。如果出现任何问题,NMS 应自动在远程计算机中运行特定命令或程序来修复它。

解决援助更快解决

如果由于某些复杂性或错误而无法实现,NMS 应将情况上报给相应的管理员,并提供清晰的日志消息以采取下一步行动。

在OpManager中,为了自动解决故障,您可以使用“运行程序”或“运行命令”选项在远程计算机上运行自我修复脚本。例如,如果发现 MS SQL 服务器中的硬盘已满,您可以运行脚本来清除事务日志并从 OpManager 重新启动服务。

使用 OpManager 轻松排除故障

OpManager提供了广泛的故障排除工具,可以帮助您快速解决问题。对于服务器故障排除,OpManager具有远程进程诊断(类似于启动远程任务管理器)、设备工具、ping、跟踪路由等工具。对于网络交换机,OpManager提供交换机端口映射器来映射每个连接的交换机端口。OpManager的Ne​​tFlow流量分析模块可以帮助您分析通过特定机器的流量类型。

对于 WAN 链路,OpManager 为您提供逐跳可见性,让您快速识别问题的根源。通常,WAN 链路性能下降是由于高流量或最近在网络设备上进行的配置更改造成的。OpManager的Ne​​tFlow流量分析模块可以帮助您解决流量瓶颈。您可以使用 NCM 插件来解决由于配置更改而出现的问题。NCM 插件与以前的配置进行并排比较,并在需要时恢复配置。

OpManager还包括Syslog查看器、内置MIB浏览器、实时性能图表等,以更好地管理您的网络。