自适应阈值通过使用 OpManager 基于机器学习的预测算法,动态修改关键监视器的阈值,帮助用户优化告警效率。它通过分析数据模式并调整阈值,以减少误报,同时确保关键问题能够被检测到,从而消除手动干预的需要。
随着时间推移,它会学习识别每小时、每天、每周甚至每月的周期,并自动调整阈值以匹配这些重复出现的模式。这样可以确保诸如每日流量高峰、每周维护活动或月末处理负载等可预测的波动不会产生不必要的告警,同时仍然能够突出真正的异常情况。
启用自适应阈值后,OpManager 会从所有监视器采集必要的性能数据,并将其输入到先进的预测算法中。数据采集的最短周期为 14 天。
传统上,OpManager 使用最近 14 天的数据来开始生成告警。当首次启用自适应阈值功能时,这可能会在触发告警方面造成轻微延迟。但随着 OpManager 运行时间越长,它会收集到足够的历史数据,用于检测和适应周期性出现的每周和每月模式。这使得 OpManager 能够自动调整那些按照固定计划发生的活动(如每周维护窗口或月末交易高峰)的阈值。
示例: 对于企业而言,网络使用情况在一周内通常会有所变化:周末活动较少,而周一上午负载较高。起初,这些波动可能会被误判为异常并触发误报。观察到这些历史数据后,OpManager 会自动进行自适应调整,使阈值匹配这些可预测的变化。
对于每一个小时,OpManager 的预测算法都会基于此前观察到的数据模式和行为给出预测值,并在此基础上应用用户配置的偏差值。例如,考虑以下偏差值。
请注意,偏差既可以用具体数值表示,也可以用百分比表示。我们通过一个示例进行说明。
| 注意 | 故障 | 严重 |
|---|---|---|
| 5 | 8 | 15 |
我们可以按如下所述,通过数值或百分比来配置偏差值。
1. 按数值配置偏差:如果某设备在当天第一个小时(0:00 - 1:00)的 CPU 利用率预测值为 34,那么触发“注意”级别告警的对应数值为 34+5=39(预测值 + 注意级偏差值)。同样,故障和严重级别的数值也会在每个小时被计算出来。对于 5 个连续小时,在不同预测值下计算得到的数值如下:
| 时间段 | 预测值 | 注意值 | 故障值 | 严重值 |
|---|---|---|---|---|
| 0:00 - 1:00 | 34 | 39 | 42 | 49 |
| 1:00 - 2:00 | 36 | 41 | 44 | 51 |
| 2:00 - 3:00 | 44 | 49 | 52 | 59 |
| 3:00 - 4:00 | 58 | 63 | 66 | 73 |
| 4:00 - 5:00 | 54 | 59 | 62 | 69 |
2. 按百分比配置偏差:如果某设备在当天第一个小时(0:00 - 1:00)的 CPU 利用率预测值为 34,那么触发“注意”级别告警的对应数值为 34 + (34 的 5%) = 36(预测值 + 预测值的注意级偏差百分比)。同样,故障和严重级别的数值也会在每个小时被计算出来。对于 5 个连续小时,在不同预测值下计算得到的数值如下:
| 时间段 | 预测值 | 注意值 | 故障值 | 严重值 |
|---|---|---|---|---|
| 0:00 - 1:00 | 34 | 36 | 37 | 39 |
| 1:00 - 2:00 | 36 | 38 | 39 | 41 |
| 2:00 - 3:00 | 44 | 46 | 48 | 51 |
| 3:00 - 4:00 | 58 | 61 | 63 | 67 |
| 4:00 - 5:00 | 54 | 57 | 58 | 62 |
3. 高级配置:除了偏差值之外,OpManager 还提供以下选项以定制告警行为。
抑制上限:配置一个数值,低于该数值的告警会被自动抑制,从而避免因轻微偏差产生不必要的告警。
示例: 如果 CPU 利用率配置的自适应阈值为 50,同时你配置了一个 52 的抑制上限,那么任何实际值低于 52 时都不会触发告警。
静态上限:定义一个固定的上限阈值,一旦被突破,无论当前配置的自适应阈值为何,都会触发告警。
示例: 如果你为 CPU 利用率设置了 90 的静态上限,当使用率达到或超过 90 时,会立即触发告警,即便此时的自适应阈值更高。
配置步骤:
在启用自适应阈值选项之前,请注意:
可通过 Settings -> Monitoring -> Adaptive Threshold 页面在整个 OpManager 中全局启用自适应阈值。前往该页面并启用“Enable Adaptive Threshold”选项。你也可以在各自的性能监视器、性能组或设备模板中单独启用自适应阈值,并将偏差级别定义为数值或百分比。
启用后,可以根据需求在不同层级进行控制:
感谢您的反馈!