异常检测


总览

通过在性能指标上定义异常状况,异常检测可以帮助您了解性能是否逐渐下降。通过创建异常配置文件,您可以定义规则,将当前数据与先前报告的最佳数据进行比较。

例如,如果服务器上的负载在一段时间内增加,则响应时间将逐渐受到影响。通过使用异常检测,您将能够检测到此性能问题。

异常检测如何工作?

可以基于以下条件创建异常配置文件:

异常仪表板:该仪表板有助于查看所有性能指标,并有助于轻松进行故障排除。

anomaly-flow

基线值

当前数值集不符合基线范围值时,就会发生异常。将当前属性值与特定周(基线周)中的报告数据进行比较。

  • 定义基线 -可以根据以下基线计算基线周
    • 固定值:将选择系统运行良好[告警数量较少]的一周作为参考/基线数据范围。在选择一周进行基线比较之后,将每天的值与基线周的对应天进行比较。例如。如果您选择8月1日的周作为基线周,则将每个星期一的数据与8月1日的星期一值进行比较。另一个用例可以用于节日时间负载。可以为圣诞节假期周末创建异常状况,并可以比较性能指标以了解系统的执行性能。
    • 浮动值:可以选择上一周的报告数据进行比较,而不必确定基线周。在此,基线值将根据前一周的数据而变化。
  • 指定异常标准 -设置上限和下限范围以将当前数据与基线值进行比较。
    基线数据范围将根据上限值和下限值形成。这些值可以用作百分比或硬编码值。例如,如果基线值为70,并且您提供了10%作为上限和下限的标准,则基线范围将介于64到77之间。同样,如果您提供的标准值为10,则该范围将介于60至80。
  • 运行 -与基线数据比较后,如果当前小时值不在所配置的上限和下限之间,则会生成告警。
    • 让我们将2009年8月1日的周设置为基线数据范围。
    • 异常范围定义为上限10%和下限10%。
    • 偏差是根据小时值计算的。因此,将第二周的星期二上午11点与第一周的星期二上午11点提供的内存使用率值进行比较。如果该值偏离上限或下限,则会产生告警。
    • 创建异常配置文件后,必须将异常配置文件关联到相关属性。

要基于基线值创建异常状况,请执行以下操作:

  • 点击异常配置文件链接。点击新建阈值文件
  • 在异常检测配置文件页面中,输入要创建的新异常配置文件的名称。
  • 对于基线计算,请选择基线数据范围:您可以在固定基线值(适当的一周)或基于前一周数据的浮动基线值之间进行选择。
  • 定义与基线的允许偏差。告警可以基于上限,下限值的百分比或硬编码比较值的立即生成。如果该值在基线范围内(每小时检查一次),将正常生成的告警。告警可以为紧急告警。
  • 选择比较方法。
    • 推荐的方法是直接比较上一小时的值和基线值。在这里,进行比较时,将考虑小时值并将其直接与基线值进行比较。例如:说当前时间是星期一上午10:00,基线日期范围是第2周,然后是将使用第2周星期一10:00 AM值进行比较,并根据用户配置应用上限和下限。
    • 另一种方法是根据与前一小时的相应差异比较值。在比较时,将考虑小时值的相应差异。

      例如:如果当前时间是10:00 AM,我们将取10:00 AM和9:00 AM之间的值之差进行比较。类似的方法将用于获取基线值。
  • 最后,点击创建异常检测配置文件

自定义表达式

当前数据不符合用户定义的规则(基于系统变量)时,将检测到异常。例如,您可以创建一个规则,例如当当前的上一小时平均值大于六小时浮动平均值的两倍时,将检测到异常。可以设置严重和警告告警。
可用于形成自定义表达式的系统变量为:

表达式 含义
$ 10D_MVA 十天均值
$ LastHourValue 上一小时平均值
$ 6H_MVA 六个小时浮动平均值
$ 30D_MVA 三十天均值
$ 10H_MVA 十小时浮动平均值
$ 7D_MVA 七天均值

要基于自定义表达式创建异常配置文件:

  • 选择基于自定义表达式创建异常配置文件后,输入新异常配置文件的配置文件名称。
  • 严重告警:创建一个表达式,例如$ LastHourValue> 10 * $ 7D_MVA +(5 + $ 30D_MVA)。然后从下拉列表中选择严重告警。
  • 警告告警:创建一个表达式,例如$ LastHourValue <= 25 * $ 6H_MVA +(5 + $ 10D_MVA)。然后从下拉列表中选择警告告警
  • 保存异常配置文件。

关联异常配置文件

  • 转到相应的监视器详细信息页面。选择要为其配置告警的属性。点击配置告警链接。
  • 将列出阈值详细信息和异常详细信息。点击异常详细信息选项卡。
  • 从下拉框中选择适当的属性,并将它们与相应的异常配置文件关联。
  • 保存告警配置

注意:仅当用户将电子邮件操作与依赖属性的健康状况相关联时,特定监视器的健康状况变得非常重要,并且电子邮件通知将被发送。

异常仪表板

该仪表板有助于查看所有性能指标。可以帮助用户轻松直观地浏览数百种性能指标。

  • 如果任何属性/业务组/监视器的健康状况变得很重要,或者可用性下降,请点击该图标以查看根本原因分析。
  • 点击使用异常仪表板进行故障排除,以访问异常仪表板。您也可以从告警选项卡访问异常仪表板。在告警选项卡中,列出了健康状况已严重的所有告警。点击告警消息,它会转到告警详细信息页面。在告警历史记录表中,您可以找到异常仪表板图标
  • 在异常仪表板中,您可以选择仅列出危急的或所有监视器。

    注意:严重状态基于与监视器属性关联的异常配置文件。

  • 基本指标通过使用当前时间显示响应时间详细信息和所有其他指标,但是您可以使用更改链接对其进行自定义。您可以更改属性和时间。

    注意:所选时间将用于所有其他计算,例如上一小时值,12小时平均值等。

  • 图表:上次轮询的是上一小时的值。12小时是图形格式中的最后12小时平均值。7天分段小时显示为条形图。您可以点击各列以查看详细的报表。
  • 将异常概要文件与监视器的属性相关联后,如果违反了概要文件规则,则监视器将变为严重状态,并且12小时图的背景将变为红色。通过点击列,您可以查看详细的报表,例如何时达到异常值等。

也可以参考:

将阈值和动作与属性相关联