使用OPManager进行基于IPMI的监控

IPMI (智能平台控制接口) 监视器监控使用户能够无缝观察和管理服务器的状态,而不依赖于设备的状态(主机系统的CPU/固件/操作系统)。用户可以使用IPMI持续全面地监视设备的硬件健康状况。管理员能够通过IPMI接收告警和通知从而对潜在问题做出快速响应。

此文档是OpManager支持的IPMI监控的供应商和协议的全面列表。

支持的供应商和协议

目前, OpManager支持以下供应商协议组合进行IPMI监控:

  1. Dell iDrac:
    1. SNMP: 使用 MIB IDRAC-MIB-SMIv2.mib
    2. API: 使用version 8 或上述协议
  2. HP iLo: 使用 API
  3. IBM IMM: 使用SNMP MIB IMM.mib
  4. Supermicro: 使用 API
  5. Huawei:
    1. SNMP: 使用 MIB HUAWEI-SERVER-IBMC-MIB.mib
    2. 使用 API
  6. H3C: 使用 SNMP MIB HH3C-SERVER-AGENT-MIB

用于数据收集的OIDs/APIs:

  1. Dell iDrac:
    • SNMP:

      这是IDRAC-MIB-SMIv2.mib中用于硬件数据收集的OIDs:

      • 供应商 - .1.3.6.1.4.1.674.10892.5.1.1.4
      • 模型 - .1.3.6.1.4.1.674.10892.5.1.3.12
      • 服务编号 - .1.3.6.1.4.1.674.10892.5.1.3.2
      • OS - .1.3.6.1.4.1.674.10892.5.1.3.6
      • OS Version - .1.3.6.1.4.1.674.10892.5.1.3.14
      类别单位传感器名称 传感器状态传感器值
      风扇转每分.1.3.6.1.4.1.674.10892.5.4.700.12.1.8.1.3.6.1.4.1.674.10892.5.4.700.12.1.5.1.3.6.1.4.1.674.10892.5.4.700.12.1.6
      温度摄氏度.1.3.6.1.4.1.674.10892.5.4.700.20.1.8.1.3.6.1.4.1.674.10892.5.4.700.20.1.5.1.3.6.1.4.1.674.10892.5.4.700.20.1.6
      功率瓦特.1.3.6.1.4.1.674.10892.5.4.600.12.1.8.1.3.6.1.4.1.674.10892.5.4.600.12.1.5.1.3.6.1.4.1.674.10892.5.4.600.12.1.6
      电压伏特.1.3.6.1.4.1.674.10892.5.4.600.20.1.8.1.3.6.1.4.1.674.10892.5.4.600.20.1.5NIL
      处理器兆赫.1.3.6.1.4.1.674.10892.5.4.1100.30.1.8.1.3.6.1.4.1.674.10892.5.4.1100.30.1.5.1.3.6.1.4.1.674.10892.5.4.1100.30.1.12
      内存MB.1.3.6.1.4.1.674.10892.5.4.1100.50.1.8.1.3.6.1.4.1.674.10892.5.4.1100.50.1.5.1.3.6.1.4.1.674.10892.5.4.1100.50.1.14
      电池-NA-.1.3.6.1.4.1.674.10892.5.4.600.50.1.7.1.3.6.1.4.1.674.10892.5.4.600.50.1.5.1.3.6.1.4.1.674.10892.5.4.600.50.1.6
      磁盘阵列数据MB.1.3.6.1.4.1.674.10892.5.5.1.20.130.4.1.55.1.3.6.1.4.1.674.10892.5.5.1.20.130.4.1.4.1.3.6.1.4.1.674.10892.5.5.1.20.130.4.1.17
    • API:

      用于监视iDrac设备的基本API调用是:

      /redfish/v1/systems/system.embedded.1/

      根据需要监控的传感器集,修改API的最后一部分。

      类别单位获取传感器详细信息的API
      风扇,温度转每分 (风扇), 摄氏度 (温度)/redfish/v1/Chassis/System.Embedded.1/Thermal/
      功率, 电压瓦特 (功率), 伏特 (电压)/redfish/v1/Chassis/System.Embedded.1/Power/
      处理器兆赫/redfish/v1/Systems/System.Embedded.1/Processors/
      内存MB/redfish/v1/Systems/System.Embedded.1/Memory/
      磁盘阵列数据MB/redfish/v1/Systems/System.Embedded.1/Storage/
  2. HP iLO (使用API):

    HP iLO设备中的IPMI硬件监控使用基本API调用执行:

    /redfish/v1/systems/1/

    HP设备中用于硬件系统的不同API如下所示:

    类别单位获取传感器详细信息的API
    风扇,温度百分比 (风扇), 摄氏度(温度)/redfish/v1/Chassis/1/Thermal/
    功率瓦特/redfish/v1/Chassis/1/Power/
    处理器兆赫/redfish/v1/Systems/1/Processors/
    内存MB/redfish/v1/Systems/1/Memory/
    磁盘阵列数据MB/redfish/v1/Systems/1/Storage/ - 获取SSD详细数据
    /redfish/v1/Systems/1/SmartStorage/ArrayControllers/ - 获取HDD详细数据
  3. IBM IMM (使用SNMP):

    用于IMM.mib下基于IPMI硬件监控的OID如下所示:

    1. 模型 - .1.3.6.1.4.1.2.3.51.3.1.5.2.1.2
    2. 序列号 - .1.3.6.1.4.1.2.3.51.3.1.5.2.1.3
    3. UUID - .1.3.6.1.4.1.2.3.51.3.1.5.2.1.4
    类别单位Sensor NameSensor StatusSensor Value
    风扇百分比.1.3.6.1.4.1.2.3.51.3.1.3.2.1.2.1.3.6.1.4.1.2.3.51.3.1.3.2.1.10.1.3.6.1.4.1.2.3.51.3.1.3.2.1.3
    温度摄氏度.1.3.6.1.4.1.2.3.51.3.1.1.2.1.2.1.3.6.1.4.1.2.3.51.3.1.1.2.1.11.1.3.6.1.4.1.2.3.51.3.1.1.2.1.3
    功率瓦特.1.3.6.1.4.1.2.3.51.3.1.11.2.1.2.1.3.6.1.4.1.2.3.51.3.1.11.2.1.6NIL
    电压伏特.1.3.6.1.4.1.2.3.51.3.1.2.2.1.2.1.3.6.1.4.1.2.3.51.3.1.2.2.1.11.1.3.6.1.4.1.2.3.51.3.1.2.2.1.3
    处理器兆赫.1.3.6.1.4.1.2.3.51.3.1.5.20.1.2.1.3.6.1.4.1.2.3.51.3.1.5.20.1.11.1.3.6.1.4.1.2.3.51.3.1.5.20.1.3
    内存MB.1.3.6.1.4.1.2.3.51.3.1.5.21.1.2.1.3.6.1.4.1.2.3.51.3.1.5.21.1.8.1.3.6.1.4.1.2.3.51.3.1.5.21.1.7
    磁盘阵列数据MB.1.3.6.1.4.1.2.3.51.3.1.12.2.1.2.1.3.6.1.4.1.2.3.51.3.1.12.2.1.3NIL
  4. SuperMicro (使用 API):

    SuperMicro设备通过使用基本API调用设备进行监控: /redfish/v1/Systems/1

    根据需要监控的传感器集,API最后一部分修改如下所示:

    类别获取传感器详细信息的API
    风扇, 温度转每分(风扇), 摄氏度(温度)/redfish/v1/Chassis/1/Thermal
    功率, 电压瓦特(功率), 伏特(电压)/redfish/v1/Chassis/1/Power
    处理器瓦特/redfish/v1/Systems/1/Processors
    内存MB/redfish/v1/Systems/1/Memory (适用于高版本)
    /redfish/v1/Systems/1 (适用于低版本)
    磁盘阵列数据MB/redfish/v1/Systems/1/SimpleStorage
  5. Huawei:
    • SNMP:

      这是来自HUAWEI-SERVER-IBMC-MIB.mib的OID,用于硬件数据收集:

      • 服务编号 - .1.3.6.1.4.1.2011.2.235.1.1.1.7
      • UUID - .1.3.6.1.4.1.2011.2.235.1.1.1.22
      类别单位传感器名称 传感器状态传感器值
      风扇转每分.1.3.6.1.4.1.2011.2.235.1.1.8.50.1.7.1.3.6.1.4.1.2011.2.235.1.1.8.50.1.4.1.3.6.1.4.1.2011.2.235.1.1.8.50.1.2
      温度摄氏度.1.3.6.1.4.1.2011.2.235.1.1.26.50.1.2Nil.1.3.6.1.4.1.2011.2.235.1.1.26.50.1.3
      功率瓦特.1.3.6.1.4.1.2011.2.235.1.1.6.50.1.13.1.3.6.1.4.1.2011.2.235.1.1.6.50.1.7.1.3.6.1.4.1.2011.2.235.1.1.6.50.1.8
      处理器兆赫.1.3.6.1.4.1.2011.2.235.1.1.15.50.1.10.1.3.6.1.4.1.2011.2.235.1.1.15.50.1.6.1.3.6.1.4.1.2011.2.235.1.1.15.50.1.5
      内存MB.1.3.6.1.4.1.2011.2.235.1.1.16.50.1.10.1.3.6.1.4.1.2011.2.235.1.1.16.50.1.6.1.3.6.1.4.1.2011.2.235.1.1.16.50.1.4
      磁盘阵列数据MB.1.3.6.1.4.1.2011.2.235.1.1.18.50.1.6.1.3.6.1.4.1.2011.2.235.1.1.18.50.1.3.1.3.6.1.4.1.2011.2.235.1.1.18.50.1.12
    • API:

      用于Huawei设备监控的基础API调用:

      /redfish/v1/Systems/1

      根据需要监控的传感器集,最后需要修改的API如下所示:

      类别单位获取传感器详细信息的API
      风扇, 温度转每分 (风扇), 摄氏度 (温度)/redfish/v1/Chassis/1/Thermal
      功率, 电压瓦特 (功率), 伏特 (电压)/redfish/v1/Chassis/1/Power
      处理器兆赫/redfish/v1/Systems/1/Processors
      内存MB/redfish/v1/Systems/1/Memory
  6. H3C:

    用于 HH3C-SERVER-AGENT-MIB 下基于IPMI硬件监控的OID如下所示:

    1. 供应商 - .1.3.6.1.4.1.25506.13.1.2.2.8.2
    2. UUID - .1.3.6.1.4.1.25506.13.1.2.2.8.3
    类别单位传感器名称传感器状态传感器值
    风扇转每分.1.3.6.1.4.1.25506.13.1.2.1.1.10.1.1.2.1.3.6.1.4.1.25506.13.1.2.1.1.10.1.1.8.1.3.6.1.4.1.25506.13.1.2.1.1.10.1.1.5
    温度摄氏度.1.3.6.1.4.1.25506.13.1.2.1.1.11.3.1.3.1.3.6.1.4.1.25506.13.1.2.1.1.11.3.1.6.1.3.6.1.4.1.25506.13.1.2.1.1.11.3.1.4
    功率瓦特.1.3.6.1.4.1.25506.13.1.2.1.1.7.1.1.1.14.1.3.6.1.4.1.25506.13.1.2.1.1.7.1.1.1.13.1.3.6.1.4.1.25506.13.1.2.1.1.7.1.1.1.10
    处理器兆赫.1.3.6.1.4.1.25506.13.1.2.1.1.1.1.1.15.1.3.6.1.4.1.25506.13.1.2.1.1.1.1.1.14.1.3.6.1.4.1.25506.13.1.2.1.1.1.1.1.3
    内存MB.1.3.6.1.4.1.25506.13.1.2.1.1.2.2.1.4.1.3.6.1.4.1.25506.13.1.2.1.1.2.2.1.16.1.3.6.1.4.1.25506.13.1.2.1.1.2.2.1.6
    磁盘阵列数据MB.1.3.6.1.4.1.25506.13.1.2.1.1.9.3.1.12.1.3.6.1.4.1.25506.13.1.2.1.1.9.3.1.11.1.3.6.1.4.1.25506.13.1.2.1.1.9.3.1.9

基于硬件状态码的告警

下面的列表涵盖了对应于每个供应商协议组合的状态代码,并指定了基于这些代码触发的告警的严重性。

  1. Dell iDrac (SNMP)

    磁盘阵列数据:

    • 未知 - 1, 4, 8
    • 正常 - 2, 3, 10
    • 注意 - 5, 9
    • 故障 - 6
    • 临界 - 7

    其他传感器:

    • 未知 - 1, 2
    • 正常 - 3, 4
    • 临界 - 5
    • 故障 - 6
  2. Dell iDrac (API)
    • 未知 - 状态字符串包含 "null"
    • 正常 - 状态字符串包含 "OK"
    • 临界 - 状态字符串包含 "Critical"
    • 注意 - 状态字符串包含 "Warning"
  3. IBM IMM (SNMP)

    状态消息在IMM中作为字符串传递,因此在相关告警中只能提出以下严重情况:

    • 未知 - 状态字符串包含 "Unknown"
    • 正常 - 状态字符串包含 "Normal"
    • 注意 -状态字符串包含 "Warning"
    • 临界 -状态字符串包含 "Error" or "Critical"
  4. HP iLO (API)
    • 未知 - 状态字符串包含 "null"
    • 正常 - 状态字符串包含 "OK"
    • 临界 - 状态字符串包含 "Critical"
    • 注意 - 状态字符串包含 "Warning"
    HP iLO4 (DIMM)

    HP iLO4是iLO系列中的第四代产品,下面是与其各自的内存状态对应的状态字符串:

    • 未知 - 状态字符串包含以下几种:
      • "Other"
      • "NotPresent"
      • "NotSupported"
      • "DoesNotMatch"
    • 正常 - 状态字符串包含以下几种:
      • "GoodInUse"
      • "AddedButUnused"
      • "GoodPartiallyInUse"
      • "PresentSpare"
      • "PresentUnused"
      • "UpgradedButUnused"
    • 注意 - 状态字符串包含以下几种:
      • "ConfigurationError"
      • "Degraded"
      • "ExpectedButMissing"
  5. SuperMicro
    • 未知 - 状态字符串包含 "null"
    • 正常 - 状态字符串包含 "OK"
    • 临界 - 状态字符串包含 "Critical"
    • 注意 - 状态字符串包含 "Warning"
  6. SuperMicro
    • 未知 - 状态字符串包含 "null"
    • 正常 - 状态字符串包含 "OK"
    • 临界 - 状态字符串包含 "Critical"
    • 注意 - 状态字符串包含 "Warning"
  7. Huawei (SNMP)
    • 未知 - 5, 6
    • 正常 - 1
    • 临界 - 4
    • 注意 - 2
    • 故障 - 3
  8. Huawei (API)
    • 未知 - 状态字符串包含 "null" or "Unknown"
    • 正常 - 状态字符串包含 "OK"
    • 临界 - 状态字符串包含 "Critical"
    • 注意 - 状态字符串包含 "Warning"
  9. H3C
    • 未知 - 0, 1
    • 正常 - 2
    • 临界 - 5
    • 注意 - 3
    • 故障 - 4