硬件监控的先决条件

必须监视网络中各种关键设备的硬件组件,以确保持续的服务可用性和网络正常运行时间。OpManager支持从供应商(例如Cisco,Juniper,HP和Dell)监视环境中服务器和网络设备的硬件状态。它通过网络和服务器设备的SNMP以及VMware ESX / ESXi主机的vSphere监视各种重要的硬件参数,例如电压,温度,功率,风扇速度,处理器等。

HP/Dell服务器的先决条件:

HP:

如果未显示“硬件传感器监视器”,请确保在该服务器上安装了以下工具:

  • HP Insight Server Agents
  • HP Insight Foundation Agents
  • HP Insight Storage Agents

Dell:

如果未显示硬件传感器监视器,则请确保该服务器上已安装Dell OpenManage

硬件选项卡在哪里?

1. 如果设备是VMware ESX/ESXi主机:

OpManager使用VMware API中的hardwareStatusInfonumericSensorInfo方法来轮询VMware环境中设备的硬件状态和统计信息。为确保硬件监视正常工作,请使用以下MOB链接检查MOB上是否有传感器信息:

  • 如果发现ESX:
    • 对于 numericSensorInfo:

      https://<<hostname/IPAddress>>/mob/?moid=ha-host&doPath=runtime.healthSystemRuntime.systemHealthInfo.numericSensorInfo

    • 对于 hardwareStatusInfo (cpuStatusInfo / memoryStatusInfo / storageStatusInfo):

      https://<<hostname/IPAddress>>/mob/?moid=ha-host&doPath=runtime.healthSystemRuntime.hardwareStatusInfo

  • 如果发现vCenter:

    https://<<vcentrename/IPAdress>>/mob/?

    登录到MOB之后,导航到下面给出的路径,并检查是否正在为这两种方法填填入:
    • 对于 numericSensorInfo: content → rootFolder → childEntity → hostFolder → childEntity [选择适当的主机] → host → runtime → healthSystemRuntime → systemHealthInfo → numericSensorInfo
    • 对于 hardwareStatusInfo: content → rootFolder → childEntity → hostFolder → childEntity [选择适当的主机] → host → runtime → healthSystemRuntime → hardwareStatusInfo → cpuStatusInfo (或者) memoryStatusInfo (或者) storageStatusInfo
    请注意,OpManager会根据可用的颜色值发出告警(如果颜色不是“绿色”,则会发出告警)。

如果传感器不可用,请在该主机上安装VMware工具

2. 如果设备是HP/Dell/Cisco/Juniper:

查询以下OID,并检查是否响应所有OID(如果响应),然后重新发现设备。如果没有响应,则OpManager将不会显示选项卡。

  • HP:

    OID 参数
    .1.3.6.1.4.1.232.11.2.2.1.0 Operating System
    .1.3.6.1.4.1.232.11.2.2.2.0 OS Version
    .1.3.6.1.4.1.232.2.2.4.2.0 Model
    .1.3.6.1.4.1.232.2.2.2.6.0 Service tag
    .1.3.6.1.4.1.232.2.2.2.1.0 Serial number
  • Dell:

    OID 参数
    .1.3.6.1.4.1.674.10892.1.300.10.1.8.1 Manufacturer
    .1.3.6.1.4.1.674.10892.1.300.10.1.9.1 Model
    .1.3.6.1.4.1.674.10892.1.300.10.1.11.1 Service Tag
    .1.3.6.1.4.1.674.10892.1.400.10.1.6.1 Operating System
    .1.3.6.1.4.1.674.10892.1.400.10.1.7.1 OS Version
  • Cisco:

    OID 参数
    .1.3.6.1.2.1.47.1.1.1.1.13.1 Hardware Model
    .1.3.6.1.2.1.47.1.1.1.1.11.1 Serial Number
  • Juniper:

    OID 参数
    .1.3.6.1.4.1.2636.3.1.2.0 Model
    .1.3.6.1.4.1.2636.3.1.3.0 Serial Number

3. 在设置 → 监视 → 监控设置下检查是否启用了硬件监视。

4. 在设备快照→硬件 选项卡检查是否为单个设备启用了硬件监视。

5.抑制硬件告警:

  1. 检查在OpManager中是否已抑制各个设备的硬件告警。
  2. 要取消所有设备的所有硬件告警,请执行以下操作:转到设置→ 监视 → 监控设置选项卡,然后点击 抑制告警
  3. 您也可以转到设备快照页面中的硬件选项卡,并抑制特定设备的硬件告警。

6. 检查硬件状态是否未更新:

为了使OpManager能够监视设备的硬件,请检查以下OID是否正确响应。

  • 对于 Cisco 设备:

    支持的MIB: Cisco-envmon-mib | ENTITY-MIB MIB
    (可以使用OpManager监视使用这些MIB的所有Cisco设备)

    .1.3.6.1.2.1.47.1.1.1.1.13.1 - HW_MODEL
    .1.3.6.1.2.1.47.1.1.1.1.11.1 - HW Serial num

    指标类型 对应指标名称的OID 相应指标状态的OID 相应指标数值的OID
    温度 .1.3.6.1.4.1.9.9.13.1.3.1.2
    (TemperatureStatusDescr)
    .1.3.6.1.4.1.9.9.13.1.3.1.3
    (TemperatureStatusValue)
    .1.3.6.1.4.1.9.9.13.1.3.1.6
    (TemperatureState)
    电压 .1.3.6.1.4.1.9.9.13.1.2.1.2
    (VoltageStatusDescr)
    .1.3.6.1.4.1.9.9.13.1.2.1.3
    (VoltageStatusValue)
    .1.3.6.1.4.1.9.9.13.1.2.1.7
    (VoltageState)
    风扇 .1.3.6.1.4.1.9.9.13.1.4.1.2
    (FanStatusDescr)
    .1.3.6.1.4.1.9.9.13.1.4.1.3
    (FanState)
    NA
    电源 .1.3.6.1.4.1.9.9.13.1.5.1.2
    (SupplyStatusDescr)
    .1.3.6.1.4.1.9.9.13.1.5.1.3
    (SupplyState)
    NA
  • 对于 Cisco Nexus 设备:

    支持的MIB: CISCO-ENTITY-FRU-CONTROL-MIB
    (可以使用OpManager监视使用此MIB的所有Cisco Nexus设备)

    指标类型 OID
    电源 .1.3.6.1.4.1.9.9.117.1.1.2.1.1
    {FRUPowerAdminStatus)
    .1.3.6.1.4.1.9.9.117.1.1.2.1.2
    (FRUPowerOperStatus)
    .1.3.6.1.4.1.9.9.117.1.1.2.1.3
    (FRUCurrent)
    风扇 .1.3.6.1.4.1.9.9.117.1.4.1.1.1
    (FanTrayOperStatus)
  • 对于 Checkpoint 设备:

    支持的MIB: CHECKPOINT-MIB
    (可以使用OpManager监视使用这些MIB的所有Checkpoint设备)

    指标类型 相应指标名称的OID 相应指标状态的OID 相应指标数值的OID
    电压 .1.3.6.1.4.1.2620.1.6.7.8.3.1.2
    (voltageSensorName)
    1.3.6.1.4.1.2620.1.6.7.8.3.1.6
    (voltageSensorStatus)
    .1.3.6.1.4.1.2620.1.6.7.8.3.1.3
    (voltageSensorValue)
    风扇 .1.3.6.1.4.1.2620.1.6.7.8.2.1.2
    (fanSpeedSensorName )
    1.3.6.1.4.1.2620.1.6.7.8.2.1.6
    (fanSpeedSensorStatus)
    1.3.6.1.4.1.2620.1.6.7.8.2.1.3
    (fanSpeedSensorValue)
    温度 .1.3.6.1.4.1.2620.1.6.7.8.1.1.2
    (tempertureSensorName)
    .1.3.6.1.4.1.2620.1.6.7.8.1.1.6
    (tempertureSensorStatus )
    1.3.6.1.4.1.2620.1.6.7.8.1.1.3
    (tempertureSensorValue)
  • 对于 HP 服务器:

    支持的MIB: CPQHOST-Mib | CPQHLTH-Mib | CPQSINFO-Mib
    (可以使用OpManager监视所有使用这些MIB的HP 服务器)

    指标类型 相应指标名称的OID 相应指标状态的OID 相应指标数值的OID
    温度 .1.3.6.1.4.1.232.6.2.6.8.1.8
    (TemperatureHwLocation)
    (或者)
    .1.3.6.1.4.1.232.6.2.6.8.1.3
    (TemperatureLocale)
    .1.3.6.1.4.1.232.6.2.6.8.1.6
    .1.3.6.1.4.1.232.6.2.6.8.1.4
    风扇 .1.3.6.1.4.1.232.6.2.6.7.1.11
    (FanHwLocation)
    (或者)
    .1.3.6.1.4.1.232.6.2.6.7.1.3
    (FanLocale)
    .1.3.6.1.4.1.232.6.2.6.7.1.9
    (FanCondition)
    .1.3.6.1.4.1.232.6.2.6.7.1.12
    (FanCurrentSpeed)
    处理器 .1.3.6.1.4.1.232.1.2.2.1.1.3
    (CpuName)
    .1.3.6.1.4.1.232.1.2.2.1.1.6
    CpuStatus)
    .1.3.6.1.4.1.232.1.2.2.1.1.4
    (CpuSpeed)
    电源 .1.3.6.1.4.1.232.6.2.9.3.1.11
    (PowerSupplySerialNumber)
    .1.3.6.1.4.1.232.6.2.9.3.1.4
    (PowerSupplyCondition)
    .1.3.6.1.4.1.232.6.2.9.3.1.8
    (PowerSupplyCapacityMaximum)
    分区详情 .1.3.6.1.4.1.232.11.2.4.1.1.2
    (FileSysDesc)
    .1.3.6.1.4.1.232.11.2.4.1.1.8
    (FileSysStatus)
    .1.3.6.1.4.1.232.11.2.4.1.1.5
    FileSysPercentSpaceUsed)
    内存 .1.3.6.1.4.1.232.6.2.14.12.1.3
    (BoardCpuNum)
    .1.3.6.1.4.1.232.6.2.14.12.1.11
    (BoardCondition)
    .1.3.6.1.4.1.232.6.2.14.12.1.9
    (BoardOsMemSize)
  • 对于 Dell 服务器:

    支持的MIB: DELL-RAC-Mib | StorageManagement-MIB.mib | MIB-Dell-10892.mib
    (可以使用OpManager监视所有使用这些MIB的Dell服务器)

    指标类型 相应指标名称的OID 相应指标状态的OID 相应指标数值的OID
    温度 .1.3.6.1.4.1.674.10892.1.700.20.1.8
    (ProbeLocationName)
    .1.3.6.1.4.1.674.10892.1.700.20.1.5
    (ProbeStatus)
    .1.3.6.1.4.1.674.10892.1.700.20.1.6
    (ProbeReading)
    风扇 .1.3.6.1.4.1.674.10892.1.700.12.1.8
    (DeviceLocationName)
    .1.3.6.1.4.1.674.10892.1.700.12.1.5
    (DeviceStatus)
    .1.3.6.1.4.1.674.10892.1.700.12.1.6
    (DeviceReading)
    处理器 .1.3.6.1.4.1.674.10892.1.1100.30.1.23
    (DeviceBrandName)
    .1.3.6.1.4.1.674.10892.1.1100.30.1.5
    (DeviceStatus)
    .1.3.6.1.4.1.674.10892.1.1100.30.1.11
    (DeviceMaximumSpeed)
    电源 .1.3.6.1.4.1.674.10892.1.600.60.1.6
    (EntityName)
    .1.3.6.1.4.1.674.10892.1.600.60.1.5
    (Status)
    .1.3.6.1.4.1.674.10892.1.600.60.1.9
    (PeakWatts)
    电压 .1.3.6.1.4.1.674.10892.1.600.20.1.8
    (ProbeLocationName)
    .1.3.6.1.4.1.674.10892.1.600.20.1.5
    (ProbeStatus)
    .1.3.6.1.4.1.674.10892.1.600.20.1.6
    (ProbeReading)
    磁盘阵列数据 .1.3.6.1.4.1.674.10893.1.20.130.4.1.2
    (arrayDiskName)
    .1.3.6.1.4.1.674.10893.1.20.130.4.1.4
    (arrayDiskStatus)
    .1.3.6.1.4.1.674.10893.1.20.130.4.1.17
    (arrayDiskUsedSpaceInMB)
    电池 .1.3.6.1.4.1.674.10892.1.600.50.1.7
    (LocationName)
    .1.3.6.1.4.1.674.10892.1.600.50.1.5
    (Status)
    .1.3.6.1.4.1.674.10892.1.600.50.1.4
    (StateSettings)
  • 对于Juniper设备:

    支持的MIB: JUNIPER-MIB
    (可以使用OpManager监视所有使用这些MIB的Juniper服务器)

    • 对于Juniper设备,在OID 1.3.6.1.4.1.2636.3.1.15.1.6上进行遍历可为我们提供Juniper设备中存在的所有硬件组件或“现场可更换单元”(FRU)的列表。OpManager主要监视电源,温度和风扇速度,以下是相应FRU类型的响应:

      温度 - 6 | 电源 - 7 | Fan - 13

    • 将记录用这些值做出响应的实例,并且该实例的后缀可用于获取该FRU的数据。

      例如,考虑在Juniper设备上的FruType OID(1.3.6.1.4.1.2636.3.1.15.1.6)上执行SNMP Walk,它返回以下响应:

      1.3.6.1.4.1.2636.3.1.15.1.6.A → 13
      1.3.6.1.4.1.2636.3.1.15.1.6.B → 6
      1.3.6.1.4.1.2636.3.1.15.1.6.C → 7
      1.3.6.1.4.1.2636.3.1.15.1.6.D → 2
      1.3.6.1.4.1.2636.3.1.15.1.6.E → 6

      注意: A,B,C,D,E的值可以是 1到4个八位位组,即,它们的值可以为'z', 'z.y', 'z.y.x' or 'z.y.x.w'。

    • 现在,我们将返回 6 (或者) 7 (或者) 13 的实例作为响应,并记下实例ID。 在此, A, B, C 和 E 是提供所需响应的实例。因此,这些是OpManager应该能够查询以在该设备上执行硬件监视的实例。

    • 现在我们知道了实例ID,可以使用它们来检查是否可以从该实例查询所需的参数。
      OpManager查询每个实例的名称,状态和值。因此,如果要在Juniper设备上执行硬件监视,则查询时必须响应以下OID:

      FruType响应 指标类型 实例 ID 响应指标标识符的OID(运行描述) 相应指标状态的OID (运行状态) 相应指标数值的OID (运行温度)
      6 温度 B .1.3.6.1.4.1.2636.3.1.13.1.5.B .1.3.6.1.4.1.2636.3.1.13.1.6.B .1.3.6.1.4.1.2636.3.1.13.1.7.B
      6 温度 E .1.3.6.1.4.1.2636.3.1.13.1.5.E .1.3.6.1.4.1.2636.3.1.13.1.6.E .1.3.6.1.4.1.2636.3.1.13.1.7.E
      7 电源 C .1.3.6.1.4.1.2636.3.1.13.1.5.C .1.3.6.1.4.1.2636.3.1.13.1.6.C NA
      13 风扇 A .1.3.6.1.4.1.2636.3.1.13.1.5.A .1.3.6.1.4.1.2636.3.1.13.1.6.A NA
    注意:

    以下是来自各种支持的供应商的设备的硬件传感器状态响应(对于VMware Hosts不适用):

    HP: 1 - 未知 | 2 - 正常 | 3 - 有问题的 | 4 - 危急的

    Dell: 1 - 未知 | 2 - 未知 | 3 - 正常 | 4 - 有问题的 | 5 - 危急的 | 6 - 服务停止

    Cisco: 1 - 正常 | 2 - 有问题的 | 3 - 危急的 | 4 - 服务停止 | 5 - 未知 | 6 - 未知

    Cisco Nexus: 2 - 正常 | 3 - 危急的 | 4 - 有问题的 (其他任何响应被视为 '未知')

    Checkpoint: 1 - 正常 | 2 - 有问题的 | 3 - 危急的 | 4 - 服务停止 | 5 - 未知 | 6 - 未知

    Juniper: 1 - 未知 | 2 - 正常 | 3 - 正常 | 4 - 正常 | 5 - 正常 | 6 - 危急的 | 7 - 关注的

7. 检查是否安装了SNMP:

由于OpManager主要使用SNMP查询设备状态和指标,因此必须在相应的设备中启用SNMP。要在Linux设备中安装SNMP代理,请遵循以下步骤。