必须监视网络中各种关键设备的硬件组件,以确保持续的服务可用性和网络正常运行时间。OpManager支持从供应商(例如Cisco,Juniper,HP和Dell)监视环境中服务器和网络设备的硬件状态。它通过网络和服务器设备的SNMP以及VMware ESX / ESXi主机的vSphere监视各种重要的硬件参数,例如电压,温度,功率,风扇速度,处理器等。
HP/Dell服务器的先决条件:
HP:
如果未显示“硬件传感器监视器”,请确保在该服务器上安装了以下工具:
Dell:
如果未显示硬件传感器监视器,则请确保该服务器上已安装Dell OpenManage。
OpManager使用VMware API中的hardwareStatusInfo和numericSensorInfo方法来轮询VMware环境中设备的硬件状态和统计信息。为确保硬件监视正常工作,请使用以下MOB链接检查MOB上是否有传感器信息:
https://<<hostname/IPAddress>>/mob/?moid=ha-host&doPath=runtime.healthSystemRuntime.systemHealthInfo.numericSensorInfo
https://<<hostname/IPAddress>>/mob/?moid=ha-host&doPath=runtime.healthSystemRuntime.hardwareStatusInfo
https://<<vcentrename/IPAdress>>/mob/?
如果传感器不可用,请在该主机上安装VMware工具。
查询以下OID,并检查是否响应所有OID(如果响应),然后重新发现设备。如果没有响应,则OpManager将不会显示选项卡。
HP:
OID | 参数 |
.1.3.6.1.4.1.232.11.2.2.1.0 | Operating System |
.1.3.6.1.4.1.232.11.2.2.2.0 | OS Version |
.1.3.6.1.4.1.232.2.2.4.2.0 | Model |
.1.3.6.1.4.1.232.2.2.2.6.0 | Service tag |
.1.3.6.1.4.1.232.2.2.2.1.0 | Serial number |
Dell:
OID | 参数 |
.1.3.6.1.4.1.674.10892.1.300.10.1.8.1 | Manufacturer |
.1.3.6.1.4.1.674.10892.1.300.10.1.9.1 | Model |
.1.3.6.1.4.1.674.10892.1.300.10.1.11.1 | Service Tag |
.1.3.6.1.4.1.674.10892.1.400.10.1.6.1 | Operating System |
.1.3.6.1.4.1.674.10892.1.400.10.1.7.1 | OS Version |
Cisco:
OID | 参数 |
.1.3.6.1.2.1.47.1.1.1.1.13.1 | Hardware Model |
.1.3.6.1.2.1.47.1.1.1.1.11.1 | Serial Number |
Juniper:
OID | 参数 |
.1.3.6.1.4.1.2636.3.1.2.0 | Model |
.1.3.6.1.4.1.2636.3.1.3.0 | Serial Number |
3. 在设置 → 监视 → 监控设置下检查是否启用了硬件监视。
4. 在设备快照→硬件 选项卡检查是否为单个设备启用了硬件监视。
6. 检查硬件状态是否未更新:
为了使OpManager能够监视设备的硬件,请检查以下OID是否正确响应。
.1.3.6.1.2.1.47.1.1.1.1.13.1 - HW_MODEL
.1.3.6.1.2.1.47.1.1.1.1.11.1 - HW Serial num
指标类型 | 对应指标名称的OID | 相应指标状态的OID | 相应指标数值的OID |
温度 | .1.3.6.1.4.1.9.9.13.1.3.1.2 (TemperatureStatusDescr) |
.1.3.6.1.4.1.9.9.13.1.3.1.3 (TemperatureStatusValue) |
.1.3.6.1.4.1.9.9.13.1.3.1.6 (TemperatureState) |
电压 | .1.3.6.1.4.1.9.9.13.1.2.1.2 (VoltageStatusDescr) |
.1.3.6.1.4.1.9.9.13.1.2.1.3 (VoltageStatusValue) |
.1.3.6.1.4.1.9.9.13.1.2.1.7 (VoltageState) |
风扇 | .1.3.6.1.4.1.9.9.13.1.4.1.2 (FanStatusDescr) |
.1.3.6.1.4.1.9.9.13.1.4.1.3 (FanState) |
NA |
电源 | .1.3.6.1.4.1.9.9.13.1.5.1.2 (SupplyStatusDescr) |
.1.3.6.1.4.1.9.9.13.1.5.1.3 (SupplyState) |
NA |
支持的MIB: CISCO-ENTITY-FRU-CONTROL-MIB
(可以使用OpManager监视使用此MIB的所有Cisco Nexus设备)
指标类型 | OID |
电源 | .1.3.6.1.4.1.9.9.117.1.1.2.1.1 {FRUPowerAdminStatus) |
.1.3.6.1.4.1.9.9.117.1.1.2.1.2 (FRUPowerOperStatus) |
|
.1.3.6.1.4.1.9.9.117.1.1.2.1.3 (FRUCurrent) |
|
风扇 | .1.3.6.1.4.1.9.9.117.1.4.1.1.1 (FanTrayOperStatus) |
支持的MIB: CHECKPOINT-MIB
(可以使用OpManager监视使用这些MIB的所有Checkpoint设备)
指标类型 | 相应指标名称的OID | 相应指标状态的OID | 相应指标数值的OID |
电压 | .1.3.6.1.4.1.2620.1.6.7.8.3.1.2 (voltageSensorName) |
1.3.6.1.4.1.2620.1.6.7.8.3.1.6 (voltageSensorStatus) |
.1.3.6.1.4.1.2620.1.6.7.8.3.1.3 (voltageSensorValue) |
风扇 | .1.3.6.1.4.1.2620.1.6.7.8.2.1.2 (fanSpeedSensorName ) |
1.3.6.1.4.1.2620.1.6.7.8.2.1.6 (fanSpeedSensorStatus) |
1.3.6.1.4.1.2620.1.6.7.8.2.1.3 (fanSpeedSensorValue) |
温度 | .1.3.6.1.4.1.2620.1.6.7.8.1.1.2 (tempertureSensorName) |
.1.3.6.1.4.1.2620.1.6.7.8.1.1.6 (tempertureSensorStatus ) |
1.3.6.1.4.1.2620.1.6.7.8.1.1.3 (tempertureSensorValue) |
对于 HP 服务器:
支持的MIB: CPQHOST-Mib | CPQHLTH-Mib | CPQSINFO-Mib
(可以使用OpManager监视所有使用这些MIB的HP 服务器)
指标类型 | 相应指标名称的OID | 相应指标状态的OID | 相应指标数值的OID |
温度 | .1.3.6.1.4.1.232.6.2.6.8.1.8 (TemperatureHwLocation) (或者) .1.3.6.1.4.1.232.6.2.6.8.1.3 (TemperatureLocale) |
.1.3.6.1.4.1.232.6.2.6.8.1.6 |
.1.3.6.1.4.1.232.6.2.6.8.1.4 |
风扇 | .1.3.6.1.4.1.232.6.2.6.7.1.11 (FanHwLocation) (或者) .1.3.6.1.4.1.232.6.2.6.7.1.3 (FanLocale) |
.1.3.6.1.4.1.232.6.2.6.7.1.9 (FanCondition) |
.1.3.6.1.4.1.232.6.2.6.7.1.12 (FanCurrentSpeed) |
处理器 | .1.3.6.1.4.1.232.1.2.2.1.1.3 (CpuName) |
.1.3.6.1.4.1.232.1.2.2.1.1.6 CpuStatus) |
.1.3.6.1.4.1.232.1.2.2.1.1.4 (CpuSpeed) |
电源 | .1.3.6.1.4.1.232.6.2.9.3.1.11 (PowerSupplySerialNumber) |
.1.3.6.1.4.1.232.6.2.9.3.1.4 (PowerSupplyCondition) |
.1.3.6.1.4.1.232.6.2.9.3.1.8 (PowerSupplyCapacityMaximum) |
分区详情 | .1.3.6.1.4.1.232.11.2.4.1.1.2 (FileSysDesc) |
.1.3.6.1.4.1.232.11.2.4.1.1.8 (FileSysStatus) |
.1.3.6.1.4.1.232.11.2.4.1.1.5 FileSysPercentSpaceUsed) |
内存 | .1.3.6.1.4.1.232.6.2.14.12.1.3 (BoardCpuNum) |
.1.3.6.1.4.1.232.6.2.14.12.1.11 (BoardCondition) |
.1.3.6.1.4.1.232.6.2.14.12.1.9 (BoardOsMemSize) |
对于 Dell 服务器:
支持的MIB: DELL-RAC-Mib | StorageManagement-MIB.mib | MIB-Dell-10892.mib
(可以使用OpManager监视所有使用这些MIB的Dell服务器)
指标类型 | 相应指标名称的OID | 相应指标状态的OID | 相应指标数值的OID |
温度 | .1.3.6.1.4.1.674.10892.1.700.20.1.8 (ProbeLocationName) |
.1.3.6.1.4.1.674.10892.1.700.20.1.5 (ProbeStatus) |
.1.3.6.1.4.1.674.10892.1.700.20.1.6 (ProbeReading) |
风扇 | .1.3.6.1.4.1.674.10892.1.700.12.1.8 (DeviceLocationName) |
.1.3.6.1.4.1.674.10892.1.700.12.1.5 (DeviceStatus) |
.1.3.6.1.4.1.674.10892.1.700.12.1.6 (DeviceReading) |
处理器 | .1.3.6.1.4.1.674.10892.1.1100.30.1.23 (DeviceBrandName) |
.1.3.6.1.4.1.674.10892.1.1100.30.1.5 (DeviceStatus) |
.1.3.6.1.4.1.674.10892.1.1100.30.1.11 (DeviceMaximumSpeed) |
电源 | .1.3.6.1.4.1.674.10892.1.600.60.1.6 (EntityName) |
.1.3.6.1.4.1.674.10892.1.600.60.1.5 (Status) |
.1.3.6.1.4.1.674.10892.1.600.60.1.9 (PeakWatts) |
电压 | .1.3.6.1.4.1.674.10892.1.600.20.1.8 (ProbeLocationName) |
.1.3.6.1.4.1.674.10892.1.600.20.1.5 (ProbeStatus) |
.1.3.6.1.4.1.674.10892.1.600.20.1.6 (ProbeReading) |
磁盘阵列数据 | .1.3.6.1.4.1.674.10893.1.20.130.4.1.2 (arrayDiskName) |
.1.3.6.1.4.1.674.10893.1.20.130.4.1.4 (arrayDiskStatus) |
.1.3.6.1.4.1.674.10893.1.20.130.4.1.17 (arrayDiskUsedSpaceInMB) |
电池 | .1.3.6.1.4.1.674.10892.1.600.50.1.7 (LocationName) |
.1.3.6.1.4.1.674.10892.1.600.50.1.5 (Status) |
.1.3.6.1.4.1.674.10892.1.600.50.1.4 (StateSettings) |
对于Juniper设备:
支持的MIB: JUNIPER-MIB
(可以使用OpManager监视所有使用这些MIB的Juniper服务器)
对于Juniper设备,在OID 1.3.6.1.4.1.2636.3.1.15.1.6上进行遍历可为我们提供Juniper设备中存在的所有硬件组件或“现场可更换单元”(FRU)的列表。OpManager主要监视电源,温度和风扇速度,以下是相应FRU类型的响应:
温度 - 6 | 电源 - 7 | Fan - 13
将记录用这些值做出响应的实例,并且该实例的后缀可用于获取该FRU的数据。
例如,考虑在Juniper设备上的FruType OID(1.3.6.1.4.1.2636.3.1.15.1.6)上执行SNMP Walk,它返回以下响应:
1.3.6.1.4.1.2636.3.1.15.1.6.A → 13
1.3.6.1.4.1.2636.3.1.15.1.6.B → 6
1.3.6.1.4.1.2636.3.1.15.1.6.C → 7
1.3.6.1.4.1.2636.3.1.15.1.6.D → 2
1.3.6.1.4.1.2636.3.1.15.1.6.E → 6
注意: A,B,C,D,E的值可以是 1到4个八位位组,即,它们的值可以为'z', 'z.y', 'z.y.x' or 'z.y.x.w'。
现在,我们将返回 6 (或者) 7 (或者) 13 的实例作为响应,并记下实例ID。 在此, A, B, C 和 E 是提供所需响应的实例。因此,这些是OpManager应该能够查询以在该设备上执行硬件监视的实例。
现在我们知道了实例ID,可以使用它们来检查是否可以从该实例查询所需的参数。
OpManager查询每个实例的名称,状态和值。因此,如果要在Juniper设备上执行硬件监视,则查询时必须响应以下OID:
FruType响应 | 指标类型 | 实例 ID | 响应指标标识符的OID(运行描述) | 相应指标状态的OID (运行状态) | 相应指标数值的OID (运行温度) |
6 | 温度 | B | .1.3.6.1.4.1.2636.3.1.13.1.5.B | .1.3.6.1.4.1.2636.3.1.13.1.6.B | .1.3.6.1.4.1.2636.3.1.13.1.7.B |
6 | 温度 | E | .1.3.6.1.4.1.2636.3.1.13.1.5.E | .1.3.6.1.4.1.2636.3.1.13.1.6.E | .1.3.6.1.4.1.2636.3.1.13.1.7.E |
7 | 电源 | C | .1.3.6.1.4.1.2636.3.1.13.1.5.C | .1.3.6.1.4.1.2636.3.1.13.1.6.C | NA |
13 | 风扇 | A | .1.3.6.1.4.1.2636.3.1.13.1.5.A | .1.3.6.1.4.1.2636.3.1.13.1.6.A | NA |
HP: 1 - 未知 | 2 - 正常 | 3 - 有问题的 | 4 - 危急的
Dell: 1 - 未知 | 2 - 未知 | 3 - 正常 | 4 - 有问题的 | 5 - 危急的 | 6 - 服务停止
Cisco: 1 - 正常 | 2 - 有问题的 | 3 - 危急的 | 4 - 服务停止 | 5 - 未知 | 6 - 未知
Cisco Nexus: 2 - 正常 | 3 - 危急的 | 4 - 有问题的 (其他任何响应被视为 '未知')
Checkpoint: 1 - 正常 | 2 - 有问题的 | 3 - 危急的 | 4 - 服务停止 | 5 - 未知 | 6 - 未知
Juniper: 1 - 未知 | 2 - 正常 | 3 - 正常 | 4 - 正常 | 5 - 正常 | 6 - 危急的 | 7 - 关注的
由于OpManager主要使用SNMP查询设备状态和指标,因此必须在相应的设备中启用SNMP。要在Linux设备中安装SNMP代理,请遵循以下步骤。