Hadoop Monitoring


总览

Hadoop是一个开放源代码软件框架,旨在用于大数据(非常大的数据集)的分布式存储和分布式处理。Hadoop的主要体系结构主要由存储部分和处理部分组成。Hadoop将文件拆分为大块,然后将它们分布在集群中的各个节点之间。Hadoop的处理器部分将任务传输到节点以进行并行处理,从而利用数据局部性(节点处理其手头的数据)来更快,更有效地进行处理。

Applications Manager的Hadoop 监视器提供对Hadoop两个版本(即Hadoop 1.x和Hadoop 2.x)的监控,并帮助您维护分布式Hadoop集群的整体健康状况,确保其可用性并更快,更准确地处理任务。

创建一个新的Hadoop监视器

监控Hadoop指标的先决条件: 点击此处

使用REST API添加新的Hadoop监视器: 点击此处

要创建Hadoop监视器,请遵循以下步骤:

  1. 点击新建监视器链接,然后在服务下选择Hadoop 。
  2. 输入监视器的显示名称
  3. 选择监控方式。(REST API或JMX)

对于REST API模式:

  1. 指定要监控的Hadoop版本
  2. 指定主机的的NameNode的
  3. 指定网络端口的的NameNode的
  4. 选择以确保启用或禁用SSL。
  5. 选择身份验证类型。如果选择简单身份验证,请指定用户名
  6. 指定ResourceManager主机的名称
  7. 指定ResourceManager Web端口的名称
  8. 同样,选择以确保启用或禁用SSL。
  9. 再次选择身份验证类型。如果选择简单身份验证,请指定用户名
  10. 指定轮询间隔的持续时间
  11. 从您要与监视器关联的组合框中选择业务组(可选)。您可以选择多个组来关联您的监视器。
  12. 点击添加监视器。这将从网络中发现Monitor,然后开始监控它们。

对于JMX模式:

  1. 指定要监控的Hadoop版本
  2. 指定主机的的NameNode的
  3. 指定JMX端口的的NameNode的
  4. 输入用户名密码
  5. 输入JNDIPathNameNode的
  6. 指定ResourceManager主机的名称
  7. 指定ResourceManager JMX端口的名称
  8. 输入用户名并设置密码
  9. 设置一个ResourceManager JNDIPath
  10. 设置轮询间隔的持续时间
  11. 从您要与监视器关联的组合框中选择业务组(可选)。您可以选择多个组来关联您的监视器。
  12. 点击添加监视器。这将从网络中发现监视器,然后开始监控它们。

    注意:
    如果启用JMX后仍无法添加监视器,请尝试提供以下参数:
     -Djava.rmi.server.hostname = [YOUR_IP]

Hadoop Server - 监控参数

 通过点击监视器 选项卡,转到监视器类别视图。点击服务 表下的  Hadoop 。显示的是Hadoop批量配置视图,分布在三个选项卡中:

  • 可用性 标签,提供过去24小时或30天的可用性历史记录。
  • 性能 选项卡提供了过去24小时或30天的健康状态和事件。
  • 列表视图 使您可以执行 批量管理配置

点击监视器名称以查看以下选项卡下列出的所有服务器详细信息。

Hadoop Version 1.x Hadoop Version 2.x

Hadoop 1.x

概览:

安全模式  

Safemode status

安全模式状态

可能的值:

-Operational

-Safemode

DFS  
Total DFS Capacity (in GB) HDFS的总容量。
NonDFS Used Space (in GB) HDFS的已用内存,这不是使用DFS命令完成的。
DFS Used Space (in GB) 使用DFS命令完成的HDFS的已用内存。
DFS Used (in %) 已使用的HDFS内存百分比。 
DFS Free Space (in GB) HDFS的可用内存。
DFS Free (in %) HDFS中可用内存的百分比。
BLOCKS  
Block Capacity Hadoop的总块容量。
Total Blocks Hadoop中的块总数。
Missing Blocks Hadoop中缺少的块数。
Corrupt Blocks Hadoop中损坏的块数。
Excess Blocks Hadoop中多余的块数。
UnderReplicated Blocks Hadoop中未完全复制的块数。
Pending Deletion Blocks Hadoop中待处理的删除块数。
Pending Replication Blocks Hadoop中暂挂的复制块数。
文件  
Total Files and Directories HDFS中文件和目录的总数。
Files and Directories created per sec 每秒创建的文件和目录数。
加载  
Total Load Hadoop服务上的总负载。

HDFS:

NameNode JVM  
NonHeap Memory Committed 当前已承诺使用的非堆内存总数。
NonHeap Memory Used 当前使用的非堆内存。 
Heap Memory Commited 当前已承诺使用的堆总内存。
Heap Memory Used 当前使用的堆内存。 
名称节点操作系统  
Total Physical Memory (in GB)  名称节点的总RAM。
Free Physical Memory (in GB) 名称节点的可用RAM。
Total Swap Space (in GB) 名称节点操作系统中可用的总交换空间。
Free Swap Space (in GB) Namenode OS中可用的可用交换空间。
Maximum File Descriptor Count 文件描述符总容量。
Open File Descriptor Count 处于打开状态的文件描述符数。
Average System Load Namenode OS中的平均负载。
数据节点  
Node Name 数据节点的名称
State 名称节点的当前状态:
  • Live
  • Dead
  • Decommissioned
Used Space (in GB) HDFS中的已用空间。

MapReduce:

Tracker摘要  
Total TaskTracker Tasktracker的总数。
Alive Tasktracker 处于活动状态的tasktracker的数量。
Blacklisted TaskTracker 处于黑名单状态的tasktracker的数量。
Graylisted TaskTracker 处于灰名单状态的任务跟踪器的数量。
Total Number of Jobs 在mapreduce中执行的作业总数。
插槽摘要  
Total Map Slots mapreduce中的地图插槽总容量。
Used Map Slots 当前使用的地图槽数。
Total Reduce Slots 总共减少mapreduce中的插槽容量。
Used Reduce Slots 当前使用的reduce插槽数。
TaskTrackers  
TaskTracker Name 任务跟踪器的名称
State Tasktracker的当前状态:
  • Alive
  • Blacklisted
  • Graylisted
  • Dead
Health Tasktracker的当前健康状况:
  • OK
  • <health error message>
Failure Count Tasktracker中的失败次数。
队列  
Queue Name 队列名称。
State 队列的当前状态。
Info 从队列抛出的任何错误信息。 

Job:

Jobs概览

 
Jobs Submitted 处于提交状态的作业数。
Jobs Preparing 处于准备状态的作业数。
Jobs Running 处于运行状态的作业数。
Jobs Failed 处于失败状态的作业数。
Jobs Killed 被杀死状态的工作数量。
Jobs Completed 处于完成状态的作业数。
Completed Percent (in %) 已完成作业的百分比。
Killed Percent (in %)  killed作业百分比。
Failed Percent (in %) 失败的工作百分比。
作业统计信息(在上一个轮询间隔中)  
Submitted jobs count 在上一个轮询间隔中提交的作业数。
Failed jobs count 在上一个轮询间隔中失败的作业数。
Killed jobs count 在上一个轮询间隔中杀死的作业数。
Completed jobs count 在上一个轮询间隔中完成的作业数。

Hadoop 2.x

概览:

安全模式  

Safemode status

安全模式状态

可能的值:

-操作

-安全模式
DFS  
Total DFS Capacity (in GB) HDFS的总容量。
NonDFS Used Space (in GB) HDFS的已用内存,这不是使用DFS命令完成的。
DFS Used Space (in GB) 使用DFS命令完成的HDFS的已用内存。
DFS Used (in %) 已使用的HDFS内存百分比。 
DFS Free Space (in GB)

HDFS的可用内存。

DFS Free (in %) HDFS中可用内存的百分比。
Blocks  
Block Capacity Hadoop的总块容量。
Total Blocks Hadoop中的块总数。
Missing Blocks Hadoop中缺少的块数。
Corrupt Blocks Hadoop中损坏的块数。
Excess Blocks Hadoop中多余的块数。
UnderReplicated Blocks Hadoop中未完全复制的块数。
Pending Deletion Blocks Hadoop中待处理的删除块数。
Pending Replication Blocks Hadoop中暂挂的复制块数。
文件  
Total Files and Directories HDFS中文件和目录的总数。
Files and Directories created per sec 每秒创建的文件和目录数。
加载  
Total Load Hadoop服务上的总负载。

HDFS:

DataNode摘要  
Live Datanodes 处于活动状态的数据节点数。
Dead Datanodes 处于死状态的数据节点数。
Live-Decommissioned Datanodes 处于活动状态但已停用的数据节点数。
Dead-Decommissioed Datanodes 失效和停用的数据节点数。
Decommissioning Datanodes datanode的数字处于停用状态。
Stale Datanodes 处于过时状态的数据节点数。
Live Datanode Percent (in %) 处于活动状态的datanode的百分比。
Dead Datanode Percent (in %) 处于死状态的datanode的百分比。
数据节点  
Node Name 数据节点的名称。
State 数据节点的当前状态:
  • Live
  • Decommission In Progress
  • Live - Decommissioned
  • Dead - Decommissioned
  • Dead
Total Capacity (in GB) HDFS的总容量。
NonDFS Used (in GB) 非HDFS命令在HDFS中使用的内存量。
DFS Used (in GB) HDFS命令在HDFS中使用的内存量。
DFS Used Percent (in %) HDFS命令在HDFS中使用的内存百分比
DFS Free (in GB) HDFS中的可用内存量。
DFS Free Percent (in GB) HDFS中可用内存的百分比。

YARN:

NodeManger摘要  
Active NodeManagers 处于活动状态的节点管理器的数量。
Decommissioned NodeManagers 退役状态的节点管理器数。
Lost NodeManagers 处于丢失状态的节点管理器的数量。
UnHealthy NodeManagers 处于不正常状态的节点管理器数。
Rebooted NodeManagers 处于重新引导状态的节点管理器的数量。
Active NodeManager Percent (in %) 处于活动状态的节点管理器的百分比。
Lost NodeManager Percent (in %) 处于丢失状态的nodemanager的百分比。
UnHealthy NodeManager Percent (in %) 处于不健康状态的nodemanager的百分比。
NodeManager  
HostName nodemanager的主机名。
Rack 该节点管理器所属的机架。
State

nodemanager的当前状态。

  • Running
  • Unhealthy
  • Dead
Memory used (in %) nodemanager使用的主内存百分比。
Version nodemanager的版本。

应用:

应用  
Apps Submitted 处于提交状态的应用数。
Apps Completed 处于完成状态的应用程序数。
Apps Pending 处于待处理状态的应用程序数。
Apps Running 处于运行状态的应用程序数。
Apps Failed 处于失败状态的应用程序数。
Apps Killed 处于终止状态的应用程序数。
Percent Completed (in %) 已完成应用的百分比。
Percent Killed (in %) 被终止的应用程序的百分比。
Percent Failed (in %) 失败的应用程序所占的百分比。
Applications stat (上次轮询间隔)  
Submitted apps count 最近一次轮询间隔提交的应用数。
Failed apps count 在上次轮询间隔中失败的应用程序数。
Killed apps count 在上一个轮询间隔中被杀死的应用程序数。
Completed apps count 在上一个轮询间隔中完成的应用程序数。