Hadoop Monitoring


总览

Hadoop是一个开放源代码软件框架,旨在用于大数据(非常大的数据集)的分布式存储和分布式处理。Hadoop的主要体系结构主要由存储部分和处理部分组成。Hadoop将文件拆分为大块,然后将它们分布在集群中的各个节点之间。Hadoop的处理器部分将任务传输到节点以进行并行处理,从而利用数据局部性(节点处理其手头的数据)来更快,更有效地进行处理。

Applications Manager的Hadoop 监视器提供对Hadoop两个版本(即Hadoop 1.x和Hadoop 2.x)的监控,并帮助您维护分布式Hadoop集群的整体健康状况,确保其可用性并更快,更准确地处理任务。

创建一个新的Hadoop监视器

监控Hadoop指标的先决条件: 点击此处

使用REST API添加新的Hadoop监视器: 点击此处

要创建Hadoop监视器,请遵循以下步骤:

  1. 点击新建监视器链接,然后在服务下选择Hadoop 。
  2. 输入监视器的显示名称
  3. 选择监控方式。(REST API或JMX)

对于REST API模式:

  1. 指定要监控的Hadoop版本
  2. 指定主机的的NameNode的
  3. 指定网络端口的的NameNode的
  4. 选择以确保启用或禁用SSL。
  5. 选择身份验证类型。如果选择简单身份验证,请指定用户名
  6. 指定ResourceManager主机的名称
  7. 指定ResourceManager Web端口的名称
  8. 同样,选择以确保启用或禁用SSL。
  9. 再次选择身份验证类型。如果选择简单身份验证,请指定用户名
  10. 指定轮询间隔的持续时间
  11. 从您要与监视器关联的组合框中选择业务组(可选)。您可以选择多个组来关联您的监视器。
  12. 点击添加监视器。这将从网络中发现Monitor,然后开始监控它们。

对于JMX模式:

  1. 指定要监控的Hadoop版本
  2. 指定主机的的NameNode的
  3. 指定JMX端口的的NameNode的
  4. 输入用户名密码
  5. 输入JNDIPathNameNode的
  6. 指定ResourceManager主机的名称
  7. 指定ResourceManager JMX端口的名称
  8. 输入用户名并设置密码
  9. 设置一个ResourceManager JNDIPath
  10. 设置轮询间隔的持续时间
  11. 从您要与监视器关联的组合框中选择业务组(可选)。您可以选择多个组来关联您的监视器。
  12. 点击添加监视器。这将从网络中发现监视器,然后开始监控它们。

    注意:
    如果启用JMX后仍无法添加监视器,请尝试提供以下参数:
     -Djava.rmi.server.hostname = [YOUR_IP]

Hadoop Server - 监控参数

 通过点击监视器 选项卡,转到监视器类别视图。点击服务 表下的  Hadoop 。显示的是Hadoop批量配置视图,分布在三个选项卡中:

  • 可用性 标签,提供过去24小时或30天的可用性历史记录。
  • 性能 选项卡提供了过去24小时或30天的健康状态和事件。
  • 列表视图 使您可以执行 批量管理配置

点击监视器名称以查看以下选项卡下列出的所有服务器详细信息。

Hadoop Version 1.xHadoop Version 2.x

Hadoop 1.x

概览:

安全模式 

Safemode status

安全模式状态

可能的值:

-Operational

-Safemode

DFS 
Total DFS Capacity (in GB)HDFS的总容量。
NonDFS Used Space (in GB)HDFS的已用内存,这不是使用DFS命令完成的。
DFS Used Space (in GB)使用DFS命令完成的HDFS的已用内存。
DFS Used (in %)已使用的HDFS内存百分比。 
DFS Free Space (in GB)HDFS的可用内存。
DFS Free (in %)HDFS中可用内存的百分比。
BLOCKS 
Block CapacityHadoop的总块容量。
Total BlocksHadoop中的块总数。
Missing BlocksHadoop中缺少的块数。
Corrupt BlocksHadoop中损坏的块数。
Excess BlocksHadoop中多余的块数。
UnderReplicated BlocksHadoop中未完全复制的块数。
Pending Deletion BlocksHadoop中待处理的删除块数。
Pending Replication BlocksHadoop中暂挂的复制块数。
文件 
Total Files and DirectoriesHDFS中文件和目录的总数。
Files and Directories created per sec每秒创建的文件和目录数。
加载 
Total LoadHadoop服务上的总负载。

HDFS:

NameNode JVM 
NonHeap Memory Committed当前已承诺使用的非堆内存总数。
NonHeap Memory Used当前使用的非堆内存。 
Heap Memory Commited当前已承诺使用的堆总内存。
Heap Memory Used当前使用的堆内存。 
名称节点操作系统 
Total Physical Memory (in GB) 名称节点的总RAM。
Free Physical Memory (in GB)名称节点的可用RAM。
Total Swap Space (in GB)名称节点操作系统中可用的总交换空间。
Free Swap Space (in GB)Namenode OS中可用的可用交换空间。
Maximum File Descriptor Count文件描述符总容量。
Open File Descriptor Count处于打开状态的文件描述符数。
Average System LoadNamenode OS中的平均负载。
数据节点 
Node Name数据节点的名称
State名称节点的当前状态:
  • Live
  • Dead
  • Decommissioned
Used Space (in GB)HDFS中的已用空间。

MapReduce:

Tracker摘要 
Total TaskTrackerTasktracker的总数。
Alive Tasktracker处于活动状态的tasktracker的数量。
Blacklisted TaskTracker处于黑名单状态的tasktracker的数量。
Graylisted TaskTracker处于灰名单状态的任务跟踪器的数量。
Total Number of Jobs在mapreduce中执行的作业总数。
插槽摘要 
Total Map Slotsmapreduce中的地图插槽总容量。
Used Map Slots当前使用的地图槽数。
Total Reduce Slots总共减少mapreduce中的插槽容量。
Used Reduce Slots当前使用的reduce插槽数。
TaskTrackers 
TaskTracker Name任务跟踪器的名称
StateTasktracker的当前状态:
  • Alive
  • Blacklisted
  • Graylisted
  • Dead
HealthTasktracker的当前健康状况:
  • OK
  • <health error message>
Failure CountTasktracker中的失败次数。
队列 
Queue Name队列名称。
State队列的当前状态。
Info从队列抛出的任何错误信息。 

Job:

Jobs概览

 
Jobs Submitted处于提交状态的作业数。
Jobs Preparing处于准备状态的作业数。
Jobs Running处于运行状态的作业数。
Jobs Failed处于失败状态的作业数。
Jobs Killed被杀死状态的工作数量。
Jobs Completed处于完成状态的作业数。
Completed Percent (in %)已完成作业的百分比。
Killed Percent (in %) killed作业百分比。
Failed Percent (in %)失败的工作百分比。
作业统计信息(在上一个轮询间隔中) 
Submitted jobs count在上一个轮询间隔中提交的作业数。
Failed jobs count在上一个轮询间隔中失败的作业数。
Killed jobs count在上一个轮询间隔中杀死的作业数。
Completed jobs count在上一个轮询间隔中完成的作业数。

Hadoop 2.x

概览:

安全模式 

Safemode status

安全模式状态

可能的值:

-操作

-安全模式
DFS 
Total DFS Capacity (in GB)HDFS的总容量。
NonDFS Used Space (in GB)HDFS的已用内存,这不是使用DFS命令完成的。
DFS Used Space (in GB)使用DFS命令完成的HDFS的已用内存。
DFS Used (in %)已使用的HDFS内存百分比。 
DFS Free Space (in GB)

HDFS的可用内存。

DFS Free (in %)HDFS中可用内存的百分比。
Blocks 
Block CapacityHadoop的总块容量。
Total BlocksHadoop中的块总数。
Missing BlocksHadoop中缺少的块数。
Corrupt BlocksHadoop中损坏的块数。
Excess BlocksHadoop中多余的块数。
UnderReplicated BlocksHadoop中未完全复制的块数。
Pending Deletion BlocksHadoop中待处理的删除块数。
Pending Replication BlocksHadoop中暂挂的复制块数。
文件 
Total Files and DirectoriesHDFS中文件和目录的总数。
Files and Directories created per sec每秒创建的文件和目录数。
加载 
Total LoadHadoop服务上的总负载。

HDFS:

DataNode摘要 
Live Datanodes处于活动状态的数据节点数。
Dead Datanodes处于死状态的数据节点数。
Live-Decommissioned Datanodes处于活动状态但已停用的数据节点数。
Dead-Decommissioed Datanodes失效和停用的数据节点数。
Decommissioning Datanodesdatanode的数字处于停用状态。
Stale Datanodes处于过时状态的数据节点数。
Live Datanode Percent (in %)处于活动状态的datanode的百分比。
Dead Datanode Percent (in %)处于死状态的datanode的百分比。
数据节点 
Node Name数据节点的名称。
State数据节点的当前状态:
  • Live
  • Decommission In Progress
  • Live - Decommissioned
  • Dead - Decommissioned
  • Dead
Total Capacity (in GB)HDFS的总容量。
NonDFS Used (in GB)非HDFS命令在HDFS中使用的内存量。
DFS Used (in GB)HDFS命令在HDFS中使用的内存量。
DFS Used Percent (in %)HDFS命令在HDFS中使用的内存百分比
DFS Free (in GB)HDFS中的可用内存量。
DFS Free Percent (in GB)HDFS中可用内存的百分比。

YARN:

NodeManger摘要 
Active NodeManagers处于活动状态的节点管理器的数量。
Decommissioned NodeManagers退役状态的节点管理器数。
Lost NodeManagers处于丢失状态的节点管理器的数量。
UnHealthy NodeManagers处于不正常状态的节点管理器数。
Rebooted NodeManagers处于重新引导状态的节点管理器的数量。
Active NodeManager Percent (in %)处于活动状态的节点管理器的百分比。
Lost NodeManager Percent (in %)处于丢失状态的nodemanager的百分比。
UnHealthy NodeManager Percent (in %)处于不健康状态的nodemanager的百分比。
NodeManager 
HostNamenodemanager的主机名。
Rack该节点管理器所属的机架。
State

nodemanager的当前状态。

  • Running
  • Unhealthy
  • Dead
Memory used (in %)nodemanager使用的主内存百分比。
Versionnodemanager的版本。

应用:

应用 
Apps Submitted处于提交状态的应用数。
Apps Completed处于完成状态的应用程序数。
Apps Pending处于待处理状态的应用程序数。
Apps Running处于运行状态的应用程序数。
Apps Failed处于失败状态的应用程序数。
Apps Killed处于终止状态的应用程序数。
Percent Completed (in %)已完成应用的百分比。
Percent Killed (in %)被终止的应用程序的百分比。
Percent Failed (in %)失败的应用程序所占的百分比。
Applications stat (上次轮询间隔) 
Submitted apps count最近一次轮询间隔提交的应用数。
Failed apps count在上次轮询间隔中失败的应用程序数。
Killed apps count在上一个轮询间隔中被杀死的应用程序数。
Completed apps count在上一个轮询间隔中完成的应用程序数。

受到世界各地客户的喜爱

"具有广泛监控功能的Standout工具"

它允许我们跟踪关键指标,如响应时间、资源利用率、错误率和交易性能。实时监控告警会及时通知我们任何问题或异常,使我们能够立即采取行动。

审稿人角色:研究与开发

我喜欢Applications Manager,因为它可以帮助我们检测服务器和SQL数据库中存在的问题。
卡洛斯·里韦罗

Lexmark技术支持经理

受到全球6000多家企业的信任

我们的客户