Hadoop Monitoring

总览

Hadoop是一个开放源代码软件框架，旨在用于大数据（非常大的数据集）的分布式存储和分布式处理。Hadoop的主要体系结构主要由存储部分和处理部分组成。Hadoop将文件拆分为大块，然后将它们分布在集群中的各个节点之间。Hadoop的处理器部分将任务传输到节点以进行并行处理，从而利用数据局部性（节点处理其手头的数据）来更快，更有效地进行处理。

Applications Manager的Hadoop 监视器提供对Hadoop两个版本（即Hadoop 1.x和Hadoop 2.x）的监控，并帮助您维护分布式Hadoop集群的整体健康状况，确保其可用性并更快，更准确地处理任务。

创建一个新的Hadoop监视器

监控Hadoop指标的先决条件： 点击此处

使用REST API添加新的Hadoop监视器： 点击此处

要创建Hadoop监视器，请遵循以下步骤：

点击新建监视器链接，然后在服务下选择Hadoop 。
输入监视器的显示名称。
选择监控方式。（REST API或JMX）

对于REST API模式：

指定要监控的Hadoop版本。
指定主机的的NameNode的。
指定网络端口的的NameNode的。
选择是或否以确保启用或禁用SSL。
选择身份验证类型。如果选择简单身份验证，请指定用户名。
指定ResourceManager主机的名称。
指定ResourceManager Web端口的名称。
同样，选择是或否以确保启用或禁用SSL。
再次选择身份验证类型。如果选择简单身份验证，请指定用户名。
指定轮询间隔的持续时间。
从您要与监视器关联的组合框中选择业务组（可选）。您可以选择多个组来关联您的监视器。
点击添加监视器。这将从网络中发现Monitor，然后开始监控它们。

对于JMX模式：

指定要监控的Hadoop版本。
指定主机的的NameNode的。
指定JMX端口的的NameNode的。
输入用户名和密码。
输入JNDIPath的NameNode的。
指定ResourceManager主机的名称。
指定ResourceManager JMX端口的名称。
输入用户名并设置密码。
设置一个ResourceManager JNDIPath。
设置轮询间隔的持续时间。
从您要与监视器关联的组合框中选择业务组（可选）。您可以选择多个组来关联您的监视器。
点击添加监视器。这将从网络中发现监视器，然后开始监控它们。

注意:
如果启用JMX后仍无法添加监视器，请尝试提供以下参数：
-Djava.rmi.server.hostname = [YOUR_IP]

Hadoop Server - 监控参数

通过点击监视器 选项卡，转到监视器类别视图。点击服务表下的 Hadoop 。显示的是Hadoop批量配置视图，分布在三个选项卡中：

可用性 标签，提供过去24小时或30天的可用性历史记录。
性能选项卡提供了过去24小时或30天的健康状态和事件。
列表视图 使您可以执行批量管理配置。

点击监视器名称以查看以下选项卡下列出的所有服务器详细信息。

Hadoop Version 1.x	Hadoop Version 2.x
概览 HDFS Mapreduce Job	概览 HDFS YARN 应用

Hadoop 1.x

概览:

安全模式
Safemode status	安全模式状态可能的值： -Operational -Safemode
DFS
Total DFS Capacity (in GB)	HDFS的总容量。
NonDFS Used Space (in GB)	HDFS的已用内存，这不是使用DFS命令完成的。
DFS Used Space (in GB)	使用DFS命令完成的HDFS的已用内存。
DFS Used (in %)	已使用的HDFS内存百分比。
DFS Free Space (in GB)	HDFS的可用内存。
DFS Free (in %)	HDFS中可用内存的百分比。
BLOCKS
Block Capacity	Hadoop的总块容量。
Total Blocks	Hadoop中的块总数。
Missing Blocks	Hadoop中缺少的块数。
Corrupt Blocks	Hadoop中损坏的块数。
Excess Blocks	Hadoop中多余的块数。
UnderReplicated Blocks	Hadoop中未完全复制的块数。
Pending Deletion Blocks	Hadoop中待处理的删除块数。
Pending Replication Blocks	Hadoop中暂挂的复制块数。
文件
Total Files and Directories	HDFS中文件和目录的总数。
Files and Directories created per sec	每秒创建的文件和目录数。
加载
Total Load	Hadoop服务上的总负载。

HDFS:

NameNode JVM
NonHeap Memory Committed	当前已承诺使用的非堆内存总数。
NonHeap Memory Used	当前使用的非堆内存。
Heap Memory Commited	当前已承诺使用的堆总内存。
Heap Memory Used	当前使用的堆内存。
名称节点操作系统
Total Physical Memory (in GB)	名称节点的总RAM。
Free Physical Memory (in GB)	名称节点的可用RAM。
Total Swap Space (in GB)	名称节点操作系统中可用的总交换空间。
Free Swap Space (in GB)	Namenode OS中可用的可用交换空间。
Maximum File Descriptor Count	文件描述符总容量。
Open File Descriptor Count	处于打开状态的文件描述符数。
Average System Load	Namenode OS中的平均负载。
数据节点
Node Name	数据节点的名称
State	名称节点的当前状态： Live Dead Decommissioned
Used Space (in GB)	HDFS中的已用空间。

MapReduce:

Tracker摘要
Total TaskTracker	Tasktracker的总数。
Alive Tasktracker	处于活动状态的tasktracker的数量。
Blacklisted TaskTracker	处于黑名单状态的tasktracker的数量。
Graylisted TaskTracker	处于灰名单状态的任务跟踪器的数量。
Total Number of Jobs	在mapreduce中执行的作业总数。
插槽摘要
Total Map Slots	mapreduce中的地图插槽总容量。
Used Map Slots	当前使用的地图槽数。
Total Reduce Slots	总共减少mapreduce中的插槽容量。
Used Reduce Slots	当前使用的reduce插槽数。
TaskTrackers
TaskTracker Name	任务跟踪器的名称
State	Tasktracker的当前状态： Alive Blacklisted Graylisted Dead
Health	Tasktracker的当前健康状况： OK <health error message>
Failure Count	Tasktracker中的失败次数。
队列
Queue Name	队列名称。
State	队列的当前状态。
Info	从队列抛出的任何错误信息。

Job:

Jobs概览
Jobs Submitted	处于提交状态的作业数。
Jobs Preparing	处于准备状态的作业数。
Jobs Running	处于运行状态的作业数。
Jobs Failed	处于失败状态的作业数。
Jobs Killed	被杀死状态的工作数量。
Jobs Completed	处于完成状态的作业数。
Completed Percent (in %)	已完成作业的百分比。
Killed Percent (in %)	killed作业百分比。
Failed Percent (in %)	失败的工作百分比。
作业统计信息（在上一个轮询间隔中）
Submitted jobs count	在上一个轮询间隔中提交的作业数。
Failed jobs count	在上一个轮询间隔中失败的作业数。
Killed jobs count	在上一个轮询间隔中杀死的作业数。
Completed jobs count	在上一个轮询间隔中完成的作业数。

Hadoop 2.x

概览:

安全模式
Safemode status	安全模式状态可能的值： -操作 -安全模式
DFS
Total DFS Capacity (in GB)	HDFS的总容量。
NonDFS Used Space (in GB)	HDFS的已用内存，这不是使用DFS命令完成的。
DFS Used Space (in GB)	使用DFS命令完成的HDFS的已用内存。
DFS Used (in %)	已使用的HDFS内存百分比。
DFS Free Space (in GB)	HDFS的可用内存。
DFS Free (in %)	HDFS中可用内存的百分比。
Blocks
Block Capacity	Hadoop的总块容量。
Total Blocks	Hadoop中的块总数。
Missing Blocks	Hadoop中缺少的块数。
Corrupt Blocks	Hadoop中损坏的块数。
Excess Blocks	Hadoop中多余的块数。
UnderReplicated Blocks	Hadoop中未完全复制的块数。
Pending Deletion Blocks	Hadoop中待处理的删除块数。
Pending Replication Blocks	Hadoop中暂挂的复制块数。
文件
Total Files and Directories	HDFS中文件和目录的总数。
Files and Directories created per sec	每秒创建的文件和目录数。
加载
Total Load	Hadoop服务上的总负载。

HDFS:

DataNode摘要
Live Datanodes	处于活动状态的数据节点数。
Dead Datanodes	处于死状态的数据节点数。
Live-Decommissioned Datanodes	处于活动状态但已停用的数据节点数。
Dead-Decommissioed Datanodes	失效和停用的数据节点数。
Decommissioning Datanodes	datanode的数字处于停用状态。
Stale Datanodes	处于过时状态的数据节点数。
Live Datanode Percent (in %)	处于活动状态的datanode的百分比。
Dead Datanode Percent (in %)	处于死状态的datanode的百分比。
数据节点
Node Name	数据节点的名称。
State	数据节点的当前状态： Live Decommission In Progress Live - Decommissioned Dead - Decommissioned Dead
Total Capacity (in GB)	HDFS的总容量。
NonDFS Used (in GB)	非HDFS命令在HDFS中使用的内存量。
DFS Used (in GB)	HDFS命令在HDFS中使用的内存量。
DFS Used Percent (in %)	HDFS命令在HDFS中使用的内存百分比
DFS Free (in GB)	HDFS中的可用内存量。
DFS Free Percent (in GB)	HDFS中可用内存的百分比。

YARN:

NodeManger摘要
Active NodeManagers	处于活动状态的节点管理器的数量。
Decommissioned NodeManagers	退役状态的节点管理器数。
Lost NodeManagers	处于丢失状态的节点管理器的数量。
UnHealthy NodeManagers	处于不正常状态的节点管理器数。
Rebooted NodeManagers	处于重新引导状态的节点管理器的数量。
Active NodeManager Percent (in %)	处于活动状态的节点管理器的百分比。
Lost NodeManager Percent (in %)	处于丢失状态的nodemanager的百分比。
UnHealthy NodeManager Percent (in %)	处于不健康状态的nodemanager的百分比。
NodeManager
HostName	nodemanager的主机名。
Rack	该节点管理器所属的机架。
State	nodemanager的当前状态。 Running Unhealthy Dead
Memory used (in %)	nodemanager使用的主内存百分比。
Version	nodemanager的版本。

应用:

应用
Apps Submitted	处于提交状态的应用数。
Apps Completed	处于完成状态的应用程序数。
Apps Pending	处于待处理状态的应用程序数。
Apps Running	处于运行状态的应用程序数。
Apps Failed	处于失败状态的应用程序数。
Apps Killed	处于终止状态的应用程序数。
Percent Completed (in %)	已完成应用的百分比。
Percent Killed (in %)	被终止的应用程序的百分比。
Percent Failed (in %)	失败的应用程序所占的百分比。
Applications stat (上次轮询间隔)
Submitted apps count	最近一次轮询间隔提交的应用数。
Failed apps count	在上次轮询间隔中失败的应用程序数。
Killed apps count	在上一个轮询间隔中被杀死的应用程序数。
Completed apps count	在上一个轮询间隔中完成的应用程序数。

Hadoop Monitoring

总览

创建一个新的Hadoop监视器

Hadoop Server - 监控参数

Hadoop 1.x

Hadoop 2.x

受到世界各地客户的喜爱

"具有广泛监控功能的Standout工具"

我喜欢Applications Manager，因为它可以帮助我们检测服务器和SQL数据库中存在的问题。

卡洛斯·里韦罗

受到全球6000多家企业的信任

我们的客户