如何查看集群日报并了解集群的健康状态

您所在的位置:网站首页 统计hive表数据量大小 如何查看集群日报并了解集群的健康状态

如何查看集群日报并了解集群的健康状态

2024-01-16 01:41| 来源: 网络整理| 查看: 265

计算资源详细信息

该页面为您展示计算资源的详细分析。您可以了解到集群计算资源使用的基本信息,例如计算得分、扫描的任务数和任务的状态分布。同时为您指明具体的问题,例如内存使用率过低等,您可以根据后面的具体任务得分进行处理。

计算基础信息

该区域为您展示集群计算评分趋势图、集群算力内存时(GB*Sec)趋势图和集群算力CPU时(VCore*Sec)趋势图,以及计算任务的综合健康评分、各分数段任务数量的分布以及相关的趋势图。

管理算力内存时和算力CPU时的定义如下表。

指标

描述

集群算力内存时(GB*Hour)

集群所有任务的算力内存时之和,任务的算力内存时是一个累积值,计算方式是任务分配的内存(GB)* 任务的运行时间(Hours)。

集群算力CPU时(Core*Hour)

集群所有任务的算力CPU时之和,任务的算力CPU时是一个累积值,计算方式是任务的分配的CPU核数(Cores)* 任务的运行时间(Hours)。

计算引擎分析

该区域为您展示以下图表信息:

计算引擎评分趋势图

计算引擎任务数量趋势图

计算引擎内存算力时饼图、趋势图

计算引擎算力CPU时饼图、趋势图

计算队列信息

该区域为您展示计算队列算力内存时Top 20的图表信息。

计算任务信息

EMR Doctor采集计算任务,处理和分析后为您展示影响集群最重要的任务,您可以进行针对性的调优、处理,从而增强集群的计算效率,提升集群的使用率,达到增效的目的。

目前支持任务算力内存时(GB*Sec)Top50和计算任务评分倒序Top50任务列表。每条数据包含以下信息。

参数

说明

任务名

任务的名称。

引擎类型

任务的引擎类型。

SQL语句

仅SQL类才有。

APP IDS

对于Hive on MR,一个语句可能有多个APP ID。

用户名

提交任务的用户。

评分

任务得分。

健康状态

标记任务是否需要治理。

建议

指明任务的优化方向。

内存时(GB*Sec)

任务的算力内存时之和。

内存利用率

任务的平均内存利用率。

CPU时(vCore*Sec)

任务的算力CPU时之和。

CPU利用率

任务的平均CPU利用率。

当前配置

任务当前的配置,可以配合建议来考虑如何调整当前配置。

IO信息

任务的读写、Shuffle等数据。

YARN调度资源

您可以通过YARN调度资源分析了解到最准确的YARN引擎、队列、用户等维度下的资源使用和任务运行分布。

详细分析

该页面为您展示YARN调度资源的详细分析。在详细分析中,您可以了解到YARN内存资源使用、任务运行数量、不健康节点等分析。对于有着明显的资源使用波峰波谷以及任务运行的繁忙期和空闲期,详细分析中将为您具体指出内存资源使用以及任务运行的峰谷时段,您可以配合图表中的使用曲线了解资源使用情况。

YARN基础信息

在YARN基础信息中,您可以获取YARN全天结束的任务数量、Failed和Killed任务数量、算力内存时、算力CPU时以及以下图表信息:

YARN内存资源使用趋势图

YARN CPU资源使用趋势图

YARN运行中任务数量趋势图

YARN引擎信息

该区域为您展示以下图表信息:

引擎算力内存时分布饼图

引擎任务数量分布饼图

YARN用户信息

该区域为您展示以下图表信息:

用户算力内存时分布饼图

用户任务数量分布饼图

YARN队列信息

该区域为您展示以下图表信息:

队列算力内存时分布饼图

队列任务数量分布饼图

YARN不健康节点信息

YARN不健康节点信息为您展示全天中出现过不健康状态的节点Hostname,以及它们不健康状态的起止时间、持续时间和YARN提供的Health report。

HDFS存储资源

EMR Doctor默认不会采集存储资源信息,如果您想分析HDFS或者Hive的存储资源可以打开健康检查中的存储资源信息采集开关,或者根据配置说明中修改采集存储信息。

详细分析

该页面为您展示HDFS存储资源的详细分析。在详细分析中,您可以了解到集群资源的基本状态,例如总文件数和总存储量等。同时为您指明具体的问题,例如小文件数占比过高、冷数据存储量占比过高等。在具体问题中会告知您出现问题的目录位置以及处理方式,您可以进行对应处理。

HDFS基础信息

在HDFS基础信息中,您可以获取以下图表信息:

存储量趋势图

文件数趋势图

HDFS存储评分趋势图

文件总数,总存储量,小文件、极小文件个数,冷数据存储大小

HDFS使用分析

在HDFS使用分析中,您可以获取以下图表信息:

HDFS User存储使用量饼图

HDFS User文件数量饼图

HDFS Group存储使用量饼图

HDFS Group文件数量饼图

HDFS文件大小分布饼图

HDFS冷热数据分布饼图

HDFS一级目录存储量分布

目录文件大小分布信息

HDFS的小文件会导致NameNode压力以及分片问题,所以HDFS小文件是一个非常重要的指标。目录文件大小分布信息会展示空文件、极小文件、小文件、中等文件以及大文件在各个层级目录下的比例分布,目前EMR Doctor分析支持四级目录的下钻分析。

文件定义如下表所示。

参数

描述

空文件

大小为0的文件。

极小文件

大于0且小于1 MB的文件。

小文件

大于等于1且小于128 MB的文件。

中等文件

大于等于128 MB且小于等于1 GB的文件。

大文件

大于1 GB的文件。

目录文件大小分布信息中会展示以下信息:

层级目录空文件个数Top

层级目录极小文件个数Top

层级目录小文件个数Top

层级目录中等文件个数Top

层级目录大文件个数Top

每个表格会展示具体路径、存储大小、日环比和日增量等信息。

目录冷热数据分布信息

冷数据是长时间不访问的数据,推荐放到冷备存储,例如OSS冷备等。目录冷热数据分布可以帮助您了解集群使用情况,有针对性的进行成本优化。目录冷热数据分布信息会展示极冷数据、冷数据、温数据、热数据在各个层级目录下的比例分布,目前EMR Doctor分析支持四级目录的下钻分析。

参数

描述

极冷数据

超过3个月未访问的数据。

冷数据

超过1个月未访问,但三个月内有访问的数据。

温数据

超过7天未访问,但一个月内有访问的数据。

热数据

近7天有访问的数据。

在目录冷热数据分布信息中会展示如下信息:

层级目录极冷数据量分布Top

层级目录冷数据量分布Top

层级目录温数据量分布Top

层级目录热数据量分布Top

每个表格会展示具体路径、存储大小、日环比和日增量等信息。

HBase存储资源详细分析

该页面为您展示HBase存储资源的详细分析。在详细分析中,您可以了解HBase使用的基本状态,例如集群平均负载、集群分区均衡度,以及RegionServer和用户表的健康状态。同时为您指明具体的问题,例如集群平均负载偏高、集群分区均衡度偏低,以及RegionServer和表健康度异常等。在具体问题中会告知您出现问题的RegionServer、表以及分区等信息,您可以进行相应的优化。

集群总览分析

在集群总览信息中,您可以获取以下图表信息:

集群健康度评分趋势图

集群分区均衡度趋势图

集群分区数量分布饼图

集群请求数趋势图

总表数、总分区数、总节点数、平均负载、总数据量、总读请求数、总写请求数、总请求数

RegionServer相关信息

在RegionServer相关信息中展示RegionServer的缓存命中率、GC平均耗时以及单日读、写请求数等详细信息。

缓存命中率倒序排名:RegionServer、缓存命中率

GC平均时间排名:RegionServer、GC平均时间

单日读请求排名:RegionServer、读请求数

单日读请求日环比排名:RegionServer、读请求日环比增量

单日写请求排名:RegionServer、写请求数

单日写请日环比排名:RegionServer、写请求日环比增量

表相关信息

在表相关信息中展示表热点分区、表数据量、表分区数,以及表读写请求数等详细信息。

存在分区热点的表详细信息

表分区均衡度倒排Top

表分区平均数据量倒排Top

表数据量Top

表数据量日环比Top

表分区数Top

表分区日环比Top

表读请求数Top

表读请求数日环比Top

表写请求数Top

表写请求数日环比Top

Hive存储资源详细分析

该页面为您展示了Hive存储资源的详细分析。在详细分析中,您可以了解Hive使用的基本状态,例如总的Hive库数,总的Hive表数,Hive表总文件数和总存储量等。同时为您指明具体的问题,例如小文件数占比过高,冷数据存储量过多,以及存储格式分布不合理等。在具体问题中会告知您出现问题的库、表以及处理方式,您可以进行对应处理。

Hive基础信息

该区域汇总了Hive使用过程中常用的几个存储指标,包含存储使用量趋势,文件数量趋势及评分趋势等。

Hive使用量分析

在Hive使用分析中,您可以获取以下图表:

Hive库存储量使用量分布图

Hive用户总存储量分布

Hive表文件大小分布比例

Hive表热冷数据分布

Hive表存储格式分布

Hive详细信息

在Hive信息中会展示Hive库和Hive表的详细信息。

Hive库信息

Hive库信息包含以下部分:

Hive库详细信息

Hive库文件大小分布Top信息

Hive库冷热数据分布Top信息

Hive库存储格式分布Top信息

Hive库详细信息提供以下数据:

存储使用量排名:名称、存储量,日环比和日增量。

文件数量排名:名称、文件数量、日环比和日增量。

评分排名:分数排名。

分区个数排名:名称、分区个数、日环比和日增量。

Hive文件大小分布Top信息提供以下数据:

Hive库空文件个数Top

Hive库极小文件个数Top

Hive库小文件个数Top

Hive库中等文件个数Top

Hive库大文件个数Top

说明

Hive小文件会导致NameNode压力以及分片问题,大量的小文件会严重拖累计算流程,所以Hive小文件是一个非常重要的指标。

Hive库冷热数据分布Top信息会展示如下:

库极冷数据量分布Top

库冷数据量分布Top

库温数据量分布Top

库热数据量分布Top

说明

冷数据是长时间不访问的数据,推荐放到冷备存储,例如OSS冷备等。冷热数据分布可以帮助您了解集群使用情况,有针对性的进行成本优化。

Hive支持不同的存储格式,不同的存储格式对应了不同的应用场景,通常主流的列式格式会大大的节约存储成本,并提升查询效率。

Hive库存储格式分布Top信息展示如下:

库TextFile存储格式数据量分布Top

库Parquet存储格式数据量分布Top

库ORC存储格式数据量分布Top

Hive表信息

Hive表信息包含以下部分:

Hive表详细信息

Hive表文件大小分布Top信息

Hive表冷热数据分布Top信息

Hive表存储格式分布Top信息

说明

相关的功能说明请参见Hive库信息。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3