进击大数据系列（一）：Hadoop 基本概念与生态介绍

您所在的位置：网站首页 › 结构化数据的含义 › 进击大数据系列（一）：Hadoop 基本概念与生态介绍

进击大数据系列（一）：Hadoop 基本概念与生态介绍

2024-06-24 14:54| 来源: 网络整理| 查看: 265

大数据概述

大数据（big data），指的是在一定时间范围内不能以常规软件工具处理（存储和计算）的大而复杂的数据集。说白了大数据就是使用单台计算机没法在规定时间内处理完，或者压根就没法处理的数据集。

大数据的特性大量 (Volume)大数据的“大”首先体现在数据量上。这意味着您需要处理海量、低密度的非结构化数据。这些数据的价值可能是未知的，例如 Twitter 数据流、网页或移动应用点击流，以及设备传感器所捕获的数据等等。在实际应用中，大数据的数据量通常高达数十 TB，甚至数百 PB。高速 (Velocity)大数据的“高速”指高速接收乃至处理数据 — 数据通常直接流入内存而非写入磁盘。在实际应用中，某些联网的智能产品需要实时或近乎实时地运行，要求基于数据实时评估和操作，而大数据只有具备“高速”特性才能满足这些要求。多样化 (Variety)多样化是指数据类型众多。通常来说，传统数据属于结构化数据，能够整齐地纳入关系数据库。随着大数据的兴起，各种新的非结构化数据类型不断涌现，例如文本、音频和视频等等，它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。

Hadoop 是用于处理大数据的工具之一。Hadoop 和其他软件产品通过特定的专有算法和方法来解释或解析大数据搜索的结果。

在大数据处理上，Hadoop并非是唯一的分布式处理架构，但是对于大部分的企业来说，基于Hadoop已经能够满足绝大部分的数据需求，因此才会成为现在的主流选择。

更多关于大数据 Hadoop 系列的学习文章，请参阅：进击大数据，本系列持续更新中。

Hadoop 概述

Hadoop 是 Apache软件基金会下一个开源分布式计算平台，以 HDFS（Hadoop Distributed File System）、MapReduce（Hadoop2.0加入了YARN，Yarn是资源调度框架，能够细粒度的管理和调度任务，还能够支持其他的计算框架，比如spark）为核心的 Hadoop 为用户提供了系统底层细节透明的分布式基础架构。hdfs的高容错性、高伸缩性、高效性等优点让用户可以将Hadoop部署在低廉的硬件上，形成分布式系统。

是一个由 Apache 基金会所开发的分布式系统基础架构，主要解决海量数据的储存和海量数据的分析计算问题。广义上说，Hadoop 是一个更广泛的概念，Hadoop 生态圈。

Hadoop 发行版本Apache Hadoop发行版官方地址：https://hadoop.apache.org

Apache版本最原始（最基础）的版本，对于入门学习最好。

DKhadoop发行版Github地址：https://github.com/dkhadoop/dk-fitting

有效的集成了整个HADOOP生态系统的全部组件，并深度优化，重新编译为一个完整的更高性能的大数据通用计算平台，实现了各部件的有机协调。因此DKH相比开源的大数据平台，在计算性能上有了高达5倍（最大）的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点（主节点、管理节点、计算节点），极大的简化了集群的管理运维，增强了集群的高可用性、高可维护性、高稳定性。

Cloudera发行版官方地址：https://www.cloudera.com/products/open-source/apache-hadoop.html

CDH是Cloudera的hadoop发行版，完全开源，比Apache hadoop在兼容性，安全性，稳定性上有增强。

Hortonworks发行版官方地址：https://www.cloudera.com/products/hdp.html

Hortonworks 的主打产品是Hortonworks Data Platform (HDP)，也同样是100%开源的产品，其版本特点：HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便，HDP包括一个现代化的，直观的用户界面的安装和配置工具。

华为hadoop发行版

华为FusionInsight大数据平台是集Hadoop生态发行版、大规模并行处理数据库、大数据云服务于一体的融合数据处理与服务平台，拥有端到端全生命周期的解决方案能力。除了提供包括批处理、内存计算、流计算和MPPDB在内的全方位数据处理能力外，还提供数据分析挖掘平台、数据服务平台，帮助用户实现从数据到知识，从知识到智慧的转换，进而帮助用户从海量数据中挖掘数据价值。

更多关于大数据 Hadoop系列的学习文章，请参阅：进击大数据，本系列持续更新中。

版本之间的区别Hadoop1.x - Hadoop2.x的演变

Hadoop 1.X、2.X、3.X区别1.XMapReduce（计算+资源调度）HDFS（数据存储）Common（辅助工具）2.XMapReduce（计算）Yarn（资源调度）HDFS（数据存储）Common（辅助工具）3.X：组成上没有变化Hadoop2.x与Hadoop3.x区别对比LicenseHadoop 2.x - Apache 2.0，开源Hadoop 3.x - Apache 2.0，开源支持的最低Java版本Hadoop 2.x - java的最低支持版本是java 7Hadoop 3.x - java的最低支持版本是java 8容错Hadoop 2.x - 可以通过复制（浪费空间）来处理容错。Hadoop 3.x - 可以通过Erasure编码处理容错。数据平衡Hadoop 2.x - 对于数据，平衡使用HDFS平衡器。Hadoop 3.x - 对于数据，平衡使用Intra-data节点平衡器，该平衡器通过HDFS磁盘平衡器CLI调用。存储SchemeHadoop 2.x - 使用3X副本Scheme。Hadoop 3.x - 支持HDFS中的擦除编码。存储开销Hadoop 2.x - HDFS在存储空间中有200％的开销。Hadoop 3.x - 存储开销仅为50％。存储开销示例Hadoop 2.x - 如果有6个块，那么由于副本方案（Scheme），将有18个块占用空间。Hadoop 3.x - 如果有6个块，那么将有9个块占用6块空间，3个用于奇偶校验。YARN时间线服务Hadoop 2.x - 使用具有可伸缩性问题的旧时间轴服务。Hadoop 3.x - 改进时间线服务v2并提高时间线服务的可扩展性和可靠性。默认端口范围Hadoop 2.x - 在Hadoop 2.0中，一些默认端口是Linux临时端口范围。所以在启动时，他们将无法绑定。Hadoop 3.x - 但是在Hadoop 3.0中，这些端口已经移出了短暂的范围。工具Hadoop 2.x - 使用Hive，pig，Tez，Hama，Giraph和其他Hadoop工具。Hadoop 3.x - 可以使用Hive，pig，Tez，Hama，Giraph和其他Hadoop工具。兼容的文件系统Hadoop 2.x - HDFS（默认FS），FTP文件系统：它将所有数据存储在可远程访问的FTP服务器上。Amazon S3（简单存储服务）文件系统Windows Azure存储Blob（WASB）文件系统。Hadoop 3.x - 它支持所有前面以及Microsoft Azure Data Lake文件系统。Datanode资源Hadoop 2.x - Datanode资源不专用于MapReduce，我们可以将它用于其他应用程序。Hadoop 3.x - 此处数据节点资源也可用于其他应用程序。MR API兼容性Hadoop 2.x - 与Hadoop 1.x程序兼容的MR API，可在Hadoop 2.X上执行。Hadoop 3.x - 此处，MR API与运行Hadoop 1.x程序兼容，以便在Hadoop 3.X上执行。支持Microsoft WindowsHadoop 2.x - 它可以部署在Windows上。Hadoop 3.x - 它也支持Microsoft Windows。插槽/容器Hadoop 2.x - Hadoop 1适用于插槽的概念，但Hadoop 2.X适用于容器的概念。通过容器，我们可以运行通用任务。Hadoop 3.x - 它也适用于容器的概念。单点故障Hadoop 2.x - 具有SPOF的功能，因此只要Namenode失败，它就会自动恢复。Hadoop 3.x - 具有SPOF的功能，因此只要Namenode失败，它就会自动恢复，无需人工干预就可以克服它。HDFS联盟Hadoop 2.x - 在Hadoop 1.0中，只有一个NameNode来管理所有Namespace，但在Hadoop 2.0中，多个NameNode用于多个Namespace。Hadoop 3.x - Hadoop 3.x还有多个名称空间用于多个名称空间。可扩展性Hadoop 2.x - 我们可以扩展到每个群集10,000个节点。Hadoop 3.x - 更好的可扩展性。我们可以为每个群集扩展超过10,000个节点。访问数据Hadoop 2.x - 由于数据节点缓存，我们可以快速访问数据。Hadoop 3.x - 这里也通过Datanode缓存我们可以快速访问数据。HDFS快照Hadoop 2.x - Hadoop 2增加了对快照的支持。它为用户错误提供灾难恢复和保护。Hadoop 3.x - Hadoop 2也支持快照功能。平台Hadoop 2.x - 可以作为各种数据分析的平台，可以运行事件处理，流媒体和实时操作。Hadoop 3.x - 这里也可以在YARN的顶部运行事件处理，流媒体和实时操作。群集资源管理Hadoop 2.x - 对于群集资源管理，它使用YARN。它提高了可扩展性，高可用性，多租户。Hadoop 3.x - 对于集群，资源管理使用具有所有功能的YARN。更多关于大数据 Hadoop系列的学习文章，请参阅：进击大数据，本系列持续更新中。Hadoop 生态系统

HDFS（Hadoop Distributed File System）产生背景是分布式文件管理系统中的一种通过目录树来定位文件适合一次写入，多次读出。一个文件经过创建、写入和关闭之后就不需要改变架构概述NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等；配置副本策略；处理的客户端的读写请求DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和；执行数据块的读/写操作Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份；并非热备，当NameNode挂掉的时候，并不能马上替换NameNode并提供服务；紧急情况，可辅助恢复NameNodeClient：将上传到HDFS的文件切分成块（128M / 256M）；与NameNode交互，获取文件位置信息；与DataNode交互，读取写入数据；管理HDFS，例如NameNode格式化，对HDFS增删改查优缺点优点数据规模能够达到GB、TB、PB级别文件规模能够处理百万规模以上的文件数量高容错性：数据自动保存多个副本，某一个副本丢失之后，可以自动恢复适合处理大数据：可构建在廉价的机器上：通过多副本机制，提高可靠性缺点不适合低延时数据访问：毫秒级的存储数据无法高效的对大量小文件进行存储：存储大量小文件的话，会占用NameNode 大量的内存来存储文件目录和块信息，NameNode的内存总是有限的；小文件的存储的寻址时间会超过读取时间，违反了HDFS的设计目标不支持并发写入、文件随机修改：一个文件只能有一个写，不允许多个线程同时写；仅支持数据追加，不支持文件的随机修改写数据流程

最近距离计算：在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接受数据；节点距离（两个节点到达最近的共同祖先的距离总和）

读数据流程

NameNode 工作机制

Fsimage 文件：HDFS 文件系统源数据的一个永久性的检查点，其中包含 HDFS 文件系统的所有目录和文件inode的序列化信息Edits 文件：存放 HDFS 文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到 Edits 文件中默认 1 小时检查执行一次，1 分钟检查一次操作次数，当操作次数达到 100 w 时，SecondaryNameNode 执行一次DataNode 工作机制

更多关于大数据 Hadoop系列的学习文章，请参阅：进击大数据，本系列持续更新中。

MapReduce定义MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上优缺点优点易于编程：用户只需要关心业务逻辑，实现框架的接口良好的扩展性：可以动态增加服务器，解决计算资源不够的问题高容错性：任何一台机器挂掉，可以将任务转移到其他节点适合海量数据计算（TB/PB）：几千台服务器共同计算缺点不擅长实时计算（Mysql）不擅长流式计算（SparkStreaming / Flink）不擅长DAG有向无环图（计算出来的结果作为下一次计算的参数，迭代计算）计算（Spark）架构概述Map 阶段并行处理输入数据Reduce 阶段对 Map 结果进行汇总MapReduce核心思想

MapReduce 进程

一个完整的 MapReduce 程序在分布式运行时有三类实例进程：

MrAppMaster：负责珍格格程序的过程调度及状态协调MapTask：负责 Map 阶段的整个数据处理流程ReduceTask：负责 Reduce 阶段的整个数据处理流程序列化

定义

序列化：把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输反序列化：将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象InputFormat 数据输入

数据块和与数据切片

数据块：Block 是HDFS 物理上把数据分成一块一块，数据块是HDFS存储数据单位数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce 程序计算输入数据的单位，一个切片会对应启动一个MapTask

切片机制

一个 Job 的 Map 阶段并行度由客户端再提交 Job 时的切片数决定每个 Split 切片分配一个 MapTask 并行实例处理默认情况下，切片大小 = BlockSize切片时不考虑数据集整体，而是逐个针对每一个文件单独切片Shuffle 机制

定义：Map 方法之后，Reduce 方法之前的数据处理过程称之为 Shuffle （打乱顺序，洗牌）

分区排序：按照字典顺序对 Key 的索引使用快速排序

MapTask 工作机制

ReduceTask 工作机制

数据清洗-ETL（Extract-Tramsform-Load）

定义

用来描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程。ETL 一词较常用在数据仓库，但其对象并不限于数据仓库在运行核心业务 MapReduce 程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理过程往往只需要 Mapper 程序，不需要运行 Reduce 程序YARN

Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序

架构概述

ResourceManager（RM）：整个集群资源（内存、CPU等）的管理者NodeManager（NM）：单个节点服务器的管理者ApplicationMaster（AM）：单个任务运行的负责人Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源（内存、CPU、磁盘、网络）注意客户端可以有多个集群上可以运行多个 ApplicationMaster每个 NodeManager 上可以有多个 ContainerYARN 工作机制

HDFS、YARN、MapReduce 三者关系

YARN 调度器

Hadoop 作业调度器主要有三种：FIFO、容量、公平调度器。Hadoop 3.1.3 默认的资源调度器是容量调度器

FIFO调度器

单队列，根据提交作业的先后顺序，先来先服务

容量调度器

是Yahoo开发的多用户调度器多队列：每个队列可配置一定的资源量容量保证：管理员可为每个队列设置资源最低保证和资源使用上限灵活性：如果一个队列中的资源有剩余，可以暂时共享给那些需要资源的队列，而一旦该队列有新的应用和程序提交，则其他队列借调的资源会归还给该队列多租户：支持多用户共享集群和多应用程序同时运行。为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定分配算法队列资源分配：从root 开始，使用深度优先算法，优先选择资源占用率最低的队列分配资源作业资源分配：默认按照提交作业的优先级和提交时间顺序分配资源容器资源分配：按照容器的优先级分配资源，如果优先级相同，按照数据本地性原则

公平调度器

是 Facebook 开发的多用户调度器具有与容量调度器的相同特点不同点为缺额：某一个时刻一个作业应获得资源和实际获取资源的差距叫“缺额”核心调度策略不同（容量调度器优先选择资源利用率低的队列；公平调度器优先选择对资源的缺额比例大的队列）每个队列可以单独设置资源分配方式（容量调度器：FIFO、DRF；公平调度器：FIFO、FAIR、DRF）更多关于大数据 Hadoop系列的学习文章，请参阅：进击大数据，本系列持续更新中。Spark

Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架，借鉴了MapReduce之上发展而来的，继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。使用场景如下：

复杂的批量处理（Batch Data Processing），偏重点在于处理海量数据的能力，至于处理速度可忍受，通常的时间可能是在数十分钟到数小时；基于历史数据的交互式查询（Interactive Query），通常的时间在数十秒到数十分钟之间基于实时数据流的数据处理（Streaming Data Processing），通常在数百毫秒到数秒之间Storm

Storm用于“连续计算”，对数据流做连续查询，在计算时就将结果以流的形式输出给用户。如今已被Flink替代。

Flink

Apache Flink是一个面向数据流处理和批量数据处理的可分布式的开源计算框架，它基于同一个Flink流式执行模型（streaming execution model），能够支持流处理和批处理两种应用类型。由于流处理和批处理所提供的SLA(服务等级协议)是完全不相同，流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理，所以在实现的时候通常是分别给出两套实现方法，或者通过一个独立的开源框架来实现其中每一种处理方案。

Flume

一个可用的、可靠的、分布式的海量日志采集、聚合和传输系统。

Hive

是为提供简单的数据操作而设计的分布式数据仓库，它提供了简单的类似SQL语法的HiveQL语言进行数据查询。

Hive 架构原理

用户接口（Client）：CLI（hive shell）、JDBC / ODBC（java 访问 hive）、WEBUI（浏览器访问 hive）元数据（Metastore）：元数据包括表名、表所属的数据库（默认是default）、表的拥有者、列 / 分区字段、表的类型（是否是外部表）、表的数据所在目录等；默认存储在自带的 derby 数据库中，推荐使用 MySQL 存储 MetastoreHadoop：使用 HDFS 进行存储，使用 MapReduce 进行计算驱动器（Driver）：解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST，这一步一般都用第三方工具库完成，比如 antlr；对 AST 进行语法分析，比如表是否存在、字段是否存在、SQL 语义是否有误编译器（Physical Plan）：将 AST 编译生成逻辑执行计划优化器（Query Optimizer）：对逻辑执行计划进行优化执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于 Hive 来说，就是 MR/Spark运行机制

Hive 通过给用户提供的一系列交互接口，接收到用户的指令（SQL），使用自己的 Driver，结合元数据（MetaStore），将这些指令翻译成 MapReduce，提交到 Hadoop 中执行，最后，将执行返回的结果输出到用户交互接口。

Zookeeper

分布式协调系统，Google Chubby的Java开源实现，是高可用的和可靠的分布式协同（coordination）系统，提供分布式锁之类的基本服务，用于构建分布式应用。

Hbase

基于Hadoop的分布式数据库，Google BigTable的开源实现是一个有序、稀疏、多维度的映射表，有良好的伸缩性和高可用性，用来将数据存储到各个计算节点上。

数据模型

逻辑上，HBase 的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从底层物理存储结构（K-V）来看，HBase 更像是一个 multi-dimensional-map（多维 map）。

逻辑结构

物理存储结构

名词解释Name Space：命名空间，类似于关系型数据库的 database 概念，每个命名空间下有多个表。HBase 有两个自带的命名空间，分别是 hbase 和 default，hbase 中存放的是 HBase 内置的表，default 表是用户默认使用的命名空间Region：类似于关系型数据库的表概念。不同的是，HBase 定义代表时只需要声明列族即可，不需要声明具体的列。这意味着，往 HBase 写入数据时，字段可以动态、按需指定。因此，和关系型数据库相比，HBase 能够轻松应对字段变更的场景Row：HBase 表中的每行数据都由一个 RowKey 和多个 Column 组成，数据是按照 RowKey 的字典顺序存储的，并且查询数据时只能根据 RowKey 进行检索，所有 RowKey 的设计十分重要Column：HBase 中的每个列都由 Column Family 列族和 Column Qualifier 列限定符进行限定，例如info:name，info:age。建表时，只需指明列族，而列限定符无需预先定义Time Stamp：用于标识数据的不同版本，每条数据写入时，如果不指定时间戳，系统会自动为其加上该字段，其值为写入 HBase 的时间Cell：由 {rowkey,column Family:column Qualifier,time Stamp} 唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存储基本架构

Zookeeper的作用：HBase 通过 Zookeeper 来做 master 的高可用、RegionServer 的监控、元数据的入口以及集群配置的维护等工作。

写数据流程

读数据流程

HBase VS HiveHive数据仓库：Hive 的本质其实就是相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系，以方便使用 HQL 去管理查询。用于数据分析、清晰：Hive 适用于离线的数据分析和清洗，延迟较高。基于 HDFS、MapReduce：Hive 存储的数据依旧在 DataNode 上，编写 HQL 语句终将是转换为 MapReduce 代码执行。HBase数据库：是一种面向列族存储的非关系型数据库。用于存储结构化和非结构化的数据：适用于单表非关系型数据的存储，不适合做关联查询，类似于JOIN等操作。基于 HDFS：数据持久化存储的体现形式是 HFile，存放在 DataNode 中，被 RegionServer 以 region 的形式进行管理。延迟较低，接入在线业务使用：面对大量的企业数据，HBase 可以直线单表大量数据的存储，同时提供了高效的数据访问速度。更多关于大数据 Hadoop系列的学习文章，请参阅：进击大数据，本系列持续更新中。Cloudbase

基于Hadoop的数据仓库，支持标准的SQL语法进行数据查询。

Pig

大数据流处理系统，建立于Hadoop之上为并行计算环境提供了一套数据工作流语言和执行框架。

Mahout

基于HadoopMapReduce的大规模数据挖掘与机器学习算法库。

Oozie

MapReduce工作流管理系统。

Sqoop

数据转移系统，是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库中的数据导入Hadoop的HDFS中，也可以将HDFS 的数据导入关系型数据库中。

Scribe

Facebook开源的日志收集聚合框架系统。

这里只是列举了一部分Hadoop生态里的组件，稍微介绍了一下。更多关于大数据 Hadoop系列的学习文章，请参阅：进击大数据，本系列持续更新中。

参考来源如下：https://blog.csdn.net/weixin_43842853/article/ details/124316032 https://blog.csdn.net/weixin_43842853/article/ details/123007306 https://cnblogs.com/liugp/p/16100092.html

【本文地址】

进击大数据系列（一）：Hadoop 基本概念与生态介绍

进击大数据系列（一）：Hadoop 基本概念与生态介绍

今日新闻

推荐新闻