进击大数据系列(一):Hadoop 基本概念与生态介绍 |
您所在的位置:网站首页 › 结构化数据的含义 › 进击大数据系列(一):Hadoop 基本概念与生态介绍 |
大数据概述 大数据(big data),指的是在一定时间范围内不能以常规软件工具处理(存储和计算)的大而复杂的数据集。说白了大数据就是使用单台计算机没法在规定时间内处理完,或者压根就没法处理的数据集。 大数据的特性大量 (Volume)大数据的“大”首先体现在数据量上。这意味着您需要处理海量、低密度的非结构化数据。这些数据的价值可能是未知的,例如 Twitter 数据流、网页或移动应用点击流,以及设备传感器所捕获的数据等等。在实际应用中,大数据的数据量通常高达数十 TB,甚至数百 PB。高速 (Velocity)大数据的“高速”指高速接收乃至处理数据 — 数据通常直接流入内存而非写入磁盘。在实际应用中,某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时评估和操作,而大数据只有具备“高速”特性才能满足这些要求。多样化 (Variety)多样化是指数据类型众多。通常来说,传统数据属于结构化数据,能够整齐地纳入关系数据库。随着大数据的兴起,各种新的非结构化数据类型不断涌现,例如文本、音频和视频等等,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。Hadoop 是用于处理大数据的工具之一。Hadoop 和其他软件产品通过特定的专有算法和方法来解释或解析大数据搜索的结果。 在大数据处理上,Hadoop并非是唯一的分布式处理架构,但是对于大部分的企业来说,基于Hadoop已经能够满足绝大部分的数据需求,因此才会成为现在的主流选择。 更多关于大数据 Hadoop 系列的学习文章,请参阅:进击大数据,本系列持续更新中。 Hadoop 概述Hadoop 是 Apache软件基金会下一个开源分布式计算平台,以 HDFS(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入了YARN,Yarn是资源调度框架,能够细粒度的管理和调度任务,还能够支持其他的计算框架,比如spark)为核心的 Hadoop 为用户提供了系统底层细节透明的分布式基础架构。hdfs的高容错性、高伸缩性、高效性等优点让用户可以将Hadoop部署在低廉的硬件上,形成分布式系统。 是一个由 Apache 基金会所开发的分布式系统基础架构,主要解决海量数据的储存和海量数据的分析计算问题。广义上说,Hadoop 是一个更广泛的概念,Hadoop 生态圈。 Hadoop 发行版本Apache Hadoop发行版官方地址:https://hadoop.apache.orgApache版本最原始(最基础)的版本,对于入门学习最好。 ![]() 有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。 ![]() CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。 ![]() Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,其版本特点:HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便,HDP包括一个现代化的,直观的用户界面的安装和配置工具。 ![]() 华为FusionInsight大数据平台是集Hadoop生态发行版、大规模并行处理数据库、大数据云服务于一体的融合数据处理与服务平台,拥有端到端全生命周期的解决方案能力。除了提供包括批处理、内存计算、流计算和MPPDB在内的全方位数据处理能力外,还提供数据分析挖掘平台、数据服务平台,帮助用户实现从数据到知识,从知识到智慧的转换,进而帮助用户从海量数据中挖掘数据价值。 ![]() 更多关于大数据 Hadoop系列的学习文章,请参阅:进击大数据,本系列持续更新中。 版本之间的区别Hadoop1.x - Hadoop2.x的演变![]() ![]() ![]() ![]() 最近距离计算:在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接受数据;节点距离(两个节点到达最近的共同祖先的距离总和) 读数据流程![]() ![]() ![]() 更多关于大数据 Hadoop系列的学习文章,请参阅:进击大数据,本系列持续更新中。 MapReduce定义MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上优缺点优点易于编程:用户只需要关心业务逻辑,实现框架的接口良好的扩展性:可以动态增加服务器,解决计算资源不够的问题高容错性:任何一台机器挂掉,可以将任务转移到其他节点适合海量数据计算(TB/PB) :几千台服务器共同计算缺点不擅长实时计算(Mysql)不擅长流式计算(SparkStreaming / Flink)不擅长DAG有向无环图(计算出来的结果作为下一次计算的参数,迭代计算)计算(Spark)架构概述Map 阶段并行处理输入数据Reduce 阶段对 Map 结果进行汇总MapReduce核心思想![]() 一个完整的 MapReduce 程序在分布式运行时有三类实例进程: MrAppMaster:负责珍格格程序的过程调度及状态协调MapTask:负责 Map 阶段的整个数据处理流程ReduceTask:负责 Reduce 阶段的整个数据处理流程序列化定义 序列化:把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输反序列化:将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象InputFormat 数据输入数据块和与数据切片 数据块:Block 是HDFS 物理上把数据分成一块一块,数据块是HDFS存储数据单位数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce 程序计算输入数据的单位,一个切片会对应启动一个MapTask切片机制 一个 Job 的 Map 阶段并行度由客户端再提交 Job 时的切片数决定每个 Split 切片分配一个 MapTask 并行实例处理默认情况下,切片大小 = BlockSize切片时不考虑数据集整体,而是逐个针对每一个文件单独切片Shuffle 机制定义:Map 方法之后,Reduce 方法之前的数据处理过程称之为 Shuffle (打乱顺序,洗牌) ![]() 分区排序:按照字典顺序对 Key 的索引使用快速排序 MapTask 工作机制![]() ![]() 定义 用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库在运行核心业务 MapReduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理过程往往只需要 Mapper 程序,不需要运行 Reduce 程序YARNYarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 架构概述![]() ![]() ![]() Hadoop 作业调度器主要有三种:FIFO、容量、公平调度器。Hadoop 3.1.3 默认的资源调度器是容量调度器 FIFO调度器 单队列,根据提交作业的先后顺序,先来先服务容量调度器 是Yahoo开发的多用户调度器多队列:每个队列可配置一定的资源量容量保证:管理员可为每个队列设置资源最低保证和资源使用上限灵活性:如果一个队列中的资源有剩余,可以暂时共享给那些需要资源的队列,而一旦该队列有新的应用和程序提交,则其他队列借调的资源会归还给该队列多租户:支持多用户共享集群和多应用程序同时运行。为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定分配算法队列资源分配:从root 开始,使用深度优先算法,优先选择资源占用率最低的队列分配资源作业资源分配:默认按照提交作业的优先级和提交时间顺序分配资源容器资源分配:按照容器的优先级分配资源,如果优先级相同,按照数据本地性原则公平调度器 是 Facebook 开发的多用户调度器具有与容量调度器的相同特点不同点为缺额:某一个时刻一个作业应获得资源和实际获取资源的差距叫“缺额”核心调度策略不同(容量调度器优先选择资源利用率低的队列;公平调度器优先选择对资源的缺额比例大的队列)每个队列可以单独设置资源分配方式(容量调度器:FIFO、DRF;公平调度器:FIFO、FAIR、DRF)更多关于大数据 Hadoop系列的学习文章,请参阅:进击大数据,本系列持续更新中。SparkSpark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架,借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。使用场景如下: 复杂的批量处理(Batch Data Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时;基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间基于实时数据流的数据处理(Streaming Data Processing),通常在数百毫秒到数秒之间StormStorm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。如今已被Flink替代。 FlinkApache Flink是一个面向数据流处理和批量数据处理的可分布式的开源计算框架,它基于同一个Flink流式执行模型(streaming execution model),能够支持流处理和批处理两种应用类型。由于流处理和批处理所提供的SLA(服务等级协议)是完全不相同, 流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理,所以在实现的时候通常是分别给出两套实现方法,或者通过一个独立的开源框架来实现其中每一种处理方案。 Flume一个可用的、可靠的、分布式的海量日志采集、聚合和传输系统。 Hive是为提供简单的数据操作而设计的分布式数据仓库,它提供了简单的类似SQL语法的HiveQL语言进行数据查询。 ![]() ![]() ![]() Hive 通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的 Driver,结合元数据(MetaStore),将这些指令翻译成 MapReduce,提交到 Hadoop 中执行,最后,将执行返回的结果输出到用户交互接口。 Zookeeper分布式协调系统,Google Chubby的Java开源实现,是高可用的和可靠的分布式协同(coordination)系统,提供分布式锁之类的基本服务,用于构建分布式应用。 Hbase基于Hadoop的分布式数据库,Google BigTable的开源实现 是一个有序、稀疏、多维度的映射表,有良好的伸缩性和高可用性,用来将数据存储到各个计算节点上。 数据模型逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional-map(多维 map)。 逻辑结构![]() ![]() ![]() Zookeeper的作用:HBase 通过 Zookeeper 来做 master 的高可用、RegionServer 的监控、元数据的入口以及集群配置的维护等工作。 写数据流程![]() ![]() 基于Hadoop的数据仓库,支持标准的SQL语法进行数据查询。 Pig大数据流处理系统,建立于Hadoop之上为并行计算环境提供了一套数据工作流语言和执行框架。 Mahout基于HadoopMapReduce的大规模数据挖掘与机器学习算法库。 OozieMapReduce工作流管理系统。 Sqoop数据转移系统,是一个用来将Hadoop和关系型数据库中的数据相互转 移的工具,可以将一个关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS 的数据导入关系型数据库中。 ScribeFacebook开源的日志收集聚合框架系统。 这里只是列举了一部分Hadoop生态里的组件,稍微介绍了一下。更多关于大数据 Hadoop系列的学习文章,请参阅:进击大数据,本系列持续更新中。 参考来源如下:https://blog.csdn.net/weixin_43842853/article/ details/124316032 https://blog.csdn.net/weixin_43842853/article/ details/123007306 https://cnblogs.com/liugp/p/16100092.html |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |