(十二)map阶段和Reduce阶段执行过程 |
您所在的位置:网站首页 › hadoop词频统计代码 › (十二)map阶段和Reduce阶段执行过程 |
Hadoop MapReduce官方示例 想要清楚的感受并了解整个mapReduce的执行过程,可以运行一下官方的两个mapReduce程序,方便我们理解。 概述一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以;其中用户负责map、reduce两个阶段的业务问题,Hadoop负责底层所有的技术问题;由于MapReduce计算引擎天生的弊端(慢),当下企业中直接使用率已经日薄西山了,所以在企业中工作很少涉及到MapReduce直接编程,但是某些软件的背后还依赖MapReduce引擎。可以通过官方提供的示例来感受MapReduce及其内部执行流程,因为后续的新的计算引擎比如Spark,当中就有MapReduce深深的影子存在。示例说明示例程序路径:/export/server/hadoop-3.3.0/share/hadoop/mapreduce/示例程序:hadoop-mapreduce-examples-3.3.0.jarMapReduce程序提交命令:[hadoop jar|yarn jar] hadoop-mapreduce-examples-3.3.0.jar args… 提交到哪里去?提交到YARN集群上分布式执行。 评估圆周率π(PI)的值 圆周率π大家都不陌生,如何去估算π的值呢?Hadoop MapReduce示例提供了Monte Carlo方法计算圆周率。 Monte Carlo方法假设正方形边长为1,圆半径也为1,那么1/4圆的面积为: 运行MapReduce程序评估一下圆周率的值,执行中可以去YARN页面上观察程序的执行的情况。第一个参数:pi表示MapReduce程序执行圆周率计算任务;第二个参数:用于指定map阶段运行的任务task次数,并发度,这里是10;第三个参数:用于指定每个map任务取样的个数,这里是50。 root@node1 mapreduce]# pwd/export/server/hadoop-3.3.0/share/hadoop/mapreduce[root@node1 mapreduce]# hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 1050 WordCount中文叫做单词统计、词频统计;指的是统计指定文件中,每个单词出现的总次数。 WordCount算是大数据计算领域经典的入门案例,相当于Hello World。虽然WordCount业务极其简单,但是希望能够通过案例感受背后MapReduce的执行流程和默认的行为机制,这才是关键。 上传文本文件1.txt到HDFS文件系统的/input目录下,如果没有这个目录,使用shell创建hadoop fs -mkdir /inputhadoop fs -put 1.txt /input 准备好之后,执行官方MapReduce实例,对上述文件进行单词次数统计第一个参数:wordcount表示执行单词统计任务;第二个参数:指定输入文件的路径;第三个参数:指定输出结果的路径(该路径不能已存在); [root@node1 mapreduce]# pwd/export/server/hadoop-3.3.0/share/hadoop/mapreduce[root@node1 mapreduce]# hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input /output 第一阶段:把输入目录下文件按照一定的标准逐个进行逻辑切片,形成切片规划。默认Split size = Block size(128M),每一个切片由一个MapTask处理。(getSplits) 第二阶段:对切片中的数据按照一定的规则读取解析返回对。默认是按行读取数据。key是每一行的起始位置偏移量,value是本行的文本内容。(TextInputFormat) 第三阶段:调用Mapper类中的map方法处理数据。每读取解析出来的一个 ,调用一次map方法。 传送门 (一) 初探Hadpoop(二) hadoop发行版本及构架的变迁(三) hadoop安装部署集群介绍(四) hadoop安装部署-基础环境搭建(五) hadoop安装部署-配置文件详解(六) hadoop集群启停命令、Web UI(七) hadoop-HDFS文件系统基础(八) Hadoop-HDFS起源发展及设计目标(九) Hadoop-HDFS重要特性、shell操作(十) Hadoop-HDFS工作流程与机制(十一) 如何理解Hadoop MapReduce思想(十二) map阶段和Reduce阶段执行过程 待更新
|
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |