大数据技术期末复习第七章

您所在的位置：网站首页 › 关于分布式存储描述正确的是 › 大数据技术期末复习第七章

大数据技术期末复习第七章

2024-07-07 02:52| 来源: 网络整理| 查看: 265

习题

1、【单选题】下列说法错误的是____B____。

A、Map函数将输入的元素转换成形式的键值对

B、Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写

C、不同的Map任务之间不能互相通信

D、MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave Hadoop框架是用Java实现的，但是MapReduce应用程序不一定要用Java来写 2【单选题】在使用MapReduce程序WordCount进行词频统计时，对于文本行“hello hadoop hello world”，经过WordCount程序的Map函数处理后直接输出的中间结果，应该是下面哪种形式___A_____。

A、、、和

B、、和

C、、和

D、、和

1、Map函数的输入,输出为多个 2、Reduce函数的输入为,输出为 3【单选题】在词频统计中，对于文本行"hello hadoop hello world"，经过WordCount的Reduce函数处理后的结果是___A_____。

A、

B、

C、

D、

4【单选题】关于Hadoop MapReduce的叙述错误的是___D_____。

A、MapReduce采用“分而治之”的思想

B、MapReduce的输入和输出都是键值对的形式

C、MapReduce将计算过程划分为Map任务和Reduce任务

D、MapReduce的设计理念是“数据向计算靠拢”

MapReduce的设计理念是“计算向数据靠拢” 5【单选题】 Hadoop MapReduce计算的流程是___A_____。

A、Map任务—Shuffle—Reduce任务

B、Map任务—Reduce任务—Shuffle

C、Reduce任务—Map任务—Shuffle

D、Shuffle—Map任务—Reduce任务

6【单选题】编写MapReduce程序时，下列叙述错误的是__D____。

A、reduce函数所在的类必须继承自Reducer类

B、map函数的输出就是reduce函数的输入

C、reduce函数的输出默认是有序的

D、启动MapReduce进行分布式并行计算的方法是start（）。 7【多选题】下列关于传统并行计算框架（比如MPI）和MapReduce并行计算框架比较正确的是___ABCD_____。

A、前者相比后者学习起来更难

B、前者是共享式(共享内存/共享存储)，容错性差，后者是非共享式的，容错性好

C、前者适用于实时、细粒度计算、计算密集型，后者适用于批处理、非实时、数据密集型

D、前者所需硬件价格贵，可扩展性差，后者硬件便宜，扩展性好

8【多选题】 MapReduce体系结构主要由哪几个部分组成________。

A、TaskTracker

B、Task

C、JobTracker

D、Client

Client：客户端，用于提交作业 JobTracker：作业跟踪器，负责作业调度，作业执行，作业失败后恢复 TaskTracker：任务跟踪器，负责任务管理(启动任务，杀死任务等) Task：分为Map Task 和Reduce Task 9【多选题】对MapReduce的体系结构，以下说法正确的是____ABCD____。

A、分布式编程架构

B、以数据为中心，更看重吞吐率

C、分而治之的思想

D、将一个任务分解成多个子任务 10【多选题】 MapReduce为了保证任务的正常执行，采用__AC______等多种容错机制。

A、重复执行

B、重新开始整个任务

C、推测执行

D、直接丢弃执行效率低的作业 11【多选题】关于MapReduce的shuffle过程，叙述正确的是___ABCD_____。

A、 Shuffle分为Map任务端的Shuffle和Reduce任务段的Shuffle

B、 Map任务的输出结果不是立即写入磁盘，而是首先写入缓存

C、并非所有场合都可以使用合并操作

D、每个Reduce任务真正开始之前，大部分时间都在从Map端领取所需的数据 12【判断题】 MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销。

答案：√ 13【判断题】两个键值对和，如果对其进行归并(merge)，会得到，如果对其进行合并(combine)，会得到。

答案：√ 14【判断题】 HDFS集群开始启动时，其处于安全模式，可以进行读操作，不能进行写操作。

答案：√ 15【判断题】 HDFS是分布式文件系统，其命名空间包括块、目录和文件。

答案：√ 16【判断题】 Map的主要工作是将多个任务的计算结果进行汇总。

答案：× Reduce的主要工作是将多个Map任务的计算结果进行汇总。 17【判断题】在Hadoop中每个应用程序被表示成一个作业，每个作业又被分成多个任务，JobTracker的负责作业的分解、状态监控以及资源管理。

答案：√

知识点

1、MapReduce设计的理念：“计算向数据靠拢” 2、大规模数据集的处理包括分布式存储和分布式计算。 3、MapReduce的核心思想：分而治之。 4、理想的分片大小：一个HDFS块。 5、不同的Map任务之间不会进行通信，不同的Reduce任务之间也不会发生信息交换，用户不能显式地从一台机器向另一台机器发送信息，所有的数据交换都是通过MapReduce框架自身去实现的。 6、为了让Reduce可以并行处理Map的结果，需要对Map的输出进行分区、排序、合并、归并操作。 7、Shuffle过程分为Map端的操作和Reduce端的操作。 8、合并（Combiner）：将具有相同的key的键值对的value值加起来，并非所有的场合都可以使用合并操作。 9、归并：将具有相同的key的键值对归并成为一个新的键值对。例如,归并为。

【本文地址】

大数据技术期末复习第七章

大数据技术期末复习第七章

今日新闻

推荐新闻