大数据学习日常小练习题汇总收纳

您所在的位置：网站首页 › 以下哪一个不属于金融学科的分类依据是 › 大数据学习日常小练习题汇总收纳

大数据学习日常小练习题汇总收纳

2024-07-10 03:28| 来源: 网络整理| 查看: 265

仅供学习交流使用

一、选择题

1.下面哪个程序负责 HDFS 数据存储。 A、NameNode B、Jobtracker C、Datanode D、secondaryNameNode 答案：C

2.HDFS 中的 block 默认保存几份？ A、3份 B、2份 C、1份 D、不确定答案：A 3.hadoop2.x版本之后 HDFS 默认 Block Size。 A、32MB B、64MB C、128MB D、256MB 答案：C

4.大数据集群的主要瓶颈是 A、CPU B、网络 C、磁盘IO D、内存答案：C

5.关于SecondaryNameNode哪项是正确的？ A、它是NameNode的热备 B、它是内存没有要求 C、他的目的使帮助NameNode合并编辑日志，减少NameNode启动时间 D、SecondaryNameNode应与NameNode部署到一个节点答案：C

6.下面哪个进程负责MapReduce任务调度。 A、NameNode B、Jobtracker C、TaskTracker0 D、secondaryNameNode 答案：B

7.（）反映数据的精细化程度，越细化的数据，价值越高。 A、规模 B、活性 C、关联度 D、颗粒度答案：D

8.数据清洗的方法不包括（）。 A：缺失值处理 B、噪声数据清除 C、一致性检查 D、重复数据记录处理答案：D

9.下列关于网络用户行为的说法中，错误的是（）。 A、网络公司能够捕捉到用户在其网站上的所有行为 B、用户离散的交互痕迹能够为企业提升服务质量提供参考 C、数字轨迹用完即自动删除 D、用户的隐私安全很难得以规范保护答案：C

10.下列关于计算机存储容量单位的说法中，错误的是（）。 A、1KB＜1MB＜1GB B、基本单位是字节（Byte） C、一个汉字需要一个字节的存储空间 D、一个字节能够容纳一个英文字符答案：C

11.下列关于聚类挖掘技术的说法中，错误的是（）。 A、不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别 B、要求同类数据的内容相似度尽可能小 C、要求不同类数据的内容相似度尽可能小答案：B

12.大数据的最显著特征是（）。 A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高答案：A

13.下列关于大数据的分析理念的说法中，错误的是（）。 A：在数据基础上倾向于全体数据而不是抽样数据 B：在分析方法上更注重相关分析而不是因果分析 C：在分析效果上更追究效率而不是绝对精确 D：在数据规模上强调相对数据而不是绝对数据答案：D

14.数据治理是大数据技术的一个典型应用，数据来源繁多，下面哪一个不属于结构化数据源（） A、网络日志 B、Mysql表数据 C、视频音频 D、csv文件答案：C

16 .HDFS作为Hadoop中分布式存储单元，具备容灾容错的特性，不包括以下哪个情形( ) A、名称节点（Namenode）出错B、数据节点出错 C、数据出错 D、调度出错答案：D 17. MapReduce计算引擎，属于哪一种计算模式（） A、批量计算B、实时计算 C、流计算 D、查询分析答案：A 18. 大数据框架中数据库很多，以下属于非关系型数据库的是（） A、 Hive B、Mysql C、Hbase D、Oracle 答案：C 19. 智能健康手环的应用开发，体现了（）的数据采集技术的应用。 A、统计报表 B、网络爬虫 C、API接口 D、传感器答案：D 20. 下列关于数据重组的说法中，错误的是（）。 A、数据重组是数据的重新生产和重新采集 B、数据重组能够使数据焕发新的光芒 C、数据重组实现的关键在于多源数据融合和数据集成 D、数据重组有利于实现新颖的数据模式创新答案：A 22. Hive中可以使用SQL对数据表进行操作，对查询结果进行降序排列的关键函数是（） A、Count ( ) B、DESC C、ASC D、Group by 答案：B 23. 数据采集是大数据开发工作的一个重要阶段，以下哪一个框架可以用于数据采集（） A、 Hbase B、Flume C、Mahout D、Hive 答案：B 24.Hbase 可以实现超大规模的数据存储查询，它的存储是基于下面哪一个框架（） A、Mysql B、HDFS C、GFS D、Spark 答案：B

25.下面哪一个框架是可靠的协同工作系统（） A、Sqoop B、Flume C、Zookeeper D、Ambari 答案：C

26.大数据实时计算引擎 Spark作为目前企业主流的工具，其哪一个组件可以做实时计算（） A、Spark core B、Spark Streaming C、Spark SQL D、Spark MLlib 答案：B

27.Client 端上传文件的时候下列哪项正确？ A、数据经过NameNode传递给DataNode B、Client端将文件切分为Block，依次上传 C、Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作 D、以上都不正确答案：B

30.HDFS1.0默认BlockSize大小是多少。 A、32MB B、64MB C、128MB D、256MB 答案：B

32.Hadoop1.0默认的调度器策略是哪个。 A、先进先出调度器 B、计算能力调度器 C、公平调度器 D、优先级调度器答案：A

34.在实验集群的master节点使用jps命令查看进程时，终端出现以下哪项能说明Hadoop主节点启动成功？ A、Namenode,Datanode,TaskTracker B、Namenode,Datanode,secondaryNameNode C、Namenode,Datanode,HMaster D、Namenode,JobTracker,secondaryNameNode 答案：D

35.若不针对MapReduce编程模型中的key和value值进行特别设置，下列哪一项是MapReduce不适宜的运算。 A、Max B、Min C、Count D、Average 答案：D

36.MapReduce编程模型，键值对的key必须实现哪个接口？ A、WritableComparable B、Comparable C、Writable D、LongWritable 答案：A

37.以下哪一项属于非结构化数据。 A、企业ERP数据 B、财务系统数据 C、视频监控数据 D、日志数据答案：C

38.HBase数据库的BlockCache缓存的数据块中，哪一项不一定能提高效率。 A、–ROOT-表 B、META表 C、HFileindex D、普通的数据块答案：D

39.HBase是分布式列式存储系统，记录按什么集中存放。 A、列族 B、列 C、行 D、不确定答案：A

40.HBase的Region组成中，必须要有以下哪一项。 A、StoreFile B、MemStore C、HFile D、MetaStore 答案：B

41.客户端首次查询HBase数据库时，首先需要从哪个表开始查找。 A、.META. B、–ROOT- C、用户表 D、信息表答案：B

42.设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行什么操作。 A、分桶 B、分区 C、索引 D、分表答案：A

43.大数据技术的迅速发展，很大程度上取决于信息基础技术的发展，以下哪一个不是主要因素： A、存储设备容量增加 B、CPU性能提升 C、网络带宽增加 D、自动化技术提升答案：D

44.以下数据单位换算哪个是错误的： A、1Mb=1024Kb B、1Tb=1024Mb C、1Pb=1024Tb D、1Eb=1024Pb 答案：B

46.以下哪一个不属于大数据的计算模式： A、批量计算 B、实时计算 C、流计算 D、矩阵计算答案：D

49.HDFS具有高容错性、高可靠性、高扩展性、高吞吐性，适合的读写任务形式是？ A、一次写入，少次读写 B、多次写入，少次读写 C、一次写入，多次读写 D、多次写入，多次读写答案：C

50.MapReduce计算引擎，属于哪一种计算模式？ A、批量计算 B、实时计算 C、流计算 D、查询分析答案：A

51.HDFS作为大数据主流的存储框架，具备良好的容灾特性，其中多副本是一个主要原因，HDFS默认副本数是？ A、1个 B、2个 C、3个 D、4个答案：C

53.在HDFS上创建目录的命令参数是？ A、-touch B、-cat C、-mkdir D、-dir 答案：C

54.数据采集是大数据开发工作的一个重要阶段，以下哪一个框架可以用于数据采集? A、Hbase B、Flume C、Mahout D、Hive 答案：B

55.Hbase作为Hadoop大家族中的重要一员，具有什么特性？ A、抽取加载转换工具 B、大规模数据实时写入实时查询 C、复杂的SQL计算 D、实时数据采集答案：B

56.Hbase可以实现超大规模的数据存储查询，它的存储是基于下面哪一个框架？ A、Mysql B、HDFS C、GFS D、Spark 答案：B

57.下面哪一个框架是可靠的协同工作系统？ A、Sqoop B、Flume C、Zookeeper D、Ambari 答案：C

58.大数据实时计算引擎 Spark作为目前企业主流的工具，其哪一个组件可以做实时计算？ A、SparkCore B、SparkStreaming C、SparkSQL D、SparkMLlib 答案：B

59.Hive作为大数据仓库的重要工具之一，数据是存放在？ A、Hbase B、Hdfs C、Oracle D、Mysql 答案：B

60.Hive中可以使用SQL对数据表进行操作，对查询结果进行降序排列的关键函数是？ A、Count() B、DESC C、ASC D、Groupby 答案：B

61.智慧校园，数据中心建设中需要将学生处存放在Mysql中的学生信息导入到大数据仓库hive中，可以使用的工具是？ A、Flume B、Sqoop C、Navicat D、Kafka 答案：B

62.大数据和人工智能技术应用于医学领域可以做心脏病的预测等，thalach（心跳）数值作为非常重要的特征参与计算预测的样本数据，进入预测模型训练前需要对样本数据进行简单清洗过滤去除异常值，假设样本数据存放在Hive表中，过滤出thalach数小于200大于10的正常值，表名称为 DWH_test，心跳值字段为 thalach，下面SQL语法正确的是？ A、selectfrom’DW_H_test’where’thalach’>200or’thalach’

【本文地址】

大数据学习日常小练习题汇总收纳

大数据学习日常小练习题汇总收纳

今日新闻

推荐新闻