大数据学习日常小练习题汇总收纳

您所在的位置:网站首页 以下哪一个不属于金融学科的分类依据是 大数据学习日常小练习题汇总收纳

大数据学习日常小练习题汇总收纳

2024-07-10 03:28| 来源: 网络整理| 查看: 265

仅供学习交流使用

一、选择题

1.下面哪个程序负责 HDFS 数据存储。 A、NameNode B、Jobtracker C、Datanode D、secondaryNameNode 答案:C

2.HDFS 中的 block 默认保存几份? A、3份 B、2份 C、1份 D、不确定 答案:A 3.hadoop2.x版本之后 HDFS 默认 Block Size。 A、32MB B、64MB C、128MB D、256MB 答案:C

4.大数据集群的主要瓶颈是 A、CPU B、网络 C、磁盘IO D、内存 答案:C

5.关于SecondaryNameNode哪项是正确的? A、它是NameNode的热备 B、它是内存没有要求 C、他的目的使帮助NameNode合并编辑日志,减少NameNode启动时间 D、SecondaryNameNode应与NameNode部署到一个节点 答案:C

6.下面哪个进程负责MapReduce任务调度。 A、NameNode B、Jobtracker C、TaskTracker0 D、secondaryNameNode 答案:B

7.( )反映数据的精细化程度,越细化的数据,价值越高。 A、规模 B、活性 C、关联度 D、颗粒度 答案:D

8.数据清洗的方法不包括( )。 A:缺失值处理 B、噪声数据清除 C、一致性检查 D、重复数据记录处理 答案:D

9.下列关于网络用户行为的说法中,错误的是( )。 A、网络公司能够捕捉到用户在其网站上的所有行为 B、用户离散的交互痕迹能够为企业提升服务质量提供参考 C、数字轨迹用完即自动删除 D、用户的隐私安全很难得以规范保护 答案:C

10.下列关于计算机存储容量单位的说法中,错误的是( )。 A、1KB<1MB<1GB B、基本单位是字节(Byte) C、一个汉字需要一个字节的存储空间 D、一个字节能够容纳一个英文字符 答案:C

11.下列关于聚类挖掘技术的说法中,错误的是( )。 A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B、要求同类数据的内容相似度尽可能小 C、要求不同类数据的内容相似度尽可能小 答案:B

12.大数据的最显著特征是( )。 A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高 答案:A

13.下列关于大数据的分析理念的说法中,错误的是( )。 A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 答案:D

14.数据治理是大数据技术的一个典型应用,数据来源繁多,下面哪一个不属于结构化数据源( ) A、网络日志 B、Mysql表数据 C、视频音频 D、csv文件 答案:C

16 .HDFS作为Hadoop中分布式存储单元,具备容灾容错的特性,不包括以下哪个情形( ) A、 名称节点(Namenode)出错B、数据节点出错 C、数据出错 D、调度出错 答案:D 17. MapReduce计算引擎,属于哪一种计算模式( ) A、 批量计算B、实时计算 C、流计算 D、查询分析 答案:A 18. 大数据框架中数据库很多,以下属于非关系型数据库的是 ( ) A、 Hive B、Mysql C、Hbase D、Oracle 答案:C 19. 智能健康手环的应用开发,体现了( )的数据采集技术的应用。 A、统计报表 B、网络爬虫 C、API接口 D、传感器 答案:D 20. 下列关于数据重组的说法中,错误的是( )。 A、数据重组是数据的重新生产和重新采集 B、数据重组能够使数据焕发新的光芒 C、数据重组实现的关键在于多源数据融合和数据集成 D、数据重组有利于实现新颖的数据模式创新 答案:A 22. Hive中可以使用SQL对数据表进行操作,对查询结果进行降序排列的关键函数是( ) A、Count ( ) B、DESC C、ASC D、Group by 答案:B 23. 数据采集是大数据开发工作的一个重要阶段,以下哪一个框架可以用于数据采集 ( ) A、 Hbase B、Flume C、Mahout D、Hive 答案:B 24.Hbase 可以实现超大规模的数据存储查询,它的存储是基于下面哪一个框架( ) A、Mysql B、HDFS C、GFS D、Spark 答案:B

25.下面哪一个框架是可靠的协同工作系统( ) A、Sqoop B、Flume C、Zookeeper D、Ambari 答案:C

26.大数据实时计算引擎 Spark作为目前企业主流的工具,其哪一个组件可以做实时计算( ) A、Spark core B、Spark Streaming C、Spark SQL D、Spark MLlib 答案:B

27.Client 端上传文件的时候下列哪项正确? A、数据经过NameNode传递给DataNode B、Client端将文件切分为Block,依次上传 C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作 D、以上都不正确 答案:B

30.HDFS1.0默认BlockSize大小是多少。 A、32MB B、64MB C、128MB D、256MB 答案:B

32.Hadoop1.0默认的调度器策略是哪个。 A、先进先出调度器 B、计算能力调度器 C、公平调度器 D、优先级调度器 答案:A

34.在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功? A、Namenode,Datanode,TaskTracker B、Namenode,Datanode,secondaryNameNode C、Namenode,Datanode,HMaster D、Namenode,JobTracker,secondaryNameNode 答案:D

35.若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。 A、Max B、Min C、Count D、Average 答案:D

36.MapReduce编程模型,键值对的key必须实现哪个接口? A、WritableComparable B、Comparable C、Writable D、LongWritable 答案:A

37.以下哪一项属于非结构化数据。 A、企业ERP数据 B、财务系统数据 C、视频监控数据 D、日志数据 答案:C

38.HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率。 A、–ROOT-表 B、META表 C、HFileindex D、普通的数据块 答案:D

39.HBase是分布式列式存储系统,记录按什么集中存放。 A、列族 B、列 C、行 D、不确定 答案:A

40.HBase的Region组成中,必须要有以下哪一项。 A、StoreFile B、MemStore C、HFile D、MetaStore 答案:B

41.客户端首次查询HBase数据库时,首先需要从哪个表开始查找。 A、.META. B、–ROOT- C、用户表 D、信息表 答案:B

42.设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。 A、分桶 B、分区 C、索引 D、分表 答案:A

43.大数据技术的迅速发展,很大程度上取决于信息基础技术的发展,以下哪一个不是主要因素: A、存储设备容量增加 B、CPU性能提升 C、网络带宽增加 D、自动化技术提升 答案:D

44.以下数据单位换算哪个是错误的: A、1Mb=1024Kb B、1Tb=1024Mb C、1Pb=1024Tb D、1Eb=1024Pb 答案:B

46.以下哪一个不属于大数据的计算模式: A、批量计算 B、实时计算 C、流计算 D、矩阵计算 答案:D

49.HDFS具有高容错性、高可靠性、高扩展性、高吞吐性,适合的读写任务形式是? A、一次写入,少次读写 B、多次写入,少次读写 C、一次写入,多次读写 D、多次写入,多次读写 答案:C

50.MapReduce计算引擎,属于哪一种计算模式? A、批量计算 B、实时计算 C、流计算 D、查询分析 答案:A

51.HDFS作为大数据主流的存储框架,具备良好的容灾特性,其中多副本是一个主要原因,HDFS默认副本数是? A、1个 B、2个 C、3个 D、4个 答案:C

53.在HDFS上创建目录的命令参数是? A、-touch B、-cat C、-mkdir D、-dir 答案:C

54.数据采集是大数据开发工作的一个重要阶段,以下哪一个框架可以用于数据采集? A、Hbase B、Flume C、Mahout D、Hive 答案:B

55.Hbase作为Hadoop大家族中的重要一员,具有什么特性? A、抽取加载转换工具 B、大规模数据实时写入实时查询 C、复杂的SQL计算 D、实时数据采集 答案:B

56.Hbase可以实现超大规模的数据存储查询,它的存储是基于下面哪一个框架? A、Mysql B、HDFS C、GFS D、Spark 答案:B

57.下面哪一个框架是可靠的协同工作系统? A、Sqoop B、Flume C、Zookeeper D、Ambari 答案:C

58.大数据实时计算引擎 Spark作为目前企业主流的工具,其哪一个组件可以做实时计算? A、SparkCore B、SparkStreaming C、SparkSQL D、SparkMLlib 答案:B

59.Hive作为大数据仓库的重要工具之一,数据是存放在? A、Hbase B、Hdfs C、Oracle D、Mysql 答案:B

60.Hive中可以使用SQL对数据表进行操作,对查询结果进行降序排列的关键函数是? A、Count() B、DESC C、ASC D、Groupby 答案:B

61.智慧校园,数据中心建设中需要将学生处存放在Mysql中的学生信息导入到大数据仓库hive中,可以使用的工具是? A、Flume B、Sqoop C、Navicat D、Kafka 答案:B

62.大数据和人工智能技术应用于医学领域可以做心脏病的预测等,thalach(心跳)数值作为非常重要的特征参与计算预测的样本数据,进入预测模型训练前需要对样本数据进行简单清洗过滤去除异常值,假设样本数据存放在Hive表中,过滤出thalach数小于200大于10的正常值,表名称为 DWH_test,心跳值字段为 thalach,下面SQL语法正确的是? A、selectfrom’DW_H_test’where’thalach’>200or’thalach’



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3