大数据技术原理与应用

您所在的位置:网站首页 Hadoop大数据技术与应用杨治明电子版 大数据技术原理与应用

大数据技术原理与应用

2023-09-16 07:05| 来源: 网络整理| 查看: 265

1数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:

A.用户原创内容阶段

B.数据流阶段

C.运营式系统阶段

D.感知式系统阶段

2第三次信息化浪潮的发生标志是以下哪种技术的普及:

A.互联网

B.个人计算机

C.CPU

D.物联网、云计算和大数据

3在Flink中哪个是基于批处理的图计算库:

A.CEP

B. FlinkML

C. Gelly

D.SQL&Table库

4Hadoop的两大核心是      和       

A.GFS; MapReduce

B.MapReduce; HBase

C. HDFS; HBase

D.HDFS; MapReduce

5HDFS默认的一个块大小是       

A. 32KB

B.64MB

C.16KB

D.8KB

6分布式文件系统HDFS中,         负责数据的存储和读取:

A.名称节点

B.数据节点

C.第二名称节点

D.主节点

7上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:

A.hdfs dfs -put file.txt /path

B.hdfs dfs -put  /path  file.txt

C.hadoop dfs -put /path file.txt

D.hdfs fs -put file.txt /path

8在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:

A.hadoop dfs -mkdir /test/dir

B.hdfs dfs *mkdir -p /test/dir

C.hadoop fs -mkdir -p /test/dir

D.hdfs fs -mkdir -p /test/dir

9下列有关HBase的说法正确的是:

A.HBase数据库表可以设置该表任意列作为索引

B.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库

C.HBase是一种NoSQL数据库

D.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库

10已知一张表student存储在HBase中,向表中插入一条记录{id:2015001,name:Mary,{score:math}:88},其id作为行键,其中,在插入数学成绩88分时,正确的命令是:

A.put 'student','2015001','88'

B.put 'student','2015001','math','88'

C.put 'student','2015001','score:math','88'

D.put 'student','score:math','88'

11NoSQL数据库的三大理论基石不包括:

A.ACID

B.CAP

C.最终一致性

D.BASE

12在设计词频统计的MapReduce程序时,对于文本行“hello bigdata hello hadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作):

A.、和

B.、和

C.、和

D.、、和

13假设已经配置好PATH环境变量,启动Hadoop的命令是:

A.start-hdfs.sh

B.start-fs.sh

C.start-hadoop.sh

D.start-dfs.sh

14下列说法错误的是:

A.第二名称节点是热备份,而HDFS HA不是热备份

B.第二名称节点无法解决单点故障问题

C.HDFS Federation使得HDFS的命名服务能够水平扩展

D.HDFS HA可以解决单点故障问题

15RDD操作包括转换(Transformation)和动作(Action)两种类型,下列RDD操作属于动作(Action)类型的是:

A.join

B.groupBy

C.map

D.collect

16下列关于Hive的说法正确的是:

A.Hive不支持索引

B.Hive支持频繁数据更新

C.Hive支持批量导入

D.Hive的可扩展性差

17大数据的特点包括:

A.数据种类繁多

B.处理速度快

C.价值密度低

D.数据量大

18下列适用于批处理计算的框架有哪些:

A.Storm

B.Spark

C.Pregel

D.MapReduce

19下列适用于流计算的框架有哪些:

A.Spark Streaming

B.Pregel

C.Dremel

D.Storm

20Flink核心组件栈分为哪三层:

A.Core层

B.API&Libraries层

C.Runtime核心层

D.物理部署层

21从技术架构上来看,物联网可以分为哪几层:

A.感知层

B.网络层

C.处理层

D.应用层

22HBase需要根据哪些属性来唯一地确定一个单元格(cell)中的某个版本数据:

A.时间戳

B.列限定符

C.行键

D.列族

23典型的NoSQL数据库的类型包括:

A.键值数据库

B.文档数据库

C.图数据库

D.列族数据库

24CAP是指:

A.可用性

B.持久性

C.一致性

D.分区容忍性

25云计算主要包括哪3种类型:

A.IaaS

B.CaaS

C.PaaS

D.SaaS

26以下属于流计算的应用有哪些:

A.根据过去一年购物记录判断用户的消费能力

B.数据仓库数据批处理分析

C.购物网站的广告推荐

D.实时交通路线推荐

27下列关于图计算产品Pregel的说法正确的是:

A.Pregel是一种基于BSP模型实现的并行图处理系统

B.当多个顶点的操作请求发生冲突时,Pregel采用局部有序和Handler来解决冲突

C.在每个超步中,每个顶点会根据其接收消息的最大值和自身值比较,来确定自己状态作何种改变

D.传统的图计算框架通常表现出比较好的内存访问局部性

28下列哪些是图计算框架Pregel的应用:

A.PageRank

B.单源最短路径

C.流数据处理

D.二分匹配

29关于Spark的特性说法正确的是:

A. Spark的计算模式也属于MapReduce,但编程模型比Hadoop MapReduce更灵活

B.Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高

C.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

D.Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制

30BASE的基本含义是:

A.持续性

B.基本可用

C.软状态

D.最终一致性

31Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是基于Java语言开发的,具有很好的跨平台特性。

A.错

B.对

32HDFS分布式文件系统,是谷歌文件系统GFS的开源实现,而Hadoop MapReduce也是针对谷歌MapReduce的开源实现。

A.对

B.错

33在分布式文件系统HDFS中,名称节点负责管理HDFS的元数据,这些元数据被保存在磁盘中。

A.对

B.错

34HDFS可以高效存储大量的小文件。

A.对

B.错

35FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。

A.对

B.错

36第二名称节点(Secondary NameNode)是HDFS架构中的一个组成部分,它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间。

A.错

B.对

37HDFS采用了主从(Master/Slave)架构模型,一个HDFS集群包括一个名称节点和若干个数据节点。

A.错

B.对

38NoSQL数据库的数据库模式灵活,可扩展性好,同时,所有NoSQL数据库都支持事务的ACID四性。

A.错

B.对

39传统的关系数据库和NoSQL数据库各有所长,不存在一方完全取代另一方的问题,在很长的一段时期内,二者都会共同存在,满足不同应用的差异化需求。

A.对

B.错

40MongoDB是一种图数据库,由C++语言编写的,其数据类型类似于JSON对象。

A.错

B.对

41Hadoop的两大核心是HDFS和MapReduce,HDFS用来存储数据,MapReduce用来处理数据.

A.错

B.对

42协同过滤是最早、最知名的推荐算法,可分为基于用户的协同过滤和基于物品的协同过滤。

A.错

B.对

43Hive适合于实时交互式SQL查询,而Impala适合于长时间的批处理查询分析。

A.错

B.对



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3