大数据技术原理与应用 |
您所在的位置:网站首页 › Hadoop大数据技术与应用杨治明电子版 › 大数据技术原理与应用 |
1数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段: A.用户原创内容阶段 B.数据流阶段 C.运营式系统阶段 D.感知式系统阶段 2第三次信息化浪潮的发生标志是以下哪种技术的普及: A.互联网 B.个人计算机 C.CPU D.物联网、云计算和大数据 3在Flink中哪个是基于批处理的图计算库: A.CEP B. FlinkML C. Gelly D.SQL&Table库 4Hadoop的两大核心是 和 A.GFS; MapReduce B.MapReduce; HBase C. HDFS; HBase D.HDFS; MapReduce 5HDFS默认的一个块大小是 A. 32KB B.64MB C.16KB D.8KB 6分布式文件系统HDFS中, 负责数据的存储和读取: A.名称节点 B.数据节点 C.第二名称节点 D.主节点 7上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是: A.hdfs dfs -put file.txt /path B.hdfs dfs -put /path file.txt C.hadoop dfs -put /path file.txt D.hdfs fs -put file.txt /path 8在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是: A.hadoop dfs -mkdir /test/dir B.hdfs dfs *mkdir -p /test/dir C.hadoop fs -mkdir -p /test/dir D.hdfs fs -mkdir -p /test/dir 9下列有关HBase的说法正确的是: A.HBase数据库表可以设置该表任意列作为索引 B.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库 C.HBase是一种NoSQL数据库 D.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库 10已知一张表student存储在HBase中,向表中插入一条记录{id:2015001,name:Mary,{score:math}:88},其id作为行键,其中,在插入数学成绩88分时,正确的命令是: A.put 'student','2015001','88' B.put 'student','2015001','math','88' C.put 'student','2015001','score:math','88' D.put 'student','score:math','88' 11NoSQL数据库的三大理论基石不包括: A.ACID B.CAP C.最终一致性 D.BASE 12在设计词频统计的MapReduce程序时,对于文本行“hello bigdata hello hadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作): A.、和 B.、和 C.、和 D.、、和 13假设已经配置好PATH环境变量,启动Hadoop的命令是: A.start-hdfs.sh B.start-fs.sh C.start-hadoop.sh D.start-dfs.sh 14下列说法错误的是: A.第二名称节点是热备份,而HDFS HA不是热备份 B.第二名称节点无法解决单点故障问题 C.HDFS Federation使得HDFS的命名服务能够水平扩展 D.HDFS HA可以解决单点故障问题 15RDD操作包括转换(Transformation)和动作(Action)两种类型,下列RDD操作属于动作(Action)类型的是: A.join B.groupBy C.map D.collect 16下列关于Hive的说法正确的是: A.Hive不支持索引 B.Hive支持频繁数据更新 C.Hive支持批量导入 D.Hive的可扩展性差 17大数据的特点包括: A.数据种类繁多 B.处理速度快 C.价值密度低 D.数据量大 18下列适用于批处理计算的框架有哪些: A.Storm B.Spark C.Pregel D.MapReduce 19下列适用于流计算的框架有哪些: A.Spark Streaming B.Pregel C.Dremel D.Storm 20Flink核心组件栈分为哪三层: A.Core层 B.API&Libraries层 C.Runtime核心层 D.物理部署层 21从技术架构上来看,物联网可以分为哪几层: A.感知层 B.网络层 C.处理层 D.应用层 22HBase需要根据哪些属性来唯一地确定一个单元格(cell)中的某个版本数据: A.时间戳 B.列限定符 C.行键 D.列族 23典型的NoSQL数据库的类型包括: A.键值数据库 B.文档数据库 C.图数据库 D.列族数据库 24CAP是指: A.可用性 B.持久性 C.一致性 D.分区容忍性 25云计算主要包括哪3种类型: A.IaaS B.CaaS C.PaaS D.SaaS 26以下属于流计算的应用有哪些: A.根据过去一年购物记录判断用户的消费能力 B.数据仓库数据批处理分析 C.购物网站的广告推荐 D.实时交通路线推荐 27下列关于图计算产品Pregel的说法正确的是: A.Pregel是一种基于BSP模型实现的并行图处理系统 B.当多个顶点的操作请求发生冲突时,Pregel采用局部有序和Handler来解决冲突 C.在每个超步中,每个顶点会根据其接收消息的最大值和自身值比较,来确定自己状态作何种改变 D.传统的图计算框架通常表现出比较好的内存访问局部性 28下列哪些是图计算框架Pregel的应用: A.PageRank B.单源最短路径 C.流数据处理 D.二分匹配 29关于Spark的特性说法正确的是: A. Spark的计算模式也属于MapReduce,但编程模型比Hadoop MapReduce更灵活 B.Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高 C.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言 D.Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制 30BASE的基本含义是: A.持续性 B.基本可用 C.软状态 D.最终一致性 31Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是基于Java语言开发的,具有很好的跨平台特性。 A.错 B.对 32HDFS分布式文件系统,是谷歌文件系统GFS的开源实现,而Hadoop MapReduce也是针对谷歌MapReduce的开源实现。 A.对 B.错 33在分布式文件系统HDFS中,名称节点负责管理HDFS的元数据,这些元数据被保存在磁盘中。 A.对 B.错 34HDFS可以高效存储大量的小文件。 A.对 B.错 35FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。 A.对 B.错 36第二名称节点(Secondary NameNode)是HDFS架构中的一个组成部分,它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间。 A.错 B.对 37HDFS采用了主从(Master/Slave)架构模型,一个HDFS集群包括一个名称节点和若干个数据节点。 A.错 B.对 38NoSQL数据库的数据库模式灵活,可扩展性好,同时,所有NoSQL数据库都支持事务的ACID四性。 A.错 B.对 39传统的关系数据库和NoSQL数据库各有所长,不存在一方完全取代另一方的问题,在很长的一段时期内,二者都会共同存在,满足不同应用的差异化需求。 A.对 B.错 40MongoDB是一种图数据库,由C++语言编写的,其数据类型类似于JSON对象。 A.错 B.对 41Hadoop的两大核心是HDFS和MapReduce,HDFS用来存储数据,MapReduce用来处理数据. A.错 B.对 42协同过滤是最早、最知名的推荐算法,可分为基于用户的协同过滤和基于物品的协同过滤。 A.错 B.对 43Hive适合于实时交互式SQL查询,而Impala适合于长时间的批处理查询分析。 A.错 B.对 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |