《Spark大数据分析与内存计算》

您所在的位置:网站首页 大数据分析与内存计算的区别 《Spark大数据分析与内存计算》

《Spark大数据分析与内存计算》

2024-07-17 20:14| 来源: 网络整理| 查看: 265

第五章作业及答案

快捷查找:Ctrl+F   在搜索框中输入题目

一. 单选题(共7题)

1. (单选题)什么以 RDD 为基础,是一种分布式数据集,与传统数据库中的二维表格相类似

A. GraphX

B. DataFrame

C. Spark SQL

D.  Spark Streaming

正确答案: B:DataFrame ;

2. (单选题)使用什么给DataFrames数据去重

A. groupBy

B. distinct

C. count

D. orderBy

正确答案: B:distinct ;

3. (单选题)使用什么给DataFrames数据计数

A. count

B. groupBy

C. distinct

D. orderBy

正确答案: A:count ;

4. (单选题)什么被创建时必须定义Schema,定义每一个字段名与数据类型,因而可以用字段名进行统计

A.  Spark Streaming

B. DataFrame

C. Spark SQL

D. GraphX

正确答案: B:DataFrame ;

5. (单选题)什么是由DataFrame派生出来的,首先必须先出创建DataFrame,然后通过登录Spark SQL temp table就可以使用语句了

A. DataFrame

B. Spark SQL

C. GraphX

D. Spark Streaming

正确答案: B:Spark SQL ;

6. (单选题)使用什么给DataFrames数据分组

A. orderBy

B. distinct

C. groupBy

D. count

正确答案: C:groupBy ;

7. (单选题)使用什么给DataFrames数据排序

A. GroupBy

B. groupBy

C. count

D. orderBy

正确答案: D:orderBy ;

二. 多选题(共4题 )

8. (多选题)Spark SQL取得的优势包括哪几个方面

A.  性能优化

B. 组件扩展

C. 其他

D. 数据兼容

正确答案: ABD: 性能优化 ; 组件扩展 ; 数据兼容 ;

9. (多选题)Spark SQL架构包含三个部分,为

A. 标准连接

B. 模式RDD

C. 数据源

D. 语言API

正确答案: BCD:模式RDD ; 数据源 ; 语言API ;

10. (多选题)Spark SQL执行包括了什么

A. Result

B. Optimize

C. Data Source

D. Operation

正确答案: ACD:Result ; Data Source ; Operation ;

11. (多选题)Spark SQL的常用操作包括哪几个方面

A. 数据排序

B. 条件查询

C. 字段统计

D. 数据去重

正确答案: ABCD:数据排序 ; 条件查询 ; 字段统计 ; 数据去重 ;

三. 判断题(共9题)

12. (判断题)计划执行(Execute),按Operation-->Data Source-->Result的次序来进行的,在执行过程有时候甚至不需要读取物理表就可以返回结果,比如重新运行刚运行过的SQL语句,可能直接从数据库的缓冲池中获取返回结果。

A. 对

B. 错

 正确答案: 对

13. (判断题)Spark SQL 是由DataFrame派生出来的,首先必须先出创建DataFrame,然后通过登录Spark SQL temp table就可以使用Spark SQL语句了。

A. 对

B. 错

 正确答案: 对

14. (判断题)DataFrame被创建时必须定义Schema,定义每一个字段名与数据类型,因而可以用字段名进行统计。

A. 对

B. 错

 正确答案: 对

15. (判断题)Spark SQL的表数据在内存中存储不是采用原生态的JVM对象存储方式,而是采用内存列存储。

A. 对

B. 错

 正确答案: 对

16. (判断题)将SQL语句和数据库的数据字典(列、表、视图等等)进行绑定(Bind),如果相关的Projection、Data Source等都是存在的话,就表示这个SQL语句是可以执行的。

A. 对

B. 错

 正确答案: 对

17. (判断题)对读入的SQL语句进行解析(Parse),分辨出SQL语句中哪些词是关键词(如SELECT、FROM、WHERE),哪些是表达式、哪些是Projection、哪些是Data Source等,从而判断SQL语句是否规范。

A. 对

B. 错

 正确答案: 对

18. (判断题)Spark SQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。

A. 对

B. 错

 正确答案: 对

19. (判断题)Spark SQL也是语句也是由Projection(a1,a2,a3)、Data Source(tableA)、Filter(condition)组成,分别对应sql查询过程中的Result、Data Source、Operation,也就是说SQL语句按Result-->Data Source-->Operation的次序来描述的。

A. 对

B. 错

 正确答案: 对

20. (判断题)DataFrame被创建时可不定义Schema,可以用字段名进行统计。

A. 对

B. 错

 正确答案: 错



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3