Flink Hive SQL 缺点 flink spark hive

您所在的位置:网站首页 spark与flink的区别简单 Flink Hive SQL 缺点 flink spark hive

Flink Hive SQL 缺点 flink spark hive

2023-07-09 08:05| 来源: 网络整理| 查看: 265

数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序,hive和spark的区别就是mapreduce和spark的区别。HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库,是一种面向列族存储的非关系型数据库。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。

(1)hive和spark的区别

1.hive主要是基于磁盘的,spark主要是基于内存的,DAG机制的计算模型,减少shuffle的次数,所以spark比hive快。

2.hive是多进程,较为安全。spark是多线程。

3.hive的shuffle一定要落盘,spark的很多算子不需要。

4.spark灵活的内存管理和更好的兼容性。

(2)spark和flink的区别

1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。Flink是基于事件驱动的,是面向流的处理框架,是真正的流式计算。

2.Spark Streaming 只支持处理时间。flink支持三种时间机制:事件时间,注入时间,处理时间,同时支持水位线机制,在处理乱序实时数据的时候,更有优势。

3.SparkStreaming的容错机制是基于RDD的容错机制,Flink是轻量级的checkpoint容错机制,实现精确一次消费语义。

(3)hive和hbase的区别

1.Hive是建立在Hadoop之上为了减少MapReduce编写工作的系统,HBase可以直线单表大量数据的存储,同时提供了高效的数据访问速度 。一般来说,hive是适用于离线数据的批处理,hbase是适用于实时数据的处理。

2.Hive本身不存储和计算数据,它完全依赖于HDFS存储数据和MapReduce处理数据。Hbase是物理表,不是逻辑表,搜索引擎通过它来存储索引,方便查询操作。

4.由于HDFS的不可随机读写,Hive是不支持随机写操作,而Hbase支持随机写入操作。

5.HBase只支持简单的键查询,不支持复杂的条件查询。  



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3