Hive默认分割符、存储格式与数据压缩

您所在的位置:网站首页 hive文件存储格式区别 Hive默认分割符、存储格式与数据压缩

Hive默认分割符、存储格式与数据压缩

2024-07-16 10:27| 来源: 网络整理| 查看: 265

文章目录 1、Hive默认分割符2、Hive存储格式3、Hive数据压缩

1、Hive默认分割符

Hive创建表时指定的行受限(ROW FORMAT)配置标准HQL为:

... ROW FORMAT DELIMITED FIELDS TERMINATED BY '\u0001' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS TERMINATED BY ':' LINES TERMINATED BY '\n' STORED AS TEXTFILE TBLPROPERTIES ('key'='value') LOCATION '/user/hive/warehouse/...'

Hive中默认使用特殊符号对数据进行分割以避免歧义,Hive的默认分割符规则如下:

分隔符受限项HQL语法^A(\001)字段(列)分隔符FIELDS TERMINATED BY^B(\002)集合(array、struct、map)元素(map为键值对)间的分隔符COLLECTION ITEMS TERMINATED BY^C(\003)map元素键与值间的分隔符MAP KEYS TERMINATED BY\n行分隔符LINES TERMINATED BY

Hive默认的字段分隔符为^A(VIM编辑时显示)、\001(ASCII编码八进制显示)、\u0001(UNICODE编码十六进制显示);Notepad或控制台显示为SOH

Hive默认的集合元素之间分隔符为^B(VIM编辑时显示)、\002(ASCII编码八进制显示)、\u0002(UNICODE编码十六进制显示);Notepad或控制台显示为STX

Hive默认的映射K-V之间的分隔符为^C(VIM编辑时显示)、\003(ASCII编码八进制显示)、\u0003(UNICODE编码十六进制显示);Notepad或控制台显示为ETX

2、Hive存储格式

Hive支持的存储数据的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。企业中使用ORC较多

更多关于存储格式的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html

3、Hive数据压缩

Hive的数据压缩格式通过TBLPROPERTIES关键字指定

SNAPPY压缩在企业中使用较多

1) ORC存储格式的SNAPPY压缩:

STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY")

2) PARQUET存储格式的SNAPPY压缩:

STORED AS PARQUET TBLPROPERTIES ("parquet.compression"="SNAPPY")

更多关于数据压缩的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3