Hive默认分割符、存储格式与数据压缩 |
您所在的位置:网站首页 › hive文件存储格式区别 › Hive默认分割符、存储格式与数据压缩 |
文章目录
1、Hive默认分割符2、Hive存储格式3、Hive数据压缩
1、Hive默认分割符
Hive创建表时指定的行受限(ROW FORMAT)配置标准HQL为: ... ROW FORMAT DELIMITED FIELDS TERMINATED BY '\u0001' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS TERMINATED BY ':' LINES TERMINATED BY '\n' STORED AS TEXTFILE TBLPROPERTIES ('key'='value') LOCATION '/user/hive/warehouse/...'Hive中默认使用特殊符号对数据进行分割以避免歧义,Hive的默认分割符规则如下: 分隔符受限项HQL语法^A(\001)字段(列)分隔符FIELDS TERMINATED BY^B(\002)集合(array、struct、map)元素(map为键值对)间的分隔符COLLECTION ITEMS TERMINATED BY^C(\003)map元素键与值间的分隔符MAP KEYS TERMINATED BY\n行分隔符LINES TERMINATED BYHive默认的字段分隔符为^A(VIM编辑时显示)、\001(ASCII编码八进制显示)、\u0001(UNICODE编码十六进制显示);Notepad或控制台显示为SOH Hive默认的集合元素之间分隔符为^B(VIM编辑时显示)、\002(ASCII编码八进制显示)、\u0002(UNICODE编码十六进制显示);Notepad或控制台显示为STX Hive默认的映射K-V之间的分隔符为^C(VIM编辑时显示)、\003(ASCII编码八进制显示)、\u0003(UNICODE编码十六进制显示);Notepad或控制台显示为ETX 2、Hive存储格式Hive支持的存储数据的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。企业中使用ORC较多 更多关于存储格式的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html 3、Hive数据压缩Hive的数据压缩格式通过TBLPROPERTIES关键字指定 SNAPPY压缩在企业中使用较多 1) ORC存储格式的SNAPPY压缩: STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY")2) PARQUET存储格式的SNAPPY压缩: STORED AS PARQUET TBLPROPERTIES ("parquet.compression"="SNAPPY")更多关于数据压缩的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |