hive和impala操作parquet文件timestamp带来的困扰

您所在的位置:网站首页 hive6384 hive和impala操作parquet文件timestamp带来的困扰

hive和impala操作parquet文件timestamp带来的困扰

2024-07-09 12:42| 来源: 网络整理| 查看: 265

前言:准备使用hive作数据仓库,因历史遗留问题,原先遗留的数据处理都是impala处理的,数据文件是parquet文件,因本身集群资源少,而处理的文件很大,准备使用hive离线分析将小文件推送到db或者impala进行展示操作。

准备:搭建cdh5.9,将原有的数据从一个集群迁移到现有的集群。对数据按照天进行动态分区,分区数据仍然使用parquet格式。

问题:因分区字段为timestamp类型,一个偶然的机会发现了一个诡异的问题,hive查询的时间比impala查询的时间多了8个小时,和原始数据进行比对发现hive处理的timestamp数据有问题。

Based on 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3