【精选】数仓(七):全量、 增量、缓慢变化维、拉链表

您所在的位置:网站首页 数据增量更新怎么操作手机 【精选】数仓(七):全量、 增量、缓慢变化维、拉链表

【精选】数仓(七):全量、 增量、缓慢变化维、拉链表

2023-10-22 03:26| 来源: 网络整理| 查看: 265

一、数据抽取、更新方式

解决增量导入由于数据修改导致数据重复问题

方案一:全量更新

        目标表只保留最新的一份,比如我们每天用sqoop抽取最新的一份全量数据到hive

全量表:全量表没有分区,表中的数据是前一天的所有数据,比如说今天是24号,那么全量表里面拥有的数据是23号的所有数据,每次往全量表里面写数据都会覆盖之前的数据,所以全量表不能记录历史的数据情况,只有截止到当前最新的、全量的数据。

方式:每天drop掉前一天的数据,重新抽一份最新的。 优点:节省空间,一些普通的使用也很方便,不用在选择表的时候加一个时间分区什么的。 缺点:没有历史数据,先翻翻旧账只能通过其它方式,比如从流水表里面抽。 方案二:快照表,每天保留一份全量的切片数据

        那么要能查到历史数据情况又该怎么办呢?这个时候快照表就派上用途了,快照表是有时间分区的,每个分区里面的数据都是分区时间对应的前一天的所有全量数据,比如说当前数据表有3个分区,24号,25号,26号。其中,24号分区里面的数据就是从历史到23号的所有数据,25号分区里面的数据就是从历史到24号的所有数据,以此类推。

方式:每天一份全量的切片 优点:比较稳妥,而且历史数据也在 缺点:存储空间占有量太大,如果每天都保留一份全量,那么每次全量中会保存很多不变的信息, 对存储是极大的浪费

在数据从源业务系统每天正常抽取



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3