数据仓库 |
您所在的位置:网站首页 › 数据仓库十大主题模型有哪些 › 数据仓库 |
文章目录
一、数据仓库架构1. 自顶向下2. 自底向上
二、维度数据建模三、星型模型和雪花模型1. 星型模型2. 雪花模型
本篇文章主要介绍了数据仓库的整体架构、数仓中常用的维度数据建模方法以及星型模型和雪花模型的区别。
一、数据仓库架构
数据仓库是将不同来源的数据在统一的模式下组织起来的异构集合。构建数据仓库有两种方法:自顶向下和自底向上。 1. 自顶向下自顶向下的架构如下图: External Sources 外部源是不管收集的数据是何种类型的数据源。数据可以是结构化的、半结构化的和非结构化的。结构化的数据,比如:关系型数据库中的表等;半结构化的数据,比如:Json串、XML文件等;非结构化的数据,比如:图片、音频、视频等。 Stage Area 由于从外部数据源抽取的数据没有特定的格式,因此需要对这些数据进行处理,以将其加载到数据仓库中。为此,建议使用ETL工具: E(Extracted): 从外部数据源抽取数据。 T(Transform): 将抽取的数据转换成标准格式。 L(Load): 将标准格式的数据加载进数据仓库。 Data-warehouse 在自顶向下的方法中,数据仓库存储最原始的数据。 Data Marts 数据集市也是存储组件中的一部分。它存储由不同主题组织起来的数据。 Data Mining 数据挖掘就是对数据仓库中的大量数据进行分析处理。利用数据挖掘算法找出数据仓库中隐藏的数据价值。 自顶向下的方法是被数据仓库之父Bill Inmon定义的——数据仓库作为公司的中央仓库,而数据集市从完整的数据仓库创建而来。 自顶向下优点 由于数据集市是从数据仓库创建而来,因此提供了数据集市的一致维度视图。这种模型可以很好的应对业务数据的变化。大公司会更喜欢采用这种方法。从数据仓库创建数据集市比较容易。 自顶向下缺点 设计和维护的成本比较高。 2. 自底向上自底向上架构如下图: 自下而上的方法是Ralph Kimball(数据仓库和BI领域的权威专家)提出的——首先创建数据集市,并为分析提供单个业务视图,在创建完整的数据集市之后再创建数据仓库。 自底向上优点 由于是先创建数据集市,所以会快速生成报表。数据仓库可以根据数据集市进行扩展。设计成本比较低。 自底向上缺点 由于维度视图的局限性,造成这种方法没有对数据的一个全局把控。二、维度数据建模 维度建模的概念是由Ralph Kimball提出的,是许多OLAP(Online Analytical Processing,联机分析处理)系统使用的数据模型。维度建模有两个比较常用的建模模型:星型模型和雪花模型,模型由事实表和维度表组成。 维度建模步骤如下图: 星型模型是数仓建模中较为常用的模型,它包含一个或多个事实表,以及连接到事实表上的维度表。星型模型相较于雪花模型在查询处理方面是更为高效的。 星型模型之所以被称为星型,是因为它的物理模型就像是一个恒星的形状,中心是一个事实表,事实表上连着维度表。如下图: 雪花模型可以认为是星型模型的变体。雪花模型在星型模型的基础上,对维度表进行了更规范化的拆分,就会促使某些维度表拆分出更细分的维度表。看下图: 雪花模型和星型模型的主要区别在于,雪花模型的维度表是规范化存储的,减少了冗余。这样做的好处是易于维护和节省存储空间,缺点就是需要更多的连接来执行查询,性能较差。 通常情况下,不建议使用雪花模型,因为它会增加维度模型的复杂度,可理解性差,而且需要连接更多的表来满足查询,性能低。 最后总结一下雪花模型有哪些优缺点。 雪花模型优点 提供了规范化的数据,数据完整性高。由于数据时高度规范化的,因此占用的存储空间较小。 雪花模型缺点 高度结构化的数据,在另一方面也增加了模型的复杂度。规范化的数据,在查询的时候会有更多的join连接,就会导致较差的性能。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |