什么是数据架构?

您所在的位置:网站首页 ibm软件工程师怎么考 什么是数据架构?

什么是数据架构?

2024-06-26 18:41| 来源: 网络整理| 查看: 265

数据架构展示了不同数据管理系统如何协同工作的高层视角。 其中包括许多不同的数据存储库,例如数据湖、数据仓库、数据集市和数据库等。 这些存储库结合起来可以创建越来越受欢迎的数据架构,例如数据结构和数据网格。 这些架构更注重将数据作为产品,通过 API 提高元数据的标准化水平以及跨组织的数据民主化程度。

以下部分将深入探讨这些存储组件和数据架构类型:

数据管理系统的类型

数据仓库:数据仓库将来自企业内不同关系数据源的数据聚合到单个集中的统一存储库中。 提取后,数据流经 ETL 数据管道,经过各种数据转换,才能满足预定义数据模型的需求。 一旦加载到数据仓库中,数据就可以支持不同的商业智能 (BI) 和数据科学应用程序。数据集市:数据集市是一个有针对性的数据仓库版本,它包含一个较小的数据子集,这些数据对组织内的单个团队或选定用户组很重要且是必需的。 由于数据集市包含较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部门或业务线能够更快地发现更有针对性的洞察。 最初创建数据集市的目的是应对组织在 20 世纪 90 年代建立数据仓库的困难。 当时集成来自整个组织的数据需要进行大量手动编码,而且非常耗时。 与集中式数据仓库相比,数据集市的范围更有限,使其实现起来更容易且更快速。数据湖:数据仓库存储已处理的数据,而数据湖存储原始数据,通常为 PB 级别。 数据湖可以存储结构化和非结构化数据,这使其与其他数据存储库不同。 这种灵活的存储需求对于数据科学家、数据工程师和开发人员尤其有用,让他们能够访问数据进行数据发现练习和机器学习项目。 最初创建数据湖的目的是应对数据仓库无法处理数量、速度和种类不断增加的大数据的情况。 虽然数据湖比数据仓库慢,但它们的价格也更低廉,因为在采集之前几乎不需要数据准备。 如今,它们作为云数据迁移工作的一部分持续演变。 数据湖支持广泛的用例,因为在收集数据时不需要定义数据的业务目标。 不过,两个主要用例包括数据科学探索以及数据备份和恢复工作。 数据科学家可以使用数据湖进行概念验证。 机器学习应用程序可以从能够在同一个地方存储结构化和非结构化数据中受益,这是使用关系数据库系统无法实现的。 数据湖也可以用于测试和开发大数据分析项目。 当应用程序开发完成并识别出有用数据后,可以将数据导出到数据仓库以供操作使用,并且可以利用自动化来实现应用程序扩展。 数据湖还可以用于数据备份和恢复,因为它们能够以低成本进行扩展。 出于同样的原因,数据湖非常适合存储尚未定义业务需求的“以备不时之需”数据。 现在存储这些数据意味着可以在以后出现新计划时使用。

数据架构的类型

数据结构:数据结构是一种架构,它侧重于数据提供者和数据使用者之间的数据价值链中的数据集成、数据工程和治理的自动化 数据结构基于“活动元数据”的概念,使用知识图、语义、数据挖掘和机器学习 (AI) 技术来发现各种类型元数据(例如系统日志、社交等)中的模式。 然后,将这种洞察应用于自动化并编排数据价值链。 例如,它可以使数据使用者能够找到数据产品,然后自动向他们提供该数据产品。 数据产品和数据使用者之间数据访问的增加减少了数据孤岛,并提供了更完整的组织数据视图。 数据结构是一种具有巨大潜力的新兴技术,可用于增强客户概要分析、欺诈检测和预防性维护。  根据 Gartner 的数据,数据结构使集成设计时间减少 30%,部署时间减少 30%,维护时间减少 70%。

数据网格:数据网格是一种去中心化的数据架构,按业务领域来组织数据。 使用数据网格时,组织需要不再将数据视为流程的副产品,而是开始将其视为产品本身。 数据生产者充当数据产品所有者。 作为主题专家,数据生产者可以利用他们对数据主要使用者的理解为他们设计 API。 这些 API 也可以从组织的其他部分访问,提供了更广泛的受管数据访问渠道。

数据湖、数据仓库等相对传统的存储系统可以作为多个去中心化的数据存储库来实现数据网格。 数据网格还可以与数据结构一起使用,借助数据结构的自动化,可以更快地创建新的数据产品或执行全球治理。

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3