大数据基本架构

#大数据基本架构| 来源: 网络整理| 查看: 265

　　二、大数据基本架构

　　基于上述大数据的特征，通过传统IT技术存储和处理大数据成本高昂。一个企业要大力发展大数据应用首先需要解决两个问题：一是低成本、快速地对海量、多类别的数据进行抽取和存储;二是使用新的技术对数据进行分析和挖掘，为企业创造价值。因此，大数据的存储和处理与云计算技术密不可分，在当前的技术条件下，基于廉价硬件的分布式系统（如Hadoop等）被认为是最适合处理大数据的技术平台。

　　Hadoop是一个分布式的基础架构，能够让用户方便高效地利用运算资源和处理海量数据，目前已在很多大型互联网企业得到了广泛应用，如亚马逊、Facebook和Yahoo等。其是一个开放式的架构，架构成员也在不断扩充完善中，通常架构如图2所示：

　　Hadoop体系架构

　　大数据技术架构详解

　　（1）Hadoop最底层是一个HDFS（Hadoop Distributed File System，分布式文件系统），存储在HDFS中的文件先被分成块，然后再将这些块复制到多个主机中（DataNode，数据节点）。

　　（2）Hadoop的核心是MapReduce（映射和化简编程模型）引擎，Map意为将单个任务分解为多个，而Reduce则意为将分解后的多任务结果汇总，该引擎由JobTrackers（工作追踪，对应命名节点）和TaskTrackers（任务追踪，对应数据节点）组成。当处理大数据查询时，MapReduce会将任务分解在多个节点处理，从而提高了数据处理的效率，避免了单机性能瓶颈限制。

　　（3）Hive是Hadoop架构中的数据仓库，主要用于静态的结构以及需要经常分析的工作。Hbase主要作为面向列的数据库运行在HDFS上，可存储PB级的数据。Hbase利用MapReduce来处理内部的海量数据，并能在海量数据中定位所需的数据且访问它。

　　（4）Sqoop是为数据的互操作性而设计，可以从关系数据库导入数据到Hadoop，并能直接导入到HDFS或Hive。

　　（5）Zookeeper在Hadoop架构中负责应用程序的协调工作，以保持Hadoop集群内的同步工作。

　　（6）Thrift是一个软件框架，用来进行可扩展且跨语言的服务的开发，最初由Facebook开发，是构建在各种编程语言间无缝结合的、高效的服务。

　　Hadoop核心设计

　　大数据技术架构详解

　　Hbase——分布式数据存储系统

　　大数据技术架构详解

　　Client：使用HBase RPC机制与HMaster和HRegionServer进行通信

　　Zookeeper：协同服务管理，HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

　　HMaster：管理用户对表的增删改查操作

　　HRegion:Hbase中分布式存储的最小单元，可以理解成一个Table

　　HStore：HBase存储的核心。由MemStore和StoreFile组成。

　　HLog：每次用户操作写入Memstore的同时，也会写一份数据到HLog文件

　　结合上述Hadoop架构功能，大数据平台系统功能建议如图所示：

　　大数据技术架构详解

　　应用系统：对于大多数企业而言，运营领域的应用是大数据最核心的应用，之前企业主要使用来自生产经营中的各种报表数据，但随着大数据时代的到来，来自于互联网、物联网、各种传感器的海量数据扑面而至。于是，一些企业开始挖掘和利用这些数据，来推动运营效率的提升。

　　数据平台：借助大数据平台，未来的互联网络将可以让商家更了解消费者的使用习惯，从而改进使用体验。基于大数据基础上的相应分析，能够更有针对性的改进用户体验，同时挖掘新的商业机会。

　　数据源：数据源是指数据库应用程序所使用的数据库或者数据库服务器。丰富的数据源是大数据产业发展的前提。数据源在不断拓展，越来越多样化。如：智能汽车可以把动态行驶过程变成数据，嵌入到生产设备里的物联网可以把生产过程和设备动态状况变成数据。对数据源的不断拓展不仅能带来采集设备的发展，而且可以通过控制新的数据源更好地控制数据的价值。然而我国数字化的数据资源总量远远低于美欧，就已有有限的数据资源来说，还存在标准化、准确性、完整性低，利用价值不高的情况，这大大降低了数据的价值。

【本文地址】

大数据基本架构

大数据基本架构

今日新闻

推荐新闻