大数据处理架构Hadoop介绍

您所在的位置：网站首页 › hadoop的前身 › 大数据处理架构Hadoop介绍

大数据处理架构Hadoop介绍

#大数据处理架构Hadoop介绍| 来源: 网络整理| 查看: 265

1 Hadoop发展历史简介

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中。

Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce。

HDFS是对谷歌文件系统（Google File System，GFS）的开源实现，是面向普通硬件环境的分布式文件系统，具有较高的读写速度、很好的容错性和可伸缩性。

MapReduce是针对谷歌MapReduce的开源实现，允许用户在不了解分布式系统底层细节的情况下开发并行应用程序，采用MapReduce来整合分布式文件系统上的数据，可保证分析和处理数据的高效性。

Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。2004年，Nutch项目模仿GFS开发了自己的分布式文件系统NDFS（Nutch Distributed File System），也就是HDFS的前身。2004年，谷歌公司又发表了另一篇论文，阐述了MapReduce分布式编程思想。2005年，Nutch开源实现了谷歌的MapReduce。

2006年2月，Nutch中的NDFS和MapReduce开始独立出来，成为Lucene项目的一个子项目，称为Hadoop，同时，Doug Cutting加盟雅虎。2008年1月，Hadoop正式成为Apache顶级项目，Hadoop也逐渐开始被雅虎之外的其他公司使用。2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统，它采用一个由910个节点构成的集群进行运算，排序时间只用了209秒。在2009年5月，Hadoop把1TB数据排序时间缩短到62秒。Hadoop从此名声大震，迅速发展成为大数据时代最具影响力的开源分布式开发平台，并成为事实上的大数据处理标准。

2 Hadoop特性

Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：

高可靠性（采用冗余数据存储方式，即使一个副本发生故障，其他副本也可以保证正常对外提供服务）高效性（Hadoop采用分布式存储和分布式处理两大核心技术，能够高效地处理PB级数据）高可扩展性（可以扩展到数以千计的计算机节点）高容错性（冗余数据存储，自动保存数据的多个副本，能够自动将失败的任务进行重新分配）成本低（采用廉价的计算机集群，普通用户也可以用自己的PC搭建Hadoop运行环境）支持多种编程语言 3

【本文地址】

大数据处理架构Hadoop介绍

大数据处理架构Hadoop介绍

今日新闻

推荐新闻