Hadoop是什么

您所在的位置:网站首页 hadoop数据集市模块 Hadoop是什么

Hadoop是什么

2023-08-12 00:32| 来源: 网络整理| 查看: 265

Hadoop 让利用集群服务器中的全部存储和处理能力,针对大量数据执行分布式处理变得更简单。Hadoop 提供构建基块,然后在其上方构建其他服务和应用程序。

要收集各种格式数据的应用程序可以通过 API 操作连接到 NameNode,以便将数据放置到 Hadoop 集群当中。对于在 DataNodes 上重复的每个文件的“组块”,NameNode 会对它们的文件目录结构和位置进行追踪。要运行任务来查询数据,提供一个由众多 Map 和 Reduce 任务组成的 MapReduce 作业,而这些任务针对分散在 DataNodes 的 HDFS 中的数据运行。Map 任务在每个节点上针对提供的输入文件运行,而 Reduce 任务则会运行以汇总与整理最终的输出。

由于它的可延展性,Hadoop 生态系统多年来经历了迅猛发展。现在,Hadoop 生态系统包含众多工具和应用程序,可用来帮助收集、存储、处理、分析和管理大数据。部分最受欢迎的应用程序包括:

Spark—一款常用于大数据工作负载的分布式开源处理系统。Apache Spark 利用内存中缓存和经过优化的执行方式以实现高速性能,并支持常规批处理、流式分析、机器学习、图形数据库和临时查询。 Presto—一种开源的分布式 SQL 查询引擎,针对低延迟的临时数据分析进行了优化。它支持 ANSI SQL 标准,包括复杂查询、聚合、连接和窗口函数。Presto 可处理来自多个数据源(包括 Hadoop 分布式文件系统 [HDFS] 和 Amazon S3)的数据。 Hive—允许用户通过 SQL 界面使用 Hadoop MapReduce,从而实现大规模分析,以及分布式和容错数据仓储。 HBase—一种在 Amazon S3(使用 EMRFS)或 Hadoop 分布式文件系统 (HDFS) 顶部运行的开源、非关系、版本控制数据库。HBase 是一种可大规模扩展的分布式大数据存储,专门为随机、严格一致性地实时访问具有数十亿行和数百万列的表而定制。 Zeppelin—一种可实现交互式数据探索的交互式笔记本。

 

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3