什么是 HDFS? Apache Hadoop 分布式文件系统

您所在的位置:网站首页 上传本地文件到hdfs命令是什么意思啊英文 什么是 HDFS? Apache Hadoop 分布式文件系统

什么是 HDFS? Apache Hadoop 分布式文件系统

2024-07-14 08:52| 来源: 网络整理| 查看: 265

考虑一个文件,其中包括美国每个人的电话号码;姓氏以 A 开头的人的号码可能存储在服务器 1 上,B 存储在服务器 2 上,以此类推。

使用 Hadoop,这个电话簿的片段将存储在集群中,要重建整个电话簿,您的程序需要集群中每个服务器的数据块。

为了确保服务器出现故障时的可用性,缺省情况下,HDFS 会将这些较小的部分复制到另外两台服务器上。 (冗余可以根据每个文件或整个环境增加或减少;例如,开发 Hadoop 集群通常不需要任何数据冗余。) 这种冗余提供了多种好处,最明显的是更高的可用性。

冗余还允许 Hadoop 集群将工作分解成更小的块,并在集群中的所有服务器上运行这些作业,以获得更好的可伸缩性。 最后,您可以实现数据本地性,这在处理大型数据集时至关重要。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3