部署Hadoop

2023-03-24 17:56| 来源: 网络整理| 查看: 265

如图：这就是分布式⽂件系统。

分布式⽂件系统管理的是⼀个服务器集群。

在这个集群中，数据存储在集群的节点（即集群中的服务器）中，但是该⽂件系统把服务器的差异屏蔽了。那么，我们就可以像使⽤普通的⽂件系统⼀样

使⽤，但是数据却分散在不同的服务器中。

命名空间（

namespace

）：

在分布式存储系统中，分散在不同节点中的数据可能属于同⼀个⽂件，为了组织众多的⽂件，把⽂件可以放到不同的⽂件夹中，⽂件夹可以⼀级⼀级的包含。我们把这种

组织形式称为命名空间（

namespace

）。命名空间管理着整个服务器集群中的所有⽂件。命名空间的职责与存储真实数据的职责是不⼀样的。

负责命名空间职责的节点称为

主节点（

master node

）

，负责存储真实数据职责的节点称为

从节点（

slave node

）。

主

从节点：

主节点负责管理⽂件系统的⽂件结构，从节点负责存储真实的数据，称为主从式结构（

master-slaves

）。⽤户操作时，也应该先和主节点打交道，查询数据在哪些从节点上存储，然后

再从从节点读取。在主节点，为了加快⽤户访问的速度，会把整个命名空间信息都放在内存中，当存储的⽂件越多时，那么主节点就需要越多的内存空间。

block

：

在从节点存储数据时，有的原始数据⽂件可能很⼤，有的可能很⼩，⼤⼩不⼀的⽂件不容易管理，那么可以抽象出⼀个独⽴的存储⽂件单位，称为块（

block

）。

容灾：

数据存放在集群中，可能因为⽹络原因或者服务器硬件原因造成访问失败，最好采⽤副本（

replication

）机制，把数据同时备份到多台服务器中，这样数据就安全了，数据丢失或者访问失败的概

率就⼩了。

如图

【本文地址】

今日新闻