Hadoop集群搭建（一）

您所在的位置：网站首页 › 如何在eclipse中配置hadoop › Hadoop集群搭建（一）

Hadoop集群搭建（一）

2023-11-18 15:55| 来源: 网络整理| 查看: 265

Haoop集群搭建【一】--伪分布式集群与eclipse的安装 Ⅰ 前言Ⅱ 搭建虚拟机准备（附带下载链接）一.VMware二.终端模拟器及文件传输软件三.虚拟机镜像四.相关组件 Ⅲ.集群安装与配置教程一，创建虚拟机二，安装Centos7常见问题三，虚拟机网络配置（通过环回适配器）本地物理机网络配置虚拟机网络配置虚拟机网卡配置克隆虚拟机配置主机名及hosts列表设置免密钥登录关闭防火墙（所有机器）验证网络 Ⅳ，安装hadoop安装jdk安装hadoop配置环境变量 hadoop-env.sh配置环境变量 yarn-env.sh配置环境变量 mapred-env.sh配置核心组件core-site.xml配置文件系统 hdfs-site.xml配置文件系统 yarn-site.xml配置计算框架 mapred-site.xml配置slaves文件配置hadoop启动系统环境变量复制hadoop传给虚拟机启动Hadoop集群 Ⅴ，安装eclipseⅥ，小结

Ⅰ 前言

最近由于硬盘垃圾文件太多，图方便直接恢复出厂清空了所有盘文件，想着重装一次虚拟机可以顺便写一个安装心得还有教程，于是写了包括本文的接下来几个博客，该系列博客将会手把手搭建hadoop集群及其常用组件，记录全过程并指出部分常见错误

Ⅱ 搭建虚拟机准备（附带下载链接）

我们首先需要准备一些基本的软件用于搭建集群

一.VMware

VMware Workstation（中文名“威睿工作站”）是一款功能强大的桌面虚拟计算机软件，提供用户可在单一的桌面上同时运行不同的操作系统.我们需要下载这个平台用于搭建虚拟机,在下面链接中下载完成后自行安装好。（以下给出下载链接） VMware Station pro 16.0.0 下载链接密码：zccy 至于激活码，搜索一下，网上一大把都可以随便用(我的链接中的虚拟机版本是16.0，激活版本别搞错了)

二.终端模拟器及文件传输软件

我们还需要一个终端模拟器和文件传输软件来进行对虚拟机的控制和文件传输，这里我们使用Xmanager,他包含一组工具，其中含有Xshell（模拟器）和Xftp（传输软件），此处要是有自己习惯的软件的话也可以使用自己喜欢的，安装即可，一样的，下面给出链接， Xmanager下载链接密码：zccy 1，解压压缩包 2、注册码.txt中获取序列号。双击运行Xme5.exe，进行安装

三.虚拟机镜像

我们还需要为虚拟机准备系统镜像，这里选用适合初学者的centos7(linux) Centos7镜像下载地址密码：zccy

四.相关组件

hadoop生态圈还有很多的组件。例如Spark,Hbase,hive等等，因为篇幅问题，这些软件在此处不介绍，给出下载链接，具体的安装教程将会在之后的博客给出，（本文需要使用链接中的hadoop,jdk,eclipse,hadoop-eclipse-plugin-2.7.7.jar (eclipse插件)）集群组件下载链接密码：zccy

Ⅲ.集群安装与配置教程一，创建虚拟机

步骤1 创建虚拟机—>选择典型—>下一步步骤2 选择稍后安装—>点击下一步步骤3 选择Linux—>版本选择Centos(7) 64位—>点击下一步步骤4 修改名称—>选择存储路径—>下一步

步骤5 默认配置即可步骤6 完成虚拟机创建，此步可以自定义硬件（虚拟机的内存可根据自身计算机的配置自行分配，一般使用默认即可）

二，安装Centos7

步骤1 先挂载镜像步骤2 开启虚拟机步骤3 选择Install Centos7 步骤4 一段时间的加载后，进入语言选择界面，选择自己喜欢的语言，再点击继续步骤5 选择安装软件步骤6 选择KDE可视化界面（推荐，要是喜欢在命令行敲代码也可以选其他的）步骤7 选择自动分区—>开始安装步骤8 可以在等待时间里设置一下root密码和hadoop账户，完成后点击重启即可步骤9

常见问题

三，虚拟机网络配置（通过环回适配器）

步骤1

如图，使用root用户登陆虚拟机

本地物理机网络配置

特别提醒，这里操作的是你自己的电脑，不是虚拟机，打开自己电脑的计算机管理，如图所示点击，选择添加过时硬件在这里插入图片描述下一步选择软件选择网络适配器选择厂商为Microsoft，选择型号为KM-TEST环回适配器没有的话也可能这个另一种型号连续点击几个下一步，然后完成。接下来打开“控制面板\网络和 Internet\网络连接” 找到刚刚添加的环回适配器，然后进行如下操作编辑IP

虚拟机网络配置

如图，在VMware中打开虚拟网络编辑器选择更改设置添加一个VMnet2(没有的话) 添加网络将新建的VMnet2连接到KM回环适配器上更改配置然后修改一下虚拟机的网络属性修改网络链接，确认保存后重启虚拟机

虚拟机网卡配置

重启完成后，再次登入root用户步骤2 在虚拟机中点击右键，再点击console 输入两个命令：

cd /etc/sysconfig/network-scripts/ ls

我们看到了如下的界面网卡界面输入编辑网卡的指令，并进行如下修改：

vi ifcfg-ens33

修改后结果如下修改完成输入命令：

service network restart

如果结果和下图一样，则运行成功成功了就关机就是简单粗暴

克隆虚拟机

其实除了通过VMware克隆，还可以在本地文件系统找到虚拟机根目录，直接复制粘贴虚拟机，但这种方法不做推荐（能按两下解决的事，整那么复杂干嘛）如下图，依次点击如图点击复制当前状态创建完整克隆修改名称和存储路径克隆完成，关闭按箭头顺序依次点击，记住一定要重新生成，不然会没网（老版本克隆不会自动重新生成）之后打开slave,修改他的网卡配置（IP），方法上面讲过重启网卡

相同方法再克隆一个Slave2

配置主机名及hosts列表

在Master中输入指令

hostnamectl set-hostname master

在slave中输入指令

hostnamectl set-hostname slave

在所有虚拟机上配置hosts列表（否则会导致连接错误）

vi /etc/hosts

删除其余的配置，向其中添加主节点以及从节点信息（如图）

设置免密钥登录

首先在三个虚拟机都输入指令

ssh-keygen –t rsa

连续点击几个回车然后回到master上，继续输入指令

cd .ssh cp id_rsa.pub authorized_keys scp -p id_rsa.pub root@slave:/root/.ssh/authorized_keys scp -p id_rsa.pub root@slave2:/root/.ssh/authorized_keys

注意，最后两步需要输入密码，请一步一步执行，不要直接复制全部最后回到两个slave上输入指令

cd .ssh chmod 600 authorized_keys

如图，即成功

关闭防火墙（所有机器）

关闭虚拟机防火墙

systemctl stop firewalld.service #停止firewall systemctl disable firewalld.service #禁止firewall开机启动

关闭物理机防火墙（ping不通物理机再关）

验证网络

将下面几行填入/etc/hosts文件中(根据自己配的IP地址) 192.168.1.2 master 192.168.1.3 slave 192.168.1.4 slave2 使用ping命令查看网络我们可以看到三个虚拟机之间是可以互ping的，接着我们试一试ping 192.168.1.1（物理机ip）那我们再试试外网，如果Ping通，结果如下 ( 注：仅使用本教程的回环适配器是无法联网的，需要再连接一个新的网卡连接外网,方法在我的另一个博客（里面还有常见的几种网络配置错误的解决方法）传送门：虚拟机ping不通的几种常见解决方法）

如图，也是可以的，

Ⅳ，安装hadoop

做好了准备，我们开始正式进入hadoop集群安装首先打开Xmanager中的Xshell 如图，创建一个新会话接受并保存输入root用户名（勾选记住用户名）（之后输入自己的密码）出现这样的画面就说明连接成功同样地，再设两个虚拟机会话一样连接上在这里插入图片描述打开Xftp

安装jdk

将jdk传给虚拟机（几个虚拟机都传）（确定在根目录下）创建一个jdk目录（三个虚拟机同步），并解压jdk到这个文件夹

mkdir jdk tar -xvf jdk-8u144-linux-x64.tar.gz -C /root/jdk

然后我们会看到命令行窗口开始duang duang duang地弹东西，等解压完了。我们看一看目录

ls /root/jdk

解压完成，我们配置一下jdk路径(保证在root目录下)

vi ./.bash_profile

编辑内容如下

export JAVA_HOME=/root/jdk/jdk1.8.0_144/ export PATH=$JAVA_HOME/bin:$PATH

编辑完成后，重新加载，输入下列指令

source .bash_profile

再查看jdk版本

java -version

这里我们说一下.bash_profile文件，这是一个配置路径的文件，还有一个效果相同的文件（在/etc）profile，这里我们之所以使用.bash_profile的原因是/etc/profile是默认配置文件，我们可以把我们的路径信息放在.bash_profile中，就可以与系统配置文件错开

提示：JAVAHOME是自己设置的jdk路径（跟着我做的文件跟我一样就行）

安装hadoop

将准备好的hadoop下载到master的root目录下，解压

tar -xvf hadoop-2.7.7.tar.gz

创建几个新文件夹

mkdir /root/hadoop-2.7.7/hdfs mkdir /root/hadoop-2.7.7/hdfs/tmp mkdir /root/hadoop-2.7.7/hdfs/name mkdir /root/hadoop-2.7.7/hdfs/data 配置环境变量 hadoop-env.sh

输入指令

vi ./hadoop-2.7.7/etc/hadoop/hadoop-env.sh

找到配置文件中的JAVA_HOME,添加自己的jdk路径

配置环境变量 yarn-env.sh

输入指令

vi ./hadoop-2.7.7/etc/hadoop/yarn-env.sh

同样的，修改其中的JAVA_HOME

配置环境变量 mapred-env.sh

输入指令

vi ./hadoop-2.7.7/etc/hadoop/mapred-env.sh

同样的，修改其中的JAVA_HOME

配置核心组件core-site.xml

输入指令

vi ./hadoop-2.7.7/etc/hadoop/core-site.xml

在文件末尾的 configuration 之间添加下列内容

fs.defaultFS hdfs://master:9000 hadoop.tmp.dir /root/hadoop-2.7.7/hdfs/tmp

结果如下

配置文件系统 hdfs-site.xml

输入指令

vi ./hadoop-2.7.7/etc/hadoop/hdfs-site.xml

在文件末尾的 configuration 之间添加下列内容

dfs.replication 2 dfs.namenode.name.dir /root/hadoop-2.7.7hdfs/name true dfs.datanode.data.dir /root/hadoop-2.7.7/hdfs/data true dfs.permissions false

配置文件系统 yarn-site.xml

输入指令

vi ./hadoop-2.7.7/etc/hadoop/yarn-site.xml

在文件末尾的 configuration 之间添加下列内容

yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.address master:8040 yarn.resourcemanager.scheduler.address master:8030 yarn.resourcemanager.resource-tracker.address master:8025 yarn.resourcemanager.admin.address master:8141 yarn.resourcemanager.webapp.address master:8088

结果如下