Python Spark的介绍与安装

您所在的位置:网站首页 python安装spark Python Spark的介绍与安装

Python Spark的介绍与安装

#Python Spark的介绍与安装| 来源: 网络整理| 查看: 265

Spark的Cluster模式架构图

摘自Apache官网:

这里写图片描述

其中

DriverProgram为设计的Spark程序,在Spark程序中必须定义SparkContext(开发Spark应用程序的入口)。SparkContext通过Cluster Manager管理整个集群,集群中包含多个Worker Node,在每个Worker Node中都有Executor负责执行任务

SparkContext通过Cluster Manager 管理整个集群Cluster,使得Spark程序可以在不同的Cluster模式下运行:

本地模式:只需在程序中import Spark的链接库就可以实现。Spark Standalone Cluster:由Spark提供的Cluster管理模式,若没有架设hadoop multi Node Cluster,可单独架设Spark Standalone Cluster,实现多台计算机并行计算。该模式下,仍然可以直接存取Local Disk 或HDFSHadoop YARN:Spark可以在YARN上运行,让YARN帮助它进行多台机器的资源管理。在云端运行 安装Scala

Spark基于Scala开发,安装Spark必须先安装Scala。

终端输入命令 wget https://www.scala-lang.org/files/archive/scala-2.11.6.tgz tar xvf scala-2.11.6.tgz sudo mv scala-2.11.6 /usr/local/scala sudo gedit ~/.bashrc export SCALA_HOME=/usr/local/scala(文本输入) export PATH=$PATH:$SCALA_HOME/bin(文本输入) source ~/.bashrc

安装Spark

下载Spark网址,注意Spark与Hadoop版本必须互相配合。

终端输入命令: wget https://archive.apache.org/dist/spark/spark-2.0.2/spark-2.0.2-bin-hadoop2.6.tgz tar zvxf spark-2.0.2-bin-hadoop2.6.tgz sudo mv spark-2.0.2-bin-hadoop2.6 /usr/local/spark/ sudo gedit ~/.bashrc export SPARK_HOME=/usr/local/spark (文本输入) export PATH=$PATH:$SPARK_HOME/bin(文本输入) source ~/.bashrc

启动pyspark

命令行输入pyspark启动pyspark 这里写图片描述

exit()退出

在Hadoop YARN中运行pyspark

终端输入命令:

HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop pyspark --master yarn --deploy-mode client

构建Spark Standalone Cluster运行环境

复制模板文件创建spark-env.sh cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh sudo gedit /usr/local/spark/conf/spark-env.sh 文本输入:

export SPARK_MASTER_TP=master export SPARK_WORKER_CORES=1 ## 设置每个Worker使用的CPU核心数 export SPARK_WORKER_MEMORY=512m ## 设置每个Worker使用的内存 export SPARK_WORKER_INSTANCES=4 ## 设置实例数

将master的spark程序复制到slaves中,以hadoop1为例: ssh hadoop1 sudo mkdir /usr/local/spark sudo chwon 更改的目录所有者:更改的目录所有者 /usr/local/spark exit 使用scp将master的spark程序复制到hadoop1 sudo scp -r /usr/local/spark/ hadoop1的用户名@hadoop1: /usr/local 编辑slaves文件,设置Spark Standalone Cluster 的服务器 sudo gedit /usr/local/spark/conf/slaves 文本输入,例如3个slaves

hadoop1 hadoop2 hadoop3 在Spark Standalone运行pyspark

启动Spark Standalone Cluster /usr/local/spark/sbin/start-all.sh 或者分别启动master与slaves /usr/local/spark/sbin/start-master.sh /usr/local/spark/sbin/start-slaves.sh 在Spark Standalone 中运行pyspark pyspark --master spark://master:7077 --num-executors 1 --total-executor-cores 3 --executor-memory 512m 这里写图片描述

停止Spark Standalone Cluster /usr/local/spark/sbin/stop-all.sh

Spark Web UI 界面

启动Spark Standalone Web UI 界面,http://master:8080/



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3