资讯 小学 初中 高中 语言 会计职称 学历提升 法考 计算机考试 医护考试 建工考试 教育百科
栏目分类:
子分类:
返回
空麓网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
空麓网 > 计算机考试 > 软件开发 > 后端开发 > Python

spark配置——local模式-yarn模式-spark集群

Python 更新时间: 发布时间: 计算机考试归档 最新发布

spark配置——local模式-yarn模式-spark集群

准备

三台配置hadoop集群的虚拟机(分别是hadoop0、hadoop1和hadoop2)
下载spark,scala,anaconda
spark下载地址
scala下载地址
Anaconda下载地址
将下载的软件上传到虚拟机上

local模式 解压spark和scala,并重命名到program文件夹下

tar -zxvf scala-2.12.15.tgz
tar -zxvf spark-3.0.3-bin-hadoop3.2.tgz
mv scala-2.12.15 /home/hadoop/program/scala-2.12
mv spark-3.0.3-bin-hadoop3.2 /home/hadoop/program/spark-3.0

配置spark和scala的环境变量

cd
vim .bashrc

export SCALA_HOME=/home/hadoop/program/scala-2.12
export PATH=$SCALA_HOME/bin:$PATH


export SPARK_HOME=/home/hadoop/program/spark-3.0
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

source .bashrc

local模式配置完成,启动spark

pyspark
spark-shell


启动spark时会出现警告是因为python版本太老导致,后面通过安装Anaconda可以升级python版本

yarn模式 添加环境变量

cd
vim .bashrc

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

source .bashrc

如果不加上这个环境变量后面启动spark,yarn模式时会出现问题

编辑文件yarn-site.xml

cd $HADOOP_HOME/etc/hadoop
vi yarn-site.xml


    	yarn.nodemanager.pmem-check-enabled
   	    false


    	yarn.nodemanager.vmem-check-enabled
    	false

发送编辑好的文件到另外两个虚拟机中

scp yarn-site.xml hadoop@hadoop1:/home/hadoop/program/hadoop-3.3/etc/hadoop

scp yarn-site.xml hadoop@hadoop2:/home/hadoop/program/hadoop-3.3/etc/hadoop

yarn模式配置完成,启动spark

start-dfs.sh
start-yarn.sh
pyspark --master yarn
spark-shell --master yarn

正常启动

spark集群 配置slaves和spark-env.sh文件

cd $SPARK_HOME
cd conf/
cp slaves.template slaves
cp spark-env.sh.template spark-env.sh
vim slaves

添加

hadoop0
hadoop1
hadoop2

vim spark-env.sh

添加

export  SPARK_MASTER=hadoop0

把配置好的scala文件夹、spark文件夹和环境变量文件夹发送到其他两台虚拟机上

cd
cd program/
scp -r scala-2.12 hadoop@hadoop1:/home/hadoop/program
scp -r scala-2.12 hadoop@hadoop2:/home/hadoop/program
scp -r spark-3.0 hadoop@hadoop1:/home/hadoop/program
scp -r spark-3.0 hadoop@hadoop2:/home/hadoop/program
cd
scp .bashrc hadoop@hadoop1:/home/hadoop
scp .bashrc hadoop@hadoop2:/home/hadoop
source .bashrc

spark集群配置完成,启动spark

start-master.sh
start-slaves.sh
spark-shell --master spark://hadoop0:7077
pyspark --master spark://hadoop0:7077

hadoop0:8080

spark的三种启动模式

spark的启动模式,本质上是资源交由谁来管理

local模式

pyspark --master local[*]

spark-shell --master local[*]

yarn

start-dfs.sh
start-yarn.sh
pyspark --master yarn
spark-shell --master yarn

spark集群

start-master.sh

start-slaves.sh

spark-shell --master spark://hadoop0:7077

pyspark --master spark://hadoop0:7077

转载请注明:文章转载自 http://www.konglu.com/
本文地址:http://www.konglu.com/it/323595.html
免责声明:

我们致力于保护作者版权,注重分享,被刊用文章【spark配置——local模式-yarn模式-spark集群】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2023 成都空麓科技有限公司

ICP备案号:蜀ICP备2023000828号-2