第一步:版本的选择:
spark-0.x spark-1.x(主流:Spark-1.3 和 Spark-1.6) spark-2.x(最新 Spark-2.4) 下载地址:http://spark.apache.org/downloads.html(官网) 其他镜像网站:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/ https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/ https://www.apache.org/dyn/closer.lua/spark/ 注意这里我选择是:spark-2.3.0-bin-hadoop2.7.tgz。 |
第二步:关于搭建spark集群的环境:
-
spark底层是使用scala语言编写的,所有这里需要安装scala的环境,并且配置scala的环境变量。
-
scala和spark也都需要jdk,所以我们还需要配置jdk的环境以及环境变量,关于jdk的版本最好是java 8+。
-
这里我们用spark-2.3
注意:由于安装比较简单,此时略过java以及scala的安装。
转载:https://www.cnblogs.com/liugh/p/6623530.html(Linux下安装java)
转载:https://www.cnblogs.com/freeweb/p/5623795.html(Linux下安装scala)
第三步:spark集群的规划:
Server |
Master |
Worker |
hostname01 |
√ |
|
hostname02 |
√ |
|
hostname03 |
|
√ |
第四步:具体的集群安装:
①上传下载好的spark安装包到集群的任意一个节点(由于个人品味不一,这里上传软件的方式也不同,作者使用的是Xshell)
②解压,并放置到统一管理的目录下(注意这个目录一定要有读写的权限):tar zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /application/ ③进入相应的spark的conf目录:cd $SPARK_HOME/conf: export SPARK_MASTER_HOST=hostname01 export SPARK_MASTER_PORT=7077
⑤将spark安装包copy到集群的其他节点上 ⑥配置spark的环境变量:(注意这里需要所有的集群节点都要配置,当然配置的地方,根据不同要求而定) ⑦最终启动集群: |
第五步:测试是否启动成功
第一种方法:
使用jps命令查看进程:master是集群的主节点,worker是集群的从节点:
第二种方法:查看web UI界面:
最终出现上述情况任意一个,说明集群搭建成功。这里分享的是分布式集群,HA集群,需要步骤比较复杂
并且需要zookeeper组件。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/192879.html