Spark是独立的,所以集群安装的时候,不像hive,hbase等需要先安装hadoop,除非文件保存在hadoop上,才需要安装hadoop集群。
如果虚拟机安装,点击阅读推荐配置
前提环境:
1、安装了JDK1.7及以上版本的Linux机器
2、各台机器间SSH免密码登录已配置。
3、各台Linux防火墙已关闭,时间已同步。
SSH配置教程
时间同步教程
步骤:
1、下载spark安装包
2、解压
3、修改spark-env.sh
4、修改 slaves
5、scp -r 到其他节点
6、start-all.sh 启动
7、浏览器查看
每步详情
1、下载spark安装包
http://spark.apache.org/downloads.html
选择的版本的时候注意安装的hadoop版本,选择相应的版本
2、解压
略
3、修改spark-env.sh
在后面加入
export JAVA_HOME=/jdk1.8.0_73
export SPARK_MASTER_HOST=nbdo1
export SPARK_MASTER_PORT=7077
如果安装了hadoop,可以配置下
export HADOOP_CONF_DIR=/home/hadoop/hadoop/etc/hadoop
export SPARK_WORKER_CORES=3 //每个Worker使用的CPU核数
export SPARK_WORKER_INSTANCES=2 //每个Slave中启动几个Worker实例
export SPARK_WORKER_MEMORY=1G //每个Worker使用多大的内存
export SPARK_WORKER_WEBUI_PORT=8081 //Worker的WebUI端口号
export SPARK_EXECUTOR_CORES=1 //每个Executor使用使用的核数
export SPARK_EXECUTOR_MEMORY=1G //每个Executor使用的内存
每台服务器上,启动2个worker实例,每个worker用3个cpu核心,1GB内存
worker实例数:机器数*每台机器上的worker实例数
4、修改 slaves
nbdo2
nbdo3
(我有三台测试机,nbdo1,nbdo2,nbdo3。
nbdo1作为了master了)
5、scp -r 到其他节点
略
6、start-all.sh 启动
在master节点上,进入spark安装目录的sbin下
[hadoop@nbdo1 sbin]$ ./start-all.sh
(不要直接输入 start-all.sh,hadoop启动脚本也是start-all.sh)
7、浏览器查看
ip地址或域名:8080端口访问
http://nbdo1:8080/