系统环境(三台虚拟机)
node1 192.168.32.101(主)
node2 192.168.32.102
node3 192.168.32.103
1、启动hdfs、yarn、historyserver(hadoop用户启动)
# 启动dfs,启动后的服务名: DataNode、SecondaryNameNode、NameNode
sh /export/hadoop/sbin/start-dfs.sh # 启动yarn,启动后的服务名: NodeManager、ResourceManager
sh /export/hadoop/sbin/start-yarn.sh # 启动历史日志,启动后的服务名: JobHistoryServer
/export/hadoop/bin/mapred --daemon start|stop historyserver
2、启动zookeeper、spark、historyserver(hadoop用户启动)
# 启动zookeeper,三台均启动,启动后服务:QuorumPeerMain
sh /export/zookeeper/bin/zkServer.sh start # 启动后服务:Worker、Master
# 监控页面默认8080被占用则顺延:http://node1:8081/
sh /export/spark/sbin/start-all.sh # 启动历史日志,启动后的服务名:HistoryServer
# 监控页面访问地址:http://node1:18080
sh /export/spark/sbin/start-history-server.sh
3、spark任务运行后,Driver绑定到4040端口提供监控页面:
# 运行后 访问监控页面:http://node1:4040/
cd /export/server/spark/bin/
./pyspark
./spark-submit --master local[*] /export/server/spark/examples/src/main/python/pi.py 10
4、spark应用层级关系
pyspark 应用程序 --> Job子任务 --> 多个阶段运行 --> 多个Task去干活