- 当前集群支持3中集群管理
Standalone(spak框架自身拥有能力) - Apache Mesos
- Hadoop YARN
- Kubernetes
- 使用/spark-submit脚本提交任务,脚本后面可以接参数
./bin/spark-submit \--class <main-class> \--master <master-url> \--deploy-mode <deploy-mode> \--conf <key>=<value> \... # other options<application-jar> \[application-arguments]
例子:
../../bin/spark-submit \--master spark://node01:7077,node02:7077 --class org.apache.spark.examples.SparkPi ./spark-examples_2.11-2.3.4.jar 100000
参数解释:
--class:用于设置程序运行main函数所在类全名
--master:集群地址
--deploy-mode:部署模式(client/cluster)
--conf:spark.default.parallelism=300 指定并行的task数量为300
--driver-memory 2g Driver内存
--driver-cores 2 Driver核数
--executor-memory 2g :用于设置每个Executor进程的CPU core数量
--executor-cores 2 用于设置每个Executor进程的CPU core数量
--num-executors 24 用于设置Spark作业总共要用多少个Executor进程来执行