spark-submit 主要参数详细说明及Standalone集群最佳实践

文章目录

  • 1. 前言
  • 2. 参数说明
  • 3. Standalone集群最佳实践


1. 前言

部署提交应用到 spark 集群,可能会用到 spark-submit 工具,鉴于网上的博客质量残差不齐,且有很多完全是无效且错误的配置,没有搞明白诸如--total-executor-cores--executor-cores--num-executors的关系和区别。因此有必要结合官网文档 submitting-applications 详细记录一下参数的含义。

2. 参数说明

一般的用法是:spark-submit [option] xx.jar/xx.py
详细说明如下:

Usage: spark-submit [options] <app jar | python file | R file> [app arguments]
Usage: spark-submit --kill [submission ID] --master [spark://...]
Usage: spark-submit --status [submission ID] --master [spark://...]
Usage: spark-submit run-example [options] example-class [example args]Options:--master MASTER_URL         spark://host:port, mesos://host:port, yarn,k8s://https://host:port, or local (Default: local[*]).--deploy-mode DEPLOY_MODE   Whether to launch the driver program locally ("client") oron one of the worker machines inside the cluster ("cluster")(Default: client).--class CLASS_NAME          Your application's main class (for Java / Scala apps).--name NAME                 A name of your application.--jars JARS                 Comma-separated list of jars to include on the driverand executor classpaths.--packages                  Comma-separated list of maven coordinates of jars to includeon the driver and executor classpaths. Will search the localmaven repo, then maven central and any additional remoterepositories given by --repositories. The format for thecoordinates should be groupId:artifactId:version.--exclude-packages          Comma-separated list of groupId:artifactId, to exclude whileresolving the dependencies provided in --packages to avoiddependency conflicts.--repositories              Comma-separated list of additional remote repositories tosearch for the maven coordinates given with --packages.--py-files PY_FILES         Comma-separated list of .zip, .egg, or .py files to placeon the PYTHONPATH for Python apps.--files FILES               Comma-separated list of files to be placed in the workingdirectory of each executor. File paths of these filesin executors can be accessed via SparkFiles.get(fileName).--archives ARCHIVES         Comma-separated list of archives to be extracted into theworking directory of each executor.--conf, -c PROP=VALUE       Arbitrary Spark configuration property.--properties-file FILE      Path to a file from which to load extra properties. If notspecified, this will look for conf/spark-defaults.conf.--driver-memory MEM         Memory for driver (e.g. 1000M, 2G) (Default: 1024M).--driver-java-options       Extra Java options to pass to the driver.--driver-library-path       Extra library path entries to pass to the driver.--driver-class-path         Extra class path entries to pass to the driver. Note thatjars added with --jars are automatically included in theclasspath.--executor-memory MEM       Memory per executor (e.g. 1000M, 2G) (Default: 1G).--proxy-user NAME           User to impersonate when submitting the application.This argument does not work with --principal / --keytab.--help, -h                  Show this help message and exit.--verbose, -v               Print additional debug output.--version,                  Print the version of current Spark.Spark Connect only:--remote CONNECT_URL       URL to connect to the server for Spark Connect, e.g.,sc://host:port. --master and --deploy-mode cannot be settogether with this option. This option is experimental, andmight change between minor releases.Cluster deploy mode only:--driver-cores NUM          Number of cores used by the driver, only in cluster mode(Default: 1).Spark standalone or Mesos with cluster deploy mode only:--supervise                 If given, restarts the driver on failure.Spark standalone, Mesos or K8s with cluster deploy mode only:--kill SUBMISSION_ID        If given, kills the driver specified.--status SUBMISSION_ID      If given, requests the status of the driver specified.Spark standalone and Mesos only:--total-executor-cores NUM  Total cores for all executors.Spark standalone, YARN and Kubernetes only:--executor-cores NUM        Number of cores used by each executor. (Default: 1 inYARN and K8S modes, or all available cores on the workerin standalone mode).Spark on YARN and Kubernetes only:--num-executors NUM         Number of executors to launch (Default: 2).If dynamic allocation is enabled, the initial number ofexecutors will be at least NUM.--principal PRINCIPAL       Principal to be used to login to KDC.--keytab KEYTAB             The full path to the file that contains the keytab for theprincipal specified above.Spark on YARN only:--queue QUEUE_NAME          The YARN queue to submit to (Default: "default").

我把一些主要的参数列举一下:

  • --master MASTER_URL ,其中 MASTER_URL 可选如下:
    • local,启1个work线程本地运行应用程序
    • local[K],启K个work线程本地运行应用程序
    • local[K,F],启K个work线程本地运行应用程序,且运行中最大容忍F次失败次数
    • local[*],尽可能多启动cpu逻辑线程本地运行应用程序
    • local[*,F],尽可能多启动cpu逻辑线程本地运行应用程序,且运行中最大容忍F次失败次数
    • local-cluster[N,C,M],仅用于单元测试,它在一个JVM中模拟一个分布式集群,其中有N个工作线程,每个工作线程有C个内核,每个工作进程有M MiB的内存。
    • spark://host:port,连接standalone集群的master节点,端口默认7077
    • spark://HOST1:PORT1,HOST2:PORT2,连接带有Zookeeper备份的standalone集群的master节点。该列表必须使用Zookeeper设置高可用性集群中的所有主主机,端口默认7077。
    • mesos://host:port,连接 Mesos 集群,端口默认5050
    • yarn,连接 YARN 集群,此外--deploy-mode参数决定了是client还是cluster模式
    • k8s://https://host:port 连接 K8s 集群,此外--deploy-mode参数决定了是client还是cluster模式
  • --deploy-mode 可选cluster及client。cluster:在work节点上部署driver。client:作为外部client在本地部署driver,默认是client
  • --driver-memory MEM 分配driver的内存,默认1024M
  • --executor-memory MEM 分配每个executor的内存,默认1G
  • --driver-cores NUM driver 可以使用的核数,默认1。注意仅在cluster模式下有效
  • --total-executor-cores NUM 所有的executor总共的核数。注意仅在Spark standalone 以及 Mesos下生效
  • --executor-cores NUM 每个executor可以使用的核数,默认1。注意仅在 Spark standalone, YARN以及Kubernetes下生效
  • --num-executors NUM executor启动的数量,默认2。注意仅在Spark on YARN 以及 Kubernetes下生效

3. Standalone集群最佳实践

因为Spark Standalone集群下--num-executors NUM 参数不生效,而且如果你没有用--deploy-mode=cluster,那么--driver-cores NUM 参数也是不生效的,那么一种可行的提交参数:

spark-submit 
--master spark://master:7077 
--name spark-app
--total-executor-cores={集群机器数}*{一台机器的逻辑核数-1}
--executor-cores={一台机器的逻辑核数-1}
--executor-memory={一台机器的内存-3GB}
xxx.py

例如,Spark Standalone集群有3台机器,每台机器cpu核数是16,每台机器的内存是16GB,那么可以如下提交:

spark-submit 
--master spark://master:7077 
--name spark-app
--total-executor-cores=45
--executor-cores=15
--executor-memory=13GB
xxx.py

当然,--executor-memory 可以根据实际情况去调整,先大致看一下有多少空闲的内存:

free -h

然后再调整大小~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/772854.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Idea与Maven版本不一致问题

Idea拉取Jar包&#xff0c;报Unable to import maven project: See logs for details 查看日志信息No implementation for org.apache.maven.model.path.PathTranslator was bound 解决办法&#xff1a; IDEA执行Maven报错 Unable to import maven project: See logs for d…

PC电脑技巧[笔记本通过网线访问设备CMW500]

笔记本局域网访问设备 现在我有一台CMW500,我要用笔记本去访问它,但是我发现没有路由器就是不能够访问,通过网线连接设备就是ping不通: 这里设置TCP/IPv4的IP地址如下,这时候就可以pin通了:

论文篇05-论文范文-论数据访问层设计技术及其应用(2024年软考高级系统架构设计师冲刺知识点总结系列文章)

试题:论数据访问层设计技术及其应用 在信息系统的开发与建设中,分层设计是一种常见的架构设计方法,区分层次的目的是为了实现“高内聚低耦合”的思想。分层设计能有效简化系统复杂性,使设计结构清晰,便于提高复用能力和产品维护能力。一种常见的层次划分模型是将信息系统分…

nRF52832——定时器 TIME

nRF52832——定时器 TIME 原理分析定时器定时功能寄存器方式定时器库函数版本使用 定时器计数功能计数器寄存器方式计数器库函数方式 原理分析 和其他 MCU 处理器一样&#xff0c;在 nRF52832 中定时器的功能是十分强大的。其内部包含了 5 个定 时器 TIMER 模块:TIMER0、TIMER…

windows下的vscode + opencv4.8.0(C++) 配置

1.添加环境变量 D:\mingw64\bin 2.安装vscode 3.下载opencv 4.8.0 4.程序引用第三方库(opencv为例) 打开CMakeLists.txt&#xff0c;引入头文件&#xff0c;使用include_directories 加入头文件所在目录。静态链接库link_directories # 头文件 include_directories(D:/ope…

搭建 Apple Mac M1 stm32 开发环境

近期想学习 stm32 开发,看了些书和视频,买了开发板。开发板到了后就迫不及待的的进行尝试。由于我目前使用的电脑是 Apple M1 Pro,目前用的比较多的是 windows + keil。我先是在 mac 使用虚拟机,安装 win 环境来使用,但是我分别使用了 VMware 和 parallels desktop ,keil…

数据分析---SQL(5)

目录 子查询单行子查询多行子查询视图(View)创建视图使用视图更新视图视图的优缺点存储过程存储过程的创建存储过程的参数存储过程的优缺点可能导致性能问题避免存储过程引入性能问题子查询 子查询是指在一个查询语句中嵌套另一个查询语句,内部的查询语句称为子查询,外部的…

@JsonFormat(pattern = “yyyy-MM-dd“) 年月日用法

需要只要年月日&#xff0c;后端数据库设计 start_date date NOT NULL COMMENT 时间,private Date startDate; 先说下发现问题&#xff1a; 1、列表显示年月日 00:00:00&#xff0c;查询结果用JsonFormat 2、新增/编辑如果不用value-format&#xff0c;传到后台的会晚8小时&…

API成网络攻击常见载体,如何确保API安全?

根据Imperva发布的《2024年API安全状况报告》&#xff0c;API成为网络攻击者的常见载体&#xff0c;这是因为大部分互联网流量&#xff08;71%&#xff09;都是API调用&#xff0c;API是访问敏感数据的直接途径。根据安全公司Fastly的一项调查显示&#xff0c;95%的企业在过去1…

STM32之HAL开发——串口配置(源码)

串口收发原理框图&#xff08;F1系列&#xff09; 注意&#xff1a;数据寄存器有俩个一个是收一个是发&#xff0c;但是在标准库或者HAL库中没有特别区分开来是俩个寄存器&#xff01; USART 初始化结构体详解 HAL 库函数对每个外设都建立了一个初始化结构体&#xff0c;比如 …

标题:深入理解 ES6 中的变量声明:let、var 和 const

在 ES6&#xff08;ECMAScript 6&#xff09;语法中&#xff0c;新增了let和const关键字来声明变量&#xff0c;这为 JavaScript 变量的作用域和声明方式带来了一些重要的改进。在这篇博客中&#xff0c;我们将深入探讨let、var和const之间的区别&#xff0c;并了解它们如何影响…

I/O(输入/输出流的概述)

文章目录 前言一、流的概述二、输入/输出流 1.字节/字符输入流2.字节/字符输出流总结 前言 在变量、数组和对象中储存的数据是暂时的&#xff0c;程序结束后它们就会丢失。如果想要永久地储存程序创建的数据&#xff0c;需要将其保存在磁盘文件中&#xff0c;这样就可以在程序中…

C#_事件_多线程(基础)

文章目录 事件通过事件使用委托 多线程(基础)进程:线程: 多线程线程生命周期主线程Thread 类中的属性和方法创建线程管理线程销毁线程 昨天习题答案 事件 事件&#xff08;Event&#xff09;本质上来讲是一种特殊的多播委托&#xff0c;只能从声明它的类中进行调用,基本上说是…

React 18中hook函数详解之useState和useEffect

前言 React创建组件的方式有三种&#xff0c;分别是函数式组件、类组件&#xff0c;还有createElement组件。react v16.8版本之前函数式组件是没有状态的。但是&#xff0c;自16.8以后得版本有个hook函数&#xff0c;函数式组件也有了状态&#xff0c;反而类组件没有多少人写了…

MyBatis-Plus分页接口实现教程:Spring Boot中如何编写分页查询

&#x1f31f; 前言 欢迎来到我的技术小宇宙&#xff01;&#x1f30c; 这里不仅是我记录技术点滴的后花园&#xff0c;也是我分享学习心得和项目经验的乐园。&#x1f4da; 无论你是技术小白还是资深大牛&#xff0c;这里总有一些内容能触动你的好奇心。&#x1f50d; &#x…

Unity VisionOS开发流程

Unity开发环境 Unity Pro, Unity Enterprise and Unity Industry 国际版 Mac Unity Editor(Apple silicon) visionOS Build Support (experimental) 实验版 Unity 2022.3.11f1 NOTE: 国际版与国服版Pro账通用&#xff0c;需要激活Pro的许可证。官方模板v0.6.2,非Pro版本会打…

稀碎从零算法笔记Day29-LeetCode:单词拆分

死磕dp的第二天了 题型&#xff1a;dp&#xff0c;字符串&#xff0c;二维数组&#xff0c;背包类 链接&#xff1a;139. 单词拆分 - 力扣&#xff08;LeetCode&#xff09; 来源&#xff1a;LeetCode 题目描述 给你一个字符串 s 和一个字符串列表 wordDict 作为字典。如果…

【探究图论中dfs记忆化,搜索,递推,回溯关系】跳棋,奶牛隔间, 小A和uim之大逃离 II

本篇很高能&#xff0c;如有错误欢迎指出&#xff0c;本人能力有限&#xff08;需要前置知识记忆化dfs&#xff0c;树形dp&#xff0c;bfsdp&#xff0c;tarjan&#xff09; 另外&#xff0c;本篇之所以属于图论&#xff0c;也是想让各位明白&#xff0c;dfs就是就是在跑图&am…

mysql80-DBA数据库学习2

权限管理 创建用户 create user user1localhost identified by QianFeng123; select * from mysql.user; 或者select * from mysql.user\G进行分行显示 密码要求&#xff1a; 1组成&#xff1a; 由小写字母、大写字母、数字、字符 中的三项组成 &#xff0c;也就是3/4 2长度…

jupyter notebook指定虚拟环境

要在 Jupyter notebook 中使用特定的虚拟环境&#xff0c;可以按照以下步骤操作&#xff1a; 1、首先&#xff0c;确保已经安装了 Jupyter notebook 和虚拟环境工具&#xff08;比如 virtualenv 或 conda&#xff09;。 2、在命令行中&#xff0c;激活你想要使用的虚拟环境。…