Spark参数配置不合理的情况

1.1 内存设置 💾

常见的内存设置有两类:堆内和堆外 💡

我们作业中大量的设置 driver 和 executor 的堆外内存为 4g,造成资源浪费 📉。

通常 executor 堆外内存在 executor.cores=1 的时候,1g 足够了,正常来说最大值不超过 2g;driver 1g-2g 足够了 ✅。

注意:如果有 c++ 库这种计算,executor 堆外内存可以保持原有配置。 📚

各版本推荐配置的 key 以及配置值各版本不推荐配置的 key 及配置值过去无效配置,建议删除 🚫
driver 堆内 💽–conf spark.driver.memory=6G
driver 堆外 💾–conf spark.driver.memoryOverhead=2G–conf spark.yarn.driver.memoryOverhead=4g–conf spark.yarn.driver.direct*
executor 堆内 💽–conf spark.executor.memory=3G
executor 堆外 💾–conf spark.executor.memoryOverhead=1G–conf spark.yarn.executor.memoryOverhead=4g–conf spark.yarn.executor.direct*
1.2 动态资源调度相关参数 📊

不开启动态资源管理或者参数设置不合理,会导致明显的资源浪费 💸:
涉及到动态资源调度的参数主要有以下几个 📝:

参数名 🛠️默认值 ⚙️作用 🧐错误使用案例 🚫使用建议 🌟
spark.dynamicAllocation.enabled ✅false开启资源动态能力,在 executor 空闲时可以释放,需要资源是发起请求不开启开启资源动态功能,尤其是运行时间比较长或者有数据倾斜的情况 🌟
spark.dynamicAllocation.executorIdleTimeout ⏲️60sexecutor 空闲多久开始释放资源30000 或者 1200s 过大的数值 🚫60s-120s 🌟
spark.dynamicAllocation.minExecutors 📉0最小持有的 executor 数,到达该值,空闲也不会释放200 🚫推荐设置为 1-5 🌟
spark.dynamicAllocation.maxExecutors 📈infinity作业申请 executor 资源的最大值1000 以上 🚫通常最大值建议 256-500 即可,小作业可以更小的设置 🌟

1.3 序列化参数 📝

Spark 中序列化主要有两种,java、kryo。相对来说 kryo 序列化效率更高,作为推荐 💡:

1 spark.serializer org.apache.spark.serializer.KryoSerializer

与 kryo 相关的设置有 📊:

1 spark.kryoserializer.buffer,默认值 64k,这个不需要设置,设置值过大会常驻
2 spark.kryoserializer.buffer.max,默认值 64m

不需要设置 spark.kryoserializer.buffer,默认的 buffer 会在 64k 到 64m 动态伸缩,没有特殊需要不需要设置,如果数据比较大,设置 spark.kryoserializer.buffer.max

1.4 并行度设置 ⚙️

在这里插入图片描述

常见的并行度配置有两个 🔧:

  1. spark.default.parallelism 默认值:会继承上游 stage 的并行度,主要用于 rdd 的 shuffle 操作
  2. spark.sql.shuffle.partitions 默认值 200,主要用于 sql 的 shuffle 操作

算法作业绝大多数是 rdd 操作,合理设置并行度,事半功倍 💪,后面会专门介绍怎么优化自己的并行度设置 🌟

spark.default.parallelism 不建议设置的非常大。 🚫

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/850692.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UltraEditUEStudio软件最新版下载及详细安装教程

UEStudio简介: UEStudio建立在上文本编辑器UltraEdit的功能基础上,并为团队和开发人员提供了其他功能,例如深度Git集成。您可以直接在UEStudio中克隆,签出,更新,提交,推入/拉入等操作&#xff…

再回首:我的创作纪念日3周年回顾

机缘 我与CSDN三周年博客纪念 大家好!今天,我非常高兴地在这里向大家分享我与CSDN三周年博客纪念的喜悦和成果。在这三年里,我坚持不懈地在CSDN上分享了我的技术成果和心得,积累了超过2000篇的博客文章。这一路上,我…

Invalid JSON text:“Invalid value.“ at position 0 in value for column ‘user.info

你们好,我是金金金。 场景 我正在练习mybatis-plus,在插入一条数据的时候报错了,错误信息如上图 排查 排查之前我先贴一下代码 以下为数据库字段类型 在插入的过程中报错:Data truncation: Invalid JSON text: "Invalid val…

python中的函数递归

函数递归,就是一个函数,自己调用自己。 如上图所示,是一段通过定义函数,编写函数体来实现for循环。实现的是从1到n的累乘。即求n的阶乘, 如上图所示,是一段函数的递归来实现1到n的累乘操作,将1*…

opencv快速安装以及各种查看版本命令

安装opencv并查看其版本,直接通过一个可执行文件实现。 #!/bin/bashwget https://codeload.github.com/opencv/opencv/zip/3.4 -O opencv-3.4.zip && unzip opencv-3.4.zip && cd opencv-3.4 && \mkdir build && cd build &&a…

Sentinel不使用控制台基于注解限流,热点参数限流

目录 一、maven依赖 二、控制台 三、基于注解限流 四、热点参数限流 五、使用JMeter验证 一、maven依赖 需要注意,使用的版本需要和你的SpringBoot版本匹配!! Spring-Cloud直接添加如下依赖即可,baba已经帮你指定好版本了。…

海洋日特别活动—深海来客——可燃冰

深海中有一种神奇的物质,似冰又不是冰。 别看它其貌不扬,但本领不小,遇火即燃,能量巨大,可谓是能源家族的新宠。它就是被国务院正式批准列为我国第173个矿种的“可燃冰”! 可燃冰到底是个啥?它…

把chatgpt当实习生,进行matlab gui程序编程

最近朋友有个项目需要整点matlab代码,无奈自己对matlab这种工科的软件完全是外行,无奈只有求助gpt这种AI助手了。大神们告诉我们,chatgpt等的助手已经是大学实习生水平啦,通过多轮指令交互就可以让他帮你完成工作啦!所…

时隔很久运行苍穹外卖项目,出现很多错误

中途运行了很多其他项目,maven的配置文件还被我修改了一次。导致再次运行苍穹外卖项目出现很多错误。 发现没有办法,把本地的仓库删了个干干净净。然后点击clean发现报错: Cannot access alimaven (http://mavejavascript:void(0);n.aliyun.…

k8s学习--kubernetes服务自动伸缩之垂直伸缩(资源伸缩)VPA详细解释与安装

文章目录 前言VPA简介简单理解详细解释VPA的优缺点优点1.自动化资源管理2.资源优化3.性能和稳定性提升5.成本节约6.集成性和灵活性 缺点1.Pod 重启影响可用性2.与 HPA 冲突3.资源监控和推荐滞后:4.实现复杂度: 核心概念Resource Requests 和 Limits自动调…

学会python——九九乘法表+斐波那契数列(python实例一)

目录 1、认识Python 2、环境与工具 2.1 python环境 2.2 pycharm编译 2、九九乘法表 2.1 代码构思 2.2 代码示例 2.3 运行结果 3、斐波那契数列 3.1 代码构思 3.2 代码示例 3.3 运行结果 1、认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对…

Nginx部署多web进程

1、nginx介绍 Nginx是一个高性能的、开源的、跨平台的Web服务器和反向代理服务器。它是由俄罗斯的程序员Igor Sysoev开发的,并于2004年首次公开发布。 Nginx的特点包括: 高性能:Nginx使用事件驱动的架构,能够处理大量的并发连接…

人月神话纪念珍藏版系列文章一:焦油坑

前言: 在史前文明,没有什么场景比巨兽们在焦油坑中垂死挣扎的场景更让人震撼。恐龙、猛犸象在焦油坑中挣扎。他们挣扎的越猛烈,焦油就缠绕的越紧,没有那种猛兽足够强壮或者具有足够的技巧,能够挣脱出来,它们最后都淹没在坑中。 最近几十年的大型系统编程就犹如这样的一个…

百度高级项目经理洪刘生受邀为第十三届中国PMO大会演讲嘉宾

全国PMO专业人士年度盛会 百度在线网络技术(北京)有限公司IDG智能驾驶业务部高级项目经理洪刘生先生受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾,演讲议题为“互联网PMO赋能战略项目集管理实战分享”。大会将于6月29-30日在北京举办…

clickHouse实现表自增ID的代码及相关逻辑

一、介绍 clickHourse表自增ID主要时两种方式: insert数据时,手动维护一个全局ID给表设置uuid字段,使用 generateUUIDv4()函数赋予默认值。 这里的话推荐手动维护一个全局的自增ID,不推荐使用UUID的方式,主要原因有…

python数据分析-ZET财务数据分析

一、公司背景 中兴通讯股份有限公司是一家总部位于中国深圳的跨国公司,致力于为全球客户提供通信设备和解决方案。公司成立于1985年,自成立以来一直致力于为客户提供创新的通信技术和服务。中兴通讯的业务涵盖多个领域,包括但不限于高端路由…

【Java面试】十七、并发篇(上)

文章目录 1、synchronized关键字的底层原理:Monitor2、synchronized相关2.1 为什么说synchronized是重量级锁2.2 synchronized锁升级之偏向锁2.3 synchronized锁升级之轻量级锁 3、Java内存模型JMM4、CAS4.1 CAS流程4.2 CAS底层实现 5、volatile关键字的理解5.1 可见…

idea打开hierarchy面板

hierarchy:查看类层级关系图 不同版本的IDEA的快捷键不一样,同时如果修改了IDEA快捷键,也可能会不一样,具体查看可通过IDEA上方的Navigate来查看navigate--Type Hierarchy,就可以看见其快捷键了,我的快捷键…

(四)React组件、useState

1. 组件 1.1 组件是什么 概念:一个组件就是用户界面的一部分,它可以有自己的逻辑和外观,组件之间可以相互嵌套,也可以复用多次。 组件化开发可以让开发者像搭积木一样构建一个完整的庞大应用 1.2 React组件 在React中&#xf…

less---20-28

less-20 这关登陆成功会显示cookie,所以抓包在cookie处注入 less-21 这关登陆成功会显示cookie,所以抓包在cookie处注入,发现不成功,查看代码发现被编码 先对注入语句进行base64编码再注入 less-22 闭合字符",同21关 less-23 这关查看代码发现…