【Spark精讲】性能优化:并行度

Reduce端并行度

  • RDD:
    • 参数:spark.default.parallelism
    • 手动:groupByKey(10),10即为并行度
  • Spark SQL:
    • 参数:spark.sql.shuffle.partitions
  • Hive on Spark:

1.控制reduce个数的方式与参数
1.1.首先可以通过参数直接控制最终reduce的个数,使用参数mapred.reduce.tasks

hive> set mapred.reduce.tasks ;
mapred.reduce.tasks=-1   --官方默认值-1,表示不人为设置reduce的个数,实际这种方式用的也少。
1.2.在hive中如果不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定

1.set hive.exec.reducers.bytes.per.reducer=300000000  --我们公司默认值 300MB
 注意:在hive 0.14.0之前默认hive.exec.reducers.bytes.per.reducer默认值是1GB,每个reduce最多处理1GB。
 但是在之后版本默认值都是256Mb。这里我们公司用的是300Mb。为什么300Mb写的是300*1000*1000?因为网络传输中用的1000,而不是1024机制。
2.set hive.exec.reducers.max=1009    --我们公司默认值,这个值一般不会修改。
 注意,在hive 0.14.0之前默认是999,之后是1009,所以我们公司的也是官方默认值。
 
3.reduce计算方式:计算reducer数的公式很简单
Num=min(hive.exec.reducers.max,map输出数据量/hive.exec.reducers.bytes.per.reducer)

参考:真正让你明白Hive参数调优系列2:如何控制reduce个数与参数调优_hive.exec.reducers.bytes.per.reducer-CSDN博客

Map端加载数据的并行度

  • textFile等算子加载数据源,如果指定了minPartitions,如果最终切分的split数据大小小于blockSize,则会使用该大小进行最终切分,也就是切出来比blockSize更小的split,相当于增加了并行度。
  • hive on spark:开启合并小文件后,并行度降低。

-- 每个Map最大输入大小,
hive> set mapred.max.split.size;
mapred.max.split.size=256000000  这也是官方默认值
-- 每个Map最小输入大小
hive> set mapred.min.split.size;
mapred.min.split.size=10000000   这也是官方默认值
hive> set dfs.block.size;
dfs.block.size=134217728   我们集群默认hdfs的block块大小是128Mb,但注意这个参数通过hive设置更改实际没有用的,只能hdfs设置。

参考:真正让你明白Hive参数调优系列1:控制map个数与性能调优参数_mapred.min.split.size.per.node-CSDN博客

主动调整分区数量

使用重分区算子:repartition()或者coalesce()

官方推荐,根据应用分配的CPU的情况,分区数量可以为CPU核数的2~3倍。

需要注意的重要一点是,Spark repartition() 和coalesce() 是效率低下的操作,因为它们会在许多分区中打乱数据,因此尽量减少重新分区。

Spark RDD coalesce() 仅用于减少分区数量。 这是 repartition() 的优化或改进版本,其中使用合并的数据在分区之间的移动较低。

/** repartition */
val rdd2: RDD[Int] = rdd1.repartition(4)
println("Repartition size:" + rdd2.partitions.size)
//保存
rdd2.saveAsTextFile("data/output/re-partition")/** coalesce分区算子*/
val rdd3: RDD[Int] = rdd1.coalesce(4)
println("Repartition size:" + rdd3.partitions.size)
//保存
rdd3.saveAsTextFile("data/output/coalesce")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/596545.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于textcnn做微博情感文本分析

基于TextCNN(Text Convolutional Neural Network)进行微博情感文本分析是一种常见的文本分类方法。TextCNN利用卷积神经网络(CNN)结构来处理文本序列数据,通过卷积和池化操作捕捉文本中的局部特征,然后将这…

14:00面试,14:08就出来了,问的问题过于变态了。。。

从小厂出来,没想到在另一家公司又寄了。 到这家公司开始上班,加班是每天必不可少的,看在钱给的比较多的份上,就不太计较了。没想到10月一纸通知,所有人不准加班,加班费不仅没有了,薪资还要降40…

机器学习原理到Python代码实现之LinearRegression

Linear Regression 线性回归模型 该文章作为机器学习的第一篇文章,主要介绍线性回归模型的原理和实现方法。 更多相关工作请参考:Github 算法介绍 线性回归模型是一种常见的机器学习模型,用于预测一个连续的目标变量(也称为响应变…

Spring的bean的生命周期!!!

一.单例模式 单例:[启动容器]--->通过构造方法(创建对象)---->调用set方法(注入)--->调用init方法(初始化)----[容器关闭]----->调用destroy方法(销毁) app…

死锁的处理策略“检测和解除”-第三十九天

目录 前言 死锁的检测 数据结构资源分配图 基于“图”检测死锁 可以消除所有边 不能消除所有边 结论 死锁定理 死锁的解除 本节思维导图 前言 如果系统中既不采取预防死锁的措施,也不采取避免死锁的措施,系统就很可能发生死锁,在这种…

西电期末1019.校验和计算

一.题目 二.分析与思路 难点在于逐个取出数据的每一位,我们编写f函数,使用了一个while函数,每次循环中用取余的运算符找到数据的个位累加,再将n/10,如此n便被去除了个位,十位就成了新的个位,最…

案例精选|淄博绿能燃气工程有限公司日志审计系统建设方案

淄博绿能燃气工程有限公司,成立于1994年,前身为淄博市煤气公司管道液化气分公司。公司业务主要涉及天然气、液化气等市政工程施工及城镇燃气供应等领域,具有市政公用工程施工总承包二级资质,《压力管道安装许可证》压力管道安装GB…

CodeFormer安装记录

1、Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running? 解决方案: systemctl daemon-reload systemctl restart docker.service 2、Error response from daemon: could not select device driver ““ with capabiliti…

利用Embedding优化搜索功能

我们继续用Gemini学习LLM编程之旅。 Embedding是一种自然语言处理 (NLP) 技术,可将文本转换为数值向量。Embedding捕获语义含义和上下文,从而导致具有相似含义的文本具有更接近的Embedding。例如,句子“我带我的狗去看兽医”和“我带我的猫去…

LeetCode---378周赛

题目列表 2980. 检查按位或是否存在尾随零 2981. 找出出现至少三次的最长特殊子字符串 I 2982. 找出出现至少三次的最长特殊子字符串 II 2983. 回文串重新排列查询 一、检查按位或是否存在尾随零 这题和位运算有关,不是很难,题目要求至少有两个数的…

Dubbo相关面试题及答案(2024)

1、Dubbo的基本架构是怎样的? Dubbo是一个高性能的Java RPC(远程过程调用)框架,它的基本架构主要由以下几个核心组件构成: Provider(服务提供方): Provider是指暴露服务的服务提供者…

案例073:基于微信小程序的智慧旅游平台开发

文末获取源码 开发语言:Java 框架:SSM JDK版本:JDK1.8 数据库:mysql 5.7 开发软件:eclipse/myeclipse/idea Maven包:Maven3.5.4 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序…

用贪心算法编程求解任务安排问题

题目:用贪心算法编程求解以下任务安排问题 一个单位时间任务是恰好需要一个单位时间完成的任务。给定一个单位时间任务的有限集S。关于S的一个时间表用于描述S中单位时间任务的执行次序。时间表中第1个任务从时间0 开始执行直至时间1 结束,第2 个任务从时…

20240104确认AIO-3399J的开发板适配ov13850摄像头不支持4K分辨率录像

20240104确认AIO-3399J的开发板适配ov13850摄像头不支持4K分辨率录像 2024/1/4 13:23 开发板:Firefly的AIO-3399J【RK3399】 SDK:rk3399-android-11-r20211216.tar.xz【Android11】 Android11.0.tar.bz2.aa【ToyBrick】 Android11.0.tar.bz2.ab Android1…

人工智能如何重塑金融服务业

在体验优先的世界中识别金融服务业中的AI使用场景 人工智能(AI)作为主要行业的大型组织的重要业务驱动力,持续受到关注。众所周知,传统金融服务业在采用新技术方面相对滞后,一些组织使用的还是上世纪50年代和60年代发…

Android Jetpack学习系列——Navigation

写在前面 Google在2018年就推出了Jetpack组件库,但是直到今天我才给重视起来,这真的不得不说是一件让人遗憾的事。过去几年的空闲时间里,我一直在尝试做一套自己的组件库,帮助自己快速开发,虽然也听说过Jetpack&#…

Android如何正确使用 Canvas 的 save() 和 restore() 方法

如何正确使用 Canvas 的 save() 和 restore() 方法 在Android的绘图API中,Canvas类提供了一系列强大的功能来绘制自定义视图。为了更高效地管理绘图状态和变换,Canvas类提供了save()和restore()方法。正确使用这些方法是高效绘图和避免常见错误的关键。 …

任务需求分析中的流程图、用例图、er图、类图、时序图线段、图形的作用意义

任务需求分析中的流程图、用例图、er图、类图、时序图线段、图形的作用意义 流程图 流程图中各种图形的含义及用法解析 连接线符号 连接各要素,表示流程的顺序或过程的方向。 批注符号 批注或说明,也可以做条件叙述。 子流程 流程中一部分图形的逻辑…

JS之注册事件兼容性解决方案

本章介绍注册事件兼容性的解决方案 废话不多说,直接上代码: function addEventListener(element, eventName, fn) {//判断当前浏览器是否支持 addEventListener 方法if (element.addEventListener) {element.addEventListener(eventName, fn); // 第三个…

机器人动力学一些笔记

动力学方程中,Q和q的关系(Q是sita) Q其实是一个向量,q(Q1,Q2,Q3,Q4,Q5,Q6)(假如6个关节) https://zhuanlan.zhihu.com/p/25789930 举个浅显易懂的例子,你在房…