大数据 - Spark系列《一》- 分区 partition数目设置详解

大数据 - Spark系列《一》- 分区 partition数目设置详解

news/2025/10/20 3:45:22/文章来源:https://blog.csdn.net/weixin_40968325/article/details/135921046

目录

🐶3.2.1 分区过程

🐶3.2.2 SplitSize计算和分区个数计算

🐶3.2.3 Partition的数目设置

1. 🥙对于数据读入阶段，输入文件被划分为多少个InputSplit就会需要多少初始task.

2. 🥙对于转换算子产生的RDD的分区数

3. 🥙如果指定了spark.default.parallelism，在进行shuffle之后的新的rdd会和spark.default.parallelism设置的一致

编辑

4. 🥙repartition和coalesce操作会聚合成指定分区数。

🐶3.2.4 groupBy不一定会Shuffle

🐶3.2.1 分区过程

每一个过程的任务数，对应一个InputSplit,Paritition 输入可能以多个文件的形式存储在HDFS上面，，每个File都包含了很多块（128切分），称为block。

当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，按照SplitSize切成一个个输入分片。随后将为这些输入分片生成具体的task. InputSplit与Task是一一对应的关系。

注意:InputSplit不能跨越文件。

随后这些具体的Task每个都会被分配到集群上的某个节点的某个Executor去执行。

每个节点可以起一个或多个Executor.
每个Executor由若干core组成，每个Executor的每个core一次只能执行一个task.
每个task执行的结果就就是生成了目标rdd的一个partition.

注意：这里的core是虚拟的core而不是机器的物理CPU核，可以理解为Executor的一个工作线程。Task被执行的并发度=Executor数目*每个Executor核数（=core总个数）

🐶3.2.2 SplitSize计算和分区个数计算

🐶3.2.3 Partition的数目设置

1. 🥙对于数据读入阶段，输入文件被划分为多少个InputSplit就会需要多少初始task.

集合
- （优先等级1）指定分区数
- （优先等级2）使用 set("spark.default.parallelism","8")
- （优先等级3）所有的可用核数
文件根据计算来的任务切片大小和输入路径下的文件大小 ,至少2并行度
数据库 指定的

2. 🥙对于转换算子产生的RDD的分区数

默认和父RDD的分区数一致
有些算子可以调用的时候指定分区个数 distinct groupBy groupByKey
特殊的算子有特殊规定 union(和) join

val rdd3 = rdd1.intersection(rdd2)  // 取大的
val rdd4 = rdd1.subtract(rdd2) // 前面的RDD分区数
println(rdd1.cartesian(rdd2).getNumPartitions) // 两个分区个数乘积

注意: 可能产生Shuffle的算子可以指定分区个数的

//可能产生shuffle的操作
distinct(p)     减少
groupBy(_._1 , p)    Shuffle 
groupByKey( p)       Shuffle 
groupByKey(_+_, p)   Shuffle 
join( , p)

3. 🥙如果指定了spark.default.parallelism，在进行shuffle之后的新的rdd会和spark.default.parallelism设置的一致

package com.doit.com.doit.day0128import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}/*** @日期: 2024/1/30* @Author: Wang NaPao* @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343* @Tips: 我是技术大牛* @Description:*//** data/orders.txt
oid01,100,bj
oid02,100,bj
oid03,100,bj
oid04,100,nj
oid05,100,nj
*/object Test06 {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("Starting...").setMaster("local[*]").set("spark.default.parallelism", "8")val sc = new SparkContext(conf)//设置spark-submit提交程序时不在控制台打印日志信息Logger.getLogger("org.apache.spark").setLevel(Level.WARN)val rdd1 = sc.textFile("data/orders.txt")//将rdd1的分区设置为2rdd1.repartition(2)println("rdd1 partition为："+rdd1.getNumPartitions)//将rdd1按照城市分组val rdd2 = rdd1.groupBy(tp=>{val arr = tp.split(",")arr(2)})println("rdd2 partition为："+rdd2.getNumPartitions)sc.stop()}
}

4. 🥙repartition和coalesce操作会聚合成指定分区数。

println(rdd1.repartition(3).getNumPartitions) // 增加 
println(rdd1.repartition(1).getNumPartitions)  //减少
println(rdd1.coalesce(1, true).getNumPartitions)  //减少
println(rdd1.coalesce(3, true).getNumPartitions)  //增加
// 不允许Shuffle就不能增加分区
println(rdd1.coalesce(3, false).getNumPartitions)  //增加失败
println(rdd1.coalesce(1, false).getNumPartitions)  //减少  不会Shuffle

🐶3.2.4 groupBy不一定会Shuffle

Shuffle：上游一个分区的数据可能被下游所有分区引用

package com.doit.com.doit.day0128import org.apache.spark.SparkContext.jarOfObject
import org.apache.spark.rdd.RDD
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}/*** @日期: 2024/1/29* @Author: Wang NaPao* @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343* @Tips: 我是技术大牛* @Description:*/object Test03 {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("doe").setMaster("local[*]")val sc = new SparkContext(conf)val rdd1 = sc.makeRDD(List("a b c d e f g"), 2)val rdd2: RDD[String] = rdd1.flatMap(_.split("\\s+"))val wordOne = rdd2.map(line=>{println("aaaaaa")(line,1)})   //2//对数据使用HashPartitioner在分区 2val rdd3 = wordOne.partitionBy(new HashPartitioner(3))rdd3.mapPartitionsWithIndex((p,iter)=>{iter.map(e=>(p,e))}).foreach(println)//底层默认是HashPartition分区 2val rdd4: RDD[(String, Iterable[(String, Int)])] = rdd3.groupBy(_._1, 3)val rdd5: RDD[(Int, (String, Iterable[(String, Int)]))] = rdd4.mapPartitionsWithIndex((p, iter) => {iter.map(e => (p, e))})rdd5.foreach(println)sc.stop()}
}

结果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/662089.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

vue3报错 Component name “Footer“ should always be multi-word

vue3报错 Component name “Footer“ should always be multi-word

报错内容 You may use special comments to disable some warnings. Use // eslint-disable-next-line to ignore the next line. Use /* eslint-disable */ to ignore all warnings in a file. ERROR in [eslint] /Users/soul/projects/learning-vuejs3/chapter07/01_learn_c…

阅读更多...

拓扑空间论学习与Transformer的联系

拓扑空间论学习与Transformer的联系

1. 拓扑空间 1.1 拓扑空间概念拓扑空间是一种数学概念，其核心在于定义了一种“邻域”结构，而非具体的距离或度量关系。在拓扑空间中，我们关注的是点之间连通性的全局属性，例如哪些点可以通过连续变形相互转换，哪些集…

阅读更多...

python：webp转gif

python：webp转gif

公司电脑无录屏软件，用免费在线录屏 (lupingwang.com)最后得到的是webp视频，转MP4代码不怎么容易，发现转GIF也挺不错的此用于批量将WebM视频文件转换为GIF格式的工具，使用了MoviePy库来处理视频文件，需要的自己取代…

阅读更多...

中国文化之光：微博数据的探索与可视化分析

中国文化之光：微博数据的探索与可视化分析

大家好，我是八块腹肌的小胖下面我们针对主题“中国文化”相关的微博数据进行爬取使用LDA、情感分析、情感演化、词云等可视化操作进行相关的展示 1、导包第一步我们开始导包工作下面这段代码，首先，pandas被请来了，因为它是…

阅读更多...

＜网络安全＞《13 上网行为管理》

＜网络安全＞《13 上网行为管理》

1 概念上网行为管理是指帮助互联网用户控制和管理对互联网的使用。其包括对网页访问过滤、上网隐私保护、网络应用控制、带宽流量管理、信息收发审计、用户行为分析等。随着计算机、宽带技术的迅速发展，网络办公日益流行，互联网已经成为人们工作、生活…

阅读更多...

2024年美赛（A题MCM）| 海蟒鳗鱼 |数学建模完整代码+建模过程全解全析

2024年美赛（A题MCM）| 海蟒鳗鱼 |数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时，你是否曾经感到茫然无措？作为2022年美国大学生数学建模比赛的O奖得主，我为大家提供了一套优秀的解题思路，让你轻松应对各种难题。让我们来看看美赛的A题！ 完整内容可以在文章末尾领…

阅读更多...

Camunda流程引擎概念

Camunda流程引擎概念

💖专栏简介 ✔️本专栏将从Camunda(卡蒙达) 7中的关键概念到实现中国式工作流相关功能。 ✔️文章中只包含演示核心代码及测试数据，完整代码可查看作者的开源项目snail-camunda ✔️请给snail-camunda 点颗星吧😘 💖流程定义 …

阅读更多...

服务器C盘突然满了，是什么问题

服务器C盘突然满了，是什么问题

随着时代的发展、互联网的普及，加上近几年云计算服务的诞生以及大规模普及，对于服务器的使用目前是非常普遍的，用户运维的主要对象一般也主要是服务器方面。在日常使用服务器的过程中，我们也会遇到各式各样的问题。最近就有遇到用…

阅读更多...

【2024美赛C题】网球大佬带你无背景压力分析解题思路！

【2024美赛C题】网球大佬带你无背景压力分析解题思路！

2024美赛数学建模c题思路分享加群可以享受定制等更多服务，或者搜索B站：数模洛凌寺联络组织企鹅：936670395 以下是C题老师的解题思路（企鹅内还会随时更新文档）： 1背景介绍 2024MCM问题C：网…

阅读更多...

LeetCode：42. 接雨水

LeetCode：42. 接雨水

42. 接雨水 1）题目2）思路3）代码4）结果 1）题目给定 n 个非负整数表示每个宽度为 1 的柱子的高度图，计算按此排列的柱子，下雨之后能接多少雨水。示例 1： 输入：height …

阅读更多...

强化学习 - Monte Carlo Tree Search (MCTS)

强化学习 - Monte Carlo Tree Search (MCTS)

什么是机器学习强化学习中的Monte Carlo Tree Search (MCTS) 是一种用于决策制定和搜索的算法，特别在不确定环境下表现出色。 1. 强化学习背景在强化学习中，一个智能体通过与环境的交互学习，以便在某个任务上获得最大的奖励。MCTS是一种…

阅读更多...

2024美国大学生数学建模美赛选题建议+初步分析

2024美国大学生数学建模美赛选题建议+初步分析

总的来说，去年算是美赛环境题元年，去年的开放度是较高的，今年每种赛题类型相对而言平均了起来提示：DS C君认为的难度：E<BCF<AD，开放度：DBCE<A<F。以下为A-F题选题建议及初步分析…

阅读更多...

【ArcGIS Pro】从0开始

【ArcGIS Pro】从0开始

1.导入excel，需要安装驱动程序安装用于 Microsoft Excel 文件的驱动程序 https://pro.arcgis.com/zh-cn/pro-app/latest/help/data/excel/prepare-to-work-with-excel-in-arcgis-pro.htm 2.修改投影坐标系点到地图图标上，右键才能设置坐标系。 3.…

阅读更多...

前端通过nginx,访问一个文件夹里面的全部数据，nginx 咋配置

前端通过nginx,访问一个文件夹里面的全部数据，nginx 咋配置

目录 1 问题2 实现 1 问题前端通过nginx,访问一个文件夹里面的全部数据，nginx 咋配置 2 实现 location /logs {alias /mnt/www/logs/;autoindex on; }

阅读更多...

C++——重载

C++——重载

C——重载函数重载在同一个作用域内，可以声明几个功能类似的同名函数，这些同名函数的形式参数（指参数的个数、类型或者顺序）必须不同。您不能仅通过返回类型的不同来重载函数 #include <iostream> using namespace std…

阅读更多...

接口自动化测试框架解析

接口自动化测试框架解析

01 数据驱动框架设计框架结构 common: 这是一个package，主要用来存储所有的底层代码封装 logs: 这是一个目录，主要用来存放日志文件 report: 这是一个目录，里边的data表示测试结果数据，里边的html表示测试报告，注意这两个目录都是每次执行测试时自动生成的 testcases: …

阅读更多...

【QT+QGIS跨平台编译】之二十二：【FontConfig+Qt跨平台编译】（一套代码、一套框架，跨平台编译）

【QT+QGIS跨平台编译】之二十二：【FontConfig+Qt跨平台编译】（一套代码、一套框架，跨平台编译）

文章目录一、FontConfig介绍二、文件下载三、文件分析四、pro文件五、编译实践一、FontConfig介绍 FontConfig 是一个用于配置和定制字体的库，广泛应用于基于X Window系统的操作系统中，尤其是在Linux和Unix-like系统中。它为应用程序提供了一种统一的…

阅读更多...

JavaWeb前端——HTML/CSS

JavaWeb前端——HTML/CSS

HTML/CSS概述 HTML：学习标签，CSS：学习样式 HTML 1. 不区分大小写。 2. 属性可以使用单引号/双引号 3. 在记事本/编辑器中编写html语言，通过浏览器解析渲染语言 4. 语法结构松散（编写时要尽量严谨） VSc…

阅读更多...

搭建 idea 插件仓库私服

搭建 idea 插件仓库私服

正常情况下，我们开发的 idea 插件会发布到 idea 官方商城中，这样用户就可以在 idea 的 Marketplace 中搜索安装。但是在企业内部，有可能我们开发了很多内部插件，而不能发布到公共市场中，这种情况下我们就需要搭建一个…

阅读更多...

探索微服务治理：从发展到实践构建高效稳定的系统｜负载均衡技术解析

探索微服务治理：从发展到实践构建高效稳定的系统｜负载均衡技术解析

二、微服务治理的相关技术微服务治理涉及多个方面，包括服务注册与发现、负载均衡、容错处理、服务配置管理等，这些技术共同确保微服务架构的稳定运行。 2、负载均衡负载均衡作为服务治理中的核心技术之一，对于提高系统的可用性、性能和扩…

阅读更多...

最新文章