Spark RDD中常用聚合算子源码层面的对比分析

在 Spark RDD 中,groupByKeyreduceByKeyfoldByKeyaggregateByKey 是常用的聚合算子,适用于按键进行数据分组和聚合。它们的实现方式各不相同,涉及底层调用的函数也有区别。以下是对这些算子在源码层面的分析,以及每个算子适用的场景和代码示例。


1. groupByKey

  • 功能:将相同键的值分组,形成一个 (key, Iterable<values>) 的 RDD。

  • 源码分析
    groupByKey 底层使用了 combineByKeyWithClassTag 方法进行数据分组。

    def groupByKey(): RDD[(K, Iterable[V])] = {combineByKeyWithClassTag((v: V) => mutable.ArrayBuffer(v),(c: mutable.ArrayBuffer[V], v: V) => { c += v; c },(c1: mutable.ArrayBuffer[V], c2: mutable.ArrayBuffer[V]) => { c1 ++= c2; c1 }).asInstanceOf[RDD[(K, Iterable[V])]]
    }
    
    • 适用场景:适合需要按键分组、无聚合的场景,但由于需要把所有键的值都传输到驱动端,数据量大时可能导致内存问题。
  • 示例

    rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
    result = rdd.groupByKey().mapValues(list)
    print(result.collect())
    

    输出[('a', [1, 3]), ('b', [2])]


2. reduceByKey

  • 功能:基于给定的二元函数(如加法)对每个键的值进行聚合。

  • 源码分析
    reduceByKey 底层也是基于 combineByKeyWithClassTag 方法进行处理,但与 groupByKey 不同的是,它在每个分区内执行局部聚合,再进行全局聚合,减少了数据传输。

    def reduceByKey(func: (V, V) => V): RDD[(K, V)] = {combineByKeyWithClassTag[V]((v: V) => v, func, func)
    }
    
    • 适用场景:适用于需要对数据进行聚合计算的场景,能够有效减少 shuffle 数据量。
  • 示例

    rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
    result = rdd.reduceByKey(lambda x, y: x + y)
    print(result.collect())
    

    输出[('a', 4), ('b', 2)]


3. foldByKey

  • 功能:与 reduceByKey 类似,但提供了初始值,分区内和分区间合并时都使用这个初始值。

  • 源码分析
    foldByKey 的实现中调用了 aggregateByKey 方法,初始值会在每个分区中传递,确保聚合逻辑一致。

    def foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)] = {aggregateByKey(zeroValue)(func, func)
    }
    
    • 适用场景:当聚合操作需要一个初始值时使用,如从初始值开始累积计算。
  • 示例

    rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
    result = rdd.foldByKey(0, lambda x, y: x + y)
    print(result.collect())
    

    输出[('a', 4), ('b', 2)]


4. aggregateByKey

  • 功能:支持更复杂的聚合操作,提供了分区内和分区间不同的聚合函数。

  • 源码分析
    aggregateByKey 是最通用的聚合算子,调用了 combineByKeyWithClassTag 方法来控制分区内和分区间的计算方式。

    def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)] = {// Implementation detail here
    }
    
    • 适用场景:适合复杂的聚合逻辑需求,例如在分区内和分区间使用不同的函数。
  • 示例

    rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
    result = rdd.aggregateByKey(0,lambda x, y: x + y,   # 分区内加和lambda x, y: x + y)   # 分区间加和
    print(result.collect())
    

    输出[('a', 4), ('b', 2)]


区别总结

  • groupByKey:按键分组返回集合,适合分组场景,但内存消耗大。
  • reduceByKey:按键聚合,没有初始值,适用于聚合计算。
  • foldByKey:按键聚合,支持初始值,适合自定义累加计算。
  • aggregateByKey:最灵活的聚合算子,适合复杂逻辑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60762.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

内网渗透-搭建域环境

声明 笔记的只是方便各位师傅学习知识&#xff0c;以下网站只涉及学习内容&#xff0c;其他的都与本人无关&#xff0c;切莫逾越法律红线&#xff0c;否则后果自负。 ✍&#x1f3fb;作者简介&#xff1a;致力于网络安全领域&#xff0c;目前作为一名学习者&#xff0c;很荣幸成…

【Qt】使用QString的toLocal8Bit()导致的问题

问题 使用Qt发送一个Http post请求的时候&#xff0c;服务一直返回错误和失败信息。同样的url以及post参数&#xff0c;复制黏贴到postman里就可以发送成功。就感觉很神奇。 原因 最后排查出原因是因为参数中含有汉字而导致的编码问题。 在拼接post参数时&#xff0c;使用了…

H.265流媒体播放器EasyPlayer.js H.264/H.265播放器chrome无法访问更私有的地址是什么原因

EasyPlayer.js H5播放器&#xff0c;是一款能够同时支持HTTP、HTTP-FLV、HLS&#xff08;m3u8&#xff09;、WS、WEBRTC、FMP4视频直播与视频点播等多种协议&#xff0c;支持H.264、H.265、AAC、G711A、MP3等多种音视频编码格式&#xff0c;支持MSE、WASM、WebCodec等多种解码方…

【HarmonyOS】Hdc server port XXXX has been used.Configure environment variable

【HarmonyOS】Hdc server port XXXX has been used.Configure environment variable 一、 问题背景&#xff1a; 无法调试debug应用&#xff0c;IDE右下角显示该弹窗&#xff1a; Hdc server port XXXX has been used.Configure environment variable ‘OHOS_HDC_SERVER_POR…

AdaBoost 二分类问题

代码功能 生成数据集&#xff1a; 使用 make_classification 创建一个模拟分类问题的数据集。 数据集包含 10 个特征&#xff0c;其中 5 个是有用特征&#xff0c;2 个是冗余特征。 数据集划分&#xff1a; 将数据分为训练集&#xff08;70%&#xff09;和测试集&#xff08;3…

初识Linux · 信号保存

目录 前言&#xff1a; Block pending handler表 信号保存 前言&#xff1a; 前文我们已经介绍了信号产生&#xff0c;在时间的学习线上&#xff0c;信号的学习分为预备知识&#xff0c;信号产生&#xff0c;信号保存&#xff0c;信号处理&#xff0c;本文我们学习信号保存…

01 最舒适的python开发环境

0 前言 我自己经过尝试&#xff0c;总结出python3开发环境的最舒适方式。 python3安装创建虚拟环境 venvjupyter notebook 笔记本安装vscode插件(Python, Pylance, Jupyter) 1 python3安装 ubuntu系统下安装最新版本的python3 sudo apt update sudo apt install python32 …

vue3:computed

vue3:computed 扫码或者点击文字后台提问 computed 支持选项式写法 和 函数式写法 1.选项式写法 支持一个对象传入get函数以及set函数自定义操作 2.函数式写法 只能支持一个getter函数不允许修改值的 基础示例 <template><div><div>姓&#xff1a;<i…

【弱监督视频异常检测】2024-ESWA-基于扩散的弱监督视频异常检测常态预训练

2024-ESWA-Diffusion-based normality pre-training for weakly supervised video anomaly detection 基于扩散的弱监督视频异常检测常态预训练摘要1. 引言2. 相关工作3. 方法论3.1. 使用扩散自动编码器进行常态学习3.2. 全局-局部特征编码器3.2.1 局部块3.2.2 全局块3.2.3 协同…

124. 二叉树中的最大路径和【 力扣(LeetCode) 】

文章目录 零、原题链接一、题目描述二、测试用例三、解题思路四、参考代码 零、原题链接 124. 二叉树中的最大路径和 一、题目描述 二叉树中的 路径 被定义为一条节点序列&#xff0c;序列中每对相邻节点之间都存在一条边。同一个节点在一条路径序列中 至多出现一次 。该路径…

跳房子(弱化版)

题目描述 跳房子&#xff0c;也叫跳飞机&#xff0c;是一种世界性的儿童游戏&#xff0c;也是中国民间传统的体育游戏之一。 跳房子的游戏规则如下&#xff1a; 在地面上确定一个起点&#xff0c;然后在起点右侧画 n 个格子&#xff0c;这些格子都在同一条直线上。每个格子内…

qt移植到讯为rk3568,包含一些错误总结

qt移植到arm报错动态库找不到 error while loading shared libraries: libAlterManager.so.1: cannot open shared object file: No such file or directory 通过设置环境变量 LD_LIBRARY_PATH就行了。 LD_LIBRARY_PATH是一个用于指定动态链接器在运行时搜索共享库的路径的环…

【开发基础】语义化版本控制

语义化版本控制 基础三级结构主版本号次版本号修正版本号 思维导图在node包管理中的特殊规则 参考文件 基础 语义化版本控制是一套通用的包/库的版本管理规范。在各类语言的包管理中都有用到&#xff0c;一般以x.x.x的形式出现在包的命名中。 三级结构 在语义化版本控制中&a…

前端导出excel表格功能

缘由 大家好&#xff0c; 最近公司在做一个类似医疗的项目&#xff0c;由于前端的开发人员有些许变故&#xff0c;而且公司暂时没有找到合适的前端开发人员。所以&#xff0c;前端开发的任务也落在了我们后端的身上。没办法&#xff0c;时间紧任务重&#xff0c;只能硬着头皮上…

Dubbo 3.x源码(25)—Dubbo服务引用源码(8)notify订阅服务通知更新

基于Dubbo 3.1&#xff0c;详细介绍了Dubbo服务的发布与引用的源码。 此前我们学习了接口级的服务引入订阅的refreshInterfaceInvoker方法&#xff0c;当时还有最为关键的notify服务通知更新的部分源码没有学习&#xff0c;本次我们来学习notify通知本地服务更新的源码。 Dubb…

使用 Ansys Mechanical 中的“螺栓工具”插件导出螺栓反作用力

概括&#xff1a; 对于处理复杂组件和结构的工程师和分析师来说&#xff0c;提高在 Ansys Mechanical 中提取多个螺栓反作用力表格的效率至关重要。在有限元分析 (FEA) 中&#xff0c;准确确定螺栓上的反作用力对于评估机械连接的完整性和性能至关重要。但是&#xff0c;手动提…

Docker部署Kafka SASL_SSL认证,并集成到Spring Boot

1&#xff0c;创建证书和密钥 需要openssl环境&#xff0c;如果是Window下&#xff0c;下载openssl Win32/Win64 OpenSSL Installer for Windows - Shining Light Productions 还需要keytool环境&#xff0c;此环境是在jdk环境下 本案例所使用的账号密码均为&#xff1a; ka…

机器学习(基础2)

特征工程 特征工程:就是对特征进行相关的处理 一般使用pandas来进行数据清洗和数据处理、使用sklearn来进行特征工程 特征工程是将任意数据(如文本或图像)转换为可用于机器学习的数字特征,比如:字典特征提取(特征离散化)、文本特征提取、图像特征提取。 特征工程API 实例化…

CSS Module:告别类名冲突,拥抱模块化样式(5)

CSS Module 是一种解决 CSS 类名冲突的全新思路。它通过构建工具&#xff08;如 webpack&#xff09;将 CSS 样式切分为更加精细的模块&#xff0c;并在编译时将类名转换为唯一的标识符&#xff0c;从而避免类名冲突。本文将详细介绍 CSS Module 的实现原理和使用方法。 1. 思…

webpack案例----pdd(anti-content)

本文章中所有内容仅供学习交流&#xff0c;相关链接做了脱敏处理&#xff0c;若有侵权&#xff0c;请联系我立即删除&#xff01; 目标网址&#xff1a;aHR0cHM6Ly9waW5kdW9kdW8uY29tL2hvbWUvM2M 加密参数&#xff1a;anti_content 载荷里面的rn是不变的 发现加密是anti-con…