Spark-Core编程

sortByKey算子:对(K, V)型RDD按key排序,K需实现Ordered接口,可指定升序或降序及分区数。


join算子:连接两个(K, V)和(K, W)型RDD,返回(K, (V, W))型RDD 。


leftOuterJoin算子:类似SQL左外连接,返回(K, (V, Option[W]))型RDD。


cogroup算子:作用于(K, V)和(K, W)型RDD,返回(K, (Iterable[V], Iterable[W]))型RDD。

RDD行动算子:

RDD行动算子,其能触发实际的数据计算操作。1. reduce:用于聚合RDD中的所有元素,先在分区内聚合,再进行分区间聚合。

2. collect:以数组形式返回数据集的所有元素到驱动程序,函数签名 def collect(): Array[T] 

3. foreach:分布式遍历RDD中的每个元素并应用指定函数。

4. count:返回RDD中元素的数量,函数签名 def count(): Long 。

5. first:返回RDD中的首个元素,函数签名 def first(): T 。

6. take:返回由RDD前n个元素组成的数组,函数签名 def take(num: Int): Array[T] 。

7. takeOrdered:返回RDD排序后的前n个元素组成的数组,函数签名 def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T] 。

8. aggregate:先利用初始值聚合分区内数据,再聚合分区间数据。函数签名 def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U  

9. fold:是 aggregate 的简化版本,进行折叠操作。函数签名 def fold(zeroValue: T)(op: (T, T) => T): T 。

10. countByKey:统计RDD中每种key出现的次数,返回 Map[K, Long]  ,函数签名 def countByKey(): Map[K, Long] 。

11. save相关算子:包括 saveAsTextFile (保存为文本文件)、 saveAsObjectFile (保存为序列化对象文件)、 saveAsSequenceFile (了解即可) ,用于将RDD数据保存为不同格式文件。

 

 

 

 累加器:

实现原理:累加器用于将Executor端变量信息聚合到Driver端。Driver程序定义的变量在Executor端的每个Task都有副本,Task更新副本值后回传Driver端进行合并。

自定义累加器实现wordcount:创建继承 AccumulatorV2 的自定义累加器类 WordCountAccumulator ,重写相关方法实现单词计数逻辑,在Driver端注册并使用该累加器统计RDD中的单词数量。

广播变量

实现原理:广播变量用于高效分发较大的只读对象,向所有工作节点发送该对象,供一个或多个Spark操作使用,避免为每个任务重复发送。

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/76554.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阅读MySQL实战45讲第9天

目录 一、你的 SQL 语句为什么变“慢” 二、什么情况会引发数据库的 flush 过程? 三、分析上面四种场景对性能的影响 四、InnoDB 刷脏页的控制策略 五、原作者小结: 引言: 一条 SQL 语句,正常执行的时候特别快,但是有时…

cin,cin.get(),getchar(),getline(),cin.get line()异同点

文章目录 1.cin2.cin.get()3.getchar()4.cin.getline()5.getline() 1.cin (1)cin>>等价于cin.operator>>(),即调用成员函数operator>>()进行读取数据。 (2)当cin>>从缓冲区中读取数据时&…

VMware虚拟机Ubuntu磁盘扩容

VMware中操作: 选择要扩容的虚拟机,点击编辑虚拟机设置 打开后点击磁盘——>点击扩展(注意:如果想要扩容的话需要删除快照) 调整到你想要的容量 点击上图的扩展——>确定 然后我们进到虚拟机里面 首先&#…

卷积神经网络(CNN)可视化网站汇总

深度学习 文章目录 深度学习前言CNN ExplainerDeep Learning PlaygroundConvNetJSUnderstanding CNN with Interactive Visualizations3Blue1Brown Neural Networks YouTube PlaylistDistill.pubTensorFlow CNN Visualization (TensorBoard)NN-SVGOpenAI Microscope 前言 汇总…

实习技能记录【3】-----Git操作

1. Git是什么 Git 是一个分布式版本控制系统 (Distributed Version Control System, DVCS)。 它的核心目标是跟踪文件的变化,让你能够随时记录、回溯、协作和管理你的项目。 2. 介绍 2.1 Git 工作区、暂存区、本地仓库介绍 区域名称英文名说明相关命令工作区Wor…

蓝桥杯单片机刷题——按键设置当前采集距离为距离参数

设计要求 驱动超声波传感器,启动距离测量功能,并将其结果显示到数码管上。 按键“S5”定义为参数按键,按下S5按键,设备自动将当前采集的距离数据作为距离参数; 若测量的距离数据超过距离参数,指示灯L1点亮&#xff…

KV Cache大模型推理加速功能

KV Cache KV Cache是大模型标配的推理加速功能,也是推理过程中,显存资源巨大开销的元凶之一。在模型推理时,KV Cache在显存占用量可达30%以上。 目前大部分针对KV Cache的优化工作,主要集中在工程上。比如著名的VLLM&#xff0c…

Windows 图形显示驱动开发-WDDM 2.0功能_上下文监视

功能概述 上下文监视机制是GPU与CPU协同计算的核心同步技术,通过受监视围栏(Monitored Fence)实现跨硬件单元的高效协调。其核心目标是解决以下场景的同步需求: GPU引擎间同步:例如在多渲染管线中,后处理…

基于YOLOv8的机场跑道异物检测识别系统:提升航空安全的新一代解决方案(主页有源码)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​ ​​​​​​​​​ ​​ 1. 机场跑道异物检测领域概述 机场跑道异物(Foreign Object Debris, FOD)是指存在于机场跑道、滑行道等关…

网络协议学习

最近在适配ESP32的网络驱动,借此机会先学习一下网络通信协议。 以太网帧、IP包及TCP与UDP的报文格式一文读懂网络报问中的检验和(checksum)—— 原理举例代码 提问腾讯元宝提示词: TCP窗口是干什么的拥塞窗口是什么的

fit 转 gpx

新增 fit 转 gpx 功能 https://fittools.cc/home/fit2gpx

C++ I/O 性能优化指南

在高性能计算和大规模数据处理中,I/O 性能优化是提升系统整体效率的关键环节。C 作为一种高性能编程语言,提供了丰富的工具和机制来优化 I/O 操作。本文将详细介绍在 Linux 环境下,如何通过代码层面的优化、系统调用的选择以及多线程技术等手…

Python中内置的数据结构类型详析(内置数据容器)

目录 1. 元组(Tuple)​​2. 列表(List)​3. 字典(Dict)4. 集合(Set)​​5. 字符串(Str)6. 队列(Queue)与栈(Stack&#xf…

Socket多路复用网络编程应用总结

Socket多路复用网络编程应用总结 概述 • 传统I/O模型的局限性:传统阻塞式I/O模型每次仅在一个文件描述符(File Descriptor, FD)上执行I/O操作,导致程序需等待单个操作完成,无法高效处理多连接场景(如高并…

安卓开发提示Android Gradle plugin错误

The project is using an incompatible version (AGP 8.9.1) of the Android Gradle plugin. Latest supported version is AGP 8.8.0-alpha05 See Android Studio & AGP compatibility options. 改模块级 build.gradle(如果有独立配置):…

【C++初阶】--- vector容器功能模拟实现

1.什么是vector? 在 C 里,std::vector 是标准模板库(STL)提供的一个非常实用的容器类,它可以看作是动态数组 2.成员变量 iterator _start;:指向 vector 中第一个元素的指针。 iterator _finish;&#x…

分布式锁在秒杀场景中的Python实现与CAP权衡

目录 一、分布式锁的前世今生 二、秒杀系统的 “硬核” 挑战 三、Python 实现分布式锁的 “实战演练” Redis 实现:快准狠 ZooKeeper 实现:稳如老狗 数据库实现:老实本分 四、CAP 理论的 “三角恋” 五、性能优化的 “锦囊妙计” 锁粒度控制:粗细有道 超时机制:别…

企业级开发SpringBoost玩转Elasticsearch

案例 Spring Boot 提供了 spring-data-elasticsearch 模块,可以方便地集成 Elasticsearch。 下面我们将详细讲解如何在 Spring Boot 中使用 Elasticsearch 8,并提供示例代码。 1. 添加依赖: 首先,需要在 pom.xml 文件中添加 spring-data-e…

磐石云智能语音客服系统——技术革新引领服务新体验

在人工智能技术飞速发展的今天,企业对于智能化客户服务的需求日益增长。磐石云智能语音客服系统凭借其前沿技术架构与深度场景适配能力,正在重新定义人机交互的边界。本文将深入解析该系统如何通过技术创新实现服务效率与体验的双重突破。 一、意图识别…

OpenGL学习笔记(assimp封装、深度测试、模板测试)

目录 模型加载Assimp网格模型及导入 深度测试深度值精度深度缓冲的可视化深度冲突 模板测试物体轮廓 GitHub主页:https://github.com/sdpyy1 OpenGL学习仓库:https://github.com/sdpyy1/CppLearn/tree/main/OpenGLtree/main/OpenGL):https://github.com/sdpyy1/CppL…