11-pyspark的RDD的变换与动作算子总结

目录

    • 前言
    • 变换算子
    • 动作算子


前言

一般来说,RDD包括两个操作算子:

  • 变换(Transformations):变换算子的特点是懒执行,变换操作并不会立刻执行,而是需要等到有动作(Actions)操作的时候才会真正进行计算,并显示结果。变换算子主要有:map、flatMap、groupByKey和reduceByKey等。

  • 动作(Actions):动作算子的特点是会立刻执行,动作操作会对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统(如HDFS)中。动作算子主要有:collect、count、take、top和first等

默认情况下,在RDD上执行动作算子时,Spark会重新计算并刷新RDD,但借助RDD的持久化存储(cache和persist)方法可以将RDD缓存在内存当中,这样后续在RDD上执行动作算子时,Spark就不会重新计算和刷新RDD,从而显著提高计算速度。

官方文档:https://spark.apache.org/docs/latest/api/python/reference/pyspark.html

变换算子

操作调用形式参数说明作用示例
glomrdd.glom()将RDD中每一个分区中类型为T的元素转换成Array[T],这样每一个分区就只有一个数组元素在这里插入图片描述
coalescerdd.coalesce(numPartitions,[isShuffle=False])numPartitions:重新分区的分区数;isShuffle:是否在重新分区过程中进行混洗操作将RDD进行重新分区在这里插入图片描述
repartitionrdd.repartiton(numParttions)numPartitions:重新分区的分区数;coalesce()方法shuffle为true的情况在这里插入图片描述
combineByKeyrdd.combineByKey(createCombiner, mergeValue,mergeCombiners,[partitioner], [mapSideCombiner], [serializer])createCombiner 将 Value 进行初步转换;mergeValue 在每个分区把上一步转换的结果聚合;mergeCombiners 在所有分区上把每个分区的聚合结果聚合;partitioner 可选, 分区函数;mapSideCombiner 可选, 是否在 Map 端 Combine;serializer 序列化器对数据集按照Key进行聚合PySpark之Spark中的CombineByKey
distinctrdd.distinct()duid去重,即多个重复元素只保留一个
filterrdd.filter(func)func:过滤函数根据过滤函数func的逻辑含义对原RDD中的元素进行过滤,并返回一个新的RDD,其由满足过滤函数的True的元素构成在这里插入图片描述
flatMaprdd.flatMap(func)func:定义的函数名对RDD中每个元素按照func函数定义的处理逻辑进行操作,并将结果扁平化在这里插入图片描述
flatMapValuesrdd.flatMapValues(func)func:定义的函数对RDD元素格式为KV对中的V进行func定义的逻辑处理,Value中每一个元素被输入函数func映射为一系列的值,然后这些值再与原RDD中的Key组成一系列新的KV对,并将结果进行扁平化处理在这里插入图片描述
foldrdd.fold(value,func)value:设定的初始值对RDD每个元素按照func定义的逻辑进行处理。func包含两个参数a,b,其中a的初始值为value,后续代表累计值,b代表当前元素值。在这里插入图片描述spark的fold函数理解
foldByKeyrdd.foldByKey(value,func)value:设定的初始值此操作作用于元素为KV格式的RDD。它的作用是对RDD每个元素按照Key进行func定义的逻辑进行处理。func包含两个参数a,b,其中a的初始值为value,后续代表累计值,而b代表的是当前元素值。在这里插入图片描述
foreachrdd.foreach(func)对RDD每个元素按照func定义的逻辑进行处理。
foreachPartitionrdd.foreachPartition(func)对RDD每个分区中的元素按照func定义的逻辑进行处理
maprdd.map(func,preservesPartitioning=False)对RDD每个元素按照func定义的逻辑进行处理,它在统计单词个数等场景下经常使用在这里插入图片描述
mapPartitionsrdd.mapPartitions(func,preservesPartitioning=False)对RDD每个分区中的元素按照func定义的逻辑进行处理,并分别返回值在这里插入图片描述
mapValuesrdd.mapValues(func)对KV格式的RDD中的每个元素应用函数func,这个过程汇总不会更改键K,同时也保留了原始RDD的分区,即返回新的RDD在这里插入图片描述
groupByrdd.groupBy(func,numPartitions=None,partitionFunc=<function portable_hash><function portable_hash>)它接收一个函数func,这个函数返回的值作为Key,然后通过这个Key来对其中的元素进行分组,并返回一个新的RDD对象(返回的RDD中是KV格式的数据,其中V是一个迭代对象,因此需要遍历进行元素访问。)在这里插入图片描述
goupyByKeyrdd.groupByKey(numPartitions=None,partitionFunc=<function portable_hash><function portable_hash>)将RDD中每个键的值分组为单个序列,用numPartitions分区对生成的RDD进行哈希分区,并返回一个新的RDD对象在这里插入图片描述
keyByrdd.keyBy(func)在RDD上应用函数func,其中将原有RDD中的元素作为Key,该Key通过func函数返回的值作为Value创建一个元组,并返回一个新的RDD对象在这里插入图片描述
keysrdd.keys()获取KV格式的RDD中的Key序列,并返回一个新的RDD对象在这里插入图片描述
ziprdd.zip(oterRdd)将第一个RDD中的元素作为Key,第二个RDD对应的元素作为Value,组合成元素格式为元组的新RDD。这两个参与运算的RDD元素个数应该相同。在这里插入图片描述
zipWithIndexrdd.zipWithIndex()是将RDD中的元素作为Key, Key对应的元素索引作为Value,组合成元素格式为元组的新RDD在这里插入图片描述
valuesrdd.values()获取KV格式的RDD中的Value序列,并返回一个新的RDD对象
unionrdd.union(oterRDD)将第一个RDD中的元素与第二个RDD对应的元素进行合并,返回新RDD在这里插入图片描述
takeOrderedrdd.takeOrdered(num,key=None)num:获取的元素个数;key:排序依据从RDD中获取排序后的前num个元素构成的RDD,默认按照升序对元素进行排序,但也支持用可选函数进行指定在这里插入图片描述
takeSamplerdd.takeSample(withReplacement,num,seed=None)withReplacement:布尔值,代表元素是否可以多次抽样;num:代表抽样的样本数量;seed:代表随机数生成器的种子从RDD中抽样出固定大小的子数据集合,返回新的RDD在这里插入图片描述
subtrackrdd.subtract(otherRDD,numPartitions=None)numPartitons:可选,用于指定产生的差集RDD的分区数从RDD中排除掉otherRDD中的元素,并返回一个新的RDD在这里插入图片描述
subtractByKeyrdd.subtractByKey(otherRDD,numPartitions=None)numPartitons:可选,用于指定产生的差集RDD的分区数从元素为KV格式的RDD中排除掉otherRDD中的元素,只要两个RDD的元素Key一致,则排除,并返回一个新RDD在这里插入图片描述
sortByrdd.sortBy(keyfunc,ascending=True,numPartitions=None)根据函数keyfunc来对RDD对象元素进行排序,并返回一个新的RDD在这里插入图片描述
sortByKeyrdd.sortByKey(ascending=True, numPartitions=None, keyfunc=<function RDD.<lambda><lambda>>)keyfunc:可选,不提供则按照RDD中元素的key进行排序针对元素格式为KV的RDD,根据函数keyfunc来对RDD对象元素进行排序,并返回一个新的RDD在这里插入图片描述
samplerdd.sample(withReplacement,fraction,seed=None)withReplacement:布尔值,用于表示在采样过程中是否可以对同一个元素进行多次采样;fraction:数值,在[0,1]之间,指定抽样的比例;seed:随机数生成器的种子对数据按照指定的比例进行抽样(并不精确,例如100个元素的0.2不一定就是20个,可能存在偏差。)在这里插入图片描述
reducerdd.reduce(func)以按照函数func的逻辑对RDD中的元素进行运算,以减少元素个数(不能在空RDD上操作,会报ValueError错误)在这里插入图片描述
reduceByKeyrdd.reduceByKey(func,numPartitions=None,partitionFunc=<function partable_hash>)按照函数func的逻辑对元素格式为KV的RDD中的数据进行运算,以减少元素个数在这里插入图片描述
randomSplitrdd.randomSplit(weights,seed=None)weights:随机分割的权重按照权重weights对RDD进行随机分割,并返回多个RDD构成的列表在这里插入图片描述
lookuprdd.lookup(key)key:指定的查找键值根据key值从RDD中查找到相关的元素,返回RDD中键值的值列表在这里插入图片描述
joinrdd.join(otherRDD,numPartitions=None)返回一个RDD,其中包含自身和otherRDD匹配键的所有成对元素。每对元素将以(k,(v1,v2))元组返回,其中(k,v1)在自身中,而(k,v2)在另一个otherRDD中在这里插入图片描述
intersectionrdd.intersection(otherRDD)返回一个此RDD和另一个otherRDD的交集,在这个过程中,会进行去重操作在这里插入图片描述
fullOuterJoinrdd.fullOuterJoin(otherRDD,numPartitions=None)对于RDD自身中的每个元素(k,v),如果另外一个otherRDD匹配到k,那么生成的RDD元素格式为(k,(v,w));如果另外一个otherRDD匹配不到k,则生成的RDD元素格式为(k,(v,None))。同样地,在otherRDD匹配到k的值,但是在RDD自身没有匹配到值w,则返回None,即生成的RDD元素格式为(k,(None,w))。在这里插入图片描述
leftOuterJoinrdd.leftOuterJoin(otherRDD,numPartitions=None)返回此RDD和另一个otherRDD的左外部连接(left outer join)。对于RDD自身中的每个元素(k,v),如果另外一个otherRDD匹配到k,那么生成的RDD元素格式为(k,(v,w)),如果另外一个otherRDD匹配不到k,则生成的RDD元素格式为(k,(v,None))。在这里插入图片描述
rightOuterJoinrdd.rightOuterJoin(otherRDD,numPartitions=None)返回此RDD和另一个otherRDD的右外部连接(left outer join)。
aggregateByKeyrdd.aggregateByKey(zeroValue,seqFunc,combFunc,numPartitions=None,partitionFunc=<function partable_hash>)zeroValue代表每次按Key分组之后的每个组的初始值。seqFunc函数用来对每个分区内的数据按照key分别进行逻辑计算。combFunc对经过seqFunc处理过的数据按照key分别进行逻辑计算。在这里插入图片描述
cartesianrdd.cartesian(oterRDD)返回自身元素和另外一个otherRDD中元素的笛卡尔积在这里插入图片描述

动作算子

操作调用形式参数说明作用示例
firstrdd.first()获取到RDD中的一个元素在这里插入图片描述
maxrdd.max()获取到RDD中最大的一个元素在这里插入图片描述
minrdd.min()获取到RDD中最小的一个元素
sumrdd.sum()获取到RDD中元素的和在这里插入图片描述
takerdd.take(n)n:代表获取的元素个数获取到RDD中指定的前n个元素在这里插入图片描述
toprdd.top(n)n:代表获取的元素个数获取到RDD中排序后的前n个元素在这里插入图片描述
countrdd.count()获取到RDD中元素的个数在这里插入图片描述
collectrdd.collect()将RDD类型的数据转化为数组,同时会从集群中拉取数据到driver端在这里插入图片描述
collectAsMaprdd.collectAsMap()与collect操作类似,但适用于键值RDD并将它们转换为Map映射以保留其键值结构在这里插入图片描述
countByKeyrdd.countByKey()统计RDD[K,V]中每个K的数量,字典形式返回各键的统计数量情况在这里插入图片描述
countByValuerdd.countByValue()统计RDD中各个Value出现的次数,并返回一个字典。字典的K为元素的值,而V是出现的次数在这里插入图片描述
statsrdd.stats()给出RDD数据的统计信息,包括计数、均值、方差、最大值和最小值,返回的是一个StatCounter对象在这里插入图片描述
aggregaterdd.aggregate(zeroValue,seqOp,combOp)zeroValue:初始值,形式是(x,y);seqOp函数:是对每个分区上的数据信息操作;combOp函数对每个分区的计算结果再进行合并操作使用给定的seqOp函数和给定的零值zeroValue来聚合每个分区上的元素,然后再用combOp函数和给定的零值zeroValue汇总所有分区的结果。在这里插入图片描述
cacherdd.cache()在RDD对象上进行缓存操作,后续的RDD操作会直接从内存中加载数据进行计算。使用默认存储级别(MEMORY_ONLY)保留该RDD,防止多次进行创建,从而提高效率。在这里插入图片描述
persistrdd.persist(storageLevel)storageLevel:指定缓存的存储级别在RDD对象上按照指定的存储级别进行缓存操作
saveAsTextFilerdd.saveAsTextFile(path,compressionCodecClass=None)path:代码保存的文件路径;compressionCodecClass:用于压缩,默认为“org.apache.hadoop.io.compress.GzipCodec”保存RDD对象为一个文件,其中元素以字符串的形式体现。在这里插入图片描述

参考文档:

  • https://spark.apache.org/docs/latest/api/python/reference/pyspark.html
  • 《Python大数据处理库PySpark实战》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/796053.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java(7)之跳转语句

1、break跳转语句 说到break其实也不是跳转&#xff0c;它更像是一个终结语句&#xff0c;常用于在循环语句需要停止出现例如 while&#xff08;&#xff09;{ if&#xff08;&#xff09;{ break&#xff1b; }} 这样的形式或者 switch&#xff08;&#xff09;{ case…

蓝桥 python笔记14——KMP、字符串哈希、最长回文子串、字典树

目录 KMP 字符串哈希 最长回文子串 字典树 KMP 模式匹配问题&#xff1a; KMP算法&#xff1a; 用动规的思想求Next数组&#xff1a;如果后缀的i位置前缀的j位置&#xff0c;Next[i1]j1&#xff1b;如果后缀的i位置!前缀的j位置&#xff0c;那就用KMP算法&#xff0c;令jNe…

OpenCV图像处理——基于背景减除实现多目标追踪

1. 基本运动检测 基本运动检测方法的核心在于计算视频帧之间的差异&#xff0c;或者是将某一帧设定为“背景”&#xff0c;然后将其与后续的帧进行比较。这个过程在概念上非常简单&#xff1a;首先保存视频的第一帧作为背景参考&#xff0c;随后将这一帧与新接收到的帧进行逐像…

肖恩带你学C语言·文件操作(上)

1. 为什么使用文件 如果没有文件&#xff0c;我们写的程序的数据是存储在电脑的内存中&#xff0c;如果程序退出&#xff0c;内存回收&#xff0c;数据就丢失了&#xff0c;等再次运行程序&#xff0c;是看不到上次程序的数据的&#xff0c;如果要将数据进行持久化的保存&…

【攻防世界】FlatScience

dirsearch 扫描发现四个文件 在login.php 中发现 输入 http://61.147.171.105:61912/login.php/?debug 发现源码 <?php if(isset($_POST[usr]) && isset($_POST[pw])){$user $_POST[usr];$pass $_POST[pw];$db new SQLite3(../fancy.db);$res $db->query(…

Android 360度全景图功能

方法一&#xff1a;OpenGL ES 1.在build.gradle文件中添加依赖 allprojects {repositories {maven { url https://jitpack.io }} } 高版本AS中settings.gradle.kts&#xff1a; dependencyResolutionManagement {repositoriesMode.set(RepositoriesMode.FAIL_ON_PROJECT_RE…

蜂窝物联:智慧大田解决方案

蜂窝物联智慧大田解决方案集成了传感器、自动化控制、农情监测、物联网、无线通讯等技术&#xff0c;对与农作物生长及其物候期观测密切相关的土壤、空气、光照、热量等环境因子进行实时监测&#xff0c;智能预警&#xff1b;对田间灌溉电磁阀、水肥一体机进行远程智能自动化控…

9-浏览器必备插件

9-浏览器必备插件 1.Flash Copilot 浏览器超级助手 解决收藏夹 以及使用的办法 2.fehelper 本身还集成插件&#xff0c;满足开发使用 3.SuperCopy 超级复制 SuperCopy 超级复制 一键破解禁止右键、破解禁止选择、破解禁止复制、破解禁止粘贴&#xff0c;启用复制&#xff0c;…

SpringBoot | Spring Boot“整合Redis“

目录: 1. Redis 介绍2. Redis 下载安装3. Redis “服务开启”和“连接配置”4. Spring Boot整合Redis的“前期准备” :① 编写实体类② 编写Repository 接口③ 在“全局配置文件”中添加 “Redis数据库” 的 “相关配置信息” 5. Spring Boot整合“Redis” (案例展示) 作者简介…

Linux网卡与公网IP地址:一个不可随意配置的世界

在Linux系统的网络配置中&#xff0c;IP地址的配置是基础也是关键。许多人可能好奇&#xff1a;为何不能随意为Linux网卡配置公网IP地址&#xff0c;而私网IP地址似乎就可以随心所欲呢&#xff1f;本文将解开这些问题的答案&#xff0c;探索公网IP地址被严格管控的原因&#xf…

【UnityRPG游戏制作】Unity_RPG项目之界面面板分离和搭建

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;Uni…

深度学习500问——Chapter05: 卷积神经网络(CNN)(4)

文章目录 5.18 卷积神经网络凸显共性的方法 5.18.1 局部连接 5.18.2 权值共享 5.18.3 池化操作 5.19 全连接、局部连接、全卷积与局部卷积 5.20 局部卷积的应用 5.21 NetVLAD池化 参考文献 5.18 卷积神经网络凸显共性的方法 5.18.1 局部连接 我们首先了解一个概念&#xff0c…

vue 打包 插槽 inject reactive draggable 动画 foreach pinia状态管理

在Vue项目中&#xff0c;当涉及到打包、插槽&#xff08;Slots&#xff09;、inject/reactive、draggable、transition、foreach以及pinia时&#xff0c;这些都是Vue框架的不同特性和库&#xff0c;它们各自在Vue应用中有不同的用途。下面我将逐一解释这些概念&#xff0c;并说…

8、滑动窗口-无重复字符的最长子串

解析&#xff1a; 遍历 判断map是否包含当前字符&#xff0c;如果包含&#xff1a; 获取重复的index下标在哪里获取len长度重新设置L指针,其中L指针不回退&#xff0c;也就是如果这个重复值在L前面那就忽略&#xff0c;如果是在后面那就设置为index1。 代码如下&#xff1a; …

二叉树算法练习day.2

102.二叉树的层序遍历 链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 题目描述&#xff1a; 给你二叉树的根节点 root &#xff0c;返回其节点值的 层序遍历 。 &#xff08;即逐层地&#xff0c;从左到右访问所有节点&#xff09;。 示例 1&#xff1a; 输入&a…

小米手机澎湃OS,不Root查看电池健康

首先&#xff0c;在键盘拨号界面&#xff0c;输入*#*#284#*#*&#xff0c;会调用问题反馈APP来生成当前系统的故障日志&#xff0c;如果提示你需要授权什么就点确认 稍等几分钟&#xff0c;会得到一个压缩包&#xff0c;保存在目录MIUI/debug_log下 这里为了方便&#xff0c;我…

Shell编程初识

Shell初识 ShellShell 脚本Shell 环境第一个shell脚本实例 运行 Shell 脚本方法&#xff1a;1、作为可执行程序2、作为解释器参数3.使用 . (空格)脚本名称来执行4.使用 source 来执行(主要用于生效配置文件)区别1.关于执行权限2.关于是否开启子shell线程 脚本排错及问题判断she…

LLM推理参数(top_k,top_p, temperature, num_beams)

正常LLM做 next token predicate 时&#xff0c;对输出的 logits 做 softmax&#xff0c;选择概率最大的token。 num_beams &#xff1a;当我们设置 num_beams2 后&#xff0c;就使用了 beam search 的方法&#xff0c;每次不是只直接选择概率最大的 token&#xff0c;而是保留…

三子棋游戏----C语言版【超级详细 + 视频演示 + 完整源码】

㊙️小明博客主页&#xff1a;➡️ 敲键盘的小明 ㊙️ ✅关注小明了解更多知识☝️ 文章目录 前言一、三子棋的实现思路二、三子棋的实现步骤2.1 先显示游戏的菜单2.2 游戏的具体实现2.2.1 棋盘的初始化2.2.2 展示棋盘2.2.3 下棋&#x1f534;玩家下棋&#x1f534;电脑下棋2.2…

申请SSL证书

有很多方法可以确保您的网站安全。添加SSL证书可针对恶意攻击提供额外且关键的保护层。 即使网站不接受交易&#xff0c;您仍然需要保护用户的登录详细信息、地址和其他个人信息。 没有SSL证书的网站使用HTTP&#xff08;一种基于文本的协议&#xff09;&#xff0c;这意味着…