RDD算子——转换操作（Transformations ）【map、flatMap、reduceByKey】

RDD算子——转换操作（Transformations ）【map、flatMap、reduceByKey】

news/2025/4/26 20:34:34/文章来源:https://blog.csdn.net/m0_56181660/article/details/135465909

一、map

map 算子
```
# spark-shell
sc.parallelize(Seq(1, 2, 3)).map( num => num * 10).collect()# IDEA
@Test
def mapTest(): Unit = {// 1. 创建RDDval rdd1 = sc.parallelize(Seq(1, 2, 3))// 2. 执行 map 操作val rdd2 = rdd1.map(item => item * 10)// 3. 得到结果val result:Array[Int] = rdd2.collect()result.foreach(item => println(item))// 关闭scsc.stop()
}
```
- 作用
  - 把 RDD 中的数据一对一的转换为另一种形式
- 调用
  - def map[U: ClassTag] (f: T ⇒ U) : RDD[U]
- 参数
  - f → map 算子是原 RDD → 新 RDD 的过程，这个函数的参数是原 RDD 的数据，返回值是经过函数转换的新 RDD 的数据
- 注意点
  - map 是一对一, 如果函数是 String → Array[String]则新的 RDD 中每条数据就是一个数组

二、flatMap

flatMap算子
```
# spark-shell
sc.parallelize(Seq("Hello lily", "Hello lucy", "Hello tim")).flatMap( line => line.split(" ")).collect()# IDEA
@Test
def flatMapTest(): Unit = {// 1. 创建RDDval rdd1 = sc.parallelize(Seq("Hello lily", "Hello lucy", "Hello tim"))// 2. 执行 flatMap 操作val rdd2 = rdd1.flatMap( line => line.split(" "))// 3. 得到结果val result:Array[String] = rdd2.collect()result.foreach(line => (println(line)))// 关闭scsc.stop()
}
```
- 作用
  - flatMap 算子和 map 算子类似, 但是 FlatMap 是一对多
- 调用
  - def flatMap[U: ClassTag](f: T ⇒ List[U]): RDD[U]
- 参数
  - f → 参数是原 RDD 数据, 返回值是经过函数转换的新 RDD 的数据, 需要注意的是返回值是一个集合, 集合中的数据会被展平后再放入新的 RDD
- 注意点
  - flatMap 其实是两个操作, 是 map + flatten, 也就是先转换, 后把转换而来的 List 展开
  - flatMap 也是转换，他可以把数组和集合展开，并且flatMap中的函数一般也是集合或者数组

三、reduceByKey

ReduceByKey算子
```
# spark-shell
sc.parallelize(Seq(("a",1), ("a", 1), ("b", 1))).reduceByKey( ( cur, agg) => cur + agg).collect()# IDEA
@Test
def reduceByKeyTest(): Unit = {// 1. 创建RDDval rdd1 = sc.parallelize(Seq("Hello lily", "Hello lucy", "Hello tim"))// 2. 处理数据val rdd2 = rdd1.flatMap( item => item.split(" ")).map(item => (item, 1)).reduceByKey( (cur, agg) => cur + agg)// 3. 得到结果val result:Array[(String, Int)] = rdd2.collect()result.foreach(item => (println(item)))// 4. 关闭scsc.stop()
}
```
- 作用
  - 首先按照 Key 分组, 接下来把整组的 Value 计算出一个聚合值, 这个操作非常类似于 MapReduce 中的 Reduce
- 调用
  - def reduceByKey(func: (V, V) ⇒ V): RDD[(K, V)]
- 参数
  - func → 执行数据处理的函数, 传入两个参数, 一个是当前值, 一个是局部汇总, 这个函数需要有一个输出, 输出就是这个 Key 的汇总结果
- 注意点
  - ReduceByKey 只能作用于 Key-Value 型数据, Key-Value 型数据在当前语境中特指 Tuple
  - ReduceByKey 是一个需要 Shuffled 的操作
  - 和其它的 Shuffled 相比, ReduceByKey是高效的, 因为类似 MapReduce 的, 在 Map 端有一个 Cominer, 这样 I/O 的数据便会减少
  - reduceByKey第一步是按照Key进行分组，然后对每一组进行聚合得到结果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/607318.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【基础工具篇使用】ADB 的安装和使用

【基础工具篇使用】ADB 的安装和使用

文章目录 ADB的命令安装ADB 命令使用查看帮助 ——adb help查看连接设备 ADB的命令安装 ADB 命令的全称为“Android Debug Bridge”，从英文中看出主要是用作安卓的调试工具。ADB 命令在嵌入式开发中越来越常用了在 Windows 上按“win”“R”组合件打开运行, 输入 …

阅读更多...

【Verilog】期末复习——设计有32个16位存储器的ROM

【Verilog】期末复习——设计有32个16位存储器的ROM

系列文章数值（整数，实数，字符串）与数据类型（wire、reg、mem、parameter） 运算符数据流建模行为级建模结构化建模组合电路的设计和时序电路的设计有限状态机的定义和分类期末复习——数字逻辑电路分…

阅读更多...

《微信小程序开发从入门到实战》学习七十六

《微信小程序开发从入门到实战》学习七十六

6.9 图片API 使用图片API可对用户手机中的图片进行一些操作。 6.9.1 保存图片API 使用wx.saveImageToPhotosAlbum可将图片文件保存到系统相册。调用该接口需要用户授权scope.writePhotosAlbum。示例代码如下： wx.saveImageToPhotosAlbum({ filePath: someImagePa…

阅读更多...

astadmin安装querylist插件Puppeteer

astadmin安装querylist插件Puppeteer

我本来是想在linux服务器上安装，折腾了一天也没安装成功，由于急着用，就先做window10上安装了，以后有时间再研究centos7上安装一首先需要安装fastadmin 框架和querylist插件这个大家可以自行安装，querylist安装地址…

阅读更多...

Spring Boot中加@Async和不加@Async有什么区别？设置核心线程数、设置最大线程数、设置队列容量是什么意思？

Spring Boot中加@Async和不加@Async有什么区别？设置核心线程数、设置最大线程数、设置队列容量是什么意思？

在 Spring 中，Async 注解用于将方法标记为异步执行的方法。当使用 Async 注解时，该方法将在单独的线程中执行，而不会阻塞当前线程。这使得方法可以在后台执行，而不会影响主线程的执行。在您提供的代码示例中，a1() 和…

阅读更多...

「 PyMuPDF专栏」PyMuPDF为PDF文件添加注释

「 PyMuPDF专栏」PyMuPDF为PDF文件添加注释

文章目录一、PyMuPDF的安装与基本使用1. 安装PyMuPDF库的方法2. 导入PyMuPDF库二、新建PDF文档1. 创建一个空白的PDF文档三、添加注释1. 导入库并打开PDF文件2. 选择要添加注释的页面3. 创建并添加注释3.1. 文本注释3.1.1. 完整代码3.1.2. 注释效果图3.2. 高亮注释3.2.1. 完整…

阅读更多...

LitJson-Json字符串转对像时:整型与字符串或字符串转:整型进的类型不一致的处理

LitJson-Json字符串转对像时:整型与字符串或字符串转:整型进的类型不一致的处理

目录问题描述上代码测试代码各位看官，打赏个1元吧 Json数据格式是大家在游戏开中常量用的一种数据格式，某种程度上可以说是必备的。对unity开发来说，LitJson这个json库应该是被使用最多的json库了。问题描述今天说要的其中的这个api: Jso…

阅读更多...

Arcgis像元统计数据

Arcgis像元统计数据

目录单幅影像统计多幅影像统计单幅影像统计现有一幅NDVI影像，如何知道影像中NDVI的分布情况呢？ 先栅格转点，然后在属性表中查看汇总情况还有一种方法就是在ENVI中打开， -0.3-0.338占据了99% 多幅影像统计现有多幅NDVI影…

阅读更多...

用css给宽高不固定的矩形画对角线

用css给宽高不固定的矩形画对角线

.kong{width: 200rpx;height: 76rpx;background: linear-gradient(to bottom right, #E5E5E5 0%, rgba(0, 0, 0, 0.1) calc(50% - 1px),#175CFF 50%, rgba(0, 0, 0, 0.1) calc(50% 1px),rgba(0, 0, 0, 0.1) 100%);}参考： https://blog.csdn.net/weixin_38779534/a…

阅读更多...

Qt实现简单的分割窗口

Qt实现简单的分割窗口

最近在学习一些关于Qt的新知识，今天来讲述下我学习到的窗口分割，如果有不正确的，大家可以指正哦~ 首先，先看一下实现之后的简单效果吧！省的说的天花乱坠，大家却不知道说的是哪个部分。功能实现整体demo…

阅读更多...

【算法与数据结构】70、LeetCode爬楼梯

【算法与数据结构】70、LeetCode爬楼梯

文章目录一、题目二、解法三、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、题目二、解法思路分析： 程序如下： 复杂度分析： 时间复杂度： O ( ) O() O()。空间复…

阅读更多...

第四站:C/C++基础-指针

第四站:C/C++基础-指针

目录为什么使用指针函数的值传递，无法通过调用函数，来修改函数的实参被调用函数需要提供更多的“返回值”给调用函数减少值传递时带来的额外开销，提高代码执行效率使用指针前: 使用指针后: 指针的定义: 指针的含义(进阶): 空指针…

阅读更多...

Android 正圆

Android 正圆

<?xml version"1.0" encoding"utf-8"?> <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"wrap_content"android:layout_height"wrap_content"android:padding&…

阅读更多...

x-cmd pkg | gh - GitHub 官方 CLI

x-cmd pkg | gh - GitHub 官方 CLI

目录简介首次用户功能特点与 x-cmd gh 模块的关系相关作品进一步探索简介 gh，是由 GitHub 官方使用 Go 语言开发和维护的命令行工具，旨在脚本或是命令行中便捷管理和操作 GitHub 的工作流程。注意: 由于 x-cmd 提供了同名模块，因此使用官…

阅读更多...

Java版商城：Spring Cloud+SpringBoot b2b2c实现多商家入驻直播带货及免费小程序商城搭建的完整指南

Java版商城：Spring Cloud+SpringBoot b2b2c实现多商家入驻直播带货及免费小程序商城搭建的完整指南

随着互联网的快速发展，越来越多的企业开始注重数字化转型，以提升自身的竞争力和运营效率。在这个背景下，鸿鹄云商SAAS云产品应运而生，为企业提供了一种简单、高效、安全的数字化解决方案。鸿鹄云商SAAS云产品是一种基于云计算的软…

阅读更多...

OpenFeign服务调用

OpenFeign服务调用

一、Feign Feign 是一个声明式webservice客户端,使用Feign 能让编写Web Service客户端更简单 ，它的使用方法是定义一个服务接口然后在上面添加注解。Spring Cloud对Feign 进行了封装，使其支持了Spring Mvc 标准注解和HttpMessageConverters ,Fegin可以…

阅读更多...

L1-008 求整数段和(Java)

L1-008 求整数段和(Java)

题目给定两个整数A和B，输出从A到B的所有整数以及这些数的和。输入格式： 输入在一行中给出2个整数A和B，其中−100≤A≤B≤100，其间以空格分隔。输出格式： 首先顺序输出从A到B的所有整数，每5个数字占一行…

阅读更多...

【Python】 python简介开发环境

【Python】 python简介开发环境

1. python简介 Python是由荷兰人吉多范罗苏姆 (Guido von Rossum，后面称呼为Guido,"龟叔“)发明的一种编程语言，是目前世界上最受欢迎和拥有最多用户群体的编程语言。 (1).Python的历史 1.1989年圣诞节:Guido开始写Python语言的编译器。 2.1991年…

阅读更多...

大创项目推荐深度学习图像风格迁移

大创项目推荐深度学习图像风格迁移

文章目录 0 前言1 VGG网络2 风格迁移3 内容损失4 风格损失5 主代码实现6 迁移模型实现7 效果展示8 最后 0 前言 🔥 优质竞赛项目系列，今天要分享的是 🚩 深度学习图像风格迁移 - opencv python 该项目较为新颖，适合作为竞赛课题…

阅读更多...

如何护理特发性震颤患者？

如何护理特发性震颤患者？

特发性震颤是一种神经系统疾病，主要表现为身体某些部位的持续性、不自主的震颤。对于特发性震颤患者的护理，需要从多个方面入手，提供全方位的支持和照顾。首先，心理支持是关键。特发性震颤患者可能会因为身体的震颤而感到焦虑、…

阅读更多...

最新文章