Spark---RDD(双值类型转换算子)

文章目录

  • 1.RDD双值类型算子
      • 1.1 intersection
      • 1.2 union
      • 1.3 subtract
      • 1.4 zip

1.RDD双值类型算子

RDD双Value算子就是对两个RDD进行操作或行动,生成一个新的RDD。

1.1 intersection

对源 RDD 和参数 RDD 求交集后返回一个新的 RDD

函数定义:
def intersection(other: RDD[T]): RDD[T]

    //建立与Spark框架的连接val rdd = new SparkConf().setMaster("local[*]").setAppName("RDD") //配置文件val sparkRdd = new SparkContext(rdd) //读取配置文件val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))val data2: RDD[Int] = sparkRdd.makeRDD(List(3, 4, 5, 6))val dataRdd = data1.intersection(data2)dataRdd.collect().foreach(println)sparkRdd.stop(); //关闭连接

运行结果:
在这里插入图片描述

1.2 union

对源 RDD 和参数 RDD 求并集后返回一个新的 RDD

函数定义:
def union(other: RDD[T]): RDD[T]

   val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))val data2: RDD[Int] = sparkRdd.makeRDD(List(3, 4, 5, 6))val dataRdd = data1.union(data2)dataRdd.collect().foreach(println)

在这里插入图片描述

1.3 subtract

以一个 RDD 元素为主,去除两个 RDD 中重复元素,将其他元素保留下来。求差集

函数定义:
def subtract(other: RDD[T]): RDD[T]

    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))val data2: RDD[Int] = sparkRdd.makeRDD(List(3, 4, 5, 6))val dataRdd = data1.subtract(data2)dataRdd.collect().foreach(println)

在这里插入图片描述

1.4 zip

将两个 RDD 中的元素,以键值对的形式进行合并。其中,键值对中的 Key 为第 1 个 RDD中的元素,Value 为第 2 个 RDD 中的相同位置的元素。

函数定义:
def zip[U: ClassTag](other: RDD[U]): RDD[(T, U)]

    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))val data2: RDD[Int] = sparkRdd.makeRDD(List(5,6,7,8))val dataRdd = data1.zip(data2)dataRdd.collect().foreach(println)

在这里插入图片描述
注意:如果两个RDD类型不一样,则会报错

    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))val data2: RDD[Int] = sparkRdd.makeRDD(List("hello", "scala", "hello", "Java"))val dataRdd = data1.zip(data2)dataRdd.collect().foreach(println)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/608442.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解读 Sobit v2:铭文资产跨链更注重安全、易用性

铭文市场的发展正在从早期的“无序”进入到“有序”阶段,我们看到从 12 月份以来,比特币生态内的多个应用纷纷宣布获得融资。这表明,目前仍旧有大量的资金有意向铭文领域,同样铭文赛道新一轮浪潮或许正在酝酿。 另一方面&#xff…

【设计模式-01】Singleton单利模式

一、方式1(最常用,推荐使用) 单例实现方式一: 饿汉式 类加载到内存后,就实例化一个单例,JVM保证线程安全 简单实用,推荐使用。 唯一缺点: 不管用到与否,类装载时就完成加载。 /*** description: 单例实现方式一: 饿汉…

Java 求2个整数,3个整数 的 10等分比例值

10等份取整比 比如 1.5 : 4 : 4.5 会变成 1:4:5 ,当然小数后一位的四舍五入是向上还是向下去整,这个根据自己需要调整即可。 代码 : public static Integer getIntTenPerNum(Integer nu…

YOLOv8改进 | Neck篇 | 利用ASF-YOLO改进特征融合层(适用于分割和目标检测)

一、本文介绍 本文给大家带来的改进机制是ASF-YOLO(发布于2023.12月份的最新机制),其是特别设计用于细胞实例分割。这个模型通过结合空间和尺度特征,提高了在处理细胞图像时的准确性和速度。在实验中,ASF-YOLO在2018年数据科学竞赛数据集上取得了卓越的分割准确性和速度,…

Java项目:115SSM宿舍管理系统

博主主页:Java旅途 简介:分享计算机知识、学习路线、系统源码及教程 文末获取源码 一、项目介绍 宿舍管理系统基于SpringSpringMVCMybatis开发,系统主要功能如下: 学生管理班级管理宿舍管理卫生管理维修登记访客管理 二、技术框…

网络安全新形势下的动态防御体系研究(上)

文章目录 前言一、网络安全的趋势二、网络安全背景(一)整体形势对网络安全防护提出新挑战(二)发展对网络安全防护提出新目标 三、网络安全现状分析(一)国外网络安全现状分析(二)国内…

短视频实景直播源码+短视频矩阵+多平台分发技术搭建

建立一个短视频实景直播平台,需要以下几个关键组成部分: 短视频实景直播源码:需要开发或购买适用于短视频实景直播的源码。这个源码可以包括实时视频流的采集和传输、直播界面的展示、弹幕功能、礼物打赏等特色功能。可以使用常见的开发框架如…

【教程】代码混淆详解

【教程】代码混淆详解 本文将对代码混淆进行详细解释,并介绍ProGuard代码混淆器以及Ipa Guard工具的使用方法。首先,我们将了解代码混淆的概念和作用,然后深入讨论ProGuard混淆文件的参数设置以及代码混淆的方法。接着,我们将介绍…

解决spring-session-data-redis包redis的session失效时间设置失败问题

这个属于是本人问题,小脑萎缩了 我使用了 EnableRedisHttpSession 这个注解 经过查询这个注解是需要过期时间的 EnableRedisHttpSession(maxInactiveIntervalInSeconds 3600,redisNamespace "tl") 像这样 可以在参数中设置过期时间,只要你…

Java_Swing程序设计

swing组件允许编程人员在跨平台时指定统一的外观和风格。 Swing组件通常被称为轻量级组件, JFrame在程序中的语法格式: JFrame jfnew JFrame(title); Container containerjf.getContentPane(); jf:JFrame类的对象 container:Container类的对象。 J…

腾讯云优惠券怎么获取(腾讯云优惠券在哪领取)

随着云计算技术的快速发展,越来越多的企业开始选择使用云服务来降低成本、提高效率。腾讯云作为国内领先的云服务提供商之一,也提供了丰富的优惠券政策来吸引更多的用户。本文将介绍如何获取腾讯云的优惠券,以及如何使用这些优惠券来获得更好…

基于SpringBoot的康复中心管理系统 JAVA简易版

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 普通用户模块2.2 护工模块2.3 管理员模块 三、系统展示四、核心代码4.1 查询康复护理4.2 新增康复训练4.3 查询房间4.4 查询来访4.5 新增用药 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的康复中…

A借助AI工具提升电子邮件营销内容效果

随着互联网的普及和电子邮件的广泛应用,邮件营销已成为企业推广产品和服务的重要手段之一。为了提高邮件营销的效果,我们需要关注邮件内容的质量和吸引力。而百度文言一心等AI工具作为一款强大的在线写作工具,可以帮助我们提升邮件营销内容的…

MySql01:初识

1.mysql数据库2.配置环境变量3. 列的类型和属性,索引,注释3.1 类型3.2 属性3.3 主键(主键索引)3.4 注释 4.结构化查询语句分类:5.列类型--表列类型设置 1.mysql数据库 数据库: ​ 数据仓库,存储数据,以前我…

重置 Docker 中 Gitlab 的账号密码

1、首先进入Docker容器 docker exec -it gitlab bash 2、连接到 gitlab 的数据库 需要谨慎操作 gitlab-rails console -e production 等待加载完后会进入控制台 ------------------------------------------------------------------------------------------------------…

混淆技术概论

混淆技术概论 引言 在逆向工程领域,混淆技术是一种非常重要的技术手段,通过打破人们的思维惯性,使得逆向分析变得更加困难。本文将会介绍混淆技术的概念、分类及其应用,以及如何使用IPA Guard进行iOS IPA重签名。 混淆技术概述…

SCT82A30大幅解决控制芯片发热难题,超宽输入电压范围,里程碑级作品

如何解决控制芯片发热问题 在高压大电流降压应用中,很多工程师在产品设计中遇到的比较头疼的问题是,如何解决控制芯片自身发热的问题,特别是48V以上的输入电压。 发热问题产生的原因是:控制芯片Vcc由内部LDO从Vin取电&#xff0c…

计算机体系结构流水线学习记录

一、知识点汇总 1.理想情况下,流水线能够实现 n 倍的吞吐率加速比(n为流水线深度),但是流水线深度并非越大越好,因为流水线的深度会影响到性能和功耗之间的平衡。 2.RISC:Reduced Instruction Set Comput…

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!

文本嵌入是各项NLP任务的基础,用于将自然语言转换为向量表示。现有的大部分方法通常采用复杂的多阶段训练流程,先在大规模数据上训练,再在小规模标注数据上微调。此过程依赖于手动收集数据制作正负样本对,缺乏任务的多样性和语言多…

人逢三六九,运势低迷路难走

很多人都希望自己各方面的运势都能够朝着好的方向旺盛发展,我们的运势将会如何发展跟我们的出生时间是离不开关系的。我们的祖先为了后人着想,不犯他们犯过的错误,少走一些弯路,总结了多年来的生活经验,创造出了一句句…