spark广播变量

广播变量应用场景

由于spark的应用场景通常是分布式场景,在本地集合和分布式集合关联,且本地集合不太大的场景,rdd的处理是在不同的executor中不同的分区处理的,我们定义的全局变量通常是在driver中的,在executor中并没有,因此spark通过广播变量这种形式,可以把开发者定义的广播变量通过网络传输的方式,传第到每个executor中每个线程处理的分区中,同时,由于同一个executor中可能处理不止一个分区,为了节省内存,只会传输给其中一个线程,其他线程想要访问时,会先去找除自身外的线程是否已经存在广播变量,有则不再传输。
广播变量的使用很简单,将本地集合标识为广播变量即可,下面我们来看一个案例:

#使用方式:
#1.将本地ist标记成广播变量即可
broadcast = sc.broadcast(stu_info_list)
#2.使用广播变量,从broadcast对象中取出本地list对象即可
value broadcast.value
# 也就是先放进去broadcast内部,然后从broadcast内部在取出来用,中间传输的是broadcast:这个对象了
#只要中间传输的是broadcast对象sparki就会留意,只会给每个Executor发一份了,而不是傻傻的哪个分区要都给.
coding:utf8
import ...
if __name__ == '__main__':conf = SparkConf).setAppName("test").setMaster("local[*]")sc = SparkContext(conf=conf)stu_info_list = [(1,'张大仙'11)(2,'王晓晓'13)(3,'张甜甜'11)(4,'王大力'11)]#1.将本地Python List对象标记为广播变量,不标记实际上每个分区也拿的到但会有内存浪费broadcast = sc.broadcast(stu_info_list)score_info_rdd = sc.parallelize([(1,'语文'99)(2,'数学'99)(3,'英语'99)(4,'编程'99)(1,'语文'99)(2,'编程'99)(3,'语文'99)(4,'英语'99)(1,'语文'99)(3,'英语'99)(2,'编程'99)])def map_func(data):id = data[e]name = ""#匹配本地list和分布式rdd中的学生ID匹配成功后即可获得当前学生的姓名for stu_info in stu_info_list:stu_id = stu_info[0]if id == stu_id:name stu_info[1]return (name,data[1],data[2])print(score_info_rdd.map(map_func).collect())

此外,实际上所有广播变量的方式,都可以用两个rdd之间的join操作来实现同样的结构,如上面将stu_info_list也定义成rdd,但这样会造成数据的一个shuffle,如下,通过id匹配的话会发生多次网络传输,因此我们在本地数据集比较小的时候,可以通过广播变量进行优化,但数据集大时,还是需要分布式操作来加速
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/770721.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

centos 虚拟机 增加硬盘 虚拟机centos磁盘扩容

2 在centos 7 系统中挂载磁盘 2.1 查看磁盘信息 进入centos 7系统中,输入“# df -h”命令,查看磁盘信息。 这里没有写显示新增的磁盘信息。 2.2 对新加的磁盘进行分区操作 2.2.1 查看磁盘容量和分区 2.2.2 创建分区 a. 选择新增的磁盘(这…

学点儿Java_Day10_集合框架(List、Set、HashMap)

1 简介 ArrayList: 有序(放进去顺序和拿出来顺序一致),可重复 HashSet: 无序(放进去顺序和拿出来顺序不一定一致),不可重复 Testpublic void test1() {String[] array new String[3];//List: 有序 可重复//有序: 放入顺序 与 拿出顺序一致,…

为何ChatGPT日耗电超50万度?

看新闻说,ChatGPT每天的耗电量是50万度,国内每个家庭日均的耗电量不到10度,ChatGPT耗电相当于国内5万个家庭用量。 网上流传,英伟达创始人黄仁勋说:“AI的尽头是光伏和储能”,大佬的眼光就是毒辣&#xff…

Luminar Neo:重塑图像编辑新纪元,Mac与Win双平台畅享创意之旅

在数字时代的浪潮中,图像编辑软件已成为摄影师和设计师们不可或缺的创作工具。Luminar Neo,作为一款专为Mac与Windows双平台打造的图像编辑软件,正以其卓越的性能和创新的编辑功能,引领着图像编辑的新潮流。 Luminar Neo不仅继承…

【日常linux操作命令】

文章目录 1、查看服务器信息1.1、查看内存1.2、查看磁盘1.3、查看CPU信息 2、清理内存缓存2.1、清理PageCache:2.2、清理Dentries和Inodes:2.3、同时清理PageCache、Dentries和Inodes:2.4、清理日志文件2.5、清理临时文件 3、查找文件3.1、查…

WPF使用外部字体,思源黑体,为例子

1.在工程中新建文件夹&#xff0c;命名为“Font"。 2.将下载好的字体文件复制到Font文件夹。 3.在工程中&#xff0c;加入静态资源 <Window.Resources><FontFamily x:Key"SYBold">/AnalyzeImage;Component/Font/#思源黑体 CN Bold</FontFamily…

2.3 Mac OS安装Python环境

Mac OS安装Python环境 和 Linux 发行版类似&#xff0c;最新版的 Mac OS X 也会默认自带 Python 2.x。 我们可以在终端&#xff08;Terminal&#xff09;窗口中输入python命令来检测是否安装了 Python 开发环境&#xff0c;以及安装了哪个版本&#xff0c;如下所示&#xff1…

解決flask-restful提示Did not attempt to load JSON data 问题

在使用flask-restfull进行API开发的时候。一旦我使用类似下面的代码从url或者form中获得参数就会出现报错&#xff1a;Did not attempt to load JSON data because the request Content-Type was not ‘application/json’。 代码如下&#xff1a; # Flask_RESTFUl数据解析 f…

ROS1通过rosbridge在局域网中控制turtle进行运动(PC和手机)--番外,清除浏览器缓存

在上一节的文章当中&#xff0c;因为编写好了JS文件&#xff0c;直接上传到在局域网内的浏览器当中&#xff0c;但是在本地更新的过程当中&#xff0c;无法对齐进行上传和更新&#xff0c;原因是浏览器在加载一次JS文件的时候&#xff0c;会自动将其加入到缓存当中&#xff0c;…

基于JavaScript的快递管理系统

基于JavaScript的快递管理系统 开发语言&#xff1a;Java 开发工具&#xff1a;MyEclipse 6.0.1 技术&#xff1a;Spring SpringMVC MyBatis 数据库&#xff1a;mysql 浏览器&#xff1a;IE8.0 系统展示 登陆页面 注册页面 快递员页面 派单员订单管理页面 派单员订单添…

网络七层模型之传输层:理解网络通信的架构(四)

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

每日一练:LeeCode-21、合并两个有序链表【链表+递归+非递归】

将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1&#xff1a; 输入&#xff1a;l1 [1,2,4], l2 [1,3,4] 输出&#xff1a;[1,1,2,3,4,4] 示例 2&#xff1a; 输入&#xff1a;l1 [], l2 [] 输出&#xff1a;[…

【jvm】各个java版本默认的垃圾回收器

要看Java默认的垃圾回收器 可以使用以下命令 java -XX:PrintCommandLineFlags -version 各个java版本默认的垃圾回收器 从Java 1&#xff08;JDK 1.0&#xff09;开始到Java 21之间的各个Java版本默认的垃圾回收器经历了一系列的演变。以下是一些主要版本的Java默认垃圾回收…

力扣面试150 直线上最多的点数 数学 直线斜率 欧几里得求最大公约数

Problem: 149. 直线上最多的点数 思路 &#x1f468;‍&#x1f3eb; 参考题解 &#x1f496; 枚举直线 枚举统计 时间复杂度: O ( n 3 ) O(n^3) O(n3) 空间复杂度: O ( 1 ) O(1) O(1) class Solution {public int maxPoints(int[][] points){int n points.length;int…

数据挖掘终篇!一文学习模型融合!从加权融合到stacking, boosting

模型融合&#xff1a;通过融合多个不同的模型&#xff0c;可能提升机器学习的性能。这一方法在各种机器学习比赛中广泛应用&#xff0c; 也是在比赛的攻坚时刻冲刺Top的关键。而融合模型往往又可以从模型结果&#xff0c;模型自身&#xff0c;样本集等不同的角度进行融合。 数据…

xcode生成静态库.a

一、生成静态库 1.打开 Xcode 创建一个新的 Static Library 工程&#xff0c;取名applestudio 2.创建工程完毕后&#xff0c;简化目录结构 删除系统自动创建的同名类&#xff1a;applestudio.h和applestudio.m 把自己的代码复制进去&#xff0c;如例子&#xff1a;guiconnect.h…

Unix环境高级编程-学习-08-自旋锁与屏障

目录 一、多线程相关文章链接 二、自由抒发 1、自旋锁 2、屏障 三、函数介绍 1、pthread_spin_init &#xff08;1&#xff09;声明 &#xff08;2&#xff09;作用 &#xff08;3&#xff09;参数 &#xff08;4&#xff09;返回值 &#xff08;5&#xff09;注意点 …

libVLC 视频裁剪

使用 libVLC 进行视频裁剪并不是直接支持的功能&#xff0c;因为 libVLC 主要是一个媒体播放库。然而&#xff0c;你可以通过调整播放窗口的大小和设置视频输出的区域来实现一种“视觉上的裁剪”。这意味着视频本身并没有被修改&#xff0c;但可以控制显示给用户的视频区域。 …

[网鼎杯2018]Unfinish 两种方法 -----不会编程的崽

网鼎杯太喜欢搞二次注入了吧。上次是无列名盲注&#xff0c;这次又是二次注入盲注。。。不知道方法还是挺难的。哎&#xff0c;网鼎嘛&#xff0c;能理解透彻就很强了。能自己做出来那可太nb了。 又是熟悉的登录框。不知道这是第几次看见网鼎杯的登录框了。后台扫描一下&#x…

『Apisix入门篇』从零到一掌握Apache APISIX:架构解析与实战指南

&#x1f4e3;读完这篇文章里你能收获到&#xff1a; &#x1f310; 深入Apache APISIX架构&#xff1a; 从Nginx到OpenResty&#xff0c;再到etcd&#xff0c;一站式掌握云原生API网关的构建精髓&#xff0c;领略其层次化设计的魅力。 &#x1f50c; 核心组件全解析&#xff…