spark广播变量

广播变量应用场景

由于spark的应用场景通常是分布式场景,在本地集合和分布式集合关联,且本地集合不太大的场景,rdd的处理是在不同的executor中不同的分区处理的,我们定义的全局变量通常是在driver中的,在executor中并没有,因此spark通过广播变量这种形式,可以把开发者定义的广播变量通过网络传输的方式,传第到每个executor中每个线程处理的分区中,同时,由于同一个executor中可能处理不止一个分区,为了节省内存,只会传输给其中一个线程,其他线程想要访问时,会先去找除自身外的线程是否已经存在广播变量,有则不再传输。
广播变量的使用很简单,将本地集合标识为广播变量即可,下面我们来看一个案例:

#使用方式:
#1.将本地ist标记成广播变量即可
broadcast = sc.broadcast(stu_info_list)
#2.使用广播变量,从broadcast对象中取出本地list对象即可
value broadcast.value
# 也就是先放进去broadcast内部,然后从broadcast内部在取出来用,中间传输的是broadcast:这个对象了
#只要中间传输的是broadcast对象sparki就会留意,只会给每个Executor发一份了,而不是傻傻的哪个分区要都给.
coding:utf8
import ...
if __name__ == '__main__':conf = SparkConf).setAppName("test").setMaster("local[*]")sc = SparkContext(conf=conf)stu_info_list = [(1,'张大仙'11)(2,'王晓晓'13)(3,'张甜甜'11)(4,'王大力'11)]#1.将本地Python List对象标记为广播变量,不标记实际上每个分区也拿的到但会有内存浪费broadcast = sc.broadcast(stu_info_list)score_info_rdd = sc.parallelize([(1,'语文'99)(2,'数学'99)(3,'英语'99)(4,'编程'99)(1,'语文'99)(2,'编程'99)(3,'语文'99)(4,'英语'99)(1,'语文'99)(3,'英语'99)(2,'编程'99)])def map_func(data):id = data[e]name = ""#匹配本地list和分布式rdd中的学生ID匹配成功后即可获得当前学生的姓名for stu_info in stu_info_list:stu_id = stu_info[0]if id == stu_id:name stu_info[1]return (name,data[1],data[2])print(score_info_rdd.map(map_func).collect())

此外,实际上所有广播变量的方式,都可以用两个rdd之间的join操作来实现同样的结构,如上面将stu_info_list也定义成rdd,但这样会造成数据的一个shuffle,如下,通过id匹配的话会发生多次网络传输,因此我们在本地数据集比较小的时候,可以通过广播变量进行优化,但数据集大时,还是需要分布式操作来加速
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/770721.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

centos 虚拟机 增加硬盘 虚拟机centos磁盘扩容

2 在centos 7 系统中挂载磁盘 2.1 查看磁盘信息 进入centos 7系统中,输入“# df -h”命令,查看磁盘信息。 这里没有写显示新增的磁盘信息。 2.2 对新加的磁盘进行分区操作 2.2.1 查看磁盘容量和分区 2.2.2 创建分区 a. 选择新增的磁盘(这…

学点儿Java_Day10_集合框架(List、Set、HashMap)

1 简介 ArrayList: 有序(放进去顺序和拿出来顺序一致),可重复 HashSet: 无序(放进去顺序和拿出来顺序不一定一致),不可重复 Testpublic void test1() {String[] array new String[3];//List: 有序 可重复//有序: 放入顺序 与 拿出顺序一致,…

为何ChatGPT日耗电超50万度?

看新闻说,ChatGPT每天的耗电量是50万度,国内每个家庭日均的耗电量不到10度,ChatGPT耗电相当于国内5万个家庭用量。 网上流传,英伟达创始人黄仁勋说:“AI的尽头是光伏和储能”,大佬的眼光就是毒辣&#xff…

Luminar Neo:重塑图像编辑新纪元,Mac与Win双平台畅享创意之旅

在数字时代的浪潮中,图像编辑软件已成为摄影师和设计师们不可或缺的创作工具。Luminar Neo,作为一款专为Mac与Windows双平台打造的图像编辑软件,正以其卓越的性能和创新的编辑功能,引领着图像编辑的新潮流。 Luminar Neo不仅继承…

c语言编程题目:水仙花数

题目&#xff1a;水仙花数是指一个N位正整数&#xff08;N>3&#xff09;&#xff0c;它的每位上的数字的N次幂之和等于它本身。例如&#xff1a;153 1^3 5^3 3^3。要求&#xff1a;计算所有N位水仙花数。给出一个正整数N&#xff08;3 < N < 7&#xff09;&#x…

【日常linux操作命令】

文章目录 1、查看服务器信息1.1、查看内存1.2、查看磁盘1.3、查看CPU信息 2、清理内存缓存2.1、清理PageCache&#xff1a;2.2、清理Dentries和Inodes&#xff1a;2.3、同时清理PageCache、Dentries和Inodes&#xff1a;2.4、清理日志文件2.5、清理临时文件 3、查找文件3.1、查…

WPF使用外部字体,思源黑体,为例子

1.在工程中新建文件夹&#xff0c;命名为“Font"。 2.将下载好的字体文件复制到Font文件夹。 3.在工程中&#xff0c;加入静态资源 <Window.Resources><FontFamily x:Key"SYBold">/AnalyzeImage;Component/Font/#思源黑体 CN Bold</FontFamily…

2.3 Mac OS安装Python环境

Mac OS安装Python环境 和 Linux 发行版类似&#xff0c;最新版的 Mac OS X 也会默认自带 Python 2.x。 我们可以在终端&#xff08;Terminal&#xff09;窗口中输入python命令来检测是否安装了 Python 开发环境&#xff0c;以及安装了哪个版本&#xff0c;如下所示&#xff1…

解決flask-restful提示Did not attempt to load JSON data 问题

在使用flask-restfull进行API开发的时候。一旦我使用类似下面的代码从url或者form中获得参数就会出现报错&#xff1a;Did not attempt to load JSON data because the request Content-Type was not ‘application/json’。 代码如下&#xff1a; # Flask_RESTFUl数据解析 f…

机器学习神经网络由哪些构成?

机器学习神经网络通常由以下几个主要组件构成&#xff1a; 1. **输入层&#xff08;Input Layer&#xff09;**&#xff1a;输入层接受来自数据源&#xff08;例如图像、文本等&#xff09;的原始输入数据。每个输入特征通常表示为输入层中的一个节点。 2. **隐藏层&#xff…

ROS1通过rosbridge在局域网中控制turtle进行运动(PC和手机)--番外,清除浏览器缓存

在上一节的文章当中&#xff0c;因为编写好了JS文件&#xff0c;直接上传到在局域网内的浏览器当中&#xff0c;但是在本地更新的过程当中&#xff0c;无法对齐进行上传和更新&#xff0c;原因是浏览器在加载一次JS文件的时候&#xff0c;会自动将其加入到缓存当中&#xff0c;…

基于JavaScript的快递管理系统

基于JavaScript的快递管理系统 开发语言&#xff1a;Java 开发工具&#xff1a;MyEclipse 6.0.1 技术&#xff1a;Spring SpringMVC MyBatis 数据库&#xff1a;mysql 浏览器&#xff1a;IE8.0 系统展示 登陆页面 注册页面 快递员页面 派单员订单管理页面 派单员订单添…

【牛客】SQL147 筛选限定昵称成就值活跃日期的用户

描述 现有用户信息表user_info&#xff08;uid用户ID&#xff0c;nick_name昵称, achievement成就值, level等级, job职业方向, register_time注册时间&#xff09;&#xff1a; iduidnick_nameachievementleveljobregister_time11001牛客1号10002算法2020-01-01 10:00:00210…

mysql 存储过程示例

一、建表语句 SET NAMES utf8mb4; SET FOREIGN_KEY_CHECKS 0;-- ---------------------------- -- Table structure for user_info -- ---------------------------- DROP TABLE IF EXISTS user_info; CREATE TABLE user_info (id int(0) NOT NULL AUTO_INCREMENT,name varc…

网络七层模型之传输层:理解网络通信的架构(四)

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

每日一练:LeeCode-21、合并两个有序链表【链表+递归+非递归】

将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1&#xff1a; 输入&#xff1a;l1 [1,2,4], l2 [1,3,4] 输出&#xff1a;[1,1,2,3,4,4] 示例 2&#xff1a; 输入&#xff1a;l1 [], l2 [] 输出&#xff1a;[…

【jvm】各个java版本默认的垃圾回收器

要看Java默认的垃圾回收器 可以使用以下命令 java -XX:PrintCommandLineFlags -version 各个java版本默认的垃圾回收器 从Java 1&#xff08;JDK 1.0&#xff09;开始到Java 21之间的各个Java版本默认的垃圾回收器经历了一系列的演变。以下是一些主要版本的Java默认垃圾回收…

力扣面试150 直线上最多的点数 数学 直线斜率 欧几里得求最大公约数

Problem: 149. 直线上最多的点数 思路 &#x1f468;‍&#x1f3eb; 参考题解 &#x1f496; 枚举直线 枚举统计 时间复杂度: O ( n 3 ) O(n^3) O(n3) 空间复杂度: O ( 1 ) O(1) O(1) class Solution {public int maxPoints(int[][] points){int n points.length;int…

数据挖掘终篇!一文学习模型融合!从加权融合到stacking, boosting

模型融合&#xff1a;通过融合多个不同的模型&#xff0c;可能提升机器学习的性能。这一方法在各种机器学习比赛中广泛应用&#xff0c; 也是在比赛的攻坚时刻冲刺Top的关键。而融合模型往往又可以从模型结果&#xff0c;模型自身&#xff0c;样本集等不同的角度进行融合。 数据…

【牛客】SQL148 筛选昵称规则和试卷规则的作答记录

描述 现有用户信息表user_info&#xff08;uid用户ID&#xff0c;nick_name昵称, achievement成就值, level等级, job职业方向, register_time注册时间&#xff09;&#xff1a; iduidnick_nameachievementleveljobregister_time11001牛客1号19002算法2020-01-01 10:00:00210…