大数据学习(30)-Spark Shuffle

大数据学习(30)-Spark Shuffle

news/2025/4/27 8:32:07/文章来源:https://blog.csdn.net/weixin_61006262/article/details/135282758

&&大数据学习&&

🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

Spark Shuffle

Map 和 Reduce

在Shuffle过程中. 提供数据的称之为Map端(Shuffle Write) 接收数据的称之为 Reduce端(Shuffle Read)

在Spark的两个阶段中, 总是前一个阶段产生一批Map提供数据, 下一阶段产生一批Reduce接收数据。

Spark 提供2种Shuffle管理器:

• HashShuffleManager

• SortShuffleManager

优化后

基本和未优化的一致,不同点在于

1. 在一个Executor内, 不同Task是共享Buffer缓冲区

2. 这样减少了缓冲区乃至写入磁盘文件的数量, 提高性能

SortShuffleManager

SortShuffleManager的运行机制主要分成两种，一种是普通运行机制，另一种是bypass运行机制。

bypass运行机制的触发条件如下：

1)shuffle map task 数量小于

spark.shuffle.sort.bypassMergeThre

shold=200 参数的值。

2) 不是聚合类的 shuffle 算子 ( 比如

reduceByKey) 。

同普通机制基本类同 , 区别在于 , 写入磁盘临时文件的时候不会在内 存中进行排序 而是直接写 , 最终合并为一个 task 一个最终文件

所以和普通模式 IDE 区别在于 :

第一，磁盘写机制不同;

第二，不会进行排序。也就是说，启用该机制的最大好处在于， shuffle write 过程中，不需要进行数据的排序操作，也就节省掉了 这部分的性能开销。

1. SortShuffle对比HashShuffle可以减少很多的磁盘文件,以节省网络IO的开销

2. SortShuffle主要是对磁盘文件进行合并来进行文件数量的减少, 同时两类Shuffle都需要经过内存缓冲区溢写磁盘的场景。所以可以得知, 尽管Spark是内存迭代计算框架, 但是内存迭代主要在窄依赖中. 在宽依赖(Shuffle)中磁盘交互还是一个无可避免的情况. 所以, 我们要尽量减少Shuffle的出现, 不要进行无意义的Shuffle计算。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/585519.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

高斯泼溅的全面概述

高斯泼溅的全面概述

一、说明高斯泼溅是一种用于表示 3D 场景和渲染新颖视图的方法，在“实时辐射场渲染的 3D 高斯泼溅”中引入。它可以被认为是 NeRF 类模型的替代品，就像当年的 NeRF 一样，高斯分布导致了许多新的研究工作，这些工作选择将其用作各种…

阅读更多...

2020年认证杯SPSSPRO杯数学建模B题(第一阶段)分布式无线广播全过程文档及程序

2020年认证杯SPSSPRO杯数学建模B题(第一阶段)分布式无线广播全过程文档及程序

2020年认证杯SPSSPRO杯数学建模 B题分布式无线广播原题再现： 以广播的方式来进行无线网通信，必须解决发送互相冲突的问题。无线网的许多基础通信协议都使用了令牌的方法来解决这个问题，在同一个时间段内，只有唯一一个拿到令牌…

阅读更多...

世界经济论坛制定了五项指导原则，实现跨OT环境的网络安全。

世界经济论坛制定了五项指导原则，实现跨OT环境的网络安全。

内容概述： 世界经济论坛在其题为“解锁工业环境中的网络弹性：五项原则”的报告中列出：原则一：执行全面风险管理OT 环境、原则二：确保OT工程师和安装操作员对OT网络安全负责、原则三：与高层组织领导、战略规…

阅读更多...

SQL面试题挑战13：分组topN

SQL面试题挑战13：分组topN

目录问题：SQL解答： 问题： 下面是某个班级的成绩表，需要筛选出每个科目前2名的学生信息。如果分数一样，名次是并列的，后面的同学名次就不连续。比如有2个同学是第一名，那么下一个同学的名次就是…

阅读更多...

八股文打卡day15——计算机网络（15）

八股文打卡day15——计算机网络（15）

面试题：cookie和session是什么？讲一下他们的区别？ 我的回答： cookie和session都是用来记录用户状态和信息的技术。 1.存储位置不同 cookie存储在客户端浏览器上；session存储在服务器上 2.安全性不同 cookie由于存储在…

阅读更多...

冒泡排序--------(C每日一题)

冒泡排序--------(C每日一题)

冒泡排序： 每次将相邻的两个数比较,将小的调到前头--升序冒泡排序一个结论： n个数要进行n-1轮比较，第j轮要进行n-j次两两比较循环体代码： int main() {int i, j,n,a[10],t;//n是几个数比较for(j1;j<n-1;j)//控制轮次for…

阅读更多...

一篇文章深入认识微服务SpringCloud和Dubbo的区别

一篇文章深入认识微服务SpringCloud和Dubbo的区别

1、SpringCloud是什么 SpringCloud, 基于SpringBoot提供了一套微服务解决方案，包括服务注册与发现，配置中心，全链路监控，服务网关，负载均衡，熔断器等组件，除了基于NetFlix的开源组件做高度抽象…

阅读更多...

鸿蒙系列--组件介绍之容器组件

鸿蒙系列--组件介绍之容器组件

一、Badge 描述：给其他组件添加标记子组件：支持单个子组件 1.创建数字标记 Badge(value: {count: number, position?: BadgePosition, maxCount?: number, style: BadgeStyle}) 2.创建字符串标记 Badge(value: {value: string, position?: Badge…

阅读更多...

【Bootstrap学习 day4】

【Bootstrap学习 day4】

Bootstrap5 列表组使用Bootstrap创建列表可以创建三种不类型的HTML列表： 无序列表—顺序无关紧要的项目列表。无序列表中的列表标有项目符号，例如。、等ul>li有序列表—顺序确实很重要的项目列表。有序列表中的列表项用数字标记，例如1、…

阅读更多...

linux休眠机制介绍

linux休眠机制介绍

一、概述 Linux系统提供了休眠和低功耗模式，可以帮助节省电力和延长电池寿命，休眠对应的另外一种模式就是唤醒。二、常用的休眠方式常用的休眠方式有freeze,standby, mem, disk，hibernate freeze: 冻结所有的进程，包括用户空…

阅读更多...

八股文打卡day14——计算机网络（14）

八股文打卡day14——计算机网络（14）

面试题：TCP的Keepalive和HTTP的Keep-Alive是一个东西吗？ 我的回答： TCP的Keepalive 1.位于TCP/IP模型的传输层。 2.是用来判活的。客户端会向服务器发送一个Keepalive包来判断，这个TCP连接是否还存活着。 HTTP中的Keep-Alive 1.…

阅读更多...

在vue3中如何使用pinia

在vue3中如何使用pinia

在 Vue 3 中，可以使用 Pinia 来管理应用程序的状态。Pinia 是一个基于 Vue 3 的状态管理库，它提供了一种简单、直观的方式来组织和共享应用程序的状态。安装 Pinia：首先，你需要在项目中安装 Pinia。可以使用 npm 或 yarn 进行安…

阅读更多...

JS学习之-01

JS学习之-01

局部JS变量在JS函数内部声明的变量（使用var）是局部变量，只能在函数内部访问它。全局JS变量在函数外部声明的变量是全局变量，网页上的所有脚本和函数都能访问它。变量的生命周期局部变量会在函数运行后删除全局变量会在…

阅读更多...

【设计模式】外观模式

【设计模式】外观模式

文章目录前言一、外观模式1.案例2.优缺点3.使用场景4.源码解析总结前言【设计模式】外观模式一、外观模式有些人可能炒过股票，但其实大部分人都不太懂，这种没有足够了解证券知识的情况下做股票是很容易亏钱的，刚开始炒股肯定都会想&am…

阅读更多...

Can‘t locate IPC/Cmd.pm in @INC (@INC contains:解决方案

Can‘t locate IPC/Cmd.pm in @INC (@INC contains:解决方案

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

阅读更多...

JAVA进化史：JDK6特性及说明

JAVA进化史：JDK6特性及说明

JDK 6（Java Development Kit 6）是Java平台的一个重要版本，它于2006年12月发布。在这个版本中，引入了许多新特性和改进，使得Java编程更加强大和灵活。以下是一些JDK 6的特性，并包含了一些示例说明&#xff1…

阅读更多...

适应变化：动态预测在机器学习中的作用

适应变化：动态预测在机器学习中的作用

一、介绍机器学习 (ML) 中的动态预测是指随着新数据的出现而不断更新预测的方法。这种方法在从医疗保健到金融等各个领域越来越重要，其中实时数据分析和最新预测可以带来更好的决策和结果。在本文中，我将讨论机器学习中动态预测的概念、其优势、挑战以及…

阅读更多...

网络瑞士军刀应用CyberChef

网络瑞士军刀应用CyberChef

本文软件由网友 zxc 推荐； 什么是 CyberChef ? CyberChef 是一款简单、直观的网络应用程序，用于在网络浏览器中执行各种“网络”操作。这些操作包括 XOR 和 Base64 等简单编码、AES、DES 和 Blowfish 等更复杂的加密、创建二进制和十六进制转储…

阅读更多...

蓝桥杯python比赛历届真题99道经典练习题（13-20）

蓝桥杯python比赛历届真题99道经典练习题（13-20）

【程序13】题目：打印出所有的“水仙花数”，所谓“水仙花数”是指一个三位数，其各位数字立方和等于该数本身。例如：153是一个“水仙花数”，因为153=1的三次方＋5的三次方＋3的三次方。 1.程序分析：利用for循环控制100-999个数，每个数分解出个位，十位，百位。 2.程序…

阅读更多...

SVN管理-备份还原篇

SVN管理-备份还原篇

背景： 当你没有svn的时候，写代码战战兢兢，又怕代码丢失白干，搞了svn做版本管理，随着时间的推移，所有的版本信息都在唯一的svn服务器，又开始担心服务器宕机，数据丢失问题&#xff0c…

阅读更多...

最新文章