flink Shuffle的总结

关于 ** ​5 种 Shuffle 类型** 的区别、使用场景及 Flink 版本支持的总结:

* 注意:下面是问AI具体细节与整理学习


1. 核心区别

Shuffle 类型核心特点使用场景Flink 版本支持
Pipelined Shuffle流式调度,纯内存交换,低延迟(毫秒级),支持反压机制。流处理默认模式(如实时监控、风控)。所有版本(流处理默认)
Blocking Shuffle分阶段调度,数据全量落盘,高吞吐但高延迟。子类型:
- Hash Shuffle(默认)
- Sort-Merge Shuffle(优化版)
批处理默认模式(如离线分析)。所有版本(批处理默认);
Sort-Merge 从 1.12+。
Hybrid Shuffle流批融合,动态选择内存或磁盘存储,优先内存交换,资源不足时落盘。批处理优化场景(资源波动、数据倾斜)。批处理:Flink 1.16+。
Remote Shuffle Service (RSS)存储计算分离,独立集群管理 Shuffle 数据,支持云原生部署(如 Apache Celeborn)。大规模批处理(PB 级数据)。插件化支持(Flink 1.14+)。
Sort-Merge Shuffle批处理优化,数据排序后合并写入,减少文件数量和随机 I/O。高并发批作业(如超大规模 ETL)。批处理:Flink 1.12+ 实验性,1.13+ 生产可用。

2. 使用场景

Pipelined Shuffle
场景:实时流处理(如实时风控、监控告警)。
优势:低延迟,适合对实时性要求高的场景。
缺点:资源占用高,可能因反压导致内存积压。

Blocking Shuffle
场景:离线批处理(如 TPC-DS 分析任务)。
优势:资源利用率高,适合大规模数据批处理。
缺点:磁盘 I/O 开销大,性能较低。

Hybrid Shuffle
场景:批处理作业(尤其资源波动或数据倾斜场景)。
优势:结合内存和磁盘,减少 I/O 负载,提升资源利用率(如 TPC-DS 性能提升 7.2%~18.74%)。
缺点:需权衡落盘策略(全落盘容错性好,选择性落盘性能更优)。


3. Flink 版本支持

Shuffle 类型流处理版本批处理版本
Pipelined Shuffle从早期版本支持(默认)不适用
Blocking Shuffle不适用从早期版本支持
Hybrid Shuffle不适用Flink 1.16 引入

4. 说明

Hybrid Shuffle 的演进
• Flink 1.16 首次引入,1.17 优化了广播数据和资源调度。
• 支持两种落盘策略:全落盘(容错性好)和选择性落盘(性能优)。
流批融合趋势:Hybrid Shuffle 是 Flink 流批一体化的关键,未来可能扩展至流处理场景。

5.补充说明:

  1. 流处理当前默认:仍为 Pipelined Shuffle(截至 Flink 1.17)。
  2. 批处理演进
    • Flink 1.13 默认 Blocking Shuffle(Hash 实现)。
    • Hybrid Shuffle 未来可能成为批处理默认选项。
  3. 特殊场景
    • RSS 适用于云原生和大规模集群。
    • Sort-Merge Shuffle 解决高并发下的稳定性问题。
  4. Broadcast/Rebalance/hash Partition 常用场景
    逻辑分区策略(如 keyBy、broadcast),底层仍依赖上述 Shuffle 实现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/76406.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git使用与管理

一.基本操作 1.创建本地仓库 在对应文件目录下进行: git init 输入完上面的代码,所在文件目录下就会多一个名为 .git 的隐藏文件,该文件是Git用来跟踪和管理仓库的。 我们可以使用 tree 命令(注意要先下载tree插件&#xff09…

计算机视觉——深度学习图像处理中目标检测平均精度均值(mAP)与其他常用评估指标

概述 平均精度均值(mAP)是目标检测领域中最为流行且复杂的重要评估指标之一。它广泛用于综合总结目标检测器的性能。许多目标检测模型会输出类似以下的参数结果: Average Precision (AP) [ IoU0.50:0.95 | area all | maxDets100 ] 0.3…

C语言中单链表操作:查找节点与删除节点

一. 简介 前面学习了C语言中创建链表节点,向链表中插入节点等操作,文章如下: C语言中单向链表:创建节点与插入新节点-CSDN博客 本文继续学习c语言中对链表的其他操作,例如在链表中查找某个节点,删除链表…

WePY 框架:小程序开发的“Vue式”利器!!!

WePY 框架:小程序开发的“Vue式”利器 🚀 哈喽,大家好!👋 今天我们要聊聊一个在微信小程序开发中大放异彩的框架——WePY!它是什么?有什么特点?为啥值得一试?别急&#…

什么是微前端?有什么好处?有哪一些方案?

微前端(Micro Frontends) 微前端是一种架构理念,借鉴了微服务的思想,将一个大型的前端应用拆分为多个独立、自治的子应用,每个子应用可以由不同团队、使用不同技术栈独立开发和部署,最终聚合为一个整体产品…

【家政平台开发(33)】库存管理模块开发实战:从基础搭建到智能管控

本【家政平台开发】专栏聚焦家政平台从 0 到 1 的全流程打造。从前期需求分析,剖析家政行业现状、挖掘用户需求与梳理功能要点,到系统设计阶段的架构选型、数据库构建,再到开发阶段各模块逐一实现。涵盖移动与 PC 端设计、接口开发及性能优化,测试阶段多维度保障平台质量,…

Mysql个人笔记

Mysql个人笔记 sql基础书写规则和种类种类书写规则注释规则启动 DDL数据类型数据库的操作useshowcreatedrop 表的操作useshowcreate创建表复制表 dropalter Mysql的存储引擎 DMLselectselect语句like(谓词)where聚合函数:关于nullgroup byexi…

【重装系统】大白菜自制U盘装机,备份C盘数据,解决电脑启动黑屏/蓝屏

1. 准备 U 盘 U 盘容量至少 8G,备份 U 盘的数据(后期会格式化) 2. 从微软官网下载操作系统镜像 https://www.microsoft.com/zh-cn/software-download/windows11 3. 下载安装大白菜 https://www.alipan.com/s/33RVnKayUfY 4. 插入 U 盘&#…

各类神经网络学习:(十)注意力机制(第2/4集),pytorch 中的多维注意力机制、自注意力机制、掩码自注意力机制、多头注意力机制

上一篇下一篇注意力机制(第1/4集)待编写 一、pytorch 中的多维注意力机制: 在 N L P NLP NLP 领域内,上述三个参数都是 向量 , 在 p y t o r c h pytorch pytorch 中参数向量会组成 矩阵 ,方便代码编写。…

uni-app初学

文章目录 1. pages.json 页面路由2. 图标3. 全局 CSS4. 首页4.1 整体框架4.2 完整代码4.3 轮播图 swiper4.3.1 image 4.4 公告4.4.1 uni-icons 4.5 分类 uni-row、uni-col4.6 商品列表 小程序开发网址: 注册小程序账号 微信开发者工具下载 uniapp 官网 HbuilderX 下…

VBA将Word文档内容逐行写入Excel

如果你需要将Word文档的内容导入Excel工作表来进行数据加工,使用下面的代码可以实现: Sub ImportWordToExcel()Dim wordApp As Word.ApplicationDim wordDoc As Word.DocumentDim excelSheet As WorksheetDim filePath As VariantDim i As LongDim para…

MySQL运行一段时间后磁盘出现100%读写

MySQL运行一段时间后磁盘出现100%读写的情况,可能是由多种原因导致的,以下是一些常见原因及解决方法: 可能的原因 1. 磁盘I/O压力过大[^0^]:数据量过大,数据库查询和写入操作消耗大量I/O资源。索引效率低&#xff0c…

【RabbitMQ】延迟队列

1.概述 延迟队列其实就是队列里的消息是希望在指定时间到了以后或之前取出和处理,简单来说,延时队列就是用来存放需要在指定时间被处理的元素的队列。 延时队列的使用场景: 1.订单在十分钟之内未支付则自动取消 2.新创建的店铺,…

Linux笔记之Ubuntu系统设置自动登录tty1界面

Ubuntu22.04系统 编辑getty配置文件 vim /etc/systemd/system/gettytty1.service.d/override.conf如果该目录或者文件不存在,进行创建。 在override.conf文件中进行编辑: [Service] ExecStart ExecStart-/sbin/agetty --autologin yourusername --no…

C++程序诗篇的灵动赋形:多态

文章目录 1.什么是多态?2.多态的语法实现2.1 虚函数2.2 多态的构成2.3 虚函数的重写2.3.1 协变2.3.2 析构函数的重写 2.4 override 和 final 3.抽象类4.多态原理4.1 虚函数表4.2 多态原理实现4.3 动态绑定与静态绑定 5.继承和多态常见的面试问题希望读者们多多三连支…

算法训练之动态规划(三)

♥♥♥~~~~~~欢迎光临知星小度博客空间~~~~~~♥♥♥ ♥♥♥零星地变得优秀~也能拼凑出星河~♥♥♥ ♥♥♥我们一起努力成为更好的自己~♥♥♥ ♥♥♥如果这一篇博客对你有帮助~别忘了点赞分享哦~♥♥♥ ♥♥♥如果有什么问题可以评论区留言或者私信我哦~♥♥♥ ✨✨✨✨✨✨ 个…

$_GET变量

$_GET 是一个超级全局变量,在 PHP 中用于收集通过 URL 查询字符串传递的参数。它是一个关联数组,包含了所有通过 HTTP GET 方法发送到当前脚本的变量。 预定义的 $_GET 变量用于收集来自 method"get" 的表单中的值。 从带有 GET 方法的表单发…

jQuery多库共存

在现代Web开发中,项目往往需要集成多种JavaScript库或框架来满足不同的功能需求。然而,当多个库同时使用时,可能会出现命名冲突、功能覆盖等问题。幸运的是,jQuery提供了一些机制来确保其可以与其他库和谐共存。本文将探讨如何实现…

MySQL 中的聚簇索引和非聚簇索引有什么区别?

MySQL 中的聚簇索引和非聚簇索引有什么区别? 1. 从不同存储引擎去考虑 在MySIAM存储引擎中,索引和数据是分开存储的,包括主键索引在内的所有索引都是“非聚簇”的,每个索引的叶子节点存储的是数据记录的物理地址(指针…

Java从入门到“放弃”(精通)之旅——启航①

🌟Java从入门到“放弃 ”精通之旅🚀 今天我将要带大家一起探索神奇的Java世界!希望能帮助到同样初学Java的你~ (๑•̀ㅂ•́)و✧ 🔥 Java是什么?为什么这么火? Java不仅仅是一门编程语言,更…