实时数据开发 | Flink的数据分区策略--物理分区操作

物理分区操作

物理分区(physica1partitioning)操作的作用是根据指定的分区策略将数据重新分限到不同节点的 Task 实例上执行。当使用DataSteam提供的 API对数据处理过程中,赖于算子本身对数据的分区控制,如果用户希望自己控制数据分区,例如当数据发生了数据倾斜的时候,就需要通过定义物理分区策略的方式对数据集进行重新分布。

Flink 中已经提供了常见的分区策略,例如==随机分区(Random Partitioning)、平衡分区(Roundobin partitioning)、按比例分区(Roundrobin Partitioning)==等。如果给定的分队策略无法满足需求,也可以根据Flink提供的分区控制接口创建分区器,实现自定义区控制。

Flink内部提供的常见数据重分区策略如下所述:

  • 随机分区(Random Partitioning):[DataStream ->DataStream]通过随机的方式将数据分配在下游算子的每个分区中,分区相对均衡,但是较容易失去原有数据的分区结构。
    //通过调用DatastreamAPI中的shuffle方法实现数据集的随机分区
    val shuffleStream =dataStream.shuffle

  • Roundrobin Partitioning:[DataStream ->DataStream]通过循环的方式对数据集中的数据进行重分区,能够尽可能保证每个分区的数据平当数据集发生数据倾斜的时候使用这种策略就是比较有效的优化方法。衡,
    //通过调用Datastream API中rebalance()方法实现数据的重平衡分区
    val shuffleStream =dataStream.rebalance();

  • Rescaling Partitioning: [DataStream ->DataStream]和 Roundrobin Partitioning一样,Rescaling Partitioning也是一种通过循环的方式进行数据重平衡的分区策略。但是不同的是,当使用Roundrobin Partitioning时,数据会全局性地通过网络介质传输到其他的节点完成数据的重新平衡,而Rescaling Partitioning仅仅会对上下游继承的算子数据进行重平衡,具体的分区主要根据上下游算子的并行度决定。例如上游算子的并发度为2,下游算子的并发度为4,就会发生上游算子中一个分区的数据按照同等比例将数据路由在下游的固定的两个分区中,另外一个分区同理路由到下游两个分区中。
    val shuffleStream =dataStream.rescale()

  • 广播操作(Broadcasting):[DataStream ->DataStream
    广播策略将输入的数据集复制到下游算子的并行的Tasks实例中,tasks直接从本地内存中获取广播数据集,不再依赖于网络传输。这种分区策略适用小数据集,例如当大数据集关联小数据集时,可以通过广播的方式将小数据集分发制算子的每个分区中。
    //可以通过调用 DataStream API 的broadcast()方法实现广播分区
    val shuffleStream = dataStream.broadcast();

  • 自定义分区(Custom Partitioning):[DataStream ->DataStream除了使用已有的分区器之外,用户也可以实现自定义分区器,然后调用DatasueamAP]上partitionCustom()方法将创建的分区器应用到数据集上。如以下代码所示自定义分区器代码实现了当字段中包含“fink”关键字的数据放在partition为0的分区中,其余数据随机进行分区的策略,其中numPartitions是从系统中获取的并行度参数。

object customPartitioner extends Partitioner[String]{//获取随机数生成器
val r=scala.util.Random
override def partition(key: String,numPartitions: Int):Int ={
//定义分区策略,key中如果包含a则放在0分区中,其他情况则根据partitionsnum随机分区
if (key.contains("flink")) 0  else r.nextInt(numPartitions)}
}

自定义分区器定义好之后就可以调用DataSteamAPI的 partitionCustom来应用分区器,第二个参数指定分区器使用到的字段,对于Tuple类型数据,分区字段可以通过字段名称指定,其他类型数据集则通过位置索引指定。

//通过数据集字段名称指定分区字段
dataStream.partitioncustom(custompartitioner,"filed name");
11通过数据集字段索引指定分区字段
datastream,partitioncustom(custompartitioner,0);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/61780.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣hot100道【贪心算法后续解题方法心得】(三)

力扣hot100道【贪心算法后续解题方法心得】 十四、贪心算法关键解题思路1、买卖股票的最佳时机2、跳跃游戏3、跳跃游戏 | |4、划分字母区间 十五、动态规划什么是动态规划?关键解题思路和步骤1、打家劫舍2、01背包问题3、完全平方式4、零钱兑换5、单词拆分6、最长递…

【linux】(23)对象存储服务-MinIo

MinIO 是一个高性能的对象存储服务,兼容 Amazon S3 API。 Docker安装MinIo 前提条件 确保您的系统已经安装了 Docker。如果还没有安装 Docker,可以参考 Docker 官方文档进行安装。 1. 拉取 MinIO Docker 镜像 首先,从 Docker Hub 拉取 Mi…

MySQL有哪些日志?

MySQL主要有三种日志:undo log、redo log、binlog。前两种是InnoDB特有的,binlog是MySQL的Server层中的。 Buffer Pool buffer pool是MySQL的缓冲池,里面存储了数据页、索引页、undo页等(与数据库不一致的即为脏页)。…

机器学习周志华学习笔记-第13章<半监督学习>

机器学习周志华学习笔记-第13章<半监督学习> 卷王,请看目录 13半监督学习13.1 生成式方法13.2 半监督SVM13.3 基于分歧的方法13.4 半监督聚类 13半监督学习 前面我们一直围绕的都是监督学习与无监督学习,监督学习指的是训练样本包…

ThingsBoard集成外部工单系统方案

在 ThingsBoard 的仪表盘中集成和使用 Jitbit Helpdesk,需要结合 Jitbit 提供的 REST API 和 ThingsBoard 的自定义 小部件(Widgets) 功能。以下是详细的实现步骤: 1. 确定集成场景 在仪表盘中集成 Jitbit Helpdesk 的常见需求包…

SpringCloud框架学习(第六部分:Sentinel实现熔断与限流)

目录 十四、SpringCloud Alibaba Sentinel实现熔断与限流 1.简介 2.作用 3.下载安装 4.微服务 8401 整合 Sentinel 入门案例 5.流控规则 (1)基本介绍 (2)流控模式 Ⅰ. 直接 Ⅱ. 关联 Ⅲ. 链路 (3&#xff0…

【Java基础面试题009】Java的I/O流是什么?

相关知识补充:黑马-字符集、IO流(一).pdf Autism_Btkrsr/Blog_md_to_pdf - 码云 - 开源中国 (gitee.com) 黑马-IO流(二).pdf Autism_Btkrsr/Blog_md_to_pdf - 码云 - 开源中国 (gitee.com) 回答重点 Java的I/O&…

第六届国际科技创新学术交流会暨管理科学信息化与经济创新发展(MSIEID 2024)

重要信息 大会官网:msieid2024.iaecst.org (点击了解大会,参会等内容) 大会时间:2024年12月6-8日 大会地点:中国-广州 大会简介 随着全球化和信息化的不断深入,管理科学、信息化和经济发展…

【计算机视觉算法与应用】模板匹配、图像配准

目录 1. 基于灰度值的模板匹配 2. 基于相关性的模板匹配 3. 基于形状的模板匹配 4. 基于组件的模板识别 5. 基于形变的模板匹配 6. 基于描述符的模板匹配 7. 基于点的模板匹配 性能比较 模板匹配的算法实现需要结合具体需求和应用场景来选择方法。以下是基于 OpenCV 的…

【25春招前端八股文】——JS数据类型检测方式

检测数据类型 # typeof 总结:数组、对象、null都会被判断为object,其他判断都正确的类型。 可以检测基本数据类型null会检测为Object,因为null也是一个空的引用对象复杂数据类型只能检测function和Object 情况说明: 数组&#x…

python学opencv|读取视频(一)灰度视频制作和保存

【1】引言 上一次课学习了用opencv读取图像,掌握了三个函数:cv.imread()、cv.imshow()、cv.imwrite() 相关链接如下: python学opencv|读取图像-CSDN博客 这次课我们继续,来学习用opencv读取视频。 【2】学习资源 首先是官网…

题外话 (火影密令)

哥们! 玩火影不! 村里人全部评论! 不评论的忍战李全保底! 哥们! 密令领了不! “1219村里人集合”领了吗! 100金币! 哥们! 我粉丝没人能上影! 老舅说的…

Go学习笔记之数据类型转换

Go数据类型转换 整型与浮点型转换 package mainimport ("fmt""strconv" )func main() {// 类型转换建议是从低位的类型转换到高位的类型,比如从int转换到float64,从float32转换到float64d : 10f : 3.14fmt.Println(float64(d) f)}其他类转换成字符串 //…

001-SpringBoot整合日志

SpringBoot整合日志 一、引入依赖二、配置 application.yml三、配置文件 logback.xml四、配置文件 WebConfigurerAdapter五、配置常量文件六、配置拦截器七、效果展示一、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId&…

Rust 图形界面开发——使用 GTK 创建跨平台 GUI

第五章 图形界面开发 第一节 使用 GTK 创建跨平台 GUI GTK&#xff08;GIMP Toolkit&#xff09;是一个流行的开源跨平台图形用户界面库&#xff0c;适用于创建桌面应用程序。结合 Rust 的 gtk-rs 库&#xff0c;开发者能够高效地构建现代化 GUI 应用。本节将详细探讨 GTK 的…

Linux的磁盘/文件管理,以centos7为例

Linux的磁盘/文件管理,以centos7为例 物理磁盘情况我的磁盘简述一下含义 使用新硬盘流程简述硬盘分区格式化(文件系统(本地文件系统))创建挂载点;挂载磁盘挂载解释 LVM(Logical Volume Management)硬盘到文件系统的层次结构LVM优势:重要概念实践操作 附录(命令) 物理磁盘情况 …

Conda-Pack打包:高效管理Python环境

在Python开发中&#xff0c;环境管理是一个不可忽视的重要环节。Conda是一个流行的包管理器和环境管理器&#xff0c;它允许用户创建隔离的环境&#xff0c;以避免不同项目之间的依赖冲突。Conda-pack是一个工具&#xff0c;可以帮助我们将一个conda环境打包成一个可移植文件&a…

人形机器人训练、机器臂远程操控、VR游戏交互、影视动画制作,一副手套全部解决!

广州虚拟动力基于自研技术推出了多节点mHand Pro动捕数据手套&#xff0c;其最大的特点就是功能集成与高精度捕捉&#xff0c;可以用于人形机器人训练、机器臂远程操控、VR游戏交互、影视动画制作等多种场景。 一、人形机器人训练 mHand Pro动捕数据手套双手共装配16个9轴惯性…

vue3+view-ui-plus+vite+less 实现自定义iview样式

首先是结论&#xff1a; "less": "^2.7.3", "less-loader": "^4.1.0", vite.config.js resolve: {alias: {// 设置路径~: path.resolve(__dirname, ./),// 设置别名: path.resolve(__dirname, ./src)},extensions: [.mjs, .js, .ts…

SpringMVC接收数据

一、访问路径设置: RequestMapping注解的作用就是将请求的URL地址和处理请求的方式(handler方法)关联起来&#xff0c;建立映射关系;SpringMVC接收到指定的请求&#xff0c;就会来找到在映射关系中对应的方法来处理这个请求 1.精准路径匹配: 在RequestMapping注解指定URL地址…