47、Flink 的 Data Source 原理

1.Data Source 原理
a)核心组件

一个数据 source 包括三个核心组件:分片(Splits)分片枚举器(SplitEnumerator) 以及 源阅读器(SourceReader)

  • 分片(Split) 是对一部分 source 数据的包装,如一个文件或者日志分区。分片是 source 进行任务分配和数据并行读取的基本粒度。
  • 源阅读器(SourceReader) 会请求分片并进行处理,例如读取分片所表示的文件或日志分区。SourceReader 在 TaskManagers 上的 SourceOperators 并行运行,并产生并行的事件流/记录流。
  • 分片枚举器(SplitEnumerator) 会生成分片并将它们分配给 SourceReader。该组件在 JobManager 上以单并行度运行,负责对未分配的分片进行维护,并以均衡的方式将其分配给 reader。

Source 类作为API入口,将上述三个组件结合在了一起

在这里插入图片描述

b)流处理和批处理的统一

Data Source API 以统一的方式对无界流数据和有界批数据进行处理。

流处理和批处理区别很小:在有界/批处理情况中,枚举器生成固定数量的分片,而且每个分片都必须是有限的;但在无界流的情况下,分片大小可以不是有限的,或者枚举器将不断生成新的分片。

c)示例

展示在流和批处理情况下 data source 组件如何交互;以下内容并没有准确地描述出 Kafka 和 File source 的工作方式。

有界 File Source

Source 包含待读取目录的 URI/路径(Path),以及一个定义了如何对文件进行解析的格式(Format)

  • 分片是一个文件,或者是文件的一个区域(如果该文件格式支持对文件进行拆分)。
  • SplitEnumerator 将会列举给定目录路径下的所有文件,并在收到来自 reader 的请求时对分片进行分配。一旦所有的分片都被分配完毕,则会使用 NoMoreSplits 来响应请求。
  • SourceReader 则会请求分片,读取所分配的分片(文件或者文件区域),并使用给定的格式进行解析。如果当前请求没有获得下一个分片,而是 NoMoreSplits,则会终止任务。

无界 Streaming File Source

与**有界 File Source **类似,除了 SplitEnumerator 从不会使用 NoMoreSplits 来响应 SourceReader 的请求,并且还会定期列出给定 URI/路径下的文件来检查是否有新文件;一旦发现新文件,则生成对应的新分片,并将它们分配给空闲的 SourceReader。

无界 Streaming Kafka Source

Source 将具有 Kafka Topic(亦或者一系列 Topics 或者通过正则表达式匹配的 Topic)以及一个 解析器(Deserializer) 来解析记录(record)。

  • 分片是一个 Kafka Topic Partition。
  • SplitEnumerator 会连接到 broker 从而列举出已订阅的 Topics 中的所有 Topic Partitions。枚举器可以重复此操作以检查是否有新的 Topics/Partitions。
  • SourceReader 使用 KafkaConsumer 读取所分配的分片(Topic Partition),并使用提供的 解析器 反序列化记录。由于流处理中分片(Topic Partition)大小是无限的,因此 reader 永远无法读取到数据的尾部。

有界 Kafka Source

每个分片(Topic Partition)都会有一个预定义的结束偏移量,其他与上述相同;一旦 SourceReader 读取到分片的结束偏移量,整个分片的读取就会结束。而一旦所有所分配的分片读取结束,SourceReader 也就终止任务了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/23293.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

expect自动化交互应用程序工具

目录 安装 expect 语法介绍 基本命令 控制结构 变量和字符串 样例 expect 脚本 Example 1: 自动登录 SSH 并执行命令 Example 2: 自动与 FTP 服务器交互 Example 3: 与 telnet 自动交互 调试与运行脚本 调试模式 运行脚本 sshpass与expect应用-CSDN博客 expect 是…

第二证券炒股知识:美股的交易规则有哪些?

在经济全球化的浪潮中,美股以其开放的商场体系和完善的买卖规则吸引了不少出资者的关注。关于美股的买卖规则有哪些,第二证券下面就为大家详细介绍一下。 1、美股的买卖时刻:美股的买卖时刻依照美国东部时刻核算,分为夏令时和冬令…

elementUI el-table高度heght和总结summary 同时使用 表格样式异常

背景 同时使用height和 show-summary 样式错位 解决方案 在钩子函数updated 中重新渲染此表格 <el-table :height"autoHeight" show-summary ref"dataTable" >updated() {this.$nextTick(() >{this.$refs.dataTable.doLayout();})},更改后的效果 …

Java注解使用与自定义

一、什么是注解 注解是元数据的一种形式&#xff0c;它提供有关程序的数据&#xff0c;该数据不属于程序本身。注解对其注释的代码操作没有直接影响。换句话说&#xff0c;注解携带元数据&#xff0c;并且会引入一些和元数据相关的操作&#xff0c;但不会影响被注解的代码的逻…

导入地址表钩取技术解析

前置知识 导入表 在一个可执行文件需要用到其余DLL文件中的函数时&#xff0c;就需要用到导入表&#xff0c;用于记录需要引用的函数。例如我们编写的可执行文件需要用到CreateProcess函数&#xff0c;就需要用到kernel32.dll文件并且将其中的CreateProcess函数的信息导入到我…

项目-双人五子棋对战: 登录/注册模块的具体实现(2)

完整代码见: 邹锦辉个人所有代码: 测试仓库 - Gitee.com 模块详细讲解 用户信息定义(数据库) 用户名称: username 用户密码: password 用户天梯分数: score(假定初始值为1000) 用户游戏总场次: totalCount 用户获胜场次: winCount 用户表…

重复文件查找?6款电脑重复文件清理软件很靠谱!

在日常使用电脑过程中&#xff0c;很多人下载文件后常常会忘记它们的存在&#xff0c;导致同一份资料在系统中存在多个副本。虽然你可以手动删除 Windows 系统中的所有重复文件&#xff0c;但这样做很费时间&#xff0c;而且有可能会遗漏很多文件。 而且随着重复文件的不断累积…

IT运维工单系统/智能工单系统选型,需要注意哪些因素?

当今&#xff0c;IT运维服务成为企业降本增效、提升核心竞争力的重要一环。选型IT运维工单系统&#xff0c;提升企业IT运维服务能力&#xff0c;成为企业保持市场竞争力的重要举措。那么&#xff0c;IT运维工单系统选型需要注重哪些因素呢&#xff1f; 如今市面上的工单系统厂…

基于springboot实现餐饮管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现餐饮管理系统演示 摘要 互联网发展至今&#xff0c;无论是其理论还是技术都已经成熟&#xff0c;而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播&#xff0c;搭配信息管理工具可以很好地为人们提供服务。针对信息管理混乱&#xff0c;出错率…

贴合客户发展阶段 定义观测服务路径 -- DeepFlow金融银行业可观测性方案发布

金融信创是金融机构重点投入以及技术迭代的方向,经过多年阶段迭代,进入难度更大的核心系统、关键业务系统的更替阶段。近日,云杉网络凭借其在云原生可观测性领域的深厚积累,正式发布了DeepFlow金融银行业可观测性方案及服务,解决行业中普遍存在的分布式交易系统保障难、平台双轨…

使用 Navicat 工具查看 SQLite 数据库中的 PNG 图片

Navicat 是一款功能强大的数据库管理工具&#xff0c;支持多种数据库类型&#xff0c;包括 SQLite。它提供了一个直观的用户界面&#xff0c;可以轻松查看、编辑和管理数据库数据。 SQLite 是一种轻量级的嵌入式数据库&#xff0c;常用于移动应用程序和小型项目。它支持存储各…

构建LangChain应用程序的示例代码:2、使用LangChain库实现的AutoGPT示例:查找马拉松获胜成绩

AutoGPT 示例&#xff1a;查找马拉松获胜成绩 实现 https://github.com/Significant-Gravitas/Auto-GPT&#xff0c;使用LangChain基础组件&#xff08;大型语言模型(LLMs)、提示模板(PromptTemplates)、向量存储(VectorStores)、嵌入(Embeddings)、工具(Tools)&#xff09;。…

量化投资分析平台 迅投 QMT(四)获取标的期权的代码

量化投资分析平台 迅投 QMT [迅投 QMT](https://www.xuntou.net/?user_code7NYs7O)我目前在使用有了底层标的如何获取期权的交易代码呢&#xff1f;上代码历史帖子 迅投 QMT 我目前在使用 两个月前&#xff08;2024年4月&#xff09;迅投和CQF有一个互动的活动&#xff0c;进…

Linux--Socket编程基础

一、Socket简介 套接字&#xff08; socket &#xff09;是 Linux 下的一种进程间通信机制&#xff08; socket IPC &#xff09;&#xff0c; 使用 socket IPC 可以使得在不同主机上的应用程序之间进行通信&#xff08;网络通信&#xff09;&#xff0c;当然也可以是同一台…

【Excel】Excel中将日期格式转换为文本格式,并按日期显示。

【问题需求】 在使用excel进行数据导入的过程中&#xff0c; 有的软件要求日期列必须是文本格式。 但是直接将日期列的格式改为文本后&#xff0c;显示一串数字&#xff0c;而不按日期显示。 进而无法导入使用。 【解决方法】 使用【TXET】函数公式进行处理&#xff0c; 在单…

EDA数据跨网交换解决方案,一文了解

EDA数据通常与电子设计自动化相关&#xff0c;这是一种利用计算机辅助设计&#xff08;CAD&#xff09;软件来完成超大规模集成电路&#xff08;VLSI&#xff09;芯片的功能设计、综合、验证、物理设计等流程的技术。以下是一些会涉及到EDA数据的行业&#xff1a; 集成电路设计…

目前的 Layer2 解决方案有什么优缺点

Layer2解决方案是区块链技术中的一种扩展机制&#xff0c;旨在提高交易速度、降低成本并增加网络的可扩展性&#xff0c;同时保持主链的安全性。目前的Layer2解决方案包括状态通道&#xff08;State Channels&#xff09;、侧链&#xff08;Sidechains&#xff09;、Rollups&am…

淘宝扭蛋机源码解析:功能实现与技术细节

随着在线购物和娱乐的融合&#xff0c;淘宝扭蛋机作为一种创新的购物娱乐方式&#xff0c;受到了广大用户的喜爱。本文将深入解析淘宝扭蛋机的源码&#xff0c;探讨其功能实现与技术细节&#xff0c;以期为开发者们提供一些有价值的参考。 一、功能实现 1.用户登录与注册 淘宝…

《深入浅出OCR》项目实战:基于CRNN的文字识别

基于CRNN的文本字符验证码识别 1项目介绍链接&#xff1a; 为方便大家快速上手OCR实战&#xff0c;本次实战项目采用开源框架PaddleOCR&#xff0c;大家可以参考官网文档快速了解基本使用&#xff0c;项目数据为2022 DCIC赛题中提供的验证码数据集&#xff0c;大家可以参考其他…