8分钟带你快速了解Connector/Catalog API的核心设计

引言

在现代大数据应用中,数据集成和同步成为企业数据管理的关键环节。随着数据源和数据库的多样化,如何高效地进行数据集成成为企业面临的重要挑战。

file

Apache SeaTunnel 作为一款开源的数据集成工具,致力于解决这一问题。本文将详细介绍 SeaTunnel 的架构、工作流程、Connector 设计及实现,并分享其最新的发展与未来展望。

摘要

Apache SeaTunnel 是一个高效、易用的数据集成工具,支持多种数据源和计算引擎。

本文首先介绍 SeaTunnel 的背景和设计目标,接着详细解析其架构演变和工作流程,重点探讨 SeaTunnel Connector 和 Catalog API 的设计与实现。

最后,本文展望了 SeaTunnel 的未来发展方向,旨在帮助读者全面理解和应用这款优秀的开源工具。

自我介绍与分享主题

大家好,我是周尧,Apache SeaTunnel 的 committer。今天非常高兴有机会与大家分享关于数据集成工具 SeaTunnel 的内容。

本次分享的主题主要包括 SeaTunnel Connector Catalog API 的核心实践以及社区的最新进展。

分享内容概览

今天的分享主要分为以下六个部分:

  1. Apache SeaTunnel 简介
  2. 架构总览
  3. 工作流程
  4. Connector 的发展及设计实现
  5. Catalog 的设计实现
  6. SeaTunnel 近期计划

SeaTunnel 简介

在当今大数据快速发展的背景下,出现了越来越多的数据源、数据仓库和数据库。对于企业而言,如何实现这些异构源与目标端之间的数据同步成为了一个越来越重要的问题。Apache SeaTunnel 提出了一个新的愿景,即成为下一代数据集成工具。

file

设计目标

SeaTunnel 的设计目标主要包括以下六个方面:

  1. 简单易用:通过简单的配置文件(config)和 shell 命令即可完成数据同步任务。
  2. 监控与指标:提供完善的监控和性能指标,能够清晰地展示数据读取和写入量、性能指标以及数据延迟等信息。
  3. 丰富的数据源生态:在设计初期,SeaTunnel 选择了国内外约 300 家数据源,虽然目前实现了其中约 100 家,但这个数字还在不断增加。
  4. 全场景支持:包括离线、实时全量增量、CDC 整库同步、DDL 加表、动态加表等功能。
  5. 数据一致性保障:确保数据不丢失、不重复、精准一致,并且支持断点续传。
  6. 资源优化:优化内存和 CPU 线程的使用,多表同步时实现数据源连接共享,减小数据源的连接压力。

SeaTunnel 发展历史

SeaTunnel 项目于 2017 年开源,当时还未捐献给 Apache 社区。直到 2021 年,SeaTunnel 正式进入 Apache 孵化器,现在已成为顶级项目。

file

Apache SeaTunnel 的架构

在讲解 SeaTunnel 现在的架构之前,我们先了解一下 SeaTunnel V1 的架构。

file

SeaTunnel V1 的架构主要依赖 Spark 和 Flink 两个数据计算引擎,并依赖于 Spark 或 Flink 的自身 Connector 进行数据传输计算。

SeaTunnel V1 架构痛点

V1 架构存在许多痛点,比如 Spark 和 Flink 对同一个数据源实现的 Connector 可能不一致。对于 Connector 参数和自身内容的改造较为困难,且支持不同 Spark 和 Flink 版本的兼容性较差。

SeaTunnel V2 架构

基于上述痛点,我们提出了 SeaTunnel V2 架构。

file

V2 架构主要分为以下几个模块:数据源模块(data source)、引擎模块(engine),以及 SeaTunnel Web。V2 架构通过对 Connector API 和 engine 的解耦,实现了一套统一的 Connector API,可以同时运行在 Spark SeaTunnel engine(即 Zeta)和 Flink 引擎上。

SeaTunnel 架构升级的五个要点

file

  1. 引擎依赖:V1 强依赖于 Spark 和 Flink 的 Connector,而 V2 通过解耦,成为一套独立的 API。
  2. 连接器实现:V1 需要分别实现 Spark 和 Flink 的 Connector,而 V2 只需实现一遍,即可在三个引擎上同步数据。
  3. 引擎版本升级:V1 升级复杂,特别是对于不通用的 Connector,版本支持较旧;V2 中,所有 Connector 支持的 Flink 版本和 Spark 版本或 Zeta 版本均一致。
  4. 参数一致性:V1 中 Spark 和 Flink 的 Connector 参数不一致,而 V2 中参数实现了统一。
  5. 自定义分片逻辑:在数据同步过程中,分片逻辑非常重要。V2 支持完全自定义的分片逻辑,无需对 Spark 和 Flink 的 Connector 进行深入了解和改造。

Apache SeaTunnel 的工作流程

支持的引擎框架

SeaTunnel 目前支持三个主流的框架:

  1. Flink
  2. Spark
  3. SeaTunnel 自研引擎 Zeta

多引擎支持可以更好地兼容企业现有的技术生态,降低 Apache SeaTunnel 的学习成本。

大多数企业都有自己的数据平台,可能已经在使用 Flink 或 Spark,这样可以采用 SeaTunnel Flink 或 SeaTunnel Spark。如果企业没有数据平台,或不想依赖这些数据平台,则可以使用 SeaTunnel Zeta引擎。

SeaTunnel 的执行流程

SeaTunnel 的执行流程如下:

file

  1. 获取任务参数:从配置文件或 Web 等方式获取任务参数。
  2. 创建组件:通过参数以 SPI 的方式获取对应的 Factory,创建对应的 Source、Sink 和 Transform 组件。
  3. 初始化 Catalog:在 Source 初始化时创建 Catalog,以获取 CatalogTable,CatalogTable 通过 TableFactoryContext 在内部传递。
  4. 翻译 Connector:将 SeaTunnel 的 Connector 翻译为引擎内部的 Connector。
  5. 执行任务:通过 Source-Transform-Sink 完成任务的执行。

连接器的执行流程(以 Spark 为例)

file

  1. SourceCoordinator:负责发现 Split 以及协调 SourceReader。
  2. SourceReader:进行数据的实际读取,将数据发送到 Transform 转换后流转到 SinkWriter。
  3. SinkWriter:进行数据的实际写入,或者预提交后将提交信息发送给 SinkCoordinator。
  4. SinkAggregatedCommitter:负责协调 SinkWriter,进行正式提交或触发中止。
  5. SinkWriter:进行最终的提交或中止。

Coordinated Source 与 CDC 的实现

Coordinated Source

Coordinated Source 的典型代表是 CDC(Change Data Capture)。CDC 实现了对于低版本 Flink 和 Spark 的支持,因为在低版本中,source split 的分片枚举器必须是单实例的。这是因为 SourceReader 在消费完数据后,会向分片枚举器请求分发下一个 split。

file

CDC 的工作流程

CDC 的主要流程包括两个阶段:快照阶段和增量读取阶段。

  1. 快照阶段

    • 分片枚举器生成表的多个快照切分,并分配给 reader。
    • 当快照切分读取完成时,reader 会将拆分的高水位报告给枚举器。
    • 当所有的快照切分都报告为高水位,枚举器开始增量阶段,报告一个完成的 split 通知所有 reader 快照阶段结束。
  2. 增量阶段

    • 枚举器结合所有快照拆分和水位信息,获得一个 log 的 split,并通过分片枚举器分发给 reader。
    • 在增量阶段,reader 通常是单并行度,一般分配给 reader 0。
多库多表支持

SeaTunnel 的 JDBC 连接器已经支持多表连接,这减轻了配置的工作量。用户只需配置一个 source,即可进行整库同步或多表同步,减轻 Source 源的连接压力,减少资源浪费。

链接:https://cwiki.apache.org/confluence/display/SEATUNNEL/STIP4-JDBC+source+supports+multi-table+reading+in+one+task

SeaTunnel 的 Sink

Sink Coordinator

Sink Coordinator 需要支持 Exactly-Once 语义。Sink Writer 接收上游数据并写入目标端,支持状态存储。HDFS 状态存储支持基于状态的重启,分布式事务支持两阶段提交,结合 checkpoint 机制保证 Sink 数据只写一次。

Sink API 特性

SeaTunnel 的 Sink API 主要应对以下功能:

  1. 并行读取
  2. 分布式事务
  3. 聚合提交
  4. 多表实现
  5. 状态存储
Sink Committer

SeaTunnel 的 Sink Committer 有多种实现模式,主要包括:

  1. GlobalCommit Run In Driver
  2. GlobalCommit Run In Worker
  3. Commit In Worker

file

Sink 支持多表实现,将不同的 Sink 包裹在一个多表 Sink 中,通过共享连接来减轻 Sink 端的压力和配置的复杂性。

Catalog API 的设计

设计目标

Catalog API 主要面向应用,旨在简化同步作业的配置,提供可视化作业配置的基础。它的设计具有以下四个特点:

  1. 数据源管理:SeaTunnel 可以通过定义一套 API 来创建数据源插件,基于 SPI 实现即可集成此数据源的配置和连接工作。
  2. 元数据获取:主要用于获取 source 的 schema 信息。
  3. 数据类型定义:SeaTunnel 有自己的 SeaTunnel row 数据类型定义,以支持多引擎。
  4. 连接器创建:基于不同的 Connector,可以实现不同的连接器。

Zeta 引擎概览

Zeta 引擎的架构分为 master 和 worker 两个部分:

file

  1. 协调服务(Coordinator Service):负责任务的解析和分发。
  2. 任务执行服务(Task Execution Service):负责实际的任务执行。

未来展望

连接器支持
  • 目前 SeaTunnel 规划支持 300 多个连接器,但目前仅支持了 100 多个。
  • 多表读取和写入的支持仍在完善中,某些连接器已支持多表的读取和写入。
  • 自动建表功能:当源端不存在表时,Sink 端可以自动创建表。
Zeta 引擎发展
  • 资源管理器支持:目前 Zeta 是 standalone 模式,未来将支持 Yarn 或 K8S 资源管理器。
  • Master 和 Worker 的分离:目前 Zeta 的 master 既负责任务解析和分发,也负责任务执行。未来计划将 master 与 worker 分离,让 master 只负责任务解析和分发,提升系统的可扩展性和性能。

结论

Apache SeaTunnel 作为一款高效、易用的数据集成工具,通过其丰富的功能和灵活的架构设计,为企业的数据同步和集成提供了强有力的支持。无论是其多引擎支持、全场景数据集成功能,还是优化的资源利用和数据一致性保障,SeaTunnel 都展示了其在大数据领域的卓越能力。

file

未来,随着更多连接器的支持和 Zeta 引擎的不断发展,SeaTunnel 将继续引领数据集成工具的发展方向。希望通过本文的介绍,读者能够深入理解 SeaTunnel 的设计理念和实现细节,充分利用这款工具为企业数据管理带来更多价值。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/41690.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Oracle】Oracle常用函数

目录 聚合函数数字函数1. ABS函数:返回一个数的绝对值。2. CEIL函数:返回大于等于给定数的最小整数。3. FLOOR函数:返回小于等于给定数的最大整数。4. ROUND函数:将一个数四舍五入到指定的小数位。5. MOD函数:返回两个…

Java 面向对象编程(OOP)的四大特征

Java 面向对象编程(OOP)的四大特征 1、抽象2、继承3、 封装4、多态性 💖The Begin💖点点关注,收藏不迷路💖 在Java编程中,面向对象编程(OOP)是一个核心概念。OOP的四大基…

总结一下 .NET FrameWork 和 .NET Core 创建的项目的不同点

前言 从 Visual Studio 2022 开始,微软开始淡化 .NET Framework 的概念,在项目向导中,只有使用带 “.NET Framework” 的项目模板创建的才是 .NET Framework 项目,使用其他模板创建的都是 .NET Core 项目 比如,如果你…

​智汇云舟参编的数字孪生团标在2024全球数字经济大会上发布

7月4日,2024全球数字经济大会元宇宙创新发展论坛,2024年“创客中国”元宇宙中小企业创新创业大赛颁奖活动在北京成功举办。智汇云舟作为数字孪生行业头部企业和视频孪生技术首倡者受邀出席活动,并与中国人民大学、摩尔线程等11家知名院校和企…

Java | Leetcode Java题解之第218题天际线问题

题目&#xff1a; 题解&#xff1a; class Solution {public List<List<Integer>> getSkyline(int[][] buildings) {PriorityQueue<int[]> pq new PriorityQueue<int[]>((a, b) -> b[1] - a[1]);List<Integer> boundaries new ArrayList&l…

算法库应用--寻找最长麦穗

学习贺利坚老师算法库 数据结构例程——串的顺序存储应用_使用顺序串存储身份证号-CSDN博客 本人详细解析博客 串的顺序存储的应用实例二_串的顺序存储应用-CSDN博客 版本更新日志 V1.0: 在原有的基础上, 进行优化名字, 并且有了相应的算法库作为支撑, 我使用了for循环来代替老…

【Linux进阶】ext2文件系统(inode)

1.再谈inode (1) 理解inode&#xff0c;要从文件储存说起。 文件储存在硬盘上&#xff0c;硬盘的最小存储单位叫做"扇区"&#xff08;Sector&#xff09;。每个扇区储存512字节&#xff08;相当于0.5KB&#xff09;。操作系统读取硬盘的时候&#xff0c;不会一个个…

jenkins学习

一、jenkins介绍 1.介绍 Jenkins 是一款流行的开源持续集成&#xff08;Continuous Integration&#xff09;工具&#xff0c;广泛用于项目开发&#xff0c;具有自动化构建、测试和部署等功能 2.特点 开源的Java语言开发持续集成工具&#xff0c;支持持续集成&#xff0c;持…

《扩音器声音太小?来看保姆级改装教程》

在我们的日常生活中&#xff0c;你是否曾遇到过这样的困扰&#xff1a;在课堂教学时&#xff0c;扩音器的声音被嘈杂的环境所掩盖&#xff1b;组织活动时&#xff0c;后排的听众总是抱怨听不清声音&#xff1b;又或者在热闹的集市中&#xff0c;你想要宣传自己的商品&#xff0…

win11中配制了系统的环境变量mvn/java,但是mvn/java就是提示不存在的解决方法。

1、已经配制了环境变量&#xff0c;但是提示mvn不存在 2、然后我们在开始程序中查看到cmd&#xff0c;然后以管理员运行&#xff1a; 这样的话&#xff0c;是可以mvn这个命令的&#xff0c;而且只有这种方式是可以的&#xff0c;其它的方式&#xff0c;就算设置了以管理员身份运…

54、一维和二维自组织映射(matlab)

1、一维和二维自组织映射原理 一维和二维自组织映射&#xff08;Self-Organizing Maps, SOM&#xff09;是一种无监督的机器学习算法&#xff0c;通过学习输入数据的拓扑结构&#xff0c;将高维输入数据映射到低维的网格结构中&#xff0c;使得相似的输入数据点在映射空间中也…

二叉树中的前序、中序、后续遍历(C语言)

目录 前序遍历概念代码递归分解图 中序遍历概念代码 后序遍历概念代码 前序遍历 概念 概念&#xff1a; 前序遍历(Preorder Traversal 亦称先序遍历)——访问根结点的操作发生在遍历其左右子树之前。 简单点来说就是&#xff1a;根 左子树 右子树的访问顺序 例如&#xff1a;…

第TR1---TR3周: Pytorch复现Transformer

TR1 一、文本输入处理 1. 词向量 和常见的NLP 任务一样&#xff0c;首先会使用词嵌入算法&#xff08;embedding algorithm&#xff09;&#xff0c;将输入文本序列的每个词转换为一个词向量。 如下图所示&#xff0c;假设我们的输入文本是序列包含了3个词&#xff0c;那么每…

如何实现一套键盘鼠标控制两台计算机(Mouse Without Borders快速上手教程)

需求背景 当我们需要同时使用一台主机和一台笔记本的时候&#xff0c;如果使用两套键盘和鼠标分别操作各自的系统&#xff0c;非常地不便捷且非常占据桌面空间。那么如何使用一套键盘鼠标控制两台电脑呢&#xff1f; 需求实现 软件说明 我们可以使用微软官方的一款软件Mous…

【吊打面试官系列-MyBatis面试题】为什么说 Mybatis 是半自动 ORM 映射工具?它与全自动的区别在哪里?

大家好&#xff0c;我是锋哥。今天分享关于 【为什么说 Mybatis 是半自动 ORM 映射工具&#xff1f;它与全自动的区别在哪里&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; 为什么说 Mybatis 是半自动 ORM 映射工具&#xff1f;它与全自动的区别在哪里&#xf…

网络防御保护——网络安全概述

一.网络安全概念 1.网络空间---一个由信息基础设施组成相互依赖的网络 。 网络空间&#xff0c;它跟以前我们所理解的网络不一样了&#xff0c;它不光是一个虚无缥缈的&#xff0c;虚拟的东西&#xff0c;它更多的是融入了我们这些真实的物理设备&#xff0c;也就意味着这个网…

transformer初探

transformer初探 self-attentionmultihead-attentionencoderdecoder self-attention 其实就是三个矩阵&#xff0c; W q W_q Wq​、 W k W_k Wk​、 W v W_v Wv​&#xff0c;这三个矩阵就是需要训练的参数。分别得到每个token对应的 q q q k k k v v v&#xff0c;其中 q …

maven的卸载与安装

卸载 1.找到当前的maven路径:使用 mvn -v 查看当前maven的安装目录在哪 2.删掉 sudo rm -rf [maven的路径] 3.再次输入 mvn -v 查看是否删除成功 安装 1.下载maven安装包 https://archive.apache.org/dist/maven/maven-3/3.6.3/binaries/ 注意&#xff1a;maven版本请使用3.…

刷题之移除元素(leetcode)

移除元素 这题简单题&#xff0c;但是前面思路是先找到左边第一个不是val的&#xff0c;和右边第一个不是val的&#xff0c;进行交换&#xff0c;边界条件没有处理好&#xff0c;导致报错&#xff08;水平真菜&#xff09; 也可以直接把left是val的与right进行交换&#xf…

【HTML入门】第二课 - head标签下的常见表情们

目录 1 本节概要 2 head下的常见标签 2.1 网页编码设置 2.2 网页的标题 2.3 样式标签 3 head标签的内容不会显示到网页上 4 查看网页源代码 1 本节概要 上一节&#xff0c;我们说了HTML网页最基本的框架标签&#xff0c;说到标签分为head头部和body身体部分。这一小节呢…