使用 HoodieMultiTableStreamer 进行 Debezium CDC 多表同步入湖的研究报告

先介绍一下大的背景吧,我们已经能通过 Flink CDC 将整个数据库同步到 Kafka 中了,这一部分的实现方案已经汇总在了 《Flink CDC 整库 / 多表同步至 Kafka 方案(附源码)》一文中。接下来要完成的是后半程的工作:读取 Kafka 的 Debezium CDC 数据写入到数据湖的 Hudi 表中,这样就能完整地实现整个数据库同步入湖的设计目标,当然,要求还是:“源库整库 / 多表 => Kafka”是一个作业,“Kakfa => Hudi 整库 / 多表”也是一个作业,这样才有比较强的实用性。

“Kakfa => Hudi 整库 / 多表” 的实现,我们有两个大的调研方向:

  • 利用 Hudi 内置的 HoodieMultiTableStreamer / HoodieMultiTableDeltaStreamer 实现多表入湖
  • 在 Spark 中通过编程(主要是利用 foreachBatch 方法)自主实现将一个 Stream 分流写入多张 Hudi 表(该方案被人验证过,是可行的,但每张的表 schema 信息依赖的是 Spark 的类型推断,这种方式没有使用 Schema Registry 来得安全高效!)

如果两种方案都是可行的,那么前者,也就是使用 Hudi 内置的 HoodieMultiTableStreamer / HoodieMultiTableDeltaStreamer 无疑是更明智的选择,因为作为

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/14942.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

个人博客网站开发笔记3

文章目录 前言p4 Front Matterp5 配置文件p6 命令p7 部署新的教学视频部署博客到github找视频教程也是一个技能详细步骤安装主题安装渲染器修改主题创建gitub仓库生成密钥验证密钥是否匹配修改config文件推送到github 前言 主要是安装啥的比较费劲 现在已经比较简单了感觉 之…

Android 共享内存

Parcelable 和 Serializable 区别 Serializable IO完成(通过磁盘文件读写) Parcelable C 对象指针 来实现共享内存 import android.os.Parcel; import androidx.annotation.NonNull;public class ApiResponseBean extends Throwable implements Parce…

基于 Java 的浏览器——JxBrowser使用分享

软件介绍 JxBrowser 是一个基于 Java 的浏览器,它使用 Chromium 引擎来提供高性能的网页渲染和丰富的功能。它支持多种 GUI 框架,如 Swing、JavaFX 和 SWT,使得在 Java 应用程序中嵌入浏览器组件变得简单。 JxBrowser 是一个适用于多种用途…

Django rest_framework 基础应用

1. Django rest_framework示例 以下是一个使用 Django REST framework 构建简单 API 的示例: 模型 首先,我们需要定义一个 Django 模型来表示我们要处理的数据。例如,我们可以定义一个名为 Book 的模型,包含以下字段&#xff1…

学习笔记——STM32F103的V3版本——3*3矩阵键盘控制数码管

一.硬件 1.数码管 2.3*3的矩阵键盘(自己做的模块(手残党一枚)) 3.总体连接 二.在Keil5中的部分软代码 test.c中: #include "sys.h" #include "usart.h" #include "delay.h" #include …

“高考钉子户”唐尚珺决定再战2024年高考

“高考钉子户”唐尚珺决定在2024年再次参加高考,这个选择确实很特别也很有趣。十几年连续参加高考,他已经积累了大量的备考经验和应试技巧。这样的经验对于高考辅导机构来说无疑是非常宝贵的资源,他如果选择去辅导机构当老师,应该…

Spring Boot实战指南:从入门到企业级应用构建

目录 一、引言 二、快速入门 1. 使用Spring Initializr创建项目 三、Spring Boot基础概念与自动配置 1. 理解SpringBootApplication注解 2. 自动配置原理 3. 查看自动配置报告 四、Spring Boot核心特性及实战 1. 外部化配置 2. Actuator端点 3. 集成第三方库 五、Sp…

Vitis HLS 学习笔记--控制驱动任务示例

目录 1. 简介 2. 代码解析 2.1 kernel 代码回顾 2.2 功能分析 2.3 查看综合报告 2.4 查看 Schedule Viewer 2.5 查看 Dataflow Viewer 3. Vitis IDE的关键设置 3.1 加载数据文件 3.2 设置 Flow Target 3.3 配置 fifo 深度 4. 总结 1. 简介 本文对《Vitis HLS 学习…

【编译原理】词法分析器的设计与实现

一、实验目的 通过设计编制调试一个具体的词法分析程序,加深对词法分析原理的理解。并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。 编制一个读单词过程,从输入的源程序中,识别出各个具有独立意义的单词&…

SQLmap学习以及题解运用

1.简介 SQLmap是一款开源的SQL注入工具,用于检测和利用Web应用程序的SQL注入漏洞。SQLmap支持多种数据库管理系统,包括MySQL、Oracle、PostgreSQL、Microsoft SQL Server、SQLite等,并支持各种不同的操作系统和平台。 这里主要分为四大部分…

深入了解 Python 生成器与协程机制

背景介绍 在 Python 中由于 GIL 锁的存在,多线程的并发效率不高。为了比较高效地实现并发,在 Python 中一般的方案是采用多进程 协程的方案。 协程也被称为纤线程,是一种程序级别的并发控制,多个协程会执行在同一线程中。协程的…

同余定理性质

在算法题中碰到的这个同余定理定理,记录一下性质

RabbitMQ01-liunx下安装及用户权限分配

ErLang安装 RabbitMQ是使用ELang语言编写,所以在Liunx下安装RabbitMQ时要先安装ErLong依赖。 安装步骤 下载:https://www.erlang.org/downloads安装依赖: yum -y install make gcc gcc-c kernel-devel m4 ncurses-devel openssl-devel unixOD…

机器学习之常用算法与数据处理

一、机器学习概念: 机器学习是一门多领域交叉学科,涉及概率论、统计学、计算机科学等多门学科。它的核心概念是通过算法让计算机从数据中学习,改善自身性能。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识…

Android Low Storage机制之DeviceStorageMonitorService

一、Android 版本 Android 13 二、low storage简介(DeviceStorageMonitorService) 设备存储监视器服务是一个模块,主要用来: 1.监视设备存储(“/ data”)。 2.每60秒扫描一次免费存储空间(谷歌默认值) 3.当设备的存储空间不足…

亚信安慧AntDB:数字化转型的关键力量

在数字化浪潮的推动下,数据已成为推动经济发展的新动力。亚信安慧AntDB数据库凭借其卓越性能和灵活的应用能力,在满足我国IT系统与产业数据多样化需求的过程中发挥着重要作用。AntDB数据库承载着无限可能,随着国家数字化转型的不断深入&#…

【项目】教你手把手完成博客系统(三)显示用户信息 | 实现退出登录 | 实现发布博客

文章目录 教你手把手完成博客系统(三)7.实现显示用户信息1.约定前后端交互接口2.前端通过ajax发起请求3.服务器处理请求 8.实现退出登录1.约定前后端的接口2.前端发起请求3.服务器处理请求 9.实现发布博客1.约定前后端的交互接口2.前端构造请求3.服务器处…

回溯法的重要延展题目

留个坑!!! 1.332重新安排行程 332. 重新安排行程 - 力扣(LeetCode) 2.51 N皇后问题 51. N 皇后 - 力扣(LeetCode) 思路: 印象中,对不同角度进行扫描,从…

web自动化-JavaScript操作

做UI自动化的时候,有些操作无法直接通过selenium自带方法操 作成功,那么就需要借助前端js操作实现。 比如浏览器的滚动条这种不是html页面的内容,无法直接通过selenium 控制到。需要借助JavaScript控制。比如有些点击操作无法通过普通点击鼠…

齐护K210系列教程(三十)_多任务切换

多任务切换 1,任务1的设定2,任务2的设定3,主程序4, 课程资源联系我们 在开发项目时,我们常会用到AIstart的多个任务来切换应用,比如当我识别到某种卡片时,要切换到别的任务,这样就要…