使用EMR-Kafka Connect进行数据迁移

news/2025/4/26 19:00:00/文章来源:https://blog.csdn.net/yunqiinsight/article/details/97758082

1.背景

流式处理中经常会遇到Kafka与其他系统进行数据同步或者Kafka集群间数据迁移的情景。使用EMR Kafka Connect可以方便快速的实现数据同步或者数据迁移。

Kafka Connect是一种可扩展的、可靠的，用于在Kafka和其他系统之间快速地进行流式数据传输的工具。例如可以使用Kafka Connect获取数据库的binglog数据，将数据库的数据迁入Kafka集群，以同步数据库的数据，或者对接下游的流式处理系统。同时，Kafka Connect提供的REST API接口可以方便的进行Kafka Connect的创建和管理。
Kafka Connect分为standalone和distributed两种运行模式。standalone模式下，所有的worker都在一个进程中运行；相比之下，distributed模式更具扩展性和容错性，是最常用的方式，也是生产环境推荐使用的模式。

本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移，使用distributed模式。

2.环境准备

创建两个EMR集群，集群类型为Kafka。EMR Kafka Connect安装在task节点上，进行数据迁移的目的Kafka集群需要创建task节点。集群创建好后，task节点上EMR Kafka Connect服务会默认启动，端口号为8083。

注意要保证两个集群的网路互通，详细的创建流程见创建集群。

3.数据迁移

3.1准备工作

EMR Kafka Connect的配置文件路径为/etc/ecm/kafka-conf/connect-distributed.properties。

在源Kafka集群创建需要同步的topic，例如

另外，Kafka Connect会将offsets, configs和任务状态保存在topic中，topic名对应配置文件中的offset.storage.topic、config.storage.topic 和status.storage.topic三个配置项。默认的，Kafka Connect会自动的使用默认的partition和replication factor创建这三个topic。

3.2创建Kafka Connect

在目的Kafka集群的task节点(例如emr-worker-3节点)，使用curl命令通过json数据创建一个Kafka Connect。

json数据中，name字段代表创建的connect的名称，此处为connect-test；config字段需要根据实际情况进行配置，其中的变量说明如下表

3.3查看Kafka Connect

查看所有的Kafka Connect

查看创建的connect-test的状态

查看task的信息

3.4数据同步

在源Kafka集群创建需要同步的数据。

3.5查看同步结果

在目的Kafka集群消费同步的数据。

可以看到，在源Kafka集群发送的100000条数据已经迁移到了目的Kafka集群。

4.小结

本文介绍并演示了使用EMR kafka Connect在Kafka集群间进行数据迁移的方法，关于Kafka Connect更详细的使用请参考Kafka官网资料和REST API使用。

原文链接
本文为云栖社区原创内容，未经允许不得转载。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/518285.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

亚信安全发布“安全定义边界”2020发展理念赋能企业在5G时代的数字化安全运营能力

亚信安全发布“安全定义边界”2020发展理念赋能企业在5G时代的数字化安全运营能力

2020年4月21日，以“信行合一聚势致远”为主题的亚信安全2020合作伙伴大会正式在云端拉开帷幕，超过1500家生态伙伴相聚云端，在为期3天的大会上共话安全，共商发展。会上，亚信安全正式发布“安全定义边界”2020发展理念&…

阅读更多...

JavaScript-Date日期对象

JavaScript-Date日期对象

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body> <script>const now new Date(); // Tue Aug 10 2021 15:32:27 GMT0800 (中国标准时间)now.g…

阅读更多...

如何实现input输入框自带清除按钮

如何实现input输入框自带清除按钮

最近，项目中需要，在输入框获取焦点是动态显示“”图标。即在输入框中输入内容时，右边显示“”按钮；输入框为空时，“”按钮消失。难点在于获取焦点的同时，获取输入内容。注意：本例子的样式基于…

阅读更多...

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

真正跟贾扬清近距离接触后笔者发现，这位被很多人称为“AI 架构大神”的 80 后青年科学家，更像一位温柔且平易近人的邻家“学霸”，虽然技能全面碾压但丝毫没有架子。加入阿里以来，贾扬清一直忙于了解集团覆盖范围极广的各项产品和业…

阅读更多...

python-解码 decode 报错的问题

python-解码 decode 报错的问题

当解码使用默认的 decode() 拨错时，可以设置 errors 参数的值来解决 print(line) line_de_replace line.decode(errorsreplace).strip() # 用？代替 print("line_de_replace:", line_de_replace) line_de_ignore line.decode(errorsignore)…

阅读更多...

layui Form内容重置清空

layui Form内容重置清空

layer.open({type: 1,anim: -1,title: 添加单位,closeBtn: 1,offset: r,// shade: 0.1,shadeClose: true,skin: layui-anim layui-anim-rl layui-layer-adminRight,content: $(#innerBox),area: [500px, 90%],btn: [确定, 取消],success: function(layero, index) {// 重置清空…

阅读更多...

字节码技术在模块依赖分析中的应用

字节码技术在模块依赖分析中的应用

背景近年来，随着手机业务的快速发展，为满足手机端用户诉求和业务功能的迅速增长，移动端的技术架构也从单一的大工程应用，逐步向模块化、组件化方向发展。以高德地图为例，Android 端的代码已突破百万行级别&#xff0…

阅读更多...

华为发布基于自进化AI的HiSec Insight安全态势感知系统

华为发布基于自进化AI的HiSec Insight安全态势感知系统

2020年4月21日，华为举办“安全新视界，AI知未然”主题线上发布会，邀请第三方研究机构、行业客户和合作伙伴共同探讨安全态势感知系统的演进方向，并见证华为HiSec Insight安全态势感知系统的全新面世。华为HiSec Insight安全态势感知…

阅读更多...

“做好大数据测试，我是认真的！”

“做好大数据测试，我是认真的！”

阿里妹导读：大数据已然是当下的重要课题，大大小小的企业在重视大数据的同时，也渐渐重视大数据质量的问题。阿里巴巴测试开发专家小郅，今天会分享他对数据测试的系统性思考。文章内容架构清晰，内容较长，建议…

阅读更多...

JavaScript-面向对象原型继承

JavaScript-面向对象原型继承

let user {name: "wang",age: 3,run: function () {console.log(this.name " run ......");} };let bob {name: "bob" };// bob 的原型是 user bob.__proto__ userbob.run() // bob run ...... console.log(bob.age) // 3 console.log(bo…

阅读更多...

从安全到镜像流水线，Docker 最佳实践与反模式一览

从安全到镜像流水线，Docker 最佳实践与反模式一览

作者 | Timothy Mugayi译者 | 弯月，责编 | 夕颜封图 | CSDN付费下载自视觉中国出品 | CSDN（ID:CSDNnews）在使用Docker的大部分时间里，我们并不关心其内部的工作原理。仅凭启动一个Docker容器并且让应用程序运行良好，并…

阅读更多...

ChaosBlade 发布对 C++ 应用混沌实验的支持

ChaosBlade 发布对 C++ 应用混沌实验的支持

前言为满足 C 应用系统故障演练，阿里妈妈安全生产团队开源了 C 混沌实验执行器，填补了 C 应用混沌工程实验的空白，其遵循《混沌实验模型》，可通过 ChaosBlade 工具直接执行。项目详情点击这里！ 。本文重点介绍该执…

阅读更多...

TortoiseGitPlink提示输入密码解决方法

TortoiseGitPlink提示输入密码解决方法

文章目录一、现象二、解决方法2.1. 打开TortoiseGit 下的puttygen工具2.2. 点击load，加载私钥2.3. 生成一个新的私钥2.4. 项目拉取2.5. 配置新的私钥一、现象二、解决方法 2.1. 打开TortoiseGit 下的puttygen工具双击D:\software\TortoiseGit\bin下面的puttyg…

阅读更多...

引领高并发直播场景进入毫秒时代，阿里云发布超低延时直播服务

引领高并发直播场景进入毫秒时代，阿里云发布超低延时直播服务

近日，阿里云上线超低延时直播服务RTS（Real-time Streaming），该服务在视频直播产品的基础上，进行全链路延时监控、传输协议改造等底层技术优化，支持千万级并发场景下的毫秒级延迟直播能力，保障低…

阅读更多...

JavaScript-面向对象 class 继承

JavaScript-面向对象 class 继承

class继承 class 关键字是在ES6引入的 ES6之前的写法： function Student(name) {this.name name } // 给Student新增一个方法 Student.prototype.hello function () {alert(Hello) }ES6的写法： // 定义一个学生的类 class Student1{constructor(…

阅读更多...

我26岁，月薪一万，刚实现“黄焖鸡自由”（苦笑）

我26岁，月薪一万，刚实现“黄焖鸡自由”（苦笑）

今天是CSDN微信公众号千万粉丝达成的日子，因此，“千万粉丝狂欢节”来了！第一弹超值福利来袭，前方高能：「粉丝节限定版一卡通」重磅上线！可看该大牛老师全部课程！课程涵盖热门的Java、Python和AI…

阅读更多...

Android侧滑原来可以这么优雅

Android侧滑原来可以这么优雅

前言侧滑手势在Android App应用得非常广泛，常见的使用场景包括：滑动抽屉、侧滑删除、侧滑返回、下拉刷新以及侧滑封面等。由于这些使用场景实在是太通用了，各路大神们八仙过海各显神通，每种侧滑场景都开源出了很多非常实用的框架…

阅读更多...

TortoiseGit状态图标不能正常显示的解决办法

TortoiseGit状态图标不能正常显示的解决办法

文章目录一. 运行环境一、方案11.1. 右键点击桌面空白处，打开TortoiseGit的Settings1.2. 修改Icon Overlays的Status cache1.3. 重启电脑，你就会发现你的小乌龟箭头出来了。二、方案2一. 运行环境版本说明Windows 10 64bit操作系统TortoiseGit-2.12.0.…

阅读更多...

平头哥广发英雄帖，公开首款CPU“玄铁”仿真代码

平头哥广发英雄帖，公开首款CPU“玄铁”仿真代码

“在自研芯片的路上，阿里走出了万里长征的第一步。” 7月25日，阿里云峰会上海站，压轴出场的平头哥，交出了时隔10月的首份答卷：玄铁910（XuanTie910），目前业界性能最强的RISC-V处理器…

阅读更多...

JavaScript-操作BOM对象

JavaScript-操作BOM对象

BOM（Browser Object Model）: 浏览器对象模型浏览器介绍 JavaScript 和浏览器关系？ JavaScript 诞生就是为了能够让他在浏览器中运行！ 内核： IE 6~11ChromeSafariFireFox 第三方浏览器（可以换上面的内核…

阅读更多...

最新文章