2.6倍!WhaleTunnel 客户POC实景对弈DataX

file

作为阿里早期的开源产品,DataX是一款非常优秀的数据集成工具,普遍被用于多个数据源之间的批量同步,包括类似Apache DolphinScheduler的Task类型也对DataX进行了适配和增强,可以直接在DolphinScheduler里面利用通用的数据源调用DataX进行数据批量同步。

作为DolphinScheduler的社区支持者和商业版本的提供者,白鲸开源在升级到商业版WhaleScheduler的时候也遇到使用DataX的用户,因为白鲸开源也在主力维护者另外一个Apache顶级社区 Apache SeaTunnel,它对应的商业版是WhaleTunnel。所以,经常有客户会询问,WhaleTunnel比DataX优势在哪里啊? 性能到底如何?今天这里用一个客户实际的POC案例来实景对弈下,以及最终用户为什么选择WhaleTunnel替换了开源的DataX。

功能差异

首先,从功能上,我们来对比下商业版WhaleTunnel和DataX的差异点。可以看到WhaleTunnel作为一个商业数据集成工具,不仅具备了Apache SeaTunnel开源的多线功能,还在数据源数量、可视化、DDL变更和运维监控方面都做了增强,对比DataX来讲,更是在集群稳定性、批流一体、数据源以及可视化上有明显优势:

对比项WhaleTunnel(商业)DataX
部署难度容易容易
运行模式分布式,也支持单机单机
健壮的容错机制无中心化的高可用架构设计,有完善的容错机制易受网络闪断、数据源不稳定等因素影响
支持的数据源丰富度支持批量和CDC 165种数据源: MySQL、PostgreSQL、Oracle、SQLServer、SAP Hana、Hive、S3、OSS】文件、RedShift、PolarDB
HBase、Doris、Clickhouse等实时和批量数据源还在快速增长
支持批量数据源:MySQL、ODPS、PostgreSQL、
Oracle、Hive 等 20+ 种批量数据源
商业版连接器针对多种常见数据源,Doris、StarRocks、GaussDB、Redshift、偶数等单独与原厂共同定制开发底层商业版连接器,性能大幅超过开源版连接器开源版连接器
内存资源占用
数据库连接占用少(可以共享 JDBC 连接)
自动建表支持不支持
整库同步支持不支持
断点续传支持不支持
JDBC 连接池复用支持
DDL变更支持强,支持多种数据源DDL变更不支持
可视化设计支持完全可视化数据源管理、数据Mapping定义任务定义、运维监控、告警不支持
多引擎支持基于商业扩展的SeaTunnel Zeta引擎只能运行在DataX自己的引擎上
数据转换算子(Transform)支持Copy、Filter、Replace、Split、SQL 、自定义 UDF等算子。
商业专有Transform:添加列,改类型,删除列,改列名,Transform支持DDL变更适配,在DDL变更场景也支持Transform自适应。
支持补全,过滤等算子,可以 groovy自定义算子
单机性能比DataX高30%-80%较好
批量同步支持支持
增量同步支持支持
实时同步支持不支持
CDC同步支持不支持
批流一体支持不支持
精确一致性所有JDBC访问的数据库(比如MySQL, SQLServer, PG, Oracle等)、Kafka、Hive、HDFS、File , SFTP, FTP等连接器支持不支持
可扩展性插件机制非常易扩展易扩展
进度监控及统计信息丰富的可视化监控,同步进度、速率,表同步情况,任务错误情况,同步条数等监控信息,DDL变更提醒、数据模型变更提醒等。无监控界面,可以在DolphinScheduler级别实现任务级别的监控
告警支持DDL变更告警,数据延迟告警,数据异常报警等不支持
Web UI全部可视化建立数据映射以及同步任务,并与商业版本调度WhaleScheduler集成,支持完全可视化数据源管理、任务定义、运维监控、告警等
与调度系统集成度与商业版本调度WhaleScheduler深度集成,支持各种调度传参数用于同步,比如日历,牌等信息已经与DolphinScheduler集成

性能差异

具体到性能方面,到底孰弱孰强,我们直接上用户具体测试的实际场景来看(这是在征求某零售客户许可后公布的测试POC数据内容,已混淆其中的各项业务相关内容):

测试内容:

  • 单表(80个字段,数千万条记录)
  • 源数据库:Oracle
  • 目标数据库:Apache Doris
  • WhaleTunnel与DataX并行度:10 WhaleTunnel采用可视化界面配置,DataX采用WhaleScheduler中的DataX任务进行配置。

这是WhaleTunnel测试配置截图:

file

那么测试结果如何呢?

这是WhaleTunnel同步的性能速率:

file

这是同样配置服务下,单台DataX同步Insert的速率:

file

这是同样配置服务下,单台DataX同步upsert的速率:

file

可以看到,同样的数据,在同样的并行度情况下有如下测试结论:

file

可以看到,在这个场景下,因为WhaleTunnel在源连接器读取速度、商业引擎以及商业写入连接器方面都有大幅优化,在同样并行度的Insert场景下,速度是DataX的2.2倍;而Upsert场景下,WhaleTunnel速度是DataX的2.6倍。而这只是WhaleTunnel单台服务器的场景,WhaleTunnel还支持集群部署来提高并行度性能,同时WhaleTunnel集群还支持CDC实时数据同步,可以说功能上完全就是新一代的数据集成工具。

结论

综上,可以看到WhaleTunnel在开源版的Apache SeaTunnel之上增加了大量商业版功能,并对可视化开发、引擎、接口、Transform、DDL、运维监控做了大量优化和开发。而两者基于新一代数据集成引擎SeaTunnel Zeta,在批量同步、实时同步方面都是在行业当中的佼佼者。与DataX相比,WhaleTunnel更适用于多种场景、多数据源的数据同步,同时也可以帮助用户全面从DolphinScheduler+DataX的组合中平滑升级到WhaleScheduler+WhaleTunnel的新一代DataOps平台里,满足用户多云、混合云、多数据源的批量、CDC实时的数据集成工作需求。

如果对数据集成和同步工具商业版WhaleTunnel感兴趣,可扫描下方二维码沟通咨询。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/23426.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

问题:合规电动自行车国家标准是() #学习方法#媒体#经验分享

问题:合规电动自行车国家标准是() A.必须有脚踏能实现人力骑行 B.最高设计车速不大于25km/h C.整车质量不大于55kg D.电机输出功率不大于240w 参考答案如图所示

dynamic多数据源的简单使用

背景 这几天搞了个saas项目,里面用到了多数据和execl模板导出功能, 其实我是经常用到的,但没在博客中写过,最近有点时间,正好稍微写一下。 方便大家使用 这次我先写多数据,execl模板导出下次有空在写。 使…

linux常用命令及用法

一.linux系统下可以在帮助中查看每一个命令的用法: 方法:cmd --help 例如: ls --help 二.常用命令 1.find 命令 find / -name aa //根目录下搜索aa的文件或者目录 find -name aa //相当于 find ./ -name aa 直接在当前…

破解App推广难题,Xinstall地推助手APP助你轻松触达海量用户

在日新月异的互联网环境中,App推广和运营面临着前所未有的挑战。流量红利逐渐衰退,用户获取成本不断攀升,如何迅速搭建起能满足用户需求的运营体系,成为众多企业亟待解决的问题。今天,我们将为大家介绍一款能够轻松解决…

易语言被嘲讽24年,但这个新式中文编程却大受好评?

被嘲讽了20年的易语言 在众多广为人知的编程语言中,如Java、C语言和Python,它们都是开发者们耳熟能详的工具,然而,有一门名为“易语言”的编程语言,可能并不被大多数人所熟知。 易语言,诞生于本世纪初&…

ubuntu开机黑屏

BusyBox v1.30.1 (Ubuntu 1:1.30.1-4ubuntu6.1) built-in shell (ash) Enter help for a list of built-in commands. 解决: help 看看哪个盘出问题了 fsck -y /dev/sda1 (出问题的磁盘/分区) reboot 就可以进入系统了 fsck命令&#xf…

Vulnhub-DC-3

joomla3.7.0的提权 靶机IP:192.168.20.136 kaliIP:192.168.20.128 网络有问题的可以看下搭建Vulnhub靶机网络问题(获取不到IP) 信息收集 首先nmap扫端口和版本,dirsearch跑下目录,wappalyzer也可以用下 发现服务器用的ubuntu,JoomlaCMS等…

探索数据结构:堆,计数,桶,基数排序的分析与模拟实现

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:数据结构与算法 贝蒂的主页:Betty’s blog 1. 堆排序 1.1. 算法思想 堆排序(Heap Sort)是一种基于堆数据结构的排…

PPINtonus (深度学习音调分析)帕金森病早期检测系统

帕金森病(Parkinson’s Disease,简称PD)是一种主要影响运动功能的进行性神经退行性疾病。这种疾病主要是由于大脑中一个名为黑质(substantia nigra)的区域失去产生多巴胺的神经元而引起的。PD的主要运动症状包括震颤、…

FreeRTOS学习笔记-基于stm32(9)信号量总结(二值信号量、计数型信号量、互斥信号量、优先级翻转、优先级继承)

一、什么是信号量 信号量是一种队列,用于任务间同步和资源管理的机制,主要用来传递状态。就像是一种特殊的“旗子”或“钥匙”,用来在不同的任务之间进行沟通和协调,确保它们能够正确地配合工作,不会互相干扰。 二、二…

人形机器人:工业领域的得力助手

人行机器人近2年显示出强劲的增长势头,根据最新数据预测,到2026年,中国人形机器人产业规模将突破200亿元,这一数字预示着人形机器人在未来社会中将扮演更加重要的角色。 在工业领域,由于工业环境复杂多变,对…

Spring类加载机制揭秘:深度解析“卸载”阶段

1. 引言 在Spring框架中,类的加载和卸载是一个复杂但至关重要的过程。加载主要涉及将类的字节码加载到JVM中,创建对应的Class对象,并准备使其可用的过程。而卸载,则是指当一个类不再被需要时,将其从JVM中清除&#xf…

识别图片二维码

文档地址: uni-app : wx.previewImage(Object object) | 微信开放文档 微信小程序:wx.previewImage(Object object) | 微信开放文档 longpress"seeQRcode(url)”) show-menu-by-longpress"true" //识别 这个地方不触发 …

Flutter StatefulWidget 和 StatelessWidget 的区别

在 Flutter 中,StatefulWidget 和 StatelessWidget 是两种不同类型的 Widget,它们的主要区别在于它们是否能够携带和管理状态。 StatelessWidget StatelessWidget 是不可变的,这意味着一旦它们被创建,它们的属性就不能改变。它们…

网络协议二

一、套接字Socket 基于 TCP UDP 协议的 Socket 编程,在讲 TCP 和 UDP 协议的时候,我们分客户端和服务端,在写程序的时候,我们也同样这样分。 在网络层,Socket 函数需要指定到底是 IPv4 还是 IPv6,分别对应设…

基于RNN和Transformer的词级语言建模 代码分析 log_softmax

基于RNN和Transformer的词级语言建模 代码分析 log_softmax flyfish Word-level Language Modeling using RNN and Transformer word_language_model PyTorch 提供的 word_language_model 示例展示了如何使用循环神经网络RNN(GRU或LSTM)和 Transformer 模型进行词级语言建模…

三丰云免费虚拟主机及免费云服务器评测

三丰云是一家专业的云服务提供商,其免费虚拟主机和免费云服务器备受好评。三丰云提供稳定可靠的服务,完全免费的虚拟主机和云服务器让用户可以轻松搭建自己的网站或应用。自从开始使用三丰云的免费虚拟主机和免费云服务器后,我的网站访问速度…

thinkphp3.1中怎么使model查询以其中一个字段为key,另一个字段为值的数组?

在ThinkPHP 3.1中,如果你想要以一个字段作为键(key),另一个字段作为值(value)来获取数组,可以通过查询结果集然后手动构建数组来实现。这里有一个简单的示例: // 假设我们有一个名为…

bash、zsh、fish三种流行Unix shell的区别

bash、zsh、fish三种流行Unix shell的区别 一、功能上的区别二、使用体验上的区别三、以下是每种 Shell 的常用命令行示例:BashZshFish 一、功能上的区别 bash:bash 是 Bourne Again SHell 的缩写,是 Linux 系统中默认的 Shell。bash 的特点是…

SQL性能优化 ——OceanBase SQL 性能调优实践分享(3)

相比较之前的两篇《连接调优》和《索引调优》,本篇文章主要是对先前两篇内容的整理与应用,这里不仅归纳了性能优化的策略,也通过具体的案例,详细展示了如何分析并定位性能瓶颈的步骤。 SQL 调优 先给出性能优化方法和分析性能瓶…