DataOps驱动数据集成创新:Apache DolphinScheduler SeaTunnel on Amazon Web Services

file

引言

在数字化转型的浪潮中,数据已成为企业最宝贵的资产之一。DataOps作为一种文化、流程和实践的集合,旨在提高数据管道的质量和效率,从而加速数据从源头到消费的过程。白鲸开源科技,作为DataOps领域的领先开源原生公司,由Apache成员成立,80%的员工都是Apache Committer,主导着两个Apache顶级开源项目:Apache DolphinScheduler和Apache SeaTunnel。这些项目在全球6000多家企业中得到实践和使用,展现了DataOps的优势。

Apache DolphinScheduler:云原生时代的高稳定可视化调度平台

Apache DolphinScheduler是一个云原生的可视化工作流调度平台,它解决了企业级场景中的多个痛点,如任务单元多、执行频率高、数据量和任务量大、存在依赖关系等。与传统的老旧调度引擎相比,DolphinScheduler支持多任务类型、集群化部署与拓展,去中心分布式设计,高稳定可用,开源数据组件更新升级频率高,以及多云异构数据的管理能力。

特点

  • 开源数据组件:更新升级频率高,保持技术栈的先进性。
  • 多云异构数据管理:适应不同云环境和数据源的需求。
  • 任务稳定运行:支持百万数据量级的任务稳定运行。

Apache SeaTunnel:新一代实时多源数据同步工具——大数据高速公路

Apache SeaTunnel是一个实时多源数据同步工具,支持上百种源数据库/地点和目标数据库/地点,包括MySQL、PostgreSQL、Kafka、MongoDB、Elastic、Hive等。SeaTunnel的性能比原有解决方案快50%-2倍,甚至在某些情况下快30倍。它支持批量数据全量、增量集成以及实时数据集成,为大数据提供了高速公路。

特点

  • 性能卓越:SeaTunnel性能快50%-2倍,某些情况下快30倍。
  • 数据同步与集成:支持批量数据全量、增量集成以及实时数据集成。

WhaleStudio简介

WhaleStudio是白鲸开源科技根据全球最佳实践发布的商业版版本,

file

file

调度模块产品功能

工作流编排能力

它支持各类计算任务组件,如Amazon DMS、Amazon Datasync、Apache Linkis,DataX,Sqoop,SeaTunnel等,以及各类云数据库和计算架构,支持K8S、MLDB。平台采用插件式设计,支持自由扩展数据源支持,可视化的数据源管理,大大减少了配置修改带来的工作量。

file

file

  • 工作流基本配置:包括标签设置、租户、牌、全局变量和超时告警。
  • 执行策略:可以是并行、串行等待或串行优先。
  • 数据开发能力:包括在线IDE&集成,实现DataOps。
数据开发能力

WhaleStudio可以实现在线 IDE & 集成 ,实现 DataOps.

file

产品功能详解
  • SQL任务 在源中心创建数据源连接,在任务中指定数据源,在脚本中编写SQL语句,支持读写混合和多行SQL,支持设置多个前置SQL语句,支持调试。

file

  • 跨项目依赖任务 依赖检查任务,跨工作流检查,支持时间日期检查,支持自循环检查,依赖策略包括失败-继续和失败-等待。

  • 资源中心 – git打通 Git文件功能允许用户将整个Git仓库作为资源文件上传到资源中心,执行任务时下载脚本文件,并提供更新接口。

file

  • 数据任务血缘关系影响分析 工作流定义和任务定义的影响分析,查看任务加工的影响深度和广度,工作流实例和任务实例的影响分析。

file

  • 源中心 统一管理所有数据源,控制数据源的读写权限,重要信息加密显示,多种使用场景。

file

同步模块产品功能

WhaleTunnel支持160种数据源接口,多种数据集成方式,包括批量数据全量、增量集成和实时数据集成。它支持商业数据库实时CDC,包括Mysql cdc、PostgreSQL cdc等。

离线同步任务定义

离线同步任务定义包括Source和Sink,Source用来定义数据的来源,Sink用来定义数据同步的目标。支持选择同步字段、全表同步、已有表结构处理、已有数据处理和保障数据一致性。

file

实时同步任务定义

实时同步任务定义包括创建数据源、Source和任务设置。支持历史数据阶段每次读取的行数、作业启动模式、在快照读取阶段读取增量日志并去重数据、并行度设置等。

file

数据转换及处理–Transform

WhaleTunnel提供多种数据转换节点,可以在数据同步管道中对表属性或数据进行转换处理,包括单列复制多列、单列拆分为多列、字段删除、字段重命名、字段值替换、数据变更处理、自定义sql脚本等。

Transform可适配实时同步中的DDL变更,如根据表达式匹配的transform会自动对新增字段进行处理。

表DDL变更检查–刷新表元数据

WhaleTunnel支持对同步任务中配置的表进行表结构变更检查,以获取尤其是离线同步任务中的表结构变化。支持主动批量检查发现表结构变更和定时批量检查发现表结构变更。

file

实时数据同步支持DDL变更触发暂停、报警以及延迟告警

实时数据处理支持多种实时数据监测处理,包括DDL变更暂停、DDL变更告警、DDL暂停加表、DDL手工处理等。

产品功能
  • 数据质量校验

数据质量支持多种数据源,包括正则表达式、表行数校验、两表值比对、空值检测、使用Spark实现、及时性校验、多表准确性、字段长度校验、枚举值校验、自定义SQL、唯一性校验。

file

  • 数据质量场景

数据质量比对类型包括两表值比对,场景如计算语文成绩详情表yunwen_list所有人的总分和成绩汇总表chengji中语文总成绩,两者差值在1分以内,否则就阻断工作流执行。

file

Demo

下面是一个Demo,详细演示如何从Aurora CDC实时数据同步到Redshift:

https://www.bilibili.com/video/BV19zq2YpEFd/

src="//player.bilibili.com/player.html?isOutside=true&aid=113632822167469&bvid=BV19zq2YpEFd&cid=27285128673&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true">

结语

Apache DolphinScheduler和Apache SeaTunnel作为全球领先的开源原生DataOps平台,不仅提供了强大的数据集成和调度能力,还通过其商业版本WhaleStudio,帮助企业智能化地完成多数据源、多云及信创环境的数据集成、数据开发、工作流编排运维及部署、数据质量管控、团队敏捷协作等一系列问题。这些工具的全球应用案例证明了它们在数据集成领域的创新和领导地位。随着技术的不断进步和企业需求的日益增长,DataOps将继续引领数据管理的未来。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/63441.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【硬件IIC】stm32单片机利用硬件IIC驱动OLED屏幕

之前操作OLED屏幕都是用GPIO模拟IIC去驱动,最近打算用硬件IIC去驱动,于是写下这个demo,在这个过程中遇到一点小坑,记录一下,本文章非小白教程,所以只突出踩到的坑点,文章中涉及到的OLED也是网上资料写烂的&…

python如何自动加空格

首先,需要进行打开的一个pycharm的软件,可进行双击的打开该软件。 可以看到的是在当前的打开的文件中,格式相对较乱一下。格式不对会格式错误。 然后点击菜单栏中的“code”。 在弹出的下拉菜单中选择“reformat code”选项。 可以看到的是在…

【开源免费】基于SpringBoot+Vue.JS网上订餐系统(JAVA毕业设计)

本文项目编号 T 018 ,文末自助获取源码 \color{red}{T018,文末自助获取源码} T018,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 新…

串口通信和SPI通信详解

0、背景 在现代嵌入式系统中,通信是不同模块之间交换数据的核心。串口通信和 SPI(串行外设接口)是两种常见的通信方式,它们各自有独特的优势和适用场景。 1、串口通信 1.1、串口通信概念 串口通信是一种常见的异步串行通信协议…

javase-17、API.数学相关

一、Math类 Math类提供了大量的静态方法来便于我们实现数学计算,如求绝对值、取最大或最小值等。 https://doc.qzxdp.cn/jdk/17/zh/api/java.base/java/lang/Math.html 所在模块:java.base所在包: java.lang static double abs(double a)…

答题考试系统v1.6.1高级版源码分享+uniapp+搭建测试环境

一.系统介绍 一款基于FastAdminThinkPHPUniapp开发的小程序答题考试系统,支持多种试题类型、多种试题难度、练题、考试、补考模式,提供全部前后台无加密源代码,支持私有化部署 二.测试环境 系统环境:CentOS、 运行环境&#x…

浅谈仓颉语言的优劣

仓颉语言,作为华为自研的新一代编程语言,以其高效、安全、现代化的特点,引起了广泛的关注。 仓颉语言的优势 高效并发 仓颉语言的一大亮点是其轻松并发的能力。它实现了轻量化用户态线程和并发对象库,使得高效并发变得轻松。仓颉…

Sass系统数据隔离的三种方式

1.完全独立的数据库 为每一个租户单独部署一个数据库 优点:达到了真正的按租户进行隔离,不同租户之间相互没有影响,可以针对一些特殊租户例如大客户做一些定制化的开发,计费相对简单,按照资源使用进行计费。 缺点&…

FFmpeg 主要结构体剖析

FFmpeg 探索之旅 FFmpeg 主要结构体剖析 FFmpeg 探索之旅前言1、AVFormatContext2、AVCodecContext3、AVCodec4、AVStream5、AVPacket6、AVFrame7、AVCodecParameters7、SwsContext8、AVIOContext9、AVRational 总结 前言 嘿,各位小伙伴!在如今这个多媒…

经典电荷泵/Charge pump——1998.JSSC

电路结构 工作原理 M3 and M4 are the series switches, and M5, M6 switch to the highest voltage. If M5 and M6 are missing, having a large capacitor is of absolute necessity, because must always stay between 2 Vin and 2Vin - Uj to avoid switching on the vert…

Swin transformer 论文阅读记录 代码分析

该篇文章,是我解析 Swin transformer 论文原理(结合pytorch版本代码)所记,图片来源于源paper或其他相应博客。 代码也非原始代码,而是从代码里摘出来的片段,配上简单数据,以便理解。 当然&…

GPT-Omni 与 Mini-Omni2:创新与性能的结合

近年来,随着人工智能技术的飞速发展,各种模型和平台应运而生,以满足从个人用户到企业级应用的多样化需求。在这一领域,GPT-Omni 和 Mini-Omni2 是两款备受瞩目的技术产品,它们凭借独特的设计和强大的功能,在…

龙迅#LT7911E适用于EDP/DP/TPYE-C转MIPIDSI应用,支持图像处理功能,内置I2C,主应用副屏显示,投屏领域!

1. 描述 LT7911E 是一款高性能 eDP 转 MIPI D-PHY 转换器,旨在将 eDP 源连接到 MIPI 显示面板。 LT7911E 集成了一个符合 eDP1.4 标准的接收器,支持 1.62Gbps 至 5.67Gbps 的输入数据,以 270Mbps 的递增步长,以及一个 2 端口 D…

C语言——实现求出最大值

问题描述&#xff1a;利用C语言自定义函数求出一维数组里边最大的数字 //利用函数找最大数#include<stdio.h>int search(int s[9]) //查找函数 {int i , max s[0] , max_xia 0;for(i0;i<9;i){if(s[i] > max){max_xia i;max s[max_xia];}}return max; } in…

解锁 draw.io 流程图制作工具Docker私有化部署(2/2)

一、draw.io 流程图制作工具简介 &#xff08;一&#xff09;基础介绍 draw.io 是一款备受青睐的开源流程图软件&#xff0c;它有着诸多优点。首先&#xff0c;其界面十分整洁有序&#xff0c;完全没有广告的干扰&#xff0c;并且所有功能都是免费向用户开放的&#xff0c;这一…

[HNCTF 2022 Week1]baby_rsa

源代码&#xff1a; from Crypto.Util.number import bytes_to_long, getPrime from gmpy2 import * from secret import flag m bytes_to_long(flag) p getPrime(128) q getPrime(128) n p * q e 65537 c pow(m,e,n) print(n,c) # 62193160459999883112594854240161159…

docker run命令大全

docker run命令大全 基本语法常用选项基础选项资源限制网络配置存储卷和挂载环境变量重启策略其他高级选项示例总结docker run 命令是 Docker 中最常用和强大的命令之一,用于创建并启动一个新的容器。该命令支持多种选项和参数,可以满足各种使用场景的需求。以下是 docker ru…

Java中JDBC过时方法的替代方案以及JDBC为什么过时详细分析

在Java中&#xff0c;JDBC的一些方法因为安全问题、性能问题或者因为引入了更好的替代方法已经被标记为过时&#xff08;Deprecated&#xff09;。 以下是一些被过时的JDBC方法以及它们的替代方案&#xff1a; 1.DriverManager.getDrivers(): 这个方法用于获取所有当前注册的J…

详细指南:在Ubuntu 20.04 ROS 1环境下设置和使用OpenNI2 SDK

详细指南&#xff1a;在Ubuntu 20.04 ROS 1环境下设置和使用OpenNI2 SDK 要在Ubuntu 20.04系统上使用ROS 1环境中的OpenNI2 SDK&#xff0c;您需要按照一系列有组织的步骤进行操作&#xff0c;以确保软件和驱动正确安装&#xff0c;并配置好相应的开发环境。以下是详细的步骤说…

RK3568平台(Kbuild篇)vmlinux 编译过程

一.vmlinux是什么 vmlinux 是 Linux 操作系统的内核映像文件,它包含了 Linux 内核的所有功能代码和必要的数据结构。这个文件通常是没有经过压缩和符号表去除的原始可执行文件。 具体来说,vmlinux 文件是编译后的 Linux 内核的最终产物,通常是 ELF(可执行和可链接格式)格…