主流大数据调度工具DolphinScheduler之数据ETL流程

 今天给大家分享主流大数据调度工具DolphinScheduler,以及数据的ETL流程。

一:调度工具DS

主流大数据调度工具DolphinScheduler,

其定位:解决数据处理流程中错综复杂的依赖关系

任务支持类型:支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。

二,数据ETL流程(调度流程)

今天分享一个把数据从hive推送到人大金仓数据库的案例。

1,源数据--hive

hive表数据如图所示,

在这里一共5条数据,展示的4个字段都是主键,dt为分区。

2,DS主界面

项目管理主界面,包含了很多的工作流,工作流需要自己配置。

3,创建工作流

在这里,我们写一个export的sheet页,主要实现数据从hive推送到数据库。

dept的内容是指的是前置依赖。

4,工作流内容配置

表名是  f_con_fund_deal_reminder

前缀 export 指的是数据推送,一般就是把数据从hive推送到其他数据库。

最重要的是脚本内容:

这里脚本内容是支持shell任务,所以大家一定要懂shell语法。

当然还要再设置参数,这里根据shell内容来,参数可以设置多个。

5,shell脚本开发

在这里底层逻辑采用datex的方式来进行数据的ETL。

5.1,日期配置

涉及时间或者其他参数的传参。

5.2,源表配置

这里的查询语句  query_sql,是可以将其查询出来的数据进行数据的传输(功能强大!!!)。

5.3,目标表配置

tgt_tab_pkey : 是数据库该表的主键。(下次ETL,如果数据发生变更,会把同主键的数据进行变更。)

tgt_tab_column : 是源表查询出来的字段映射到目标表的字段(映射灵活)。

tgt_pre_sql : 在数据ETL之前,可以先对数据库的表先进行操作(牛逼)。

5.4,其他配置

该调度是自然日跑批还是交易日跑批。

通用配置:这部分不需要大家更改。

底层逻辑采用datex的方式来进行数据的ETL,

写在了comment_data_sync.sh里面了。

6,参数的设置/调度运行

是否补数:就是可以跑批任意哪一天的调度。

调度日期:需要自己设置。然后点击运行。

7,在目标库看ETL结果

查询发现,只有4条数据。要的就是这个,因为我们设置主键了。

同主键数据,会随机插入一条数据。这个大家看步骤一。

8,工作流日志

看看工作日志长啥样,里面运行了什么。

发现有刚刚的shell脚本运行过程:

打印最终数据推送的结果:


好啦,今天这篇主流调度工具DS的简单介绍,以及工作流创建,脚本开发,调度流程,日志查看,一整个流程,就分享到这里。

下次再见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/45888.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python学习4---迭代器和生成器的区别

一、迭代器 定义:迭代器是一个可以记住遍历的位置的对象。迭代器对象必须实现两个方法,iter() 和 next()。字符串、列表或元组等数据类型都是可迭代对象,但它们不是迭代器,因为它们不具有 next() 方法。迭代器对象用于遍历可迭代对…

冷却塔由那些配件组成

1、淋水填料 将需要冷却的水(热水)多次溅洒成水滴或形成水膜,以增加水和空气的接触面积和时间,促进水和空气的热交换。 填料在开式横流冷却塔的作用是增加循环水与空气的接触面积,并延长冷却水停留在空气中的时间&am…

LabVIEW工业设备姿态监测系统

开发了一种基于LabVIEW的工业设备姿态监测系统,针对现有监测设备在适应性和反应时间上的不足,采用了LabVIEW软件和STM32微控制器,通过高精度姿态传感器实现了对设备姿态的快速准确监测,大大提高了工业作业的安全与效率。 项目背景…

C++深度解析教程笔记9-静态成员变量,静态成员函数,二阶构造,友元,函数重载,操作符重载

C深度解析教程笔记9 第25课 - 类的静态成员变量实验-数对象个数(失败)实验-静态变量小结 第26课 - 类的静态成员函数实验-修改对象的静态变量数值实验-利用静态成员函数实验-静态变量静态函数实现统计对象个数小结 第27课 - 二阶构造模式实验-初始化是否…

百度人脸识别Windows C++离线sdk C#接入

百度人脸识别Windows C离线sdk C#接入 目录 说明 设计背景 • 场景特点: • 客户特点: • 核心需求: SDK 包结构 效果 代码 说明 自己根据SDK封装了动态库,然后C#调用。 功能接口 设计背景 • 场景特点: -…

【渗透入门】XSS

文章目录 XSS漏洞XSS举例XSS类型防御方式 XSS漏洞 XSS(Cross-Site Scripting,跨站脚本攻击)是一种常见的Web应用程序安全漏洞。XSS漏洞发生在应用程序未能充分过滤用户提供的数据,使得恶意脚本得以在不知情的用户的浏览器中被执行…

ARFoundation系列讲解 - 91 Immersal 简介

一、Immersal 简介 Immersal是一家专注于增强现实(AR)技术的公司,致力于开发和推广空间感知解决方案(简称:大空间技术)。他们的核心产品是一个名为Immersal SDK的开发工具包,通过视觉定位(VPS)能够轻松地在现实世界中实现高精度的定位和增强现实体验。 二、Immersal …

Spring Boot集成Knife4j:实现高效API文档管理

Spring Boot集成Knife4j:实现高效API文档管理 在软件开发过程中,编写和维护接口文档是一项必不可少的任务。随着微服务架构的流行,API文档的重要性日益凸显。然而,传统的手动编写文档方式不仅效率低下,而且容易出错。…

支持前端路由权限和后端接口权限的企业管理系统模版

一、技术栈 前端:iview-admin vue 后端:springboot shiro 二、基于角色的权限控制 1、路由权限 即不同角色的路由访问控制 2、菜单权限 即不同角色的菜单列表展示 3、按钮权限 即不同角色的按钮展示 4、接口权限 即不同角色的接口访问控制 三…

数字化时代的生产革新:数字孪生平台如何助力新质生产力

一.新质生产力 在当今快速发展的科技和信息时代,企业和组织在提高生产效率和质量方面面临着越来越多的挑战和机遇。新质生产力的概念应运而生,强调通过创新和技术进步,不仅提升生产的数量和速度,更重要的是优化生产方式、改善产品…

leetcode热题100.分割等和子集(动态规划)

分割等和子集 Problem: 416. 分割等和子集 思路 我选择使用动态规划的方法来解题。我们需要判断是否可以将数组分割成两个子集,使得这两个子集的和相等。这个问题可以转化为在数组中找到一个子集,使得其和等于数组总和的一半。 解题过程 首先&#xf…

消息队列-RocketMQ

消息队列-RocketMQ 1、RocketMQ是什么?2、RocketMQ有什么优缺点?3、消息队列主要有哪几种消息模型?4、RocketMQ主要使用哪种消息模型?5、RocketMQ的基本架构是怎样的?有哪些核心组件?6、RocketMQ通过什么方式保证消息的可用性和可靠性?7、什么情况下会发生消息丢失?Roc…

设计模式大白话之装饰者模式

想象一下,你走进一家咖啡馆,点了一杯美式咖啡。但是,你可能还想根据自己的口味添加一些东西,比如奶泡、巧克力粉、焦糖酱或是肉桂粉。每次你添加一种配料,你的咖啡就会变得更丰富,同时价格也会相应增加。 在…

图——图的应用02最短路径(Dijkstra算法与Floyd算法详解),拓扑排序及关键路径

前面介绍了图的应用——01最小生成树章节,大家可以通过下面的链接学习: 图——图的应用01最小生成树(Prim算法与Kruskal算法详解) 今天就讲一下图的其他应用——最短路径,拓扑排序及关键路径。 目录 一&#xff0c…

HG/T 3655-2024 紫外光UV固化木器涂料检测

紫外光UV固化木器涂料是指由活性低聚物、活性稀释剂、光引发剂和其他成分组成的水性、非水性紫外光固化木器涂料,主要用于室内用木质地板、家具、装饰板等木器的装饰与保护。 HG/T 3655-2024紫外光UV固化木器涂料检测项目: 测试指标 测试方法 在容器中…

成都亚恒丰创教育科技有限公司 【插画猴子:笔尖下的灵动世界】

在浩瀚的艺术海洋中,每一种创作形式都是人类情感与想象力的独特表达。而插画,作为这一广阔领域中的璀璨明珠,以其独特的视觉语言和丰富的叙事能力,构建了一个又一个令人遐想连篇的梦幻空间。成都亚恒丰创教育科技有限公司 在众多插…

MYSQL设计索引一般需要考虑哪些因素?

在设计MySQL索引时,确实需要综合考虑多个因素以确保索引的有效性和性能优化。以下是您提到的参考思路的详细扩展: 1. 数据量 数据量大小:通常,当表中的数据量超过一定阈值(如几百条记录)时,创…

Linux——进程概念详解

一、进程的基本概念 在给进程下定义之前,我们先了解一下进程: 我们在编写完代码并运行起来时,在我们的磁盘中会形成一个可执行文件,当我们双击这个可执行文件时(程序时),这个程序会加载到内存…

动手学深度学习6.3 填充和步幅-笔记练习(PyTorch)

以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。 本节课程地址:填充和步幅_哔哩哔哩_bilibili 代码实现_哔哩哔哩_bilibili 本节教材地址:6.3. 填充和…

如何在 Ubuntu 14.04 服务器上使用 Nginx 安装和保护 phpMyAdmin

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 介绍 像 MySQL 这样的关系型数据库管理系统在许多网站和应用程序中都是必不可少的。然而,并非所有用户都习惯通过命令行来管…