ETL异构数据源Datax_工具部署_02

接上一篇:(企业内部) ETL异构数据源Datax_部署前置环境_01
https://gblfy.blog.csdn.net/article/details/118081253

文章目录

          • 一、直接下载DataX
          • 二、下载DataX源码,自己编译
            • 2.1.下载DataX源码
            • 2.2. 通过maven打包
          • 三、配置示例
            • 3.1. 创建作业的配置文件(json格式)
            • 3.2. 根据模板配置json
            • 3.3. 执行测试

一、直接下载DataX

:DataX下载地址

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

tar zxvf datax.tar.gz
cd  {YOUR_DATAX_HOME}/bin
python datax.py {YOUR_JOB.json}

自检脚本:

 python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json
二、下载DataX源码,自己编译

DataX源码

2.1.下载DataX源码
git clone git@github.com:alibaba/DataX.git
2.2. 通过maven打包
cd  {DataX_source_code_home}
mvn -U clean package assembly:assembly -Dmaven.test.skip=true

打包成功,日志显示如下:

[INFO] BUILD SUCCESS
[INFO] -----------------------------------------------------------------
[INFO] Total time: 08:12 min
[INFO] Finished at: 2021-12-13T16:26:48+08:00
[INFO] Final Memory: 133M/960M
[INFO] -----------------------------------------------------------------

打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:

bin		conf		job		lib		log		log_perf	plugin		script		tmp
三、配置示例

从stream读取数据并打印到控制台

3.1. 创建作业的配置文件(json格式)
可以通过命令查看配置模板: 
python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
cd  {YOUR_DATAX_HOME}/bin
python datax.py -r streamreader -w streamwriter----------------------------------------------------------
# 查看常用作业的配置文件模板python datax.py -r streamreader -w streamwriter
python datax.py -r oraclereader -w mysqlwriter
python datax.py -r mysqlreader -w oraclewriter控制台输出
```bash
DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.Please refer to the streamreader document:https://github.com/alibaba/DataX/blob/master/streamreader/doc/streamreader.md Please refer to the streamwriter document:https://github.com/alibaba/DataX/blob/master/streamwriter/doc/streamwriter.md Please save the following configuration as a json file and  usepython {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
to run the job.{"job": {"content": [{"reader": {"name": "streamreader", "parameter": {"column": [], "sliceRecordCount": ""}}, "writer": {"name": "streamwriter", "parameter": {"encoding": "", "print": true}}}], "setting": {"speed": {"channel": ""}}}
}
3.2. 根据模板配置json
vim stream2stream.json添加内容如下:{"job": {"content": [{"reader": {"name": "streamreader","parameter": {"sliceRecordCount": 10,"column": [{"type": "long","value": "10"},{"type": "string","value": "hello,你好,世界-DataX"}]}},"writer": {"name": "streamwriter","parameter": {"encoding": "UTF-8","print": true}}}],"setting": {"speed": {"channel": 5}}}
}
3.3. 执行测试

启动DataX

cd {YOUR_DATAX_DIR_BIN}
python datax.py ./stream2stream.json 
同步结束,显示日志如下:...
2021-06-23 09:43:14.869 [job-0] INFO  StandAloneJobContainerCommunicator - Total 50 records, 950 bytes | Speed 95B/s, 5 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.000s |  All Task WaitReaderTime 0.000s | Percentage 100.00%
2021-06-23 09:43:14.872 [job-0] INFO  JobContainer - 
任务启动时刻                    : 2021-06-23 09:43:04
任务结束时刻                    : 2021-06-23 09:43:14
任务总计耗时                    :                 10s
任务平均流量                    :               95B/s
记录写入速度                    :              5rec/s
读出记录总数                    :                  50
读写失败总数                    :                   0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/518012.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前沿 | VLDB论文解读:阿里云超大规模实时分析型数据库AnalyticDB

前言 一年一度的数据库领域顶级会议VLDB 2019于美国当地时间8月26日-8月30日在洛杉矶召开。在本届大会上,阿里云数据库产品团队多篇论文入选Research Track和Industrial Track。 本文将对入围Industrial Track的论文《AnalyticDB: Realtime OLAP Database System at…

第一个Java

Hello World 随便创一个文件夹,储存代码 新建一个Java文件 文件后缀名.javaHello.java[注意]系统可能没有显示后缀名,需要手动打开 编写代码 public class Hello{public static void main(String[] args){System.out.print("Hello Wold");…

Teradata天睿公司任命Steve McMillan为总裁兼首席执行官

Teradata天睿公司日前宣布,公司董事会已经任命Steve McMillan担任总裁兼首席执行官以及董事会成员,自2020年6月8日起生效。McMillan先生曾在F5 Networks公司担任全球服务执行副总裁,未来将接任临时总裁兼首席执行官Victor Lund,在…

蚂蚁金服在云原生架构下的可观察性的探索和实践

本文根据 8 月 11 日 SOFA Meetup#3 广州站 《蚂蚁金服在云原生架构下的可观察性的探索和实践》主题分享整理。现场回顾视频以及 PPT 查看地址见文末链接。 前言 随着应用架构往云原生的方向发展,传统监控技术已经不能满足云原生时代运维的需求,因此&am…

Docker启动Mysql容器失败,挂载时权限不足,chown: changing ownership of ‘/var/lib/mysql/‘: Permission denied

文章目录1. 现象2. 查看日志分析3. 提示信息4. 解决方案5. 再次执行成功6. 技巧1. 现象 今天用Docker运行Mysql容器时,一直启动不了,删除了重新制作容器也不行 镜像用的Mysql5.7 运行镜像用的命令行 为: docker run -d --name fxmysql -v /opt/data:/…

如何实现一次编码,到处运行?新一代云端一体化探索

阿里妹导读:当前移动互联网业务研发运维模式,云与多端互相割裂,有些全栈的探索缺乏成功案例,行业对云端一体化研发这块仍是空白,我们要思考:如何能实现 1 个研发支撑云 android iOS 三端的业务快速落地&a…

这份操作系统词典请查收!

作者 | cxuan责编 | 郭芮头图 | CSDN 下载自东方 IC1. 操作系统(Operating System,OS):是管理计算机硬件与软件资源的系统软件,同时也是计算机系统的内核与基石。操作系统需要处理管理与配置内存、决定系统资源供需的优…

使用javax.mail发送邮件

文章目录一、发邮件流程二、关于邮件协议和端口三、开启邮件协议和端口3.1. QQ邮箱3.2. 163邮箱四、实战发送邮件4.1. 引入依赖4.2. 方法重写4.3. 发送邮件核心类工具类EmailUtils五、QQ邮件发送测试5.1. QQ发送测试5.2. 查看QQ发送邮箱5.3. 查看收件人收件箱六、163邮件发送测…

日志服务数据加工最佳实践: 从其他logstore拉取数据做富化

概述 使用全局富化函数做富化时, 需要传递一个字典或者表格结构做富化. 参考构建字典与表格做数据富化的各种途径比较. 本篇介绍从使用资源函数res_log_logstore_pull从其他logstore拉取数据的做富化的详细实践.关于res_log_logstore_pull的参数说明, 参考这里. 该语法目前支…

导入Oracle 数据库镜像,创建Oracle虚拟机_01

文章目录1. 创建虚拟机,选择镜像2. 调整内存大小3. 调整处理器大小1. 创建虚拟机,选择镜像 2. 调整内存大小 3. 调整处理器大小 接下一篇:plsql连接 oracle instantclient_11_2 本地机器不安装oracle_02 https://gblfy.blog.csdn.net/article…

阿里技术专家详解 DDD 系列- Domain Primitive

导读:对于一个架构师来说,在软件开发中如何降低系统复杂度是一个永恒的挑战,无论是 94 年 GoF 的 Design Patterns , 99 年的 Martin Fowler 的 Refactoring , 02 年的 P of EAA ,还是 03 年的 Enterprise …

别傻了,90%的开发者都没有做好它

上周末和在北京的哥们国仔涮火锅,席间聊起了最近面试的经历。他说想换工作的原因很简单,就是要涨工资,原来的公司呆了两年多,薪资浮动不超过 500 元。而身边跳槽的那些同事,薪资都已经是自己的 2 倍了。在准备面试的过…

是真“开发者”,就来一“测”到底!

阿里云开发者虚拟勋章 云时代是开发者的天下! 云让稳定、安全、高效的计算能力得到普惠,服务于广大开发者的同时,也对开发者不断学习、掌握技术知识提出了更高的要求。 阿里云推出的开发者学测服务,通过简单、便捷的形式&#x…

plsql连接 oracle instantclient_11_2 本地机器不安装oracle_02

接上一篇:导入Oracle 数据库镜像,创建Oracle虚拟机_01 https://blog.csdn.net/weixin_40816738/article/details/118115668 文章目录一、本地安装二、instantclient_11_2配置声明:(本地环境不需要安装oracle客户端) 一、本地安装 …

结构化数据存储,如何设计才能满足需求?

阿里妹导读:任何应用系统都离不开对数据的处理,数据也是驱动业务创新以及向智能化发展最核心的东西。数据处理的技术已经是核心竞争力。在一个完备的技术架构中,通常也会由应用系统以及数据系统构成。应用系统负责处理业务逻辑,而…

触发死锁怎么办?MySQL 的死锁系列:锁的类型以及加锁原理了解一下!

来源 | 程序员历小冰责编 | Carol封图 | CSDN 付费下载于视觉中国疫情期间在家工作时,同事使用了 insert into on duplicate key update 语句进行插入去重,但是在测试过程中发生了死锁现象:ERROR 1213(40001): Deadlock found when trying to getlock; t…

本地psql连接远程Oracle虚拟机_03

接上一篇:plsql连接 oracle instantclient_11_2 本地机器不安装oracle_02 https://gblfy.blog.csdn.net/article/details/118115893 文章目录1. 启动虚拟机2. 登录虚拟机3. 开启网络4. 获取ip地址5. ssh工具连接6. 查看Oracle监听运行状态7. 本地监听添加连接串8. p…

后端程序员必备:书写高质量SQL的30条建议

来源 | 捡田螺的小男孩责编 | Carol封图 | CSDN 付费下载于视觉中国本文将结合实例demo,阐述30条有关于优化SQL的建议,多数是实际开发中总结出来的,希望对大家有帮助。1、查询SQL尽量不要使用select *,而是select具体字段。反例子…

PL/SQL Developer 13.0设置中文

PL/SQL Developer 13.0设置中文 PL/SQL Developer 13.0和之前的版本有些不一样Tools下找不到preferences,因为位置改变了,不在Toos下,它在最上面 然后就是User Interface -> Appearance -> Language 选择 Chinese.lang->Apply->ok就好了

ETL异构数据源Datax_数据准备_03

文章目录一、Oracle数据库准备1. 初始化表结构2. 生成测试数据二、使用docker创建mysql2.1. 构建mysql容器2.1. 创建datax数据库2.3. 初始化表结构一、Oracle数据库准备 1. 初始化表结构 --删除otbs1 drop table otbs1;--创建otbs1表 CREATE TABLE otbs1 ( IDNO NUMBER, COL1…