【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax快速入门

【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax概述

【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax类图

【大数据进阶第三阶段之Datax学习笔记】使用阿里云开源离线同步工具Datax实现数据同步

2、快速入门

2.1 官方地址

下载地址：http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
源码地址：GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。

2.2 前置要求

Linux
JDK(1.8以上，推荐1.8)
Python(推荐Python2.6.X)

2.3 安装

(1) 将下载好的datax.tar.gz上传到服务器的/home/soft文件夹下

[root@xxx soft]$ ls
datax.tar.gz

(2) 解压datax.tar.gz到/opt/module

[root@xxx soft]$ tar -zxvf datax.tar.gz -C /opt/module/

(3) 运行脚本检测

[root@xxx bin]$ cd /opt/module/datax/bin/
[root@xxxbin]$ python datax.py /opt/module/datax/job/job.json

在这里插入图片描述

(4) json配置文件注释

/*一个json就是一个job，一个job主要包含：
content,setting 两个属性*/
{"job": {/*content是job的核心，主要放reader和writer插件*/"content": {/*raader插件*/"reader": {},/*writer插件*/"writer": {}},/*setting主要用来设置job的基本设置*/"setting": {/*speed流量控制*/"speed": {"channel": 1, /*同步时候的并发数*/"byte": 1024 /*同步时候的字节大小，影响速度，可选*/},/*脏数据控制,配置的意思是当脏数据大于10条，或者脏数据比例达到0.05%，任务就会报错*/"errorLimit": {"record": 10,/*脏数据最大记录数阈值*/"percentage": 0.05 /*脏数据占比阈值*/}}}
}

json的reader和writer内容根据插件不同而变化，具体查询官网

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/605219.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！