datax参数设置_DataX Web数据增量同步配置说明

一、根据日期进行增量数据抽取

1.页面任务配置

打开菜单任务管理页面,选择添加任务

按下图中5个步骤进行配置

ecdd925eb5af8888b4ee1da22c947a09.png

1.任务类型选DataX任务

2.辅助参数选择时间自增

3.增量开始时间选择,即sql中查询时间的开始时间,用户使用此选项方便第一次的全量同步。第一次同步完成后,该时间被更新为上一次的任务触发时间,任务失败不更新。

4.增量时间字段,-DlastTime='%s' -DcurrentTime='%s' 先来解析下这段字符串

1.-D是DataX参数的标识符,必配

2.-D后面的lastTime和currentTime是DataX json中where条件的时间字段标识符,必须和json中的变量名称保持一致

3.='%s'是项目用来去替换时间的占位符,比配并且格式要完全一致

4.注意-DlastTime='%s'和-DcurrentTime='%s'中间有一个空格,空格必须保留并且是一个空格

5.时间格式,可以选择自己数据库中时间的格式,也可以通过json中配置sql时间转换函数来处理

注意,注意,注意: 配置一定要仔细看文档(后面我们也会对这块配置进行优化,避免大家犯错)

2.JSON配置

datax.json

{

"job": {

"setting": {

"speed": {

"channel": 16

}

},

"content": [

{

"reader": {

"name": "mysqlreader",

"parameter": {

"splitPk": "id",

"username": "root",

"password": "root",

"column": [

"*"

],

"connection": [

{

"jdbcUrl": [

"jdbc:mysql://localhost:3306/test?characterEncoding=utf8"

],

"querySql": [

"select * from test_list where operationDate >= FROM_UNIXTIME(${lastTime}) and operationDate < FROM_UNIXTIME(${currentTime})"

]

}

]

}

},

"writer": {

"name": "mysqlwriter",

"parameter": {

"username": "root",

"password": "123456",

"column": [

"*"

],

"batchSize": "4096",

"connection": [

{

"jdbcUrl": "jdbc:mysql://localhost:3307/test?characterEncoding=utf8",

"table": [

"test_list"

]

}

]

}

}

}

]

}

}

querySql解析

select * from test_list where operationDate >= ${lastTime} and operationDate < ${currentTime}

1.此处的关键点在${lastTime},${currentTime},${}是DataX动态参数的固定格式,lastTime,currentTime就是我们页面配置中

-DlastTime='%s' -DcurrentTime='%s'中的lastTime,currentTime,注意字段一定要一致。

2.如果任务配置页面,时间类型选择为时间戳但是数据库时间格式不是时间戳,例如是:2019-11-26 11:40:57 此时可以用FROM_UNIXTIME(${lastTime})进行转换。

select * from test_list where operationDate >= FROM_UNIXTIME(${lastTime}) and operationDate < FROM_UNIXTIME(${currentTime})

二、根据自增Id进行增量数据抽取

1.页面任务配置

打开菜单任务管理页面,选择添加任务

按下图中4个步骤进行配置

705663cc257d78085ba4ac1f9d330d87.png

1.任务类型选DataX任务

2.辅助参数选择主键自增

3.增量主键开始ID选择,即sql中查询ID的开始ID,用户使用此选项方便第一次的全量同步。第一次同步完成后,该ID被更新为上一次的任务触发时最大的ID,任务失败不更新。

4.增量时间字段,-DstartId='%s' -DendId='%s' 先来解析下这段字符串

1.-D是DataX参数的标识符,必配

2.-D后面的startId和endId是DataX json中where条件的id字段标识符,必须和json中的变量名称保持一致

3.='%s'是项目用来去替换时间的占位符,比配并且格式要完全一致

4.注意-DstartId='%s'和-DendId='%s' 中间有一个空格,空格必须保留并且是一个空格

5.reader数据源,选择任务同步的读数据源

6.配置reader数据源中需要同步数据的表名及该表的主键

注意,注意,注意: 一定要仔细看文档(后续会对这块配置进行优化,避免大家犯错)

2.JSON配置

datax.json

{

"job": {

"setting": {

"speed": {

"channel": 3,

"byte": 1048576

},

"errorLimit": {

"record": 0,

"percentage": 0.02

}

},

"content": [

{

"reader": {

"name": "mysqlreader",

"parameter": {

"username": "yRjwDFuoPKlqya9h9H2Amg==",

"password": "yRjwDFuoPKlqya9h9H2Amg==",

"splitPk": "",

"connection": [

{

"querySql": [

"select * from job_log where id>= ${startId} and id< ${endId}"

],

"jdbcUrl": [

"jdbc:mysql://localhost:3306/datax_web"

]

}

]

}

},

"writer": {

"name": "mysqlwriter",

"parameter": {

"username": "mCFD+p1IMsa0rHicbQohcA==",

"password": "PhYxJmA/nuBJD1OxKTRzZH8sxuRddOv83hdqDOVR+i0=",

"column": [

"`id`",

"`job_group`",

"`job_id`",

"`job_desc`",

"`executor_address`",

"`executor_handler`",

"`executor_param`",

"`executor_sharding_param`",

"`executor_fail_retry_count`",

"`trigger_time`",

"`trigger_code`",

"`trigger_msg`",

"`handle_time`",

"`handle_code`",

"`handle_msg`",

"`alarm_status`",

"`process_id`",

"`max_id`"

],

"connection": [

{

"table": [

"job_log"

],

"jdbcUrl": "jdbc:mysql://47.98.125.243:3306/datax_web"

}

]

}

}

}

]

}

}

querySql解析

select * from job_log where id>= ${startId} and id< ${endId}

1.此处的关键点在${startId},${endId},${}是DataX动态参数的固定格式,startId,endId就是我们页面配置中

-DstartId='%s' -DendId='%s'中的startId,endId,注意字段一定要一致。

三、JVM启动参数配置

此选择为非必选,可以配置DataX启动时JVM的参数,具体配置不做详解。

JVM启动参数拼接结果为: -j "-Xms2G -Xmx2G"

四、常见问题

请查看issue列表或者提issue说明问题,我们会尽快回复。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Node18 即将支持 import HTTP资源!

作者 | 零一来源 | 前端印象最近看到Node官方提交了一条commit &#xff0c;并且已经合入 master分支 &#xff0c;如下图所示&#xff1a;node master commit由此可见&#xff0c;Node18可能会支持一个非常 nice 的功能&#xff0c;那就是 支持 import 远程HTTPS资源和本地的H…

MYSQL深潜 - 剖析Performance Schema内存管理

简介&#xff1a; 本文主要是通过对PFS引擎的内存管理的源码的阅读&#xff0c;解读PFS内存分配及释放原理&#xff0c;深入剖析其中存在的一些问题&#xff0c;以及一些改进思路。本文源代码分析基于Mysql-8.0.24版本。 作者 | 之枢 来源 | 阿里技术公众号 一 引言 MYSQL Pe…

基于MaxCompute SQL 的半结构化数据处理实践

简介&#xff1a; MaxCompute作为企业级数据仓库服务&#xff0c;集中存储和管理企业数据资产、面向数据应用处理和分析数据&#xff0c;将数据转换为业务洞察。通过与阿里云内、外部服务灵活组合&#xff0c;可构建丰富的数据应用。全托管的数据与分析解决方案&#xff0c;可简…

file_get_contents请求失败处理_SpringCloud Gateway网关处理请求过程中遇到400Bad Request问题解决方案...

大家在使用springcloud自己的gateway作为网关服务时&#xff0c;可能会不小心遇到自定义的Filter处理请求Request报文时出现400的错误&#xff0c;而且这个错误还不是每次请求都必现&#xff0c;额什么意思&#xff1f;难不成你是说请求还时好时坏&#xff1f;bingo&#xff01…

CSDN企业数字化之路 ——「低代码」发展研讨会北京站现场实录大放送

作者 | 千鸟 出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09; 2021年底&#xff0c;CSDN面向行业开发者和高校学生开发者&#xff0c;展开了关于“低代码”的开发者调研活动。基于调研数据&#xff0c;CSDN提出了对低代码发展趋势的五大方向。在随后举行的 …

MaxCompute 存储设计

简介&#xff1a; 存储策略该怎么设计 写这篇存储规划的文章主要是想告诉大家该如何给存储做一个规划&#xff0c;在关系数据库的时代存储昂贵且珍惜&#xff0c;掰手指头花钱是存储规划的常态。但是到了大数据时代大家又立即就都变成印美元的美国政府了&#xff0c;感觉存储很…

Serverless Devs 2.0 开箱测评:Serverless 开发最佳实践

简介&#xff1a; 当下&#xff0c;Serverless 概念很火&#xff0c;很多同学被 Serverless 的优势吸引过来&#xff0c;比如它的弹性伸缩&#xff0c;免运维&#xff0c;高可用&#xff0c;资费少。但真正使用起来去落地的时候发现问题很多&#xff0c;大型项目如何组织函数&a…

【CDS技术揭秘系列 总篇】阿里云的云定义存储来了

简介&#xff1a; 全新发布的云定义存储 CDS 和传统的存储阵列、分布式存储、软件定义存储的区别在哪里&#xff1f;阿里云存储团队如何看待将来存储的发展趋势&#xff1f;本文邀请了 CDS 研发团队的核心技术负责人为大家揭开围绕着阿里云 CDS 的种种谜团。 云定义存储&#…

TSDB时序数据库时序数据压缩解压技术浅析

简介&#xff1a; 目前&#xff0c;物联网、工业互联网、车联网等智能互联技术在各个行业场景下快速普及应用&#xff0c;导致联网传感器、智能设备数量急剧增加&#xff0c;随之而来的海量时序监控数据存储、处理问题&#xff0c;也为时序数据库高效压缩、存储数据能力提出了更…

Atmosic推出ATM33新品,全新的ATM33系列性能大升级

为减少各种物联网产品高昂的电池更换成本&#xff0c;以及降低对环境的危害&#xff0c;在上个月举行的媒体发布会中&#xff0c;Atmosic营销及业务拓展副总裁 Srinivas发布了公司的新产品——ATM33&#xff0c;并详细解析了ATM33的技术特性和主要应用领域。 ATM33系列产品可支…

什么是低代码(Low-Code)?

简介&#xff1a; 什么是低代码&#xff1f;我们为什么需要低代码&#xff1f;低代码会让程序员失业吗&#xff1f;本文总结了低代码领域的基本概念、核心价值与行业现状&#xff0c;带你全面了解低代码。 阿里云 云原生应用研发平台EMAS 彭群&#xff08;楚衡&#xff09; 一…

php用wordanalysis抓取姓名_利用vba查询/抓取 外部数据

考虑这么一个excel文件&#xff0c;路径为&#xff1a;"E:dataEdata.xlsx"&#xff0c;样式如封面图片所示想要在其他excel文件中&#xff0c;通过代码直接抓取Edata.xlsx中想要的数据&#xff0c;做法如下&#xff1a;先在Visual Basic中勾选“工具-引用-Microsoft …

如何加速云原生数据应用?这个开源项目备受关注

简介&#xff1a; 自2020年9月Fluid正式对外开源&#xff0c;发展短短一年时间&#xff0c; Fluid 便一次获得两项开源界的重要认可&#xff0c;证明着其所专注的云原生、AI 领域也正在迎来广泛关注。这其中的意义和价值如何&#xff1f;我们尝试管中察豹&#xff0c;从 Fluid …

使用 Cilium 增强 Kubernetes 网络安全

作者 | Addo Zhang来源 | 云原生指北TL;DR在本篇&#xff0c;我们分别使用了 Kubernetes 原生的网络策略和 Cilium 的网络策略实现了 Pod 网络层面的隔离。不同的是&#xff0c;前者只提供了基于 L3/4 的网络策略&#xff1b;后者支持 L3/4、L7 的网络策略。通过网络策略来提升…

内含干货PPT下载|一站式数据管理DMS关键技术解读

简介&#xff1a; 深入解读实时数据流、库仓一体数据处理等核心技术 “数聚云端智驭未来”——阿里云数据库创新上云峰会暨第3届数据库性能挑战赛决赛颁奖典礼已圆满结束&#xff0c;更多干货内容欢迎大家观看峰会直播回放。 峰会直播回放&#x1f4ce;数聚云端 智驭未来——…

好饭不怕晚,扒一下 Redis 的配置文件

作者 | 阿Q来源 | 阿Q说代码在往期的文章中我们已经对Redis的概念和基本命令进行了讲解&#xff0c;今天我们来看下它的配置文件&#xff0c;Redis的配置文件在我们的开发和实际应用中起着非常重要的作用。我们可以在安装目录下找到redis.conf配置文件&#xff0c;通过vim命令进…

ICBU可控文本生成技术详解

简介&#xff1a; 文本生成&#xff08;Text Generation&#xff09;是自然语言处理&#xff08;Natural Language Processing&#xff0c;NLP&#xff09;领域的一项重要且具有挑战的任务。顾名思义&#xff0c;文本生成任务的目的是生成近似于自然语言的文本序列&#xff0c;…

云拨测助力节卡机器人 全面优化海外网站性能

简介&#xff1a; 【案例分享云拨测】借助云拨测&#xff0c;节卡机器人有效挖掘性能瓶颈&#xff0c;经过优化&#xff0c;提升网站打开速度 50% 以上&#xff0c;提高了运营推广活动的 ROI&#xff0c;帮助节卡为全球用户提供更加优质的服务&#xff01; 作者&#xff5c;白…

分享一个巨好用的 HTTP 命令行宝藏工具

作者 | Eason来源 | 程序员巴士HTTPie是一个命令行 HTTP 客户端。它的目标是使 CLI 与 Web 服务的交互尽可能人性化。HTTPie 设计用于测试、调试以及通常与 API 和 HTTP 服务器交互。http 和 https 的命令允许创建和发送任意 HTTP 请求。HTTPie 整体采用简单自然的语法&#xf…

mysql远程备份工具_innobackupex实现MySQL远程备份

一、了解innobackupex1、mysqldumpmysql逻辑备份工具&#xff0c;作用于服务器本地&#xff0c;不需要额外安装插件可以单表备份&#xff0c;备份为sql文件形式、方便&#xff0c;在多个场景通用可通过shell命令实现定时备份&#xff0c;但备份时如果用户有操作&#xff0c;容易…