1,实时同步?
datax 通常做离线数据同步使用。
目前能想到的方案
利用 linux 的定时任务+时间戳的方式做增量同步。
2,同步速度快不快?
单表同步速度还是挺快的
但是如果遇到复杂的 sql 查询,其同步效率,依赖于读取数据的 sql 的执行效率
单表使用 querySql,数量 三千五百万数据,全量同步时间
3,writeMode模式选择
总共三种:insert/replace/update
对于导入端是 mysql的话,
insert 就是单纯的插入。不判重。如果遇到主键冲突,就报错提示。
replace,原理类似 mysql 的 replace into 的原理,
update,原理类似 mysql 的on duplicate key update的原理。
总之,在设计目标的表时候,需要增加唯一索引,避免出现数据重复插入的问题。
4, 优化
这个目前还在研究中。。。。
另外,如果不设置splitPk属性,datax 按单通道执行。