我们基于datax来做的自己的数据采集系统,现在基本的数据采集已经实现了,也就是调用datax的数据采集能力,实现在已支持的数据库之间同步数据.我们是基于datax-web实现的,里面都有开源的代码了,可以分析以后拿过来用,这个过程并不复杂,而且,结合xxljob的web那个开源项目,也可以让datax和定时任务结合起来,思路是这样的,而且实现也不复杂,小同事去做的就搞定了.
现在碰到了问题,首先是datax对国产化数据库的支持,比如瀚高等等,这个时候,就需要我们自定义对应的reader和writer就可以了.
下载源码以后,直接去修改对应的源码,或者复制一下,原来的比如mysql的writer和reader的源码,然后
再去,根据这两个去编写瀚高DB的等等,这样就实现了,对国产化数据库的支持.
具体的代码以后再补充,这里是对接瀚高的.
https://download.csdn.net/download/lidew521/89094626
可以看到上面就是我们自己定义的,对瀚高数据库的datax的读写插件,可以拿去用,放到下载里了.
这个拿到以后,直接放到代码中就可以使用了,打包出来,放到,datax的安装目录中去就可以了.
2.然后是对于数据的过滤和清洗规则,这里:
可以看到datax是通过,里面叫做transformer的组件来实现数据的清洗的,当然也可以定义自己的清洗规则.