一. 背景介绍
1. ETL是什么
ETL(Extract-Transform-Load),即数据抽取、转换、装载的过程。它是一种思想,主要是说,从不同的数据源获取数据,并通过对数据进行处理(格式,协议等转换),最后将处理后的数据提供给其他系统使用。当然这个过程,就是软件研发,尤其是后端研发最核心的工作。
2. Kettle概念
kettle,翻译为中文叫做水壶,显而易见,水壶不管壶里面装的是什么液体,最终都会从壶嘴平滑的流出来。就好比,不管水壶装的是什么类型的数据,最后都会通过壶嘴以特定的格式流出来。其实就是对ETL思想的一种实现,它是通过java语言编写,秉承ETL思想的工具。既然是此采用java实现的,那就肯定具有跨平台的特性。
3. kettle组成
kettle既然是一种工具,要处理不同数据源的异构数据,那就要求它能够进行图形化操作,在UI界面上对数据源进行数据治理,最终所有的图形化处理都要能够保存为kettle可识别的文件。
kettle主要生成两种类型的文件,一种转换文件,一种是任务文件,即:transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
这两种文件之间是可以相互调用的,已达到最终的数据清洗目的
二. Kettle docker界面化部署
github地址:HiromuHota/pentaho-kettle: webSpoon is a web-based graphical designer for Pentaho Data Integration with the same look & feel as Spoon (github.com)
dockerhub地址 :
hiromuhota/webspoon - Docker 镜像 |Docker 中心
1. 安装命令
docker pull hiromuhota/webspoon
2. 启动服务命令
docker run -d -p 8080:8080 hiromuhota/webspoon
3. 界面汉化
(1)启动之后界面为英文
(2)进入 kettle容器编辑
docker exec -it -u 0 容器id /bin/bash
cd /usr/local/tomcat/bin
编辑 setenv.sh
CLASSPATH=/usr/local/tomcat/lib/webspoon-security-9.0.0.0-423-22.jar
# 加入以下两行
CATALINA_OPTS="-Dorg.apache.tomcat.util.buf.UDecoder.ALLOW_ENCODED_SLASH=true"
JAVA_OPTS="-Duser.language=zh -Duser.region=CN -Dfile.encoding=UTF-8"
(3)容器重启
docker restart 容器id
重启成功再次访问地址 汉化成功
三. SQLserver 与 Mysql 驱动下载与连接
1. 下载
链接: https://pan.baidu.com/s/1Cr9pJmsSJVsq4im9hMeuPg?pwd=ygsj
提取码: ygsj 复制这段内容后打开百度网盘手机App
2. 将驱动放置到下方容器位置,重启容器
/usr/local/tomcat/webapps/spoon/WEB-INF/lib
3. 数据库连接
四. 数据全量同步以及设置定时任务
1. 将Sqlserver数据同步到mysql(两表数据保持完全一致)
2. 拖拽两个表输入,配置如图,因为要合并记录(实际是对两张表数据进行比较),所以获取SQL获取数据/字段等要一致。
表输入:
字段选择:(元数据也全选)
合并记录:
数据同步:
标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种。
1. “identical” – 旧数据和新数据一样
2. “changed” – 数据发生了变化;
3. “new” – 新数据中有而旧数据中没有的记录
4. “deleted” –旧数据中有而新数据中没有的记录
将数据文件保存到自定义位置
点击作业切换到任务界面
点击运行