1.课程目标
2.电商行业与电商系统介绍
3.数仓项目整体技术架构介绍
4.数仓项目架构-kylin补充
5.数仓具体技术介绍与项目环境介绍
6.kettle的介绍与安装
7.kettle入门案例
这个连线是点击shift键,然后鼠标左键拖动
ctrl+s保存一下
csv输入配置
Excel输出配置
配置完
Ctrl+s保存一下
8.kettle输入组件之JSON输入与表输入
JSON输入
==========================================================
表输入
放到下面这个地方
查看主机地址
输出成功
但有些字段的格式有点问题
我们需要在这里控制一下
如果想让上面设置的MySQL连接可以重复使用
9.kettle输入组件之生成记录组件
10.kettle输出组件之文本文件输出
如果我们不想要头数据
则
防止中文乱码问题,还要设置编码
11.kettle输出组件之表输出、插入更新、删除组件
表输出
这里kettle会帮我们创建表
插入更新
上面就是认为当id相同时,这两个记录就算同一个记录
我们先看一下原先的数据是什么样子
然后启动
插入更新成功
删除
删除成功
12.kettle整合hadoop
最好重启一下
这里的bigdata-37就是下面的newhadoopcluster
13.Hadoop file input组件
上面就是我们的hdfs集群的路径
14.Hadoop file output组件
注意这里的编码要改成Linux对应的编码
15.Kettle整合Hive
这里我们已经创建好了
我们还是清空一下,重新创建一下
为空
下面创建文件
创建完加载到hive
16.Kettle-Hive表输入组件
17.Kettle-Hive表输出组件
执行成功,但这里速度特别特别的慢