那么如何将mysql数据导入到hive里呢,kettle里有自带方法,可以通过表输入和表输出来实现,不过自带的方法载入数据极其缓慢,不推荐使用这种方法。
1、hive建表
注意hive表使用“^”作为分隔符,这个可以更具实际情况来。
2、mysql到hdfs输出
内容这儿可以选择相应分隔符来对数据分隔操作,头部一定要去掉,不然导入hdfs时会将表头的字段名一起导入,还有编码最好是换成utf-8保证中文的使用
字段这儿要先获取字段,然后先关字段要选择对应格式,比如我这儿id是001,就要选为#格式,不然会使最后hive导入的id这儿为null,日期也是。
3、将hdfs文件导入到hive数据库里
左边为原始目录也就是存放hdfs文件的地址,后面是hive数据库文件目录的地址,如果需要直接替换hive里面的内容在设置里勾选替换就可以了。
----------------------------------本文结束---------------------------------