在大数据公司中,任何一家公司都不会只使用一个框架吧?!
skr,skr~~
那我们今天就来聊一段 Hive 与 Spark的爱恨情仇
就像
在一些场景中,需要将外部的数据导入到Hive表中,然后再对这些数据进行额外的处理,提供给不同的部门使用。
当导完数据之后,需要用到Spark进行后续的处理时,发现数据多了一条
Spark:Omg,我顶你个肺~
这种情况的排查,我们需要从数据源头一步步检验,找出来这突然多出来的数据究竟是何方妖怪,想想是一件很恐怖的事情
Hive:同志,冷静
数据重复?索引重复?
俗话说不会面向度娘编程的Hive不是好Spark,在拔掉了两根头发之后发现问题:表头!
因B站代码不能很好的写出来,所以代码部分是截图,而且部分代码因为太长没有截全,
完整代码在公众号:阿布的进击
扫码关注,获取全部过程
小秘密:
https://issues.apache.org/jira/browse/HIVE-5795
https://issues.apache.org/jira/browse/SPARK-11374
有不同看法,下方留言讨论,别让你的小秘密淹没在未知里
我也该咽下这根美好的鱼骨头了