记录一下,作为备忘。
常用的分布式计算引擎
多表关联的问题,由于NoSQL数据库主要用于海量存储和单表查询,一般都不支持join,需借助更上层的计算框架来实现多表关联,比如:
计算框架 | 支持数据源 | 执行效率 |
---|---|---|
Hive | 本地文件、HDFS、HBase,通过第三方工具也能支持MongoDB | Hive-on-MR的效率是很差的,3条记录的表select count(*)花了18s!而且Hive2自己也不推荐再用Hive-on-MR了,而是用Hive-on-spark或Hive-on-Tez |
Spark | 本地文件、HDFS、HBase,通过第三方工具支持MongoDB、Cassandra | MR之外另辟蹊径的准实时计算框架。数据量超过百万行后的效率优于关系数据库(RDB);10w以内的效率虽然比RDB慢,但也在一个数量级内。 |
Tez | HDFS | 与Hive结合使用,仍基于MR框架,但做了作业的裁剪和合并,减少HDFS读写,据说比优化前的MR效率提升百倍。 |
几种计算框架之间的关系如下图所示:
MR和Spark是两种不同的底层计算框架,Tez是对MR的优化,Hive是一个高层的计算框架,负责将SQL翻译成不同的底层计算模型(目前能翻译为MR、Tez、Spark三种计算模型),SparkSQL和Hive是同级的计算框架(事实上,SparkSQL的开发时间先于Hive-on-Spark),如其名字所表明的,其只能将SQL翻译为Spark计算模型。