一、Hive 架构
下面是Hive的架构图。
Hive的体系结构可以分为以下几部分
1、用户接口:CLI(hive shell);JDBC(java访问Hive);WEBUI(浏览器访问Hive)
2、元数据:MetaStore
元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段,标的类型(表是否为外部表)、表的数据所在目录。这是数据默认存储在Hive自带的derby数据库中,推荐使用MySQL数据库存储MetaStore。
3、Hadoop集群:
使用HDFS进行存储数据,使用MapReduce进行计算。
4、Driver:驱动器:
- 解析器(SQL Parser):将SQL字符串换成抽象语法树AST,对AST进行语法分析,像是表是否存在、字段是否存在、SQL语义是否有误。
- 编译器(Physical Plan):将AST编译成逻辑执行计划。
- 优化器(Query Optimizer):将逻辑计划进行优化。
- 执行器(Execution):把执行计划转换成可以运行的物理计划。对于Hive来说默认就是Mapreduce任务。
二、Hive 工作原理
Hive 工作原理如下图所示。
1、ExecuteQuery
:操作Hive接口,如命令行或Web UI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。
2、Get Plan
:在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。
3、Get Metadata
:编译器发送元数据请求到Metastore(任何数据库)。
4、Send Metadata
:Metastore发送元数据,以编译器的响应。
5、Send Plan
:编译器检查要求,并重新发送计划给驱动程序。到此为止,查询解析和编译完成。
6、Execute Plan
:驱动程序发送的执行计划到执行引擎。
-
Execute Job
:在内部,执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker,在名称节点并把它分配作业到TaskTracker,这是在数据节点。在这里,查询执行MapReduce工作。 -
Metadata Ops
:与此同时,在执行时,执行引擎可以通过Metastore执行元数据操作。
7、Fetch Result
:执行引擎接收来自数据节点的结果。
8、Send Results
:执行引擎发送这些结果值给驱动程序。