Hive架构原理

Hive架构原理

bicheng/2025/4/26 22:02:57/文章来源:https://blog.csdn.net/weixin_48935611/article/details/138059071

Hive

Hive 的架构是设计用于在大数据环境下进行数据仓库操作和分析的系统。它建立在 Hadoop 生态系统之上，利用 Hadoop 的存储（HDFS）和计算（MapReduce、Tez、Spark 等）能力。
在这里插入图片描述

1. 元数据存储（`Metastore`）：

在这里插入图片描述

Metastore 是 Hive 的元数据管理组件，负责存储表的结构信息、分区信息、表的存储位置等。
这些元数据通常存储在关系型数据库中，如 MySQL、Derby 等。
Metastore 提供了对元数据的增删改查接口，使用户可以方便地管理表的元数据信息。

2. 查询解析和优化：

当用户提交一个 HiveQL 查询时，Hive 的 Driver 模块负责接收并解析该查询，构建查询执行计划。
在构建执行计划的过程中，Hive 会进行优化，包括逻辑优化、物理优化和执行计划生成。这些优化可以提高查询的执行效率，并减少资源消耗。

3. 查询执行引擎（`Execution Engine`）：

执行引擎负责实际执行查询任务，它根据查询执行计划将任务分发到集群中的多个节点上执行。
Hive 支持多种执行引擎，包括传统的 MapReduce、更高效的 Tez、内存计算框架 Spark 等。用户可以根据需求选择合适的执行引擎。

4. 数据存储：

Hive 将数据存储在 Hadoop 分布式文件系统（HDFS）中，通常以文件的形式存储。
对于内部表（Managed Table），Hive 负责管理数据的存储路径和格式。
而对于外部表（External Table），用户可以自行管理数据的存储位置和格式。

5. 任务调度和资源管理：

在这里插入图片描述

在执行查询任务时，Hive 需要有效地管理集群资源并调度任务。
通常情况下，Hive 使用 YARN（Yet Another Resource Negotiator）作为资源管理器，负责为查询任务分配适当的资源，并监控任务的执行状态。

6. 用户界面和客户端接口：

在这里插入图片描述

Hive 提供了多种用户界面和客户端接口，使用户可以方便地与系统交互。其中包括命令行界面（CLI）、Web UI、Hue 插件等。
此外，Hive 还提供了 JDBC 和 ODBC 接口，使得用户可以通过标准的数据库连接方式与 Hive 进行交互。

7. 扩展性和灵活性：

Hive 的架构设计具有良好的扩展性和灵活性，它可以与 Hadoop 生态系统中的其他组件（如 HBase、Kafka、Presto 等）紧密集成，以满足不同的数据处理和分析需求。
同时，Hive 还支持用户自定义函数（UDFs）、用户定义的聚合函数（UDAFs）和用户定义的表生成器（UDTFs），使得用户可以根据自身需求扩展 Hive 的功能。

8.Tips:

1.用户接口：Client

CLI（command-line interface）、JDBC/ODBC。
在这里插入图片描述

JDBC和ODBC的区别:

（1）JDBC的移植性比ODBC好（通常情况下，安装完ODBC驱动程序之后，还需要经过确定的配置才能够应用。而不相同的配置在不相同数据库服务器之间不能够通用。所以，安装一次就需要再配置一次。JDBC只需要选取适当的JDBC数据库驱动程序，就不需要额外的配置。在安装过程中，JDBC数据库驱动程序会自己完成有关的配置。）
（2）两者使用的语言不同，JDBC在Java编程时使用，ODBC一般在C/C++编程时使用。

2.元数据：Metastore

元数据包括：数据库（默认是default）、表名、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。
默认存储在自带的derby数据库中，由于derby数据库只支持单客户端访问，生产环境中为了多人开发，推荐使用MySQL存储Metastore。

3.驱动器：Driver

在 Hive 架构中，驱动器（Driver）是一个重要的组件，负责接收用户提交的 HiveQL 查询，然后解析、优化并执行这些查询。
在这里插入图片描述

1. 查询解析（`Parsing`）：

驱动器首先会对用户提交的 HiveQL 查询进行解析，将其转换成抽象语法树（Abstract Syntax Tree，AST）。
在这个过程中，它会检查查询语句的语法是否正确，以及查询中所引用的表是否存在等。

2. 查询优化（`Optimization`）：

一旦查询被解析成 AST，驱动器会对其进行优化，以提高查询的执行效率。这个优化过程包括逻辑优化和物理优化两个方面：

逻辑优化：驱动器会对查询进行逻辑优化，例如通过重写查询、合并查询片段等方式，消除查询中的冗余操作，从而减少查询执行的计算量。
物理优化：一旦逻辑优化完成，驱动器会根据执行环境和数据特性选择合适的执行计划。这可能涉及选择合适的执行引擎、优化连接顺序、选择合适的算法等。

3. 查询执行计划生成（`Execution Plan Generation`）：

优化完成后，驱动器将生成一个执行计划（Execution Plan），描述了如何执行查询以及执行的顺序。
执行计划通常是一个有向无环图（DAG），其中每个节点表示一个查询操作，每个边表示数据流向。

4. 任务调度和执行（`Task Scheduling and Execution`）：

一旦执行计划生成，驱动器将根据执行计划将任务分发到集群中的多个节点上执行。
这包括将查询任务转换成 MapReduce 任务、Tez 任务、Spark 任务等，并将这些任务提交给相应的执行引擎执行。

5. 监控和错误处理（`Monitoring and Error Handling`）：

在查询执行过程中，驱动器负责监控任务的执行状态，并及时处理可能出现的错误。
它会收集任务执行的日志和统计信息，以便后续的调优和故障排除。

6. 结果返回（`Result Retrieval`）：

最后，当查询执行完成后，驱动器会从执行引擎中收集查询结果，并将其返回给用户。
用户可以通过命令行界面、Web UI 或客户端接口等方式获取查询结果。

驱动器在 Hive 架构中扮演着重要的角色，它负责接收、解析、优化和执行用户提交的查询，保证查询能够高效地在集群上执行，并及时返回执行结果给用户。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/1973.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Flutter开发之--初识Flutter

Flutter开发之--初识Flutter

文章目录概述Flutter整体架构嵌入层引擎层框架层跑通demo尝鲜Flutter项目的目录介绍Flutter demo项目的运行总结概述 Flutter 是由Google公司研发的一种跨端开发技术，在2018年正式推出。Flutter自带Skia图形绘制引擎，采用自绘制的方式，不…

阅读更多...

【Hadoop3.3.6】数据块副本放置策略及解析EditLog和FsImage

【Hadoop3.3.6】数据块副本放置策略及解析EditLog和FsImage

目录一、摘要二、正文2.1 环境说明2.2 网络拓扑2.3 Hadoop副本放置策略介绍2.4 解析EditLog和Fsimage镜像文件三、小结一、摘要通过解析存储于NameNode节点上的日志文件EditLog和镜像文件（元数据）Fsimage来反向验证HDFS的数据块副本存放策略，其目的是希望加深对Hadoop的数…

阅读更多...

Tensorflow AutoGraph 的作用和功能

Tensorflow AutoGraph 的作用和功能

🍉 CSDN 叶庭云：https://yetingyun.blog.csdn.net/ TensorFlow AutoGraph 是 TensorFlow 中的一个重要特性，它允许开发者使用普通的 Python 语法编写高效的 TensorFlow 图（graph）。这意味着开发者可以利用 Python 的易…

阅读更多...

【电机控制】滑模观测器PMSM无感控制波形图

【电机控制】滑模观测器PMSM无感控制波形图

【电机控制】滑模观测器PMSM无感控制波形图文章目录前言一、FOC控制1.三相电流2.Clark变换静止坐标系iαiβ3.park变换旋转坐标系idiq4.电流环PI控制输出UdUq5.UdUq 反park变换UαUβ 二、反电动势观测器BEMF1.静止坐标系iαiβ提取反电动势EaEb2.反电动势EaEb提取位置信息、…

阅读更多...

物联网通信中NB-IoT、Cat.1、Cat.M该如何选择？

物联网通信中NB-IoT、Cat.1、Cat.M该如何选择？

物联网通信中NB-IoT、Cat.1、Cat.M该如何选择？参考链接：物联网通信中NB-IoT、Cat.1、Cat.M该如何选择？在我们准备设计用于大规模联网的物联网设备时，选择到适合的LTE IoT标准将是我们遇到的难点。这是我们一开始设计产品方案就需要解决的一个问题，其决定我们设备需…

阅读更多...

前端框架技术调研

前端框架技术调研

目前程序员使用前端框架最多的是哪一个？

阅读更多...

ospf的工作过程和特点

ospf的工作过程和特点

OSPF（Open Shortest Path First）是一种内部网关协议（Interior Gateway Protocol），用于路由器之间交换路由信息，从而在自治系统内计算数据的最短传输路径。其工作原理基于链路状态路由算法，具体过…

阅读更多...

3D MINS 多模态影像导航系统

3D MINS 多模态影像导航系统

3D MINS多模态影像导航系统（Multimodal Image Navigation System）是SunyaTech研发的建立在DICOM（Digital Imaging and Communications in Medicine）图像基础之上的多模态影像导航系统，集二维影像PACS管理、三维影像层级…

阅读更多...

vscode ssh远程连接服务器，一直正在下载vscode服务器的解决办法

vscode ssh远程连接服务器，一直正在下载vscode服务器的解决办法

前言为方便描述，在本教程中，发起远程连接的叫“主机”，被远程连接的叫“服务器”。正文如果主机是首次用vscode远程连接服务器，会在服务器上自动下载vscode服务器，但有时候因为网络问题，会卡在&#xff…

阅读更多...

STL Array、ForwardList源码剖析

STL Array、ForwardList源码剖析

STL Array、ForwardList源码剖析参考文章: https://blog.csdn.net/weixin_45389639/article/details/121618243 array 源代码 template<typename _Tp,std::size_t _Nm> struct array {typedef _Tp value_type;typedef _Tp* pointer;typedef value_type* iterator;// Su…

阅读更多...

【函数式接口使用✈️✈️】配合策略模式实现文件处理的案例

【函数式接口使用✈️✈️】配合策略模式实现文件处理的案例

目录 🍸前言 🍻一、功能描述 🍺二、面向对象设计模式 🍹三、策略模式 🍦四、策略 VS 面向对象 🍨章末 🍸前言小伙伴们大家好，上周初步了解了下函数式接口，Consume…

阅读更多...

基于深度神经网络的图像识别技术研究

基于深度神经网络的图像识别技术研究

基于深度神经网络的图像识别技术是目前人工智能领域的研究热点之一，其强大的特征提取和模式识别能力使得图像识别任务取得了显著的进展。以下是对基于深度神经网络的图像识别技术的研究探讨。首先，深度神经网络通过构建多层次的神经元连接，…

阅读更多...

Azure AD统一认证及用户数据同步开发指导

Azure AD统一认证及用户数据同步开发指导

本文主要目的为：指导开发者进行自有服务与Azure AD统一认证的集成，以及阐述云端用户数据同步的实现方案。本文除了会介绍必要的概念、原理、流程外，还会包含Azure门户设置说明，以及使用Fiddler进行全流程的实操验证，同…

阅读更多...

HarmonyOS ArkUI实战开发-页面跳转（Router、Ability）

HarmonyOS ArkUI实战开发-页面跳转（Router、Ability）

页面跳转可以分为页面内跳转和页面间跳转，页面内跳转是指所跳转的页面在同一个 Ability 内部，它们之间的跳转可以使用 Router 或者 Navigator 的方式；页面间跳转是指所跳转的页面属与不同的 Ability ，这种跳转需要借助 featureAbi…

阅读更多...

Java练习题

Java练习题

打印9*9乘法口诀表解析：利用for循环解决代码如图所示： public class Cc {public static void main(String[] args) {for (int i 1; i < 10; i){ //从1遍历到9 for(int j 1; j < i; j){ System.out.print(j "*" i "&…

阅读更多...

Docker pull镜像名称把本地镜像推送到远程详解

Docker pull镜像名称把本地镜像推送到远程详解

Docker pull镜像名称把本地镜像推送到远程详解： Docker 镜像仓库容器介绍以及镜像仓库详解下载一个alpine的镜像演示，alpine是一个比较小的的linux镜像。 docker pull alpinedocker tag d4ff818577bc docker.io/itying/alpine:v1.0.1docker tag d4…

阅读更多...

【CSS】使用 scroll snap 实现页面的垂直大屏滚动

【CSS】使用 scroll snap 实现页面的垂直大屏滚动

CSS 属性 scroll-snap-type 设置了在有滚动容器的情形下吸附至吸附点的严格程度。 scroll-snap-type 使用 scroll snap 也可以用于垂直滚动，全屏展示就是一个很好的例子: <main><section class"section section-1"></section><sect…

阅读更多...

Android驱动开发之如何编译和更换内核

Android驱动开发之如何编译和更换内核

编译内核可以使用图形化的界面配置，也可以直接使用脚本。在X86_64模拟器环境下，不用交叉编译，而交叉编译工具很容易出现兼容问题，一般也只能使用芯片厂商提供的工具，而不是GNU提供的工具。 android内核开发流程以及架构变化了很多，详情请看内核官网内核版本选择由…

阅读更多...

keil把c语言函数转成汇编

keil把c语言函数转成汇编

汇编可以让开发人员从根源上理解程序的运行逻辑，本文介绍如何在keil环境下如何把一个c文件中的某一个函数，转换为汇编函数，并编译运行。右击某个c文件，选择Option for File。。。图1 然后把下图中的Generate Assembler SRC Fi…

阅读更多...

DDP、pytorch的分布式 torch.distributed.launch 训练说明

DDP、pytorch的分布式 torch.distributed.launch 训练说明

0、DDP的运行原理执行步骤： 将data分为多个不同的batch，每个gpu得到batch都是不一样的然后将每个batch放在每个gpu上独立的执行最后得到的梯度求平均将平均梯度平分给每个gpu执行下一次迭代这也就意味着你有多少个gpu，训练的速度也会提升…

阅读更多...

最新文章