Impala-架构与设计

架构与设计

  • 一、背景和起源
  • 二、框架概述
    • 1.设计特点
    • 2.框架优点
    • 3.框架限制
  • 三、架构图
    • 1.Impala Daemon
    • 2.Statestore
    • 3.Catalog
  • 四、Impala查询流程
    • 1.发起查询
    • 2.生成执行计划
    • 3.分配任务
    • 4.交换中间数据
    • 5.汇集结果
    • 6.返回结果
  • 总结
  • 参考链接


一、背景和起源

现有的大数据查询分析工具Hive更适合长时间批处理查询分析,并不能满足实时交互式场景。因此根据谷歌的Dremel设计思想,Cloudera公司开发了一款高效率实时查询工具Impala,其性能比Hive快10到100倍。Impala没有使用MapReduce进行计算,而是将整个查询转化成执行计划树,分发到各个机器执行,然后通过拉的方式获取结果并组合成最终结果。

二、框架概述

Impala是一款基于Hive的大数据分析查询引擎,直接使用Hive的元数据Metastore,因此如果使用Impala需要先安装Hive并启动Metastore服务。Impala不依赖MapReduce而是将执行计划树进行并行计算,使用拉的方式获取结果数据,把结果数据按执行树流是传递汇集,减少中间结果落盘。

1.设计特点

  • 本地化计算、减少数据的网络传输
  • 采用Hive Metastore进行元数据存储和管理
  • 无需进行格式转化
  • 支持即席查询无延迟
  • 采用大规模并行处理架构、硬件利用率高
  • 不依赖MapReduce,并行处理执行计划,避免启动MapReduce开销
  • 结果写入内存并通过网络汇总,节省读写磁盘开销

2.框架优点

  • 基于内存进行计算,适合实时交互式SQL查询和分析
  • 无需转化为MapReduce,直接访问HDFS以及Hbase数据,低延迟

3.框架限制

  • 数据需要写入内存,对内存消耗比较大
  • 没有容错逻辑,如果执行过程发生错误会直接返回错误
  • 不支持UDF定制

三、架构图

在这里插入图片描述
Impala采用MPP架构,主要由Impala Daemon、Statestore和Catalog等三个模块组成。

1.Impala Daemon

接收查询请求,将查询请求生成计划树,分发执行计划到其他节点。进行数据读写,将结果进行汇总并返回。
Impala Daemon服务包含三个模块:Query Planner、Query Coordinator和Query Executor。

2.Statestore

主要是收集集群中所有Deamon的节点信息和健康情况。每个Deamon会从Statestore拉取并缓存所有Deamon相关信息,用于执行计划的分配。

3.Catalog

Impala的元数据服务,集群启动时从Hive Metastore加载元数据信息,如需再次加载需要使用invalidate metadata、refresh命令。Catalog负责接收Statestore的元数据查询请求。在Impala执行SQL导致元数据发生变化时,Catalog会将元数据变化同步给Statestore,再由Statestore广播给所有Daemon节点。

四、Impala查询流程

在这里插入图片描述

1.发起查询

客户端向Impala集群任意节点发送查询SQL语句

2.生成执行计划

Query Planner对查询语句进行解析生成解析树,然后将解析树变成执行计划。

3.分配任务

Query Coordinator根据执行计划和从Statestore获取的集群Daemon节点情况,将任务分配给Query Executor节点进行计算。

4.交换中间数据

Query Executor对计算的中间结果进行交换。

5.汇集结果

Query Coordinator从集群中的Query Executor节点拉取结果并进行汇集。

6.返回结果

Query Coordinator将汇总后的结果返回给客户端。

总结

Impala是大数据进行实时交互式分析查询的一个工具,没有依赖MapReduce执行任务,而是将任务分配到各个Impala节点进行计算和汇总,从而避免了MapReduce的启动时间。直接使用内存进行结果的保存减少了读写磁盘的时间。经过以上架构设计Impala的性能比Hive高出10到100倍,非常适用于即席查询和交互式分析场景。


参考链接

1.Apache Impala
2.Impala: A Modern, Open-Source SQL Engine for Hadoop

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/680132.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android录音功能的实现及踩坑记录

最近接到个需求,不使用第三方SDK的情况下实现IM通讯,文字聊天已经通过MQTT实现,而语音功能目前想到的较好解决方案就是进行录音文件的上传下载。可能还有更好解决方案,但我目前没想到,有建议的小伙伴劳烦指导下。 前提…

Microsoft Word 超链接

Microsoft Word 超链接 1. 取消超链接2. 自动超链接2.1. 选项2.2. 校对 -> 自动更正选项2.3. Internet 及网络路径替换为超链接 References 1. 取消超链接 Ctrl A -> Ctrl Shift F9 2. 自动超链接 2.1. 选项 2.2. 校对 -> 自动更正选项 ​​​ 2.3. Internet…

arduino ide esp32 网页按钮异步请求

前两天刚学&#xff0c;不咋懂&#xff0c;原理可以搜别的博主的文章&#xff0c;这是一个示例 #include<WiFi.h> #include<WebServer.h>#define ledpin 2const char* ssid"Your ssid"; //写你们家的WiFi名称 const char* password"Your password&…

[AIGC] 上传文件:后端处理还是直接阿里云OSS?

在构建Web应用时&#xff0c;我们经常需要处理用户上传的文件。这可能是图片、视频、文档等各种各样的文件。但是&#xff0c;上传文件的方式有很多种&#xff0c;最常见的两种方式是&#xff1a;通过后端处理&#xff0c;或者直接上传至云存储服务&#xff0c;如阿里云OSS。那…

Error和Exception有什么区别?Java中的OutOfMemoryError是什么?如何解决它?什么是Java中的异常处理的最佳实践?

Error和Exception有什么区别&#xff1f; Error和Exception在Java中都表示了某种问题或异常情况&#xff0c;但它们之间存在明显的区别。 严重性&#xff1a; Error&#xff1a;通常表示系统级错误或底层资源错误&#xff0c;如内存不足、系统崩溃等。这些错误是严重的&#x…

AES加密后的密码可以破解吗

AES&#xff08;高级加密标准&#xff09;是一种广泛使用的对称加密算法&#xff0c;设计用来抵御各种已知的攻击方法。AES使用固定块大小的加密块和密钥长度&#xff0c;通常是128、192或256位。它被认为是非常安全的&#xff0c;到目前为止&#xff0c;没有已知的可行方法能够…

【详解】斗地主随机发牌项目

目录 前言&#xff1a; 1.初始化牌 2.洗牌 3.揭牌 总代码&#xff1a; Card类&#xff1a; CardGame类&#xff1a; Main类&#xff1a; 结语&#xff1a; 前言&#xff1a; 斗地主是全国范围内的一种桌面游戏&#xff0c;本节我们来实现一下斗地主中的简单初始化牌、…

uniapp微信小程序开发踩坑日记:uni.request回调函数地狱问题

使用await和async无法解决uniapp中的回调函数地狱问题&#xff0c;因为uni.request并不返回一个 Promise。通常情况下&#xff0c;我们期望await能够等待一个 Promise 或者其它类似 Promise 的对象&#xff0c;然后继续执行下面的代码&#xff0c;但uni.request的 success 回调…

ComfyUI 安装和入门

目录 AnimateDiff for ComfyUI ComfyUI 入门教程 什么是ComfyUI&#xff1f; windows安装教程&#xff1a; 安装&#xff1a;stable-diffusion-webui 组件技巧学习 AnimateDiff for ComfyUI GitHub - ArtVentureX/comfyui-animatediff: AnimateDiff for ComfyUI 生成动画…

Spring Boot 笔记 006 创建接口_注册

1.1 由于返回数据都是以下这种格式&#xff0c;那么久再编写一个result实体类 报错了&#xff0c;原因是没有构造方法 可以使用lombok的注解自动生成&#xff0c;添加无参的构造器和全参的构造器 package com.geji.pojo;import lombok.AllArgsConstructor; import lombok.NoArg…

Transformer实战-系列教程16:DETR 源码解读3(DETR类)

&#x1f6a9;&#x1f6a9;&#x1f6a9;Transformer实战-系列教程总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Pycharm中进行 本篇文章配套的代码资源已经上传 点我下载源码 DETR 算法解读 DETR 源码解读1&#xff08;项目配置/CocoDetection类&#xff09; …

【MySQL】操作库 —— 库的操作 -- 详解

一、增删数据库 1、创建数据库 create database db_name; 本质就是在 /var/lib/mysql 创建一个目录。 说明&#xff1a; 大写的表示关键字。[ ] 是可选项。CHARACTER SET&#xff1a;指定数据库采用的字符集。COLLATE&#xff1a;指定数据库字符集的校验规则。 2、数据库删除…

Linux第51步_移植ST公司的linux内核第3步_添加修改设备树

1、设备树文件的路径 1)、创建linux中的设备树头文件 在“my_linux/linux-5.4.31/arch/arm/boot/dts/”目录中&#xff0c;以“stm32mp15xx-edx.dtsi”为蓝本&#xff0c;复制一份&#xff0c;并命名为 “stm32mp157d-atk.dtsi”&#xff0c;这就是我们开发板的设备树头文件。…

【stomp实战】Springboot+Stomp协议实现聊天功能

本示例实现一个功能&#xff0c;前端通过websocket发送消息给后端服务&#xff0c;后端服务接收到该消息时&#xff0c;原样将消息返回给前端。前端技术栈htmlstomp.js&#xff0c;后端SpringBoot 前端代码 关于stomp客户端的开发&#xff0c;如果不清楚的&#xff0c;可以看…

机器学习10-特征缩放

特征缩放的目的是确保不同特征的数值范围相近&#xff0c;使得模型在训练过程中更加稳定&#xff0c;加速模型收敛&#xff0c;提高模型性能。具体而言&#xff0c;零均值和单位方差的目标有以下几点好处&#xff1a; 1. 均值为零&#xff08;Zero Mean&#xff09;&#xff1a…

15 ABC基于状态机的按键消抖原理与状态转移图

1. 基于状态机的按键消抖 1.1 什么是按键&#xff1f; 从按键结构图10-1可知&#xff0c;按键按下时&#xff0c;接点&#xff08;端子&#xff09;与导线接通&#xff0c;松开时&#xff0c;由于弹簧的反作用力&#xff0c;接点&#xff08;端子&#xff09;与导线断开。 从…

【开源】SpringBoot框架开发天沐瑜伽馆管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 瑜伽课程模块2.3 课程预约模块2.4 系统公告模块2.5 课程评价模块2.6 瑜伽器械模块 三、系统设计3.1 实体类设计3.1.1 瑜伽课程3.1.2 瑜伽课程预约3.1.3 系统公告3.1.4 瑜伽课程评价 3.2 数据库设计3.2.…

牛客周赛 Round 32 F.小红的矩阵修改【三进制状态压缩dp】

原题链接&#xff1a;https://ac.nowcoder.com/acm/contest/75174/F 时间限制&#xff1a;C/C 1秒&#xff0c;其他语言2秒 空间限制&#xff1a;C/C 262144K&#xff0c;其他语言524288K 64bit IO Format: %lld 题目描述 小红拿到了一个字符矩阵&#xff0c;矩阵中仅包含&q…

java 执行方式和类加载过程

java默认属于混合执行&#xff1a; 编译和解释并存 java先进行解释执行&#xff0c;遇到多次重复的代码会把它编程成可执行文件&#xff0c;方便下次直接执行。 可以通过VM参数来修改执行方式。 类加载过程

Nacos、Eureka、Zookeeper、Consul对比

开发中&#xff0c;经常需要对微服务进行管理&#xff0c;所以需要引入一些服务治理的中间件&#xff0c;用于注册、发现服务&#xff0c;常见的服务治理中间件为 服务治理中间件 【1】Nacos 【2】Eureka 【3】Zookeeper 【4】Consul&#xff08;Consul 所在的 HashiCorp 公司…