目录
HetuEngine是什么?
HetuEngine的特点以及使用场景
特点
使用场景
HetuEngine介绍
结构
近期用到了Hetu,了解下这个工具是起什么作用的。
HetuEngine是什么?
是引擎,设计是为了让与当前的大数据生态完美融合的引擎,这里的大数据生态例如存储层的Hive、HBase、ClickHouse等。
它是一个一站式SQL分析引擎,相当于在Hive、GaussDB这种异源数据上面新增了一个上层页面,我们在上层页面写一个SQL,这个SQL中可以同时用到Hive的A表和GaussDB的B表,底层会自动到相应的数据库中执行、返值等,也就是能把跨源、跨域的数据,关联到一起做分析,而不用关注多类的数据去写多类的SQL,中间去搞各种临时表。
“河图引擎”在华为的描述中,可以让“逻辑数据湖”大规模数据融合分析提效50倍,开发效率提高2到10倍,后者我们倒是好理解,在开发者侧,引擎它屏蔽了底层的数据存储设施的复杂度,能像使用普通例如MySQL数据库一样使用大数据,能复用各种之前的技能、工具;前者对于分析效率的提高,我们接下来看看为什么怎么高。
HetuEngine的特点以及使用场景
特点
- 完全的内存计算,自动实现计算下推,动态过滤等,实现PB级数据毫秒级响应。
- 优化的计算引擎,先进的分布式计算框架和优化算法,能更高效地分配计算资源,并行处理数据,从而大大提高计算速度。
- 智能的数据缓存与预取,预测和提前加载常用数据,减少数据读取的时间开销,加速分析过程,减少IO浪费。
- 拥有强大的查询优化器,能够自动分析查询语句,制定最优的执行计划,避免不必要的计算和数据访问。
- 有效地管理和调度系统资源,确保在大规模数据处理时资源得到充分利用,避免资源竞争和浪费。
使用场景
主要还是跨数据源融合分析,整合来自不同数据源(如关系型数据库、大数据系统、NoSQL 数据库等)的数据,进行统一的分析,而不用把各种源的数据先统一抽取转换到一个统一的中间库中。
另外其实同理的就是,适用于跨域,即多个地域或者说数据中心的快速联合查询。
特别说下就是大批量、特别复杂逻辑的批处理场景其实不太适合用HetuEngine。
官网上也强调了“尤其适用于Hadoop集群(MRS)的Hive、Hudi数据的交互式快速查询场景”。
HetuEngine介绍
结构
数据层:即HetuEnging支持的数据源,其实也就是数据实际存储的位置。
引擎层:HetuEnging接收SQL、解析SQL、并行拉取数据层数据、分布式计算的地方。
服务层:门户、数据源连接以及管理等配置页面。