Apache Doris 2.0.0 特性分析

1、存算分离 所谓存算分离是指查询外表时,使用一种专门做计算的BE节点,但对于存储在BE上的内部表,目前还不能做到存储分离。 doris可以查询外部表,包括: Hive、Iceberg、Hudi、Elasticsearch、JDBC、Paimon 早期版本中,FE通过BE节点查询外部表,并且在BE节点内执行join、sort、agg等计算, 这些BE节点同时也负责doris的内部表的存储和计算, 新版本改造了BE节点,通过修改配置,它可以仅用于查询外表时的计算,内部表数据不会存到它上面, 这种BE称为“计算节点”,而既存储内部表数据又执行计算的BE节点称为“混合节点”。 两者的代码和二进制安装文件是一样的,只是配置不同,在集群中扮演的角色不同。 配置方法如下: 修改FE的配置文件: prefer_compute_node_for_external_table=true min_backend_num_for_external_table=3 修改BE配置: be_node_role=computation 然后将这个BE加入集群: ALTER SYSTEM ADD BACKEND "be_ip:be_port"; 可以如此加入多个“计算节点”。

当集群中有充足的计算节点时,当FE查询外表时,执行计划优先下发给“计算节点”,而不发给“混合节点”。

以上就是2.0.0存算分离特性的原理和状态,以下是这一特性的限制和理解上的澄清: 目前访问外部表(无论是否使用存算分离)只支持读取,不能写入。 存算分离的计算节点,只能用于外表的访问和计算,对内部表算子(例如JOIN、AGG、SORT)还不能调度到计算节点执行, 可能以后版本会支持,这个称为“计算外溢”。 SelectDB在apache doris官网上说,2023年10月会上传更成熟的存算分离架构给社区,估计目前的存算分离还不够完善。 查看了一下StarRocks的官网,没有存算分离的文档,只有3.1的release note提了一下。

2、多源数据目录(Multi-Catalog) 这是一种管理外部数据源更好的模型,数据库层级的模型: Catalog -- 可以理解为一个种类型的数据库集群,里面包含多个同一类型的数据库。 Database -- 用于数据管理的隔离,有独立的元数据存储,字符编码、数据存储格式等属性,内部包含schema和table。 Doris的Multi-Catalog可以将外部数据源,映射到一个新的Catalog,并自动读取外部数据源的所有元数据,在本地创建对应的database和表。 例如,hive里有如下数据库: default random ssb100 tpch1 tpch100 tpch1_orc 其中tpch100中有表: customer lineitem nation orders part partsupp region supplier 使用Multi-Catalog特性,不需要为每个hive数据库在Doris创建对应数据库,也不需要为每个hive表创建映射表。 对于Doris支持的数据源(如hive,Elasticsearch),只要创建Catalog并指定连接信息: CREATE CATALOG hive PROPERTIES ( 'type'='hms', 'hive.metastore.uris' = 'thrift://172.21.0.1:7004' ); Doris会自动读取外部数据源的元数据信息,并为每个数据库和表创建映射。 这个功能极大的方便了外部数据源的访问,在1.20版本已经具备了这一功能,2.0.0支持更多数据源,并与存算分离结合。

3、冷热分层 冷热分层是指,将表中较早时间导入的数据,保存到对象存储或其它廉价的存储中去,并在doris本地删除, 当需要这些旧数据时,再从对象存储读进来,这个过程对于用户是透明的。 具体的操作是,在创建表时设置一个日期,在这个日期到达时,之前导入的数据,会上传到对象存储,并在本地删除。 也可以建表时设置数据的生命期,从数据导入时开始计算,超过这个生命期的数据会上传到对象存储,并在本地删除。 上面冷热分层的逻辑,也可以只作用于分区数据。

每次数据导入(如执行一个insert、一次stream load),虽然最终存储在segment文件中, 但是也会创建一个对应的Rowset对象,记录了这批数据的导入时间。 冷热分层粒度就是基于Rowset,当到达冷却时间时,会将当前满足条件的Rowset 全部上传到对象存储,并删除本地数据,之后新导入的数据,生成的新Rowset,会在到达冷却时间后也上传到对象存储。

查询时,如果查询的数据是热数据,这些数据仍然存储在BE节点,可以直接返回结果, 如果查询的数据是冷数据,BE会读取对象存储里的数据,在本地恢复,再返回结果。

这一功能非常适用于交易记录、日志的存储和查询。

注意,冷热分层是以导入时间作为数据冷热标准,自动上传冷数据的,对用户是透明的, 不是以用户定义的某个类型为日期的列,用户对于冷热分层的控制是非常有限的。

4、默认使用新的优化器 nereids

5、默认使用新执行器 这种称为pipeline的执行器,将执行计划的执行分为更小的粒度,最大程度的异步化和并行化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/45661.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jmeter模拟多用户并发

一、100个真实的用户 1、一个账号模拟100虚拟用户同时登录和100账号同时登录 区别 (1)1个账号100个人用,同时登录; (2)100个人100个账号,同时登录。 相同 (1)两个都…

机器学习之概率论

最近,在了解机器学习相关的数学知识,包括线性代数和概率论的知识,今天,回顾了概率论的知识,贴上几张其他博客的关于概率论的图片,记录学习过程。

SSH远程直连--------------Docker容器

文章目录 1. 下载docker镜像2. 安装ssh服务3. 本地局域网测试4. 安装cpolar5. 配置公网访问地址6. SSH公网远程连接测试7.固定连接公网地址8. SSH固定地址连接测试 在某些特殊需求下,我们想ssh直接远程连接docker 容器,下面我们介绍结合cpolar工具实现ssh远程直接连接docker容器…

线性代数的学习和整理6:向量和矩阵详细,什么是矩阵?(草稿-----未完成)

43 矩阵 4.1 矩阵 4 整理网上总结一些 关于直击线性代数本质的 观点 矩阵的本质是旋转和缩放 矩阵里的数字0矩阵里的数字1,表示不进行缩放矩阵里的数字2等,表示缩放矩阵里的数字-3 表示缩放-3倍,并且反向矩阵里的数字的位置矩阵拆分为列向量…

C#与西门子PLC1500的ModbusTcp服务器通信2--ModbusTcp协议

Modbus TCP是近年来越来越流行的工业控制系统通信协议之一,与其他通信协议相比,Modbus TCP通信速度快、可靠性高、兼容性强、适用于模拟或数字量信号的传输,阅读本文前你必须比较熟悉Modbus协议,了解tcp网络。 一、什么是Modbus …

04有监督算法——支持向量机

1.支持向量机 1.1 定义 支持向量机( Support Vector Machine )要解决的问题 什么样的法策边界才是最好的呢? 特征数据本身如果就很难分,怎么办呢? 计算复杂度怎么样?能实际应用吗? 支持向量机( Support Vector Machine , SVM)是一类按监督学习( s…

初阶c语言:实战项目三子棋

前言 大家已经和博主学习有一段时间了,今天讲一个有趣的实战项目——三子棋 目录 前言 制作菜单 构建游戏选择框架 实现游戏功能 模块化编程 初始化棋盘 打印棋盘 玩家下棋 电脑下棋 时间戳:推荐一篇 C语言生成随机数的方法_c语言随机数_杯浅…

Delegates.observable追踪观察可变数据更新,Kotlin

Delegates.observable追踪观察可变数据更新&#xff0c;Kotlin import kotlin.properties.Delegates import kotlin.reflect.KPropertyclass Person {var name: String by Delegates.observable("fly") { prop: KProperty<*>, old: String, new: String ->p…

【SA8295P 源码分析】22 - QNX Ethernet MAC 驱动 之 emac_entry / emac_attach 函数源码分析

【SA8295P 源码分析】22 - QNX Ethernet MAC 驱动 之 emac_entry / emac_attach 函数源码分析 一、EMAC:libdevnp-emac-eth.so1.1 emac 启动初始化时机1.2 libdevnp-emac-eth.so 源码目录结构1.3 emac_entry() :libdevnp-emac-eth.so 库入口函数1.3.1 dev_attach 参数介绍1.3…

Python遥感图像处理应用篇(三十五):GDAL+Scikit-image计算遥感图像LBP纹理特征

1.Local Binary Pattern( LBP) 算法原理 局部二值模式(Local Binary Pattern, LBP)是一种用于描述图像纹理特征的算法。它通过对图像的每个像素点与其邻域像素进行比较,得到一个二进制编码来表示该像素点的纹理信息。 LBP 算法的基本步骤如下: 选择一个中心像素点,并定…

虚幻官方项目《CropOut》技术解析 之 程序化岛屿生成器(IslandGenerator)

开个新坑详细分析一下虚幻官方发布的《CropOut》&#xff0c;文章会同步发布到我在知乎|CSDN的专栏里 文章目录 概要Create Island几何体生成部分随机种子Step 1Step 2Step 3Step 4Step 5Step 6 岛屿材质部分动态为草地设置颜色 程序设计的小技巧其它Platform Switch函数 概要 …

Android OpenCV(七十四): Android OpenCV SDK 升级至 4.8.0

前言 如昨日文章所述,OpenCV 4.8.0 已经发布,虽然系列文章已经停更很久,但是版本升级工作笔者是很乐意快速完成的。 OpenCV 4.8.0 Android SDK:https://github.com/opencv/opencv/releases/download/4.8.0/opencv-4.8.0-android-sdk.zip 更新日志:https://github.com/o…

安防视频汇聚平台EasyCVR视频监控综合管理平台H.265转码功能更新,新增分辨率配置的具体步骤

安防视频集中存储EasyCVR视频监控综合管理平台可以根据不同的场景需求&#xff0c;让平台在内网、专网、VPN、广域网、互联网等各种环境下进行音视频的采集、接入与多端分发。在视频能力上&#xff0c;视频云存储平台EasyCVR可实现视频实时直播、云端录像、视频云存储、视频存储…

网络安全法律

立法的必要性&#xff1a;网络渗透&#xff0c;网络入侵&#xff0c;网络诈骗&#xff0c;网上钓鱼侵犯知识产权&#xff0c;宣传恐怖主义&#xff0c;极端主义等伤害共鸣利益的行为越发猖狂 信息系统运维安全管理规定&#xff08;范文&#xff09;| 资料 过程: 14-16 草案初…

Open3D 进阶(5)变分贝叶斯高斯混合点云聚类

目录 一、算法原理二、代码实现三、结果展示四、测试数据本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫。 系列文章(连载中。。。爬虫,你倒是爬个完整的呀?): Open3D 进阶(1) MeanShift点云聚类Open3D 进阶(2)DB…

CSerialPort教程4.3.x (4) - CSerialPort在QT中的使用

CSerialPort教程4.3.x (4) - CSerialPort在QT中的使用 环境&#xff1a; QT: 5.6.3前言 CSerialPort项目是一个基于C/C的轻量级开源跨平台串口类库&#xff0c;可以轻松实现跨平台多操作系统的串口读写&#xff0c;同时还支持C#, Java, Python, Node.js等。 CSerialPort项目…

shell脚本之循环语句

循环语句 循环含义 将某代码段重复运行多次&#xff0c;通常有进入循环的条件和退出循环的条件 for循环语句 一般知道循环次数使用for循环 第一类 格式1&#xff1a; for名称 in 取值次数;do;done; 格式2&#xff1a; for 名称 in {取值列表} do done# 打印20次 for i i…

[MySQL]02关于事务的解析

目录 原子性 一致性 持久性 隔离性 事务隔离级别 并发执行可能存在问题 脏读问题 不可重复读 幻读 难点解析 原子性 事务最核心的就是原子性 以前人们认为原子不可再分&#xff0c;用原子性来表示一个事务不可分割 update account set balancebalance-500 where nam…

浅析Java设计模式之四策略模式

title: 浅析Java设计模式之四策略模式 date: 2018-12-29 17:26:17 categories: 设计模式 description: 浅析Java设计模式之四策略模式 1. 目录 1. 目录2. 概念 2.1. 应用场景2.2. 优缺点 2.2.1. 优点2.2.2. 缺点 3. 模式结构4. 样例 4.1. 定义策略4.2. 定义具体策略4.3. 定义…

Android内存泄漏总结和性能优化技巧

我们在开发安卓应用时&#xff0c;性能优化是非常重要的方面。一方面&#xff0c;优化可以提高应用的响应速度、降低卡顿率和提升应用流畅度&#xff0c;从而提升用户体验&#xff1b;另一方面&#xff0c;优化也可以减少应用的资源占用&#xff0c;提高应用的稳定性和安全性&a…