领先一步,效率翻倍:PieCloudDB Database 预聚集特性让查询速度飞起来!

在大数据时代,如何有效地管理和处理海量数据成为了企业面临的核心挑战。为此,拓数派推出了首款数据计算引擎 PieCloudDB Database,作为一款全新的云原生虚拟数仓,旨在提供更高效、更灵活的数据处理解决方案。

PieCloudDB 的设计理念源于对用户使用体验和查询效率的深度理解。在实现存算分离的同时,PieCloudDB 专门设计和打造了全新的存储引擎「简墨」等模块。针对云场景和分析型场景,PieCloudDB 还设计了高效的预聚集(Pre-Aggregate)特性。本文将详细介绍 PieCloudDB 如何运用预聚集技术优化数据处理流程,改善用户体验。

作为云原生虚拟数仓,PieCloudDB 充分借助云计算所提供的基础设施服务,包括大规模分布式集群、虚拟机、容器等。这些特性使得 PieCloudDB 能更好地适应动态的和不断变化的工作负载需求。同时,PieCloudDB 也积极拓展其自身的特性,实现高可用、易扩展和弹性伸缩,以满足企业不断增长的业务需求。

PieCloudDB 实现了一个重要创新功能:预聚集(Pre-Aggregate)。 该功能通过 PieCloudDB 的全新的存储引擎「简墨」(JANM),在数据插入时即时计算数据列的 Aggregate 信息,并将其预先保存以供后续使用。这种方法摒弃了在查询时进行复杂计算的传统方式,从而大大提升了查询速度。此外,由于聚合数据保存在文件中,可以实现快速访问并直接应用于查询。

PieCloudDB 会根据用户的查询自动生成带有 Pre-Aggregate 的计划,使得查询过程尽可能地快速且准确。 当需要聚合数据时,系统会检查预存储的聚合值,并直接读取符合条件的 Aggregate 数据。这样避免了查询过程中扫描整个数据集的需求,可以大幅提升查询速度。

对于部分满足条件的块,PieCloudDB 将会回归原来的处理方式计算 Aggregate 值。 这样既能利用已经预聚合的数据,又只需计算缺少的部分,从而降低计算成本并提高运算效率。

1 预聚集的原理

为了能够增加 Aggregate 的查询性能,PieCloudDB 采用了以「空间」换取「时间」的策略,在写入数据的时候,在存储层中将相关的 Aggregate 进行预先计算并保存,从而在查询的时候可以快速找到需要的 Aggregate 数据。

上面解决了 Aggregate 数据来源问题,下面将介绍如何拿到预先计算的 Aggregate 数据。为了能够实现正确获取下推的 Aggregate 数据,PieCloudDB 的优化器与执行器被进一步改造,增加了两个新的 Pre-Aggregate 计算节点。改造前后的计划树(plan tree) 的对比如下图所示:

改造前后 plan tree 对比图

存储引擎「简墨」会在数据插入时,即时更新 Aggregate 信息。在上图中的 Pre-Aggregate 计算节点会从 AM(access method)中取出预先计算的 Aggregate 数据,如果没有找到合适的 Aggregate 数据,Pre-Aggregate 计算节点也会从 AM 中找出满足条件的 tuple 计算出对应的 Aggregate 数据,返回给上层计算节点使用。这样就解决了怎么正确找到下推的 Aggregate 数据的问题。

Pre-Aggregate 是 OLAP 优化技术中 Zone Maps 的具体实现。即预先计算一批元组属性值的聚合并预先保存,数据库检查预计算的聚集信息决定是否要访问该 block。即上面所述的如果找到可用的 Aggregate 数据则直接返回,否则访问该 block 检索具体元组。

对于带条件的 Pre-Aggregate 来说,其效果取决于预先计算所涉及的数据范围。PieCloudDB 将预聚集范围缩小至块文件,针对每个块文件分别进行预计算存储,从而保证带条件的预聚集查询效果。

2 预聚集的使用演示

下面给出了如何开启 Preagg Block Scan 以及支持 Block Skipping 的 Preagg Bitmap Block Scan 的使用方式。最后给出了对应的性能对比图。

2.1 Preagg Block Scan 使用方式

-- 创建 t 表
create table t(a int, b int, c int);-- 写入三行数据
insert into t values(1,2,3);
insert into t values(3,3,5);
insert into t values(4,4,6);-- 开启 preagg,默认是开启的
set pdb_enable_preagg = on;-- 执行如下的 query
explain (costs off) select sum(b), avg(c), count(*) from t;QUERY PLAN
------------------------------------------------Finalize Aggregate->  Gather Motion 3:1  (slice1; segments: 3)->  Pre-Aggregate Block Scan on tOptimizer: Postgres query optimizer
(4 rows)-- 开启后的执行结果
select sum(b), avg(c), count(*) from t;sum |        avg         | count
-----+--------------------+-------9 | 4.6666666666666667 |     3
(1 row)-- 关闭 preagg 
set pdb_enable_preagg = off;-- 执行同一条 query
explain (costs off) select sum(b), avg(c), count(*) from t;QUERY PLAN
------------------------------------------------Aggregate->  Gather Motion 3:1  (slice1; segments: 3)->  Seq Scan on tOptimizer: Postgres query optimizer
(4 rows)-- 关闭后的执行结果
select sum(b), avg(c), count(*) from t;sum |        avg         | count
-----+--------------------+-------9 | 4.6666666666666667 |     3
(1 row)

2.2 Preagg Bitmap Block Scan 使用方式

create table t(a int, b int);
insert into t values(generate_series(1, 20), generate_series(100, 120));
insert into t values(generate_series(21, 60), generate_series(121, 160));-- 开启 preagg,默认是开启的
set pdb_enable_preagg = on;
-- 下面是开启 Pre-Aggregate Bitmap Block Scan 的几个 guc
set enable_seqscan = off;
set enable_bitmapscan = on;
set enable_indexscan = on;-- 执行如下的 query
explain (costs off) select max(a), sum(a) from t where a > 10 and a < 50;QUERY PLAN
---------------------------------------------------------------Finalize Aggregate->  Gather Motion 3:1  (slice1; segments: 3)->  Partial Aggregate->  Pre-Aggregate Bitmap Block Scan on tRecheck Cond: ((a > 10) AND (a < 50))->  Bitmap Index Scan on tIndex Cond: ((a > 10) AND (a < 50))Optimizer: Postgres query optimizer
(8 rows)-- 开启后的执行结果
select max(a), sum(a) from t where a > 10 and a < 50;max | sum
-----+------49 | 1170
(1 row)-- 关闭 preagg 
set pdb_enable_preagg = off;-- 执行同一条 query
explain (costs off) select max(a), sum(a) from t where a > 10 and a < 50;QUERY PLAN
---------------------------------------------------------------Finalize Aggregate->  Gather Motion 3:1  (slice1; segments: 3)->  Partial Aggregate->  Bitmap Heap Scan on tRecheck Cond: ((a > 10) AND (a < 50))->  Bitmap Index Scan on tIndex Cond: ((a > 10) AND (a < 50))Optimizer: Postgres query optimizer
(8 rows)-- 关闭后的执行结果
select max(a), sum(a) from t where a > 10 and a < 50;max | sum
-----+------49 | 1170
(1 row)

2.3 性能对比

测试表:

create table preaggdata (a int, b int);

测试语句:

explain analyze select sum(a), avg(a), count(*), max(b) from preaggdata;

耗时对比图如下所示:

耗时对比图

从上面的测试数据和对比图可以看出,未开启 Pre-Agg 时,随着数据量的增大,耗时不断增大,且增加的速度也会越来越快;而开启 Pre-Agg 时,耗时是平稳的增长的,增长的速度也不快。当数据量达到 10000K 时,实现了近 28 倍的速度提升。

3 预聚集未来演变之路

目前,Pre-Aggregate 采用「空间」换「时间」的策略来提升性能效率。为了扩大 Pre-Aggregate 的应用范围,优化用户体验,我们将不断推动技术研发,扩大应用场景,并提供更加丰富、多元的功能。

无论是通过优化数据处理方式,拓展支持的函数类型,还是引进新的查询处理机制,我们都在锲而不舍地努力实现这一目标。相信很快,Pre-Aggregate 将能够为复杂的查询场景提供更高效、更精准的解决方案,从而逐步深化其在数据分析和处理领域的应用影响力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/115528.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux入门攻坚——4、shell编程初步、grep及正则表达式

bash的基础特性&#xff08;续&#xff09;&#xff1a; 1、提供了编程环境&#xff1a; 编程风格&#xff1a;过程式&#xff1a;以指令为中心&#xff0c;数据服务于执行&#xff1b;对象式&#xff1a;以数据为中心&#xff0c;指令服务于数据 shell编程&#xff0c;编译执…

智能井盖传感器详细使用效果是什么?

随着每一个城市基础设施在不断完善&#xff0c;城市建设过程之中&#xff0c;井盖的数量也在处于不断增加阶段&#xff0c;在大街小巷之中随处可见形式各类&#xff0c;大小不一的井盖。看似结实牢固的井盖&#xff0c;但是可能由于时间问题&#xff0c;导致年久失修&#xff0…

Spring Boot集成SpringFox 3.0与Pageable参数处理

Springfox 3.0有多个模块&#xff0c;提供了spring boot starter&#xff0c;与Spring Boot集成时仅需引入springfox-boot-starter&#xff0c;如下&#xff1a; <dependency><groupId>io.springfox</groupId><artifactId>springfox-boot-starter<…

经典卷积神经网络 - LeNet

该模型用于手写的数字识别。 LeNet模型包含了多个卷积层和池化层&#xff0c;以及最后的全连接层用于分类。其中&#xff0c;每个卷积层都包含了一个卷积操作和一个非线性激活函数&#xff0c;用于提取输入图像的特征。池化层则用于缩小特征图的尺寸&#xff0c;减少模型参数和…

免费领取!TikTok Shop “全托管”黑五大促官方备战指南来啦!

黑五网一大促即将来袭&#xff0c;自“全托管”模式上线以来&#xff0c;TikTok for Business在沙特阿拉伯和英国市场开展了古尔邦节大促、夏季大促、返校季大促等活动&#xff0c;今年更是会借着黑五网一大促之际&#xff0c;首次覆盖美国市场&#xff0c;为全托管商家带来全球…

如何在Potplayer中使用公网访问群晖WebDav?

文章目录 1 使用环境要求&#xff1a;2 配置webdav3 测试局域网使用potplayer访问webdav4 内网穿透&#xff0c;映射至公网5 使用固定地址在potplayer访问webdav ​ 国内流媒体平台的内容让人一言难尽&#xff0c;就算是购买了国外的优秀作品&#xff0c;也总是在关键剧情上删删…

系统性认知网络安全

前言&#xff1a;本文旨在介绍网络安全相关基础知识体系和框架 目录 一.信息安全概述 信息安全研究内容及关系 信息安全的基本要求 保密性Confidentiality&#xff1a; 完整性Integrity&#xff1a; 可用性Availability&#xff1a; 二.信息安全的发展 20世纪60年代&…

学生成绩管理神器

老师们是否还在为繁琐的成绩查询而烦恼&#xff1f;是否希望有一个简便易用的成绩查询系统&#xff0c;让同学们可以自助查询成绩&#xff1f;那么&#xff0c;这篇文章就是你的救星&#xff01; 让我们一起来认识一下这个成绩查询系统。它是一个基于网页或微信小程序的应用程序…

Spring底层原理(一)

Spring底层原理&#xff08;一&#xff09; ApplitionContext与BeanFactory BeanFactory是ApplicationContext的父接口BeanFactory才是Spring的核心容器,ApplicationContext对其功能进行了组合 类图 内部方法调用 BeanFactory的功能 获取bean检查是否包含bean获取bean别名 …

220V降压5V用什么方案比较好?

对于将220V降压到5V的方案&#xff0c;根据输出电流大小&#xff0c;有两种选择&#xff1a;AH8652和AH8699B。 AH8652是一个sot23-3封装的芯片&#xff0c;固定输出5V&#xff0c;峰值电流为200mA&#xff0c;并内置了MOS管。这个芯片适合需要固定输出电压的应用场景&#xf…

设计模式:模板模式(C#、JAVA、JavaScript、C++、Python、Go、PHP)

简介&#xff1a; 模板模式&#xff0c;它是一种行为型设计模式&#xff0c;它定义了一个操作中的算法的框架&#xff0c;将一些步骤延迟到子类中实现&#xff0c;使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤。 通俗地说&#xff0c;模板模式就是将某一行…

✔ ★【备战实习(面经+项目+算法)】 10.22学习时间表(算法刷题:4道)

✔ ★【备战实习&#xff08;面经项目算法&#xff09;】 坚持完成每天必做如何找到好工作1. 科学的学习方法&#xff08;专注&#xff01;效率&#xff01;记忆&#xff01;心流&#xff01;&#xff09;2. 每天认真完成必做项&#xff0c;踏实学习技术 认真完成每天必做&…

简单易用的操作界面,让你轻松制作电子期刊

随着互联网的发展&#xff0c;电子期刊已经成为了越来越多人的选择。FLBOOK在线制作电子杂志平台作为一款简单易用的操作界面&#xff0c;为用户提供了制作电子期刊的便利。 但是你知道如何使用FLBOOK在线制作电子杂志平台制作一本电子期刊吗&#xff1f; 1.点击开始创作&#…

Spring boot 集成 xxl-job

文章目录 xxl-job 简介引入xxl-job依赖配置xxl-job config添加properties文件配置BEAN模式&#xff08;方法形式&#xff09;步骤一&#xff1a;执行器项目中&#xff0c;开发Job方法&#xff1a;步骤二&#xff1a;调度中心&#xff0c;新建调度任务 xxl-job 简介 官网:https:…

k8s----11、service

services 1、概述2、存在的意义2.1 服务发现2.2 负载均衡 3、pod与service的关系4、service 三种类型4.1 、 ClusterIP4.2 、NodePort4.3 、LoadBalancer 1、概述 Service 是 Kubernetes 最核心概念&#xff0c;通过创建 Service,可以为一组具有相同功能的容器应 用提供一个统…

YOLOV8目标检测——最全最完整模型训练过程记录

文章目录 前言1 下载yolov8&#xff08;[网址](https://github.com/ultralytics/ultralytics)&#xff09;2 配置conda环境3 用pycharm打开文件3 训练自己的YOLOV8数据集4 run下运行完了之后没有best.pt文件5 导出为onnx文件6 yolov8应用完整案例&#xff08;免费且包含源代码、…

iOS上架App Store的全攻略

​ 第一步&#xff1a;申请开发者账号 在开始将应用上架到App Store之前&#xff0c;你需要申请一个开发者账号。 1.1 打开苹果开发者中心网站&#xff1a;Apple Developer 1.2 使用Apple ID和密码登录&#xff08;如果没有账号则需要注册&#xff09;&#xff0c;要确保使用…

基于Python实现的快速的仿手写文字的图片生成器项目源码

Quick Hand &#x1f4dd; 介绍 快速的仿手写文字的图片生成器。 完整代码下载地址&#xff1a;基于Python实现的快速的仿手写文字的图片生成器 界面预览&#xff1a; &#x1f52e; 使用说明 原理&#xff1a;首先&#xff0c;在水平位置、竖直位置和字体大小三个自由度上…

uniapp开发微信小程序,webview内嵌h5,h5打开pdf地址,解决方案

根据公司要求&#xff0c;让我写一个h5&#xff0c;后续会嵌入到合作公司的微信小程序的webview中&#xff0c;如果是自己公司微信小程序&#xff0c;可以采取先下载下来pdf&#xff0c;然后通过wx.openDocument&#xff0c;进行单纯的预览操作&#xff0c;这个可以根据这个老哥…

C语言里的static变量其他语言是看不上还是学不去?

C语言里的static变量其他语言是看不上还是学不去? static变量在C语言中被用于具有静态存储期的局部变量或全局变量。它有以下几个特点&#xff1a; 1. 静态存储期&#xff1a;static变量在程序执行时分配内存&#xff0c;直到程序结束才会释放&#xff0c;其生命周期与程序的…