一文读懂OLAP常用优化技术

概述

OLAP在推动企业数字化转型、提高决策分析效率等场景占了举足轻重的作用。市场上数仓选型非常多,升级后往往也越来越像。因为OLAP底层技术有很多共通之处,本文将揭秘其中一些常用的技术手段。期望能帮助读者更好地进行技术选型和数仓设计。

笔者将常用手段总结成了优化IO和计算,有些手段可能同时用到,图中暂不标注。

  • IO优化:随着CPU的发展,现在瓶颈一般在IO。而IO有个特点“离CPU越远,访问越慢”,我们可以借用这些特性,减少IO或远程访问量,来提高OLAP查询效率。
  • 优化计算:通过优化计算复杂度、借用分布式的算力等,提高查询效率。

图:OLAP常用优化手段

图:存储访问性能

优化IO

索引


对数据进行索引,快速定位到所查询数据,减少无用数据扫描,提高查询性能。如Mysql等中用到B+树作为索引提高查询性能。

常用应用场景:

①Hive等中利用日期进行分区,可以减少查询数据量

②Doris、Kylin中编排数据时,将常用字段放在前面,充分利用前缀索引来提高查询性能

常用技术选型:MySQL、Elasticsearch等

图:B+树

图:前缀索引

缓存

将常用中间数据缓存起来,减少磁盘等的访问,提高查询性能。

常用应用场景:公司的准实时即席查询平台中,中间封装一层Alluxio,提高查询性能
常用技术选型:SparkSQL(替换了HIVE)、Alluxio等

图:借用Alluxio加速数仓分析效率

列式存储

以数据列为逻辑单元管理数据,相邻的数据都是具有相同类型的数据。

  • 数据压缩:因为类似数据存储在一起,能提高提高压缩率,节省成本
  • 按需取数:我们往往只需要其中几列数据,相比行存储能避免扫描全量数据,降低磁盘I/O,降低查询响应时间。

常用应用场景:即席查询
常用技术选型:SPARKSQL+列式存储,IMPALA+列式存储等

图:行列存储对比

向量化引擎


对内存中的列式数据,一个batch调用一次SIMD指令(而非每一行调用一次),不仅减少了函数调用次数、降低了cache miss,而且可以充分发挥SIMD指令的并行能力,大幅缩短了计算耗时。
常用技术选型:Clickhouse等,

协处理器

在计算和存储分离场景,常规方式是取数回来,进行计算分析,而这往往有大量的网络IO。通过HBASE等提供的协处理器技术,可以将一些算子在远程执行,如filter、sum等,然后OLAP引擎将数据取回做进一步计算,这样能大幅降低网络IO,提高查询性能。

常用应用场景:Kylin查询数据时,利用Hbase提供的协处理器能力,提高查询性能
常用技术选型:Kylin,Hbase等

优化计算

MPP


采用分而治之的思路,在整体计算复杂度不变的请看下,通过增加计算资源(多线程或者分布式)来缩短计算耗时,整体快速返回用户查询结果。
常用应用场景:当前即席查询技术用到了大量MPP架构的特点。
常用技术选型:SPARKSQL+列式存储,IMPALA+列式存储等,

图:MPP示意图

近似计算


在算UV、分位数等指标时,因为每次计算需要全局数据,需要较大计算资源。在很多分析场景,往往不需要100%的准确性。有一些近似计算的选型,我们可以借助这些库(或者算法)并结合真实应用场景,小成本的快速响应业务查询分析需求

  • 素描:部分库通过提供较高精准度、较少的计算资源、较快的运算速度,来计算UV、分位数等指标,如HyperLogLog、TDigest等
  • 抽样:对于较大规模的原始数据,随机(如将用户ID基于MurmurHash分桶)抽取一定比例数据进行分析,能降低整体的计算量,也能保障较高的精准度

常用应用场景:DMP人群的快速筛选、实时异常监控分析等
常用技术选型:Apache DataSketches、SparkSQL、ElasticSearch等

图:DataSketches上的近似计算

预计算


将可能的结果预先计算出来,以空间换时间,提高查询性能。
常用应用场景:
①报表加速:将所有可能查询结果计算出来以提高查询性能
②上卷表:部分数据库导入一些中间表或者明细表之后,为常用的查询场景,构建上卷表,可以提高查询性能。
常用技术选型:Kylin、Druid、Doris等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/769566.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

敏捷开发——第二次作业JS/服务器的部署

部署 Web 服务器 1. 安装 Apache HTTP 服务器并部署静态网页应用 ⭐⭐ 默认情况下,Apache 在 /var/www/html 目录下寻找要提供服务的文件。可以将静态网页文件放置在这个目录下 2.安装 Nginx 并部署静态页面应用 3. 实践部分 1. 2. 3. 在 /var/www/html 目录下…

离职谷歌的Transformer作者创业,连发3个模型(附技术报告)

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 发布在https://it.weoknow.com 更多资源欢迎关注 去年 8 月,两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布…

websocket 内的操作码fin和opcode

websocket传输的头两个字节非常关键,提供了每一帧的基本信息,RFT6455中给出了帧头的格式说明: 0 1 2 30 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1-----------…

【协议-HTTPS】

https https是在http协议的基础上,添加了SSL/TLS握手以及数据加密传输,也属于应用层协议。 httpshttp加密认证完整性保护 https交互图: HTTPS的整体过程分为证书验证和数据传输阶段: ① 证书验证阶段 浏览器发起 HTTPS 请求 服务…

近线数仓优化改造

近线数仓优化改造 1. 背景2. 优化3. 改造3.1. 重构3.2. 优化 1. 背景 大概就是有那么一个数仓,然后简略结构如下: #mermaid-svg-PVoUzuQhj2BK7Qge {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid…

【javascript】原型继承

在编程中,我们经常会想获取并扩展一些东西。 例如,我们有一个 user 对象及其属性和方法,并希望将 admin 和 guest 作为基于 user 稍加修改的变体。我们想重用 user 中的内容,而不是复制/重新实现它的方法,而只是在其之…

SQL server 里按年按月进行累计值统计

SQL server 里按年按月进行累计值统计 即 4月 算从1~4月的累计值 参考如下: select dt, account_set_ord, account_set_title, account_ord, account_title,…

Cisco firepower 2140 run ASA and config failover

1 背景 here we got 2 cisco firepower 2140 hardware appliance we’re planning to run ASA on it. and config failover for Primary Unit and Secondary Unit 现场2台Cisco firepower 2140防火墙, 运行ASA模式, 双机组HA,心跳线使用E1/1…

【包远程安装运行】SpringBoot+Mysql实现的图书商城平台+演示视频+开发文档(论文模板)

今天发布的是一款由SpringBootMySQL实现的在线图书商城系统源码,系统主要实现的功能分前台用户和后台管理。 前台功能主要有: 图书物展示、图书分类展示、图书搜索、用户登录注册、图书收藏、图书添加购物车、用户个人信息修改、用户充值提交、购物车图…

typeScript2(接口与对象类型)

对象类型:在typescript中,我们定义对象的方式要用关键字interface(接口)(使用interface来定义一种约束,让数据的结构满足约束的格式) 注意: (1)使用接口约束…

期货开户无情地执行交易策略

不是我们偶尔做的事情塑造了我们的生活,而是我们一贯地做的事情塑造我们的生活。这句话告诉我们,不是偶尔做的事情决定我们的人生轨迹,而是我们持之以恒的行为。我认为这个金句最鼓舞人心的地方在于,我们应该容许自己偶尔出错或失…

http和socks5代理哪个隐蔽性更强?

HTTP代理和SOCKS5代理各有其优缺点,但就隐蔽性而言,SOCKS5代理通常比HTTP代理更隐蔽。以下是它们的比较: HTTP代理: 透明性较高:HTTP代理在HTTP头中会透露原始客户端的IP地址,这使得它相对不太隐蔽。…

使用IDA查看二进制

文章目录 1 IDA是什么?2 IDA界面3 汇编基础4 IDA查看hello world二进制5 查看带有条件语句和函数调用的二进制6 总结 1 IDA是什么? IDA是一款反编译软件,可以查看二进制的汇编代码,常用于逆向和问题定位。与其他商业软件类似&…

C++11特性--统一的列表初始化

个人主页:Lei宝啊 愿所有美好如期而遇 {} 初始化及std:initializer_list 一 这种初始化方式我们建议用第一种,但是以后看见下面两种也不要感到疑惑,是可以这样初始化的。 int main() {int a 1;int b { 1 };int c{ 1 };return 0; } 二…

让你彻底读懂Java多态

Java多态,我真是看立刻很多次,记了很多次,但是还是容易忘,容易不理解,其实根本原因就是没在实际应用过,不知道具体场景,今天我也终于实际用到了,大彻大悟了。 接下来我一层层的&…

数据链路层(三):流量控制和链路管理

目录 1 流量控制和链路管理1.1 流量控制介绍1、什么是流量控制2、流量控制的功能和方法 1.2 停止等待1.3 滑动窗口1、滑动窗口2、发送方滑动窗口3、接收方滑动窗口4、滑动窗口的流量控制使用滑动窗口如何实现流量控制的为什么滑动窗口的大小比模数小1滑动窗口控制流量采取的措施…

【SpringBoot3+Mybatis】框架快速搭建

文章目录 GitHub 项目一、依赖二、 配置文件三、启动类四、SpringBoot3兼容Druid报错五、工具类5.1 结果封装类5.2 解决枚举类5.3 MD5加密工具类 GitHub 项目 springboot-part——springboot-integrate-07 Mybatis-plus版完整CRUD项目文档记录: 【SpringBoot3Myba…

突破编程_C++_查找算法(分块查找)

1 算法题 :使用分块算法在有序数组中查找指定元素 1.1 题目含义 在给定一个有序数组的情况下,使用分块查找算法来查找数组中是否包含指定的元素。分块查找算法是一种结合了顺序查找和二分查找思想的算法,它将有序数组划分为若干个块&#x…

代码标识含义

START_RELATION ‘开始关系’ START_TIME ‘开始时间’ NO_OP_TIME ‘无操作时间’ NO_OP_RELATION ‘无操作关系’ NO_OP_ENTITY ‘无操作实体’ DUMMY_RELATION ‘虚拟关系’ DUMMY_ENTITY ‘虚拟实体’ DUMMY_TIME ‘虚拟时间’ DUMMY_RELATION_ID 0 START_RELATI…

“神器”巩膜镜,为屈光不正及难治角膜病患者带来希望!

“我不想再戴回框架眼镜了,但是由于角膜疾病问题,我曾戴普通隐形眼镜和RGP都会出现极强的异物感,非常不舒服!现在我该怎么办呢?”四川眼科医院门诊,张女士疑惑地问到。 28岁的张女士是一名圆锥角膜患者&am…