一文读懂OLAP常用优化技术

概述

OLAP在推动企业数字化转型、提高决策分析效率等场景占了举足轻重的作用。市场上数仓选型非常多,升级后往往也越来越像。因为OLAP底层技术有很多共通之处,本文将揭秘其中一些常用的技术手段。期望能帮助读者更好地进行技术选型和数仓设计。

笔者将常用手段总结成了优化IO和计算,有些手段可能同时用到,图中暂不标注。

  • IO优化:随着CPU的发展,现在瓶颈一般在IO。而IO有个特点“离CPU越远,访问越慢”,我们可以借用这些特性,减少IO或远程访问量,来提高OLAP查询效率。
  • 优化计算:通过优化计算复杂度、借用分布式的算力等,提高查询效率。

图:OLAP常用优化手段

图:存储访问性能

优化IO

索引


对数据进行索引,快速定位到所查询数据,减少无用数据扫描,提高查询性能。如Mysql等中用到B+树作为索引提高查询性能。

常用应用场景:

①Hive等中利用日期进行分区,可以减少查询数据量

②Doris、Kylin中编排数据时,将常用字段放在前面,充分利用前缀索引来提高查询性能

常用技术选型:MySQL、Elasticsearch等

图:B+树

图:前缀索引

缓存

将常用中间数据缓存起来,减少磁盘等的访问,提高查询性能。

常用应用场景:公司的准实时即席查询平台中,中间封装一层Alluxio,提高查询性能
常用技术选型:SparkSQL(替换了HIVE)、Alluxio等

图:借用Alluxio加速数仓分析效率

列式存储

以数据列为逻辑单元管理数据,相邻的数据都是具有相同类型的数据。

  • 数据压缩:因为类似数据存储在一起,能提高提高压缩率,节省成本
  • 按需取数:我们往往只需要其中几列数据,相比行存储能避免扫描全量数据,降低磁盘I/O,降低查询响应时间。

常用应用场景:即席查询
常用技术选型:SPARKSQL+列式存储,IMPALA+列式存储等

图:行列存储对比

向量化引擎


对内存中的列式数据,一个batch调用一次SIMD指令(而非每一行调用一次),不仅减少了函数调用次数、降低了cache miss,而且可以充分发挥SIMD指令的并行能力,大幅缩短了计算耗时。
常用技术选型:Clickhouse等,

协处理器

在计算和存储分离场景,常规方式是取数回来,进行计算分析,而这往往有大量的网络IO。通过HBASE等提供的协处理器技术,可以将一些算子在远程执行,如filter、sum等,然后OLAP引擎将数据取回做进一步计算,这样能大幅降低网络IO,提高查询性能。

常用应用场景:Kylin查询数据时,利用Hbase提供的协处理器能力,提高查询性能
常用技术选型:Kylin,Hbase等

优化计算

MPP


采用分而治之的思路,在整体计算复杂度不变的请看下,通过增加计算资源(多线程或者分布式)来缩短计算耗时,整体快速返回用户查询结果。
常用应用场景:当前即席查询技术用到了大量MPP架构的特点。
常用技术选型:SPARKSQL+列式存储,IMPALA+列式存储等,

图:MPP示意图

近似计算


在算UV、分位数等指标时,因为每次计算需要全局数据,需要较大计算资源。在很多分析场景,往往不需要100%的准确性。有一些近似计算的选型,我们可以借助这些库(或者算法)并结合真实应用场景,小成本的快速响应业务查询分析需求

  • 素描:部分库通过提供较高精准度、较少的计算资源、较快的运算速度,来计算UV、分位数等指标,如HyperLogLog、TDigest等
  • 抽样:对于较大规模的原始数据,随机(如将用户ID基于MurmurHash分桶)抽取一定比例数据进行分析,能降低整体的计算量,也能保障较高的精准度

常用应用场景:DMP人群的快速筛选、实时异常监控分析等
常用技术选型:Apache DataSketches、SparkSQL、ElasticSearch等

图:DataSketches上的近似计算

预计算


将可能的结果预先计算出来,以空间换时间,提高查询性能。
常用应用场景:
①报表加速:将所有可能查询结果计算出来以提高查询性能
②上卷表:部分数据库导入一些中间表或者明细表之后,为常用的查询场景,构建上卷表,可以提高查询性能。
常用技术选型:Kylin、Druid、Doris等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/769566.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

敏捷开发——第二次作业JS/服务器的部署

部署 Web 服务器 1. 安装 Apache HTTP 服务器并部署静态网页应用 ⭐⭐ 默认情况下,Apache 在 /var/www/html 目录下寻找要提供服务的文件。可以将静态网页文件放置在这个目录下 2.安装 Nginx 并部署静态页面应用 3. 实践部分 1. 2. 3. 在 /var/www/html 目录下…

离职谷歌的Transformer作者创业,连发3个模型(附技术报告)

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 发布在https://it.weoknow.com 更多资源欢迎关注 去年 8 月,两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布…

【协议-HTTPS】

https https是在http协议的基础上,添加了SSL/TLS握手以及数据加密传输,也属于应用层协议。 httpshttp加密认证完整性保护 https交互图: HTTPS的整体过程分为证书验证和数据传输阶段: ① 证书验证阶段 浏览器发起 HTTPS 请求 服务…

近线数仓优化改造

近线数仓优化改造 1. 背景2. 优化3. 改造3.1. 重构3.2. 优化 1. 背景 大概就是有那么一个数仓,然后简略结构如下: #mermaid-svg-PVoUzuQhj2BK7Qge {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid…

【javascript】原型继承

在编程中,我们经常会想获取并扩展一些东西。 例如,我们有一个 user 对象及其属性和方法,并希望将 admin 和 guest 作为基于 user 稍加修改的变体。我们想重用 user 中的内容,而不是复制/重新实现它的方法,而只是在其之…

Cisco firepower 2140 run ASA and config failover

1 背景 here we got 2 cisco firepower 2140 hardware appliance we’re planning to run ASA on it. and config failover for Primary Unit and Secondary Unit 现场2台Cisco firepower 2140防火墙, 运行ASA模式, 双机组HA,心跳线使用E1/1…

【包远程安装运行】SpringBoot+Mysql实现的图书商城平台+演示视频+开发文档(论文模板)

今天发布的是一款由SpringBootMySQL实现的在线图书商城系统源码,系统主要实现的功能分前台用户和后台管理。 前台功能主要有: 图书物展示、图书分类展示、图书搜索、用户登录注册、图书收藏、图书添加购物车、用户个人信息修改、用户充值提交、购物车图…

期货开户无情地执行交易策略

不是我们偶尔做的事情塑造了我们的生活,而是我们一贯地做的事情塑造我们的生活。这句话告诉我们,不是偶尔做的事情决定我们的人生轨迹,而是我们持之以恒的行为。我认为这个金句最鼓舞人心的地方在于,我们应该容许自己偶尔出错或失…

http和socks5代理哪个隐蔽性更强?

HTTP代理和SOCKS5代理各有其优缺点,但就隐蔽性而言,SOCKS5代理通常比HTTP代理更隐蔽。以下是它们的比较: HTTP代理: 透明性较高:HTTP代理在HTTP头中会透露原始客户端的IP地址,这使得它相对不太隐蔽。…

使用IDA查看二进制

文章目录 1 IDA是什么?2 IDA界面3 汇编基础4 IDA查看hello world二进制5 查看带有条件语句和函数调用的二进制6 总结 1 IDA是什么? IDA是一款反编译软件,可以查看二进制的汇编代码,常用于逆向和问题定位。与其他商业软件类似&…

C++11特性--统一的列表初始化

个人主页:Lei宝啊 愿所有美好如期而遇 {} 初始化及std:initializer_list 一 这种初始化方式我们建议用第一种,但是以后看见下面两种也不要感到疑惑,是可以这样初始化的。 int main() {int a 1;int b { 1 };int c{ 1 };return 0; } 二…

数据链路层(三):流量控制和链路管理

目录 1 流量控制和链路管理1.1 流量控制介绍1、什么是流量控制2、流量控制的功能和方法 1.2 停止等待1.3 滑动窗口1、滑动窗口2、发送方滑动窗口3、接收方滑动窗口4、滑动窗口的流量控制使用滑动窗口如何实现流量控制的为什么滑动窗口的大小比模数小1滑动窗口控制流量采取的措施…

【SpringBoot3+Mybatis】框架快速搭建

文章目录 GitHub 项目一、依赖二、 配置文件三、启动类四、SpringBoot3兼容Druid报错五、工具类5.1 结果封装类5.2 解决枚举类5.3 MD5加密工具类 GitHub 项目 springboot-part——springboot-integrate-07 Mybatis-plus版完整CRUD项目文档记录: 【SpringBoot3Myba…

“神器”巩膜镜,为屈光不正及难治角膜病患者带来希望!

“我不想再戴回框架眼镜了,但是由于角膜疾病问题,我曾戴普通隐形眼镜和RGP都会出现极强的异物感,非常不舒服!现在我该怎么办呢?”四川眼科医院门诊,张女士疑惑地问到。 28岁的张女士是一名圆锥角膜患者&am…

Pixelmator Pro:专业级图像编辑,触手可及mac版

Pixelmator Pro是一款功能强大的图像编辑软件,专为Mac操作系统设计。它拥有直观的界面和丰富的工具,能够满足用户各种图像处理需求。 Pixelmator Pro软件获取 首先,Pixelmator Pro支持多种文件格式,包括JPEG、PNG、GIF、BMP、TIF…

【包远程安装运行】SpringBoot+Mysql实现的美食分享菜谱制作平台+演示视频+开发文档(论文模板)

今天发布的是由【猿来入此】的优秀学员独立做的一个基于springboot脚手架的美食分享菜谱制作平台系统,该系统分为前台和后台,多用户分享平台。主要实现了 除脚手架功能以外下面是系统的功能: 前台普通用户:注册、登录、首页、美食…

政安晨:【深度学习实践】【使用 TensorFlow 和 Keras 为结构化数据构建和训练神经网络】(三)—— 随机梯度下降

政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: TensorFlow与Keras实战演绎 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正! 这篇文章中,咱们将使用Keras和TensorFlow…

GPT神器级插件Code Interpreter

自去年 3 月份以来,人们对 GPT-4 API 的兴趣激增,“有数百万开发人员请求访问”。OpenAI 在一篇博客文章中,分享了使用 GPT-4 正在进行的一系列令人兴奋的创新,并阐明了未来的愿景:未来基于聊天的大模型可以用在任意的…

每秒批量插入10000条数据到MySQL中,资源消耗(带宽、IOPS)有多少?

文章目录 🔊博主介绍🥤本文内容起因代码资源情况改造 📢文章总结📥博主目标 🔊博主介绍 🌟我是廖志伟,一名Java开发工程师、Java领域优质创作者、CSDN博客专家、51CTO专家博主、阿里云专家博主、…

LeetCode每日一题[c++]-322.零钱兑换

题目描述 给你一个整数数组 coins ,表示不同面额的硬币;以及一个整数 amount ,表示总金额。 计算并返回可以凑成总金额所需的 最少的硬币个数 。如果没有任何一种硬币组合能组成总金额,返回 -1 。 你可以认为每种硬币的数量是无…