为什么ClickHouse查询速度快

导读:ClickHouse速度快的秘诀在于——利用存储引擎的特殊设计充分减少磁盘I/O对查询速度的影响。

ClickHouse为什么查询速度快?本文来揭秘。

1

从存储引擎视角看

ClickHouse速度快的秘诀在于——利用存储引擎的特殊设计充分减少磁盘I/O对查询速度的影响。从用户提交一条SQL语句进行查询到终输出结果的过程中,大量的时间是消耗在了磁盘I/O上,在很多情况下,I/O所占用的时间可以达到整个时间的90%以上。对存储引擎磁盘I/O的优化可以获得非常大的收益。ClickHouse的存储引擎设计中大量优化的目的也是为了减少磁盘I/O。本节将从该视角对ClickHouse存储引擎的优化进行解读。

1、预排序

ClickHouse与传统事务数据库的一个不同之处在于ClickHouse写入数据文件的数据时有序的,这就是本节将要介绍的预排序:将数据在写入磁盘前进行排序,以保证数据在磁盘上有序。

预排序在数据库系统是一个被广泛使用的技术,在实现范围查找时,可以将大量的随机读转换为顺序读,从而有效提高I/O效率,降低范围查询时的I/O时间。在点查找时,预排序能做到和未排序数据相同的性能。因此,预排序可以在不降低点查找性能的情况下,有效提高范围查询的性能。

2、列存

列存数据库和行存数据库根本的区别在于列存数据库将一行数据拆分到多个数据文件中。在列存数据库中,同一列的所有数据都在同一个文件中,因此在硬盘上是连续的。这种特性特别适合OLAP的低范式查询场景。

3、压缩

ClickHouse的另一个降低I/O的手段是压缩,压缩可以减少读取和写入的数据量,从而减少I/O时间。并不是所有场景下都可以引入压缩的,很显然,压缩必然带来压缩和解压缩的CPU消耗,这是一个利用CPU时间换I/O时间的手段。事务数据库由于大部分情况下是针对行的操作,因此如果对每一行都进行一次压缩解压缩,带来的时间消耗是远大于磁盘I/O时间的。这就是事务数据库没有使用压缩技术的原因。

而ClickHouse则不同,ClickHouse的小处理单元是块,块一般由8192行数据组成,ClickHouse的一次压缩针对的是8192行数据,这就极大降低CPU的压缩和解压缩时间。同时,ClickHouse是列存数据库,同一列的数据相对更有规律,因此能够带来比较大的压缩比。因此,块+压缩在ClickHouse中成为一个非常关键的优化手段。

2

从计算引擎视角看

不同于存储引擎的设计,ClickHouse计算引擎的设计在很多方面都有着很大的争议,一方面向量化引擎的精妙设计让人拍案叫绝,另一方面相对粗糙的SQL解析和优化(解释)器也让ClickHouse在执行某些操作时让用户咬牙切齿。

1、 ClickHouse速度快的前提

在正式进入本节内容之前,我们首先需要明确一个前提:ClickHous不是在所有场景下都能获得很强的性能。因此,需要先分析ClickHouse在满足哪些前提下才能获得强的查询性能。

ClickHouse计算引擎精妙的设计在于向量化引擎,那么ClickHouse由于计算引擎原因导致的快,肯定是来自向量化引擎的加持。而ClickHouse的计算引擎导致的慢是因为缺乏代价优化器,那么由于计算引擎导致的慢也来自缺乏代价优化器带来的缺陷。基于这两个逻辑,我们可以分析出ClickHouse速度快的前提。

1)大量使用向量化运算

ClickHouse提供了很多内置函数,在使用这些内置函数时,ClickHouse会自动进行向量化优化。因此尽可能使用提供的内置函数进行计算,而不是自己写SQL语句。下面展示错误的SQL写法以及正确的写法。
SELECT (2/(1.0 + exp(-2 * x))-1) as tanh_x  ……    // 错误的写法SELECT tanh(x) as tanh_x ……    // 正确的写法,直接使用ClickHouse的内置函数
2)查询语句中没有使用Join子句,或尽可能少的使用Join操作
ClickHouse没有代价优化器,这导致了ClickHouse在Join操作时会出现内存不足等情况,导致查询失败。Join的性能问题其实并不仅仅是ClickHouse才遇到,任何数据库在遇到大表Join时都有可能导致查询时间暴增。
大数据中的Spark计算引擎对Join操作做了非常多的优化,借助其强大的CBO实现了Join算法的自动选择。更是在此基础上,通过AQE(Adaptive Query Execution,自适应查询引擎),解决了大表Join操作时遇到数据倾斜时的性能问题。
正是由于ClickHouse没有实现CBO,因此ClickHouse在实现Join操作时,选择余地很少。尤其是分布式大表Join操作时,ClickHouse只实现了广播连接(Broadcast Join)算法,极大地降低了ClickHouse的Join能力。
在使用ClickHouse时,应当尽可能避免Join操作。而Join操作在ODS建模的过程中大量存在。因此,ClickHouse在设计良好的DW上运行向量化查询的性能高。读者应该尽可能避免将ClickHouse用于ODS的建模工作中。当数据量大时,这类建模工作还是尽可能下推到Spark上执行。
2、ClickHouse快的本质

ClickHouse在满足上面提到的两个条件时,在不考虑存储引擎影响的情况下,应当能够在计算引擎上达到大的性能。ClickHouse计算引擎快的本质是利用了CPU提供的硬件加速特性。

除此之外,ClickHouse客观上的确在一些环节存在着一些问题,个人认为这些问题和ClickHouse的定位有关。ClickHouse在设计之初就给自身进行了清晰的定位——充分发挥单机性能的OLAP引擎。在此基础上,分布式的join能力其实并不重要,毕竟业界已经有Spark了,完全可以将ClickHouse建立在Spark之上,由Spark解决建模问题,由ClickHouse强大的DW分析能力实现OLAP的后一公里问题。

作为用户,我们应该清晰地了解ClickHouse速度快的前提,有意识地避开ClickHouse的雷区,不要将ClickHouse用于其不擅长的场景。正如此时此刻,大家都意识到了MySQL无法解决大数据量的OLAP问题,这类问题要通过专业的OLAP引擎解决。

开源社区要的并不是什么能力都有的但都不强的平庸的软件,而是百花齐放,各自有着各自擅长的领域,通过组合实现架构上的合力。以上仅代表作者个人观点,欢迎读者有不同意见,大家互相讨论。
 

3

总结

本文分别对ClickHouse的存储引擎和计算引擎进行了简单分析,分别得出了ClickHouse速度快的不同的前提。

存储引擎需求的前提如下。

  • 使用MergeTree存储引擎。

  • 按照业务需求,正确设置数据表的排序键,查询时需满足左原则。

计算引擎架构要求的前提如下。

  • 没有或少用Join操作。

  • 尽可能多地使用内置函数。

当满足如上4个条件时,使用ClickHouse才有可能达到比较的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/814646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全国各省环境规制强度数据(2004-2022年)

01、数据简介 以保护环境为目的,对各种环境污染行为进行规制,政府相关政策规制,是社会性规制的重要内容,包含大气、水、废弃物、噪声污染等外部行为,对这些行为进行规制就是要将整个社会为其承担的成本转化为其自身承…

通过一篇文章让你了解Linux的重要性

Linux 前言一、什么是Linux后台vs前台为何大多数公司选择使用Linux作为后台服务器 二、国内企业后台和用户使用Linux现状IT服务器Linux系统应用领域嵌入式Linux系统应用领域个人桌面应用领域 三、就个人能力提升来说,该如何看待Linux网络上的人都怎么说知乎 腾讯面经…

IDEA Warnings:SQL dialect is not configured.

springboot项目XxxMapper.xml文件打开后显示warnings:SQL dialect is not configured......(翻译:未配置SQL语言。) 大概意思是没有在IDEA中配置当前sql是MySQl、Oracle还是MariaDB等语言。 配置一下就好: 完了&#…

2024年150道高频Java面试题(二十七)

53. 什么是 Java 中的死锁?如何避免? Java中的死锁是指两个或两个以上的线程因为竞争资源而造成的一种僵持状态,每个线程都在等待其他线程释放锁,但是这些锁又被其他线程持有,导致没有任何线程能继续执行下去&#xf…

中国电子学会(CEIT)2022年03月真题C语言软件编程等级考试四级(含详细解析答案)

中国电子学会(CEIT)考评中心历届真题(含解析答案) C语言软件编程等级考试四级 2022年03月 编程题四道 总分:100分一、拦截导弹(25分) 某国为了防御敌国的导弹袭击,发展出一种导弹拦截系统。但是这种导弹拦截系统有一个缺陷:虽然它的第一发炮弹能够到达任意的高度…

npm: .npmrc pnpm

pnpm i 安装依赖时&#xff0c;pnpm 的镜像源优先级遵循以下顺序&#xff1a; 命令行参数&#xff1a;可以通过在 pnpm i 命令中使用 --registry 的方式指定镜像源&#xff0c;此时会优先使用命令行参数指定的镜像源。 pnpm i --registry< registry-url >.npmrc 配置&…

谈谈我的软考高级考证之路(系统架构设计师篇)

系统架构设计师备考资料请移步 2023年软考高级系统架构设计师视频教程&#xff0c;推荐下载&#xff01;获取。 备考总体策略 • 总体策略&#xff1a;刷视频记笔记刷真题 • 备考时间&#xff1a;建议报完名之后&#xff0c;开始备考&#xff0c;大致2-3个月&#xff08;基础…

【Java多线程】案例(4):定时器

目录 一、定时器是什么? 二、Java标准库中的定时器 三、自己实现定时器 四、标准库中更推荐使用的定时器 一、定时器是什么? 定时器是一种用于在指定时间间隔或特定时间点执行特定任务的工具或设备。在计算机科学中&#xff0c;定时器通常是软件或硬件组件&#xff0c;用…

智过网:注册安全工程师注册有效期与周期解析

在职业领域&#xff0c;各种专业资格认证不仅是对从业者专业能力的认可&#xff0c;也是保障行业安全、规范发展的重要手段。其中&#xff0c;注册安全工程师证书在安全生产领域具有举足轻重的地位。那么&#xff0c;注册安全工程师的注册有效期是多久呢&#xff1f;又是几年一…

Elasticsearch下载安装 以及Reindex(数据迁移)

部署Elasticsearch集群 这里介绍使用的是Elasticsearch 7.6.1的版本&#xff0c;配置两台服务器&#xff0c;一台部署主节点&#xff0c;一台部署两个从节点。 下载地址&#xff1a;https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.16.2-linux-x86_64…

backTrack Mock

1.简而言之&#xff0c;一个集合里求组合就要用startIndex。 2.startIndex本身保证了组合的不同&#xff0c;需要求不同组合就要用startIndex&#xff1b;但从 i 开始还是从 i 1 开始决定了组合元素能不能重复选。&#xff08;39&#xff09; 3.组内既不能重复选&#xff0c…

【Java探索之旅】方法重载 递归

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; Java编程秘籍 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言一、方法重载1.1 为什么要有方法重载1.2 方法重载的概念与使用1.3 方法签名 二、递归2…

小程序面试题之性能优化提高11道

1.如何实现上拉加载分页列表的性能优化 我们的功能里面有个滚动到底部加载的功能&#xff0c;优化前我们的做法是这样的&#xff1a; 大部分人面对长列表滚动的时候&#xff0c;一开始的处理方式都是这样的&#xff0c;如果数据不多&#xff0c;只有几页可能不会太暴露问题&…

在QT里使用SQLite数据库

什么是SQLite数据库&#xff1f;SQLite是一种轻量级的数据库管理系统&#xff0c;它不需要一个独立的服务器进程&#xff0c;可以被集成到应用程序中。SQLite是开源的&#xff0c;支持跨平台操作&#xff0c;并且使用非常广泛。在QT里如何使用SQLite数据库呢&#xff1f;废话不…

软考高级架构师:随机函数模型

一、AI 讲解 随机函数模型是理解各种随机过程和算法的一个重要概念&#xff0c;在软件工程、算法设计以及系统分析中有着广泛的应用。简而言之&#xff0c;随机函数模型是一种用于描述具有随机性的系统或过程的数学模型&#xff0c;它能够帮助我们预测和分析在不确定性下的系统…

吴恩达2022机器学习专项课程(一) 5.5 特征缩放1 5.6 特征缩放2

问题预览/关键词 什么是特征缩放&#xff1f;作用是什么&#xff1f;特征尺度和参数w权重的关系是&#xff1f;算法为什么要调节w权重&#xff1f;不进行特征缩放对梯度下降的影响&#xff1f;有特征缩放对梯度下降的影响&#xff1f;实现特征缩放的三种方法是&#xff1f;如何…

JetBrains IntelliJ IDEA 2024.1 发布 - 领先的 Java 和 Kotlin IDE

JetBrains IntelliJ IDEA 2024.1 发布 - 领先的 Java 和 Kotlin IDE 请访问原文链接&#xff1a;JetBrains IntelliJ IDEA 2024.1 (macOS, Linux, Windows) - 领先的 Java 和 Kotlin IDE&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者主页&#xff1a;s…

sqlmap一些常用命令

仅供交流学习使用&#xff0c;请勿用于非法用途 1&#xff09;检测url存在漏洞情况&#xff1a;python sqlmap.py -u "http://192.168.88.128/sqli-labs-master/Less-1/?id1" 2&#xff09;获取所有数据库名称&#xff1a;python sqlmap.py -u "http://192.168…

达梦数据库导入导出工具dmfldr

达梦数据库导入导出工具dmfldr 基础信息 OS版本&#xff1a; Red Hat Enterprise Linux Server release 7.9 (Maipo) DB版本&#xff1a; DM Database Server 64 V8 DB Version: 0x7000c 03134284132-20240115-215128-200811 dmfldr工具介绍 dmfldr&#xff08;DM Fast Loade…

大厂Java笔试题之统计兔子出生问题

题目&#xff1a;有一种兔子&#xff0c;从出生后第3个月起每个月都生一只兔子&#xff0c;小兔子长到第三个月后每个月又生一只兔子。 例子&#xff1a;假设一只兔子第3个月出生&#xff0c;那么它第5个月开始会每个月生一只兔子。 一月的时候有一只兔子&#xff0c;假如兔子…