ClickHouse--05--MergeTree 表引擎

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • MergeTree 系列表引擎
    • 前言
    • MergeTree 系列表引擎 --功能
    • MergeTree 系列表引擎 --种类
  • 1.MergeTree
    • 1.1MergeTree 建表语句:
    • 1.2 MergeTree 引擎表目录解析
        • 查询过程 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/898313841ff643af8d6d9284ba82847b.png)
    • 1.3 MergeTree 引擎表设置分区


MergeTree 系列表引擎

前言

ClickHouse 提供了大约 28 种表引擎,各有各的用途 纷繁复杂。ClickHouse 表引擎一共分为四个系列,分别是 Log 系列、MergeTree 系列、Integration 系列、Special 系列。其中包含了两种特殊的表引擎 Replicated、Distributed,功能上与其他表引擎正交,根据场景组合使用

  • Log 系列用来做小表数据分析
  • MergeTree 系列用来做大数据量分析
  • Integration 系列则多用于外表数据集成。
  • 再复制表 Replicated 系列
  • 分布式表 Distributed 等,

在所有的表引擎中,最为核心的当属 MergeTree 系列表引擎,这些表引擎拥有最为强大的性能和最广泛的使用场合。对于非 MergeTree 系列的其他引擎而言,主要用于特殊用途,场景相对有限。

MergeTree 系列表引擎 --功能

而 MergeTree 系列表引擎是官方主推的存储引擎,有

  • 主键索引
  • 数据分区
  • 数据副本
  • 数据采样
  • 删除和修改等功能,
  • 支持几乎所有 ClickHouse 核心功能。

MergeTree 系列表引擎 --种类

MergeTree 系 列 表 引 擎 包 含 :

  • MergeTree
  • ReplacingMergeTree
  • SummingMergeTree(汇总求和功能)
  • AggregatingMergeTree(聚合功能)
  • CollapsingMergeTree(折叠删除功能)
  • VersionedCollapsingMergeTree(版本折叠功能)引擎

在这些的基础上还可以叠加 Replicated 和 Distributed。

1.MergeTree

  • MergeTree 在写入一批数据时,数据总会以数据片段的形式写入磁盘,且数据片段在磁盘上不可修改
  • 为了避免片段过多,ClickHouse 会通过后台线程,定期合并这些数据片段,属于相同分区的数据片段会被合成一个新的片段。这种数据片段往复合并的特点,也正是合并树名称的由来。
    在这里插入图片描述

1.1MergeTree 建表语句:

在这里插入图片描述

  • ENGINE:ENGINE = MergeTree(),MergeTree 引擎没有参数。

  • ORDER BY:排序字段。比如 ORDER BY (Col1, Col2),值得注意的是,如果没有使用 PRIMARY KEY 显式的指定主键 ORDER BY 排序字段自动作为主键。如果不需要排序,则可以使用 ORDER BY tuple() 语法,这样的话,创建的表也就不包含主键。这种情况下,ClickHouse 会按照插入的顺序存储数据。必选项。

  • PARTITION BY : 分 区 字 段 , 例 如 要 按 月 分 区 , 可 以 使 用 表 达 toYYYYMM(date_column),这里的 date_column 是一个 Date 类型的列,分区名的格式会是"YYYYMM"。可选。

  • PRIMARY KEY:指定主键,如果排序字段与主键不一致,可以单独指定主键字段。否则默认主键是排序字段。大部分情况下不需要再专门指定一个 PRIMARY KEY子句,注意,在 MergeTree 中主键并不用于去重,而是用于索引,加快查询速度。可选。

这里是引用

  • SAMPLE BY:采样字段,如果指定了该字段,那么主键中也必须包含该字段。比如 SAMPLE BY intHash32(UserID) ORDER BY (CounterID, EventDate,intHash32(UserID))。可选。
  • TTL:数据的存活时间。在 MergeTree 中,可以为某个列字段或整张表设置 TTL。当时间到达时,如果是列字段级别的 TTL,则会删除这一列的数据;如果是表级别的 TTL,则会删除整张表的数据。可选。
  • SETTINGS:额外的参数配置。可选。
    在这里插入图片描述
    示例:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

MergeTree引擎会在插入数据 15 分钟左右,将同一个分区的各个分区文件片段合并成一整个分区文件

这里也可以手动执行 OPTIMIZE 语句手动触发合并

在这里插入图片描述

1.2 MergeTree 引擎表目录解析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
进入到某一个分区目录片段“202102_2_2_0”中,我们可以看到如下目录:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

查询过程 在这里插入图片描述

1.3 MergeTree 引擎表设置分区

在这里插入图片描述
案例
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/682275.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

局部特征描述子与关键点

一、局部特征描述子与关键点之间存在密切的关系 关键点(Key Points): 关键点是在图像、点云或其他数据中具有显著局部特征的点或区域。这些点通常是在数据中表现出局部结构或特征变化的位置,比如曲率极值点、拐点、纹理变化显著的…

Acwing二分和前缀和(一)

数的范围 原题链接:https://www.acwing.com/problem/content/791/ 整数二分步骤,找一个区间,使得答案一定在区间中。找一个判断条件,使得该判断条件具有二段性,并且答案一定是该二段性的分界点。分析终点在该判断条件下…

【原创】Anaconda安装 Solving Environment错误

conda install XXX 时总是有: Solving environment: failed with initial frozen solve. Retrying with flexible solve. 解决方法: conda config --set channel_priority flexible

速盾cdn:cdn免费注册

速盾CDN是一家专业的内容分发网络(CDN)服务提供商,为网站提供高速、稳定的访问体验。今天我将为您介绍速盾CDN的注册流程以及其优势。 首先,我们来了解一下什么是CDN。CDN是指内容分发网络(Content Delivery Network&…

toString()、equals()、clone()用法

Java中所有类的对象都可以直接使用Object类中提供的一些方法 1. toString():返回对象的字符串表示形式,通常在类中重写,以便于返回的是对象的内容 2. equals():判断两个对象的地址是否相等,直接使用也一样,…

社区店选址地理位置评估:大数据分析的力量

大家好,我是一名有着 5 年开店经验的鲜奶吧创业者。在这 5 年的时间里,我深切地体会到了选址对于一家社区鲜奶吧的重要性。一个好的地理位置可以为你的店铺带来源源不断的客流,而一个糟糕的位置则可能让你的创业之路充满坎坷。 在这里&#…

Qt之条件变量QWaitCondition详解

QWaitCondition内部实现结构图: 相关系列文章 C之Pimpl惯用法 目录 1.简介 2.示例 2.1.全局配置 2.2.生产者Producer 2.3.消费者Consumer 2.4.测试例子 3.原理分析 3.1.辅助函数CreateEvent 3.2.辅助函数WaitForSingleObject 3.3.QWaitConditionEvent …

一个小例子,告诉你什么是衍生式设计

之前好多小伙伴想让我介绍介绍Dynamo与衍生式设计,奈何最近太忙了,实在没时间弄这些~趁着端午节,今天用一个小案例,先简单让大家对衍生式设计有个初步认识,之后有时间,我再多写几篇关于这方面的文章&#x…

Java使用opencsv完成对csv批量操作

文章目录 前言一、maven二、造数三、代码部分1.OpenCsvController2.OpenCsvUtil3.StudentInfo4.CodeToValue 三、效果展示1.download2.upload 总结 前言 csv文件是不同于excel文件的另一种文件,常常以,作为分隔符,本篇将通过JavaBean的形式完成对csv文件…

Linux_进程地址空间

我们用c语言写的程序,经过编译后形成可执行程序存放在硬盘。当运行该程序时,操作系统将该程序加载到内存中,创建进程控制块,变为进程,然后开始执行该程序。大家是否想过,操作系统是如何加载的呢&#xff1b…

25天物理探索旅程 - 第三天:相对论时空观的构建

第三天的课堂,我们将踏上一段穿越时空的奇幻旅程,探索那个由爱因斯坦用天才智慧构建起来的相对论世界。想象一下,你手握一把名为“狭义相对论”的神奇钥匙,准备开启一扇通往全新宇宙观的大门。 首先,我们来聊聊同时性…

【c语言】字符串常见函数 下

🎈个人主页:甜美的江 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:c语言 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步&a…

如何在我们的模型中使用Beam search

在上一篇文章中我们具体探讨了Beam search的思想以及Beam search的大致工作流程。根据对Beam search的大致流程我们已经清楚了,在这我们来具体实现一下Beam search并应用在我们的seq2seq任务中。 1. python中的堆(heapq) 堆是一种特殊的树形…

速盾:2024年cdn在5g时代重要吗

在2024年,随着5G技术的普及与应用,内容分发网络(Content Delivery Network,CDN)在数字化时代中的重要性将进一步巩固和扩大。CDN是一种用于快速、高效地分发网络内容的基础设施,它通过将内容部署在全球各地…

幻兽帕鲁Palworld服务器设置参数(汉化)

创建幻兽帕鲁服务器配置参数说明,Palworld服务器配置参数与解释,阿腾云atengyun.com分享: 自建幻兽帕鲁服务器教程: 阿里云教程 https://t.aliyun.com/U/bLynLC腾讯云教程 https://curl.qcloud.com/oRMoSucP 幻兽帕鲁服务器 幻…

with 用法

with 已弃用: 不再推荐使用该特性。虽然一些浏览器仍然支持它,但也许已从相关的 web 标准中移除,也许正准备移除或出于兼容性而保留。请尽量不要使用该特性,并更新现有的代码;参见本页面底部的兼容性表格以指导你作出决定。请注意…

寒假学习记录16:Express框架(Node)

后续会补充 1.引入express 1.先下载express框架 创建一个package.json格式的文件,里面写入 {"dependencies": {"express": "~4.16.1" //express版本号} } 然后打开终端输入 npm i 2.引入express模块 const express require(&quo…

如何使用idea连通服务器上的Redis(详细版本)

这里我使用的是阿里云的服务器 打开阿里云的安全组,设置端口为6379 在redis.conf文件中,注释bind 127.0.0.1 将protected-mode设置为no,即关闭保护模式 更改服务器中的防火墙,放行6379端口 # 放行端口 firewall-cmd --zo…

【python】元组

是python中内置的不可变序列 在python中使用()定义元组,元素与元素之间使用英文的逗号分隔 元组中只有一个元素的时候,逗号也不能省略 y(10,) print(y,type(y))元组的创建方式 使用()直接创建元组 元组名(elem1,elem2,...,elemN)使用内置函数tuple()创…

Nacos 的配置管理和配置热更新

一、配置管理的必要性 1. 存在问题 微服务重复配置过多维护成本高:将各个微服务的配置都写到配置管理服务中,单个微服务不去编写配置,而是到配置管理服务中读取配置,实现配置共享,便于修改和维护 业务配置经常变动&a…