ClickHouse 数据类型、表引擎与TTL

文章目录

    • 数据类型
    • 表引擎
      • 1.TinyLog 引擎
      • 2.MergeTree 引擎
      • 3.ReplacingMergeTree 引擎
      • 4.AggregatingMergeTree 引擎
      • 5.SummingMergeTree 引擎
      • 6.CollapsingMergeTree 引擎
      • 7.Distributed 引擎
    • TTL
      • 列级 TTL
      • 表级TTL

数据类型

ClickHouse 数据类型Java 数据类型数据范围
UInt8Short0 到 255
UInt16Integer0 到 65,535
UInt32Long0 到 4,294,967,295
UInt64BigInteger0 到 18,446,744,073,709,551,615
Int8Byte-128 到 127
Int16Short-32,768 到 32,767
Int32Integer-2,147,483,648 到 2,147,483,647
Int64Long-9,223,372,036,854,775,808 到 9,223,372,036,854,775,807
Float32Float约 ±3.4x10^-38 到 ±3.4x10^38
Float64Double约 ±1.7x10^-308 到 ±1.7x10^308
Decimal(p,s)BigDecimal取决于精度和标度
StringString任意长度的字符串
FixedString(n)String固定长度的字符串,长度为 n
DateLocalDate0000-01-01 到 9999-12-31
DateTimeLocalDateTime0000-01-01 00:00:00 到 9999-12-31 23:59:59
DateTime64Instant0000-01-01 00:00:00 到 9999-12-31 23:59:59.999999999
Array(T)Array任意长度的 T 类型数组
Nullable(T)Object (T 或 null)T 类型或 null
Tuple(T1, T2, …)Object[]多个类型的元组
Enum8Enum8 位枚举值
Enum16Enum16 位枚举值
UUIDUUIDUUID 格式的字符串
IPv4InetAddressIPv4 地址
IPv6InetAddressIPv6 地址

表引擎

ClickHouse 表引擎是一种用于存储和管理数据的方式,它定义了数据在物理存储和查询处理方面的行为。

表引擎决定了数据的存储格式、索引方式、数据分布方式以及查询优化方式等方面。不同的引擎具有不同的特性和适用场景,可以根据数据的特点和应用需求选择合适的引擎来存储和处理数据。

1.TinyLog 引擎

TinyLog 是 ClickHouse 中的一种存储引擎,它专门用于小规模数据的存储和查询。

它将数据以文本文件的形式存储在磁盘上,每个文件对应一个分区,适用于数据量较小的场景,例如开发、测试或小型项目。

创建表

CREATE TABLE tinylog_example
(id UInt32,name String,age UInt8
)
ENGINE = TinyLog;

创建了一个名为 tinylog_example 的表,包含了三个列:id(ID)、name(姓名)和 age(年龄)。指定了引擎为 TinyLog,表明数据将以 TinyLog 引擎的方式存储。

插入数据

INSERT INTO tinylog_example (id, name, age)
VALUES(1, 'Alice', 30),(2, 'Bob', 25),(3, 'Charlie', 35);

查询数据

SELECT * FROM tinylog_example;

在这里插入图片描述

我们也可以进入到本地的磁盘文件中去查看该数据。

进入 ClickHouse 本地数据存储目录(需要切换到 root 用户):

cd  /var/lib/clickhouse/data

在这里插入图片描述
data 目录下的文件夹对应的就是我们创建的库,我上面创建的 tinylog_example 表存储在 test 库下,所以我这里进入到 test 目录中进行查看。

由于 ClickHouse 默认会进行压缩,所以我并不能直接看到:

在这里插入图片描述

2.MergeTree 引擎

用于存储有序的时间序列数据,支持灵活的数据分区和排序,适用于日志数据、传感器数据等场景。

假设我们要存储网站的访问日志数据,我们可以使用 MergeTree 引擎来存储这些数据,并且按照日期进行分区。

创建表

CREATE TABLE log_data
(date Date,time DateTime,user_id UInt32,page_visited String,duration Float32
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(date)
ORDER BY (date, time, user_id);

创建一个名为 log_data 的表,用于存储网站访问日志数据。数据按照日期进行分区,并且按照日期、时间和用户 ID 进行排序。

插入数据

INSERT INTO log_data (date, time, user_id, page_visited, duration)
VALUES('2024-04-01', '2024-04-01 10:15:00', 123, '/home', 3.5),('2024-04-01', '2024-04-01 10:20:00', 456, '/products', 5.2),('2024-04-02', '2024-04-02 08:30:00', 789, '/about', 2.1);

查询数据

SELECT *
FROM log_data
WHERE date = '2024-04-01';

在这里插入图片描述

查询表的分区信息

SELECT *
FROM system.parts
WHERE database = 'test'AND table = 'log_data';

在这里插入图片描述

3.ReplacingMergeTree 引擎

ReplacingMergeTree 引擎是 MergeTree 引擎的变种,支持在插入新数据时自动删除旧数据,适用于周期性更新的数据存储场景。

注意! 它在一些老的 ClickHouse 版本中并不会立即去重,而是在经过一定的周期后才会去重。

在新版中则会立即去重,但不同分区中还是可能存在相同的数据。因为它的去重机制并不是全局的,而是在每个分区内部进行操作的。

假设我们需要存储温度传感器数据,并且定期更新数据以保持最新。我们可以使用 ReplacingMergeTree 引擎来实现自动替换过期数据的功能。

创建表

CREATE TABLE temperature_data
(sensor_id UInt32,temperature Float32,timestamp DateTime
)
ENGINE = ReplacingMergeTree(timestamp)
PRIMARY KEY (sensor_id)
ORDER BY (sensor_id);

创建一个名为 temperature_data 的表,用于存储温度传感器数据。数据将按照传感器 ID 进行排序,只保留时间戳最大的值。

ReplacingMergeTree(timestamp) 中的参数 (timestamp) 可以不指定。在有重复列的情况下,会根据 ORDER BY 默认保留重复列中最后插入的那行数据。

插入数据

INSERT INTO temperature_data (sensor_id, temperature, timestamp)
VALUES(1, 23.5, '2024-04-01 12:00:00'),(2, 21.8, '2024-04-01 12:00:00'),(1, 24.3, '2024-04-01 12:15:00'),(2, 22.1, '2024-04-01 12:15:00');

查询数据

SELECT * FROM temperature_data;

在这里插入图片描述

查询出来,可能会出现并没有去重成功的情况,这是因为使用的 ClickHouse 是老版本的,在插入数据时不会立即去重。

此时,我们可以手动执行合并任务:

OPTIMIZE TABLE temperature_data FINAL;

合并任务执行完成后,我们再次查询:

在这里插入图片描述

可以看到,已经成功的完成了去重操作,并且在 ID 相同的情况下,保留了时间戳最大的数据。

4.AggregatingMergeTree 引擎

该引擎继承自 MergeTree,改变了数据部分合并的逻辑。

ClickHouse 将具有相同主键(或更准确地说,具有相同排序键)的所有行替换为存储聚合函数状态组合的单行(在一个数据部分内)。

假设我们有一个名为 website_logs 的表,用于存储网站访问日志数据,并且实时计算每小时的访问量。

创建表

CREATE TABLE website_logs(date Date,hour UInt8,visits UInt32
)
ENGINE = AggregatingMergeTree
PARTITION BY toYYYYMM(date)
ORDER BY (date, hour);

插入数据

INSERT INTO website_logs (date, hour, visits)
VALUES('2024-04-01', 0, 100),('2024-04-01', 1, 150),('2024-04-01', 2, 200),('2024-04-01', 3, 180),('2024-04-01', 4, 220),('2024-04-01', 5, 250),('2024-04-01', 6, 300),('2024-04-01', 7, 280),('2024-04-01', 8, 320),('2024-04-01', 9, 350),('2024-04-01', 10, 380),('2024-04-01', 11, 400),('2024-04-01', 12, 420),('2024-04-01', 13, 450),('2024-04-01', 14, 480),('2024-04-01', 15, 500),('2024-04-01', 16, 520),('2024-04-01', 17, 550),('2024-04-01', 18, 580),('2024-04-01', 19, 600),('2024-04-01', 20, 620),('2024-04-01', 21, 640),('2024-04-01', 22, 660),('2024-04-01', 23, 680);

查询数据

SELECT *
FROM website_logs
ORDER BY date, hour;

在这里插入图片描述

5.SummingMergeTree 引擎

SummingMergeTree 引擎用于对相同主键的行进行聚合,在插入新数据时对相同主键的行进行求和。

假设我们要存储每天的销售数据,并计算每种产品的总销售额。

创建表

CREATE TABLE sales_data
(date Date,product_id UInt32,sales_amount Float32
)
ENGINE = SummingMergeTree
PARTITION BY toYYYYMM(date)
ORDER BY (date, product_id);

创建了一个名为 sales_data 的表,用于存储销售数据。表包含了三个列:date(日期)、product_id(产品 ID)和 sales_amount(销售额)。

数据将按照日期和产品 ID 进行分区(这里相当于 date, product_id 是联合主键),并且按照日期和产品 ID 排序。

插入数据

INSERT INTO sales_data (date, product_id, sales_amount)
VALUES('2024-04-01', 1, 100.50),('2024-04-01', 2, 150.75),('2024-04-01', 3, 200.25),('2024-04-01', 1, 120.80),('2024-04-01', 2, 180.60),('2024-04-01', 3, 220.40);

查询数据

SELECT * FROM sales_data;

在这里插入图片描述

可以看到,即使我们插入了多行数据,但是因为其中包含 date, product_id(联合主键)相同的数据,所以它会自动合并(求和计算)除主键外的所有数值列。

6.CollapsingMergeTree 引擎

用于在插入新数据时折叠(合并)相同主键的行,并且保留最新的行。适用于存储以事件时间为主要维度的数据流,并保留最新的状态。

假设我们要存储用户在网站上的访问记录,并且保留每个用户的最新访问信息。

创建表:

CREATE TABLE user_visits
(user_id UInt32,visit_time DateTime,url String,is_active Int8
)
ENGINE = CollapsingMergeTree(is_active)
PARTITION BY toYYYYMM(visit_time)
ORDER BY (user_id, visit_time);

创建了一个名为 user_visits 的表,用于存储用户访问记录。表包含了四个列:user_id(用户 ID)、visit_time(访问时间)、url(访问的网址)和 is_active(活跃标志)。数据将按照访问时间和用户 ID 进行分区,并且按照用户 ID 和访问时间排序。

在创建表时,我们指定了 CollapsingMergeTree(is_active),表示当插入新数据时,如果有相同主键的行(在这里是相同的 user_id),ClickHouse 将根据 is_active 列的值来选择保留哪一行,只保留 is_active 最大的行。

插入数据

INSERT INTO user_visits (user_id, visit_time, url, is_active)
VALUES(1, '2024-04-01 10:00:00', '/page1', 1),(2, '2024-04-01 10:05:00', '/page2', 1),(1, '2024-04-01 10:10:00', '/page3', -1),(3, '2024-04-01 10:15:00', '/page4', 1),(2, '2024-04-01 10:20:00', '/page5', -1),(1, '2024-04-01 10:25:00', '/page6', 1);

查询数据:

SELECT *
FROM user_visits
ORDER BY user_id, visit_time;

在这里插入图片描述
可以看到,它并未进行合并操作,这是因为 ClickHouse 还没有合并数据,它在一个我们无法预料的未知时刻合并数据片段。

此时,我们可以手动执行合并任务,添加关键字 FINAL 强制进行合并:

SELECT *
FROM user_visits FINAL
ORDER BY user_id, visit_time;

在这里插入图片描述

它只会保留当前分区内 is_active 最大的行,最大值一样会保存多行。

7.Distributed 引擎

用于在多个 ClickHouse 节点上分布存储数据,并且实现数据的分片存储和并行查询处理,适用于构建分布式数据仓库和实时分析系统。

假设我们有多个 ClickHouse 节点,我们要在这些节点上分布存储数据,并且进行查询操作。

创建分布式表

CREATE TABLE distributed_log_data
(date Date,time DateTime,user_id UInt32,page_visited String,duration Float32
)
ENGINE = Distributed('cluster_name', 'default', 'log_data', rand());

创建一个名为 distributed_log_data 的分布式表,将数据分布在名为 cluster_name 的 ClickHouse 集群上,并且将数据存储在名为 log_data 的本地表中。

插入数据

INSERT INTO distributed_log_data (date, time, user_id, page_visited, duration)
VALUES('2024-04-01', '2024-04-01 10:15:00', 123, '/home', 3.5),('2024-04-01', '2024-04-01 10:20:00', 456, '/products', 5.2),('2024-04-02', '2024-04-02 08:30:00', 789, '/about', 2.1);

查询数据

SELECT *
FROM distributed_log_data
WHERE date = '2024-04-01';

TTL

TTL(Time to Live)是一种数据管理机制,在 ClickHouse 中,TTL 机制允许你为表中的数据设置生命周期,以控制数据的存储时间。你可以为表中的某个列设置 TTL,指定数据的存储时间,一旦数据的时间戳超过了 TTL 设置的时间,数据将被自动删除。

列级 TTL

注意,列级 TTL 功能只有在 ClickHouse 21.10 版本及以上才能使用,低版本会失效。

创建表并为指定字段设置 TTL

CREATE TABLE ttl_example_col
(d DateTime DEFAULT now(),a Int TTL d + INTERVAL 10 SECOND,b Int TTL d + INTERVAL 10 SECOND,c String
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(d)
ORDER BY d;

在这里,为 ab 字段设置了 TTL,指定了该列数据的存储时间为插入时间后的 10 秒,超过就会被自动清除。

如果表已经存在,那么可以通过修改表字段的方式进行添加:

ALTER TABLE ttl_example_col
MODIFY COLUMN a Int32 TTL d + INTERVAL 10 SECOND,
MODIFY COLUMN b String TTL d + INTERVAL 10 SECOND;

插入测试数据

INSERT INTO ttl_example_col (a, b, c) VALUES(10, 20, 'Data1'),(15, 25, 'Data2'),(20, 30, 'Data3');

插入后,立即进行查询:

SELECT * FROM ttl_example_col;

在这里插入图片描述

等待一分钟后,再次查询,验证数据是否过期,这里需要我们手动进行合并,因为 ClickHouse 默认合并需要等很久。

OPTIMIZE TABLE ttl_example_col FINAL; 

再次查询,此时如果你使用的 ClickHouse 版本是 21.10 以下,那么会不生效,如果是 21.10 版本及以上,则可以生效。

各位可以去 ClickHouse 的在线测试平台选择版本进行测试 —— ClickHouse Playground

这里提供完整的 SQL 测试代码:

CREATE TABLE ttl_example_col
(d DateTime DEFAULT now(),a Int TTL d + INTERVAL 10 SECOND,b Int TTL d + INTERVAL 10 SECOND,c String
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(d)
ORDER BY d;INSERT INTO ttl_example_col (a, b, c) VALUES(10, 20, 'Data1'),(15, 25, 'Data2'),(20, 30, 'Data3');SELECT * FROM ttl_example_col;SELECT sleep(3);
SELECT sleep(3);
SELECT sleep(3);
SELECT sleep(3);OPTIMIZE TABLE ttl_example_col FINAL; SELECT * FROM ttl_example_col;

使用 21.10 及以上版本运行结果 —— 成功:

在这里插入图片描述

使用 21.10 以下版本运行结果 —— 失败:

在这里插入图片描述

整个网上都没有人探讨这个问题,博主我也是踩了好久坑,一个一个版本测试出来的,一度以为是我本地 ClickHouse 的问题。

官网中也并没有提到哪些版本可以使用列级 TTL

在这里插入图片描述

表级TTL

整表设置 TTL 时,并没有出现因版本不同导致 TTL 失效的问题。

创建带有 TTL 的表

CREATE TABLE ttl_example
(id UInt32,name String,age UInt8,insertion_time DateTime DEFAULT now()
) 
ENGINE = MergeTree
ORDER BY id
TTL insertion_time + INTERVAL 1 MINUTE;

在这个示例中,我们创建了一个名为 ttl_example 的表,包含了 idnameageinsertion_time 四个列。我们通过 TTL 子句为表设置了 TTL,指定了数据的存储时间为插入时间后的 1 分钟,超过就会被自动删除。

如果表已经存在,同样也可以使用修改的方式添加:

ALTER TABLE ttl_example MODIFY TTL insertion_time + INTERVAL 1 MINUTE;

插入测试数据

INSERT INTO ttl_example (id, name, age) VALUES(1, 'Alice', 30),(2, 'Bob', 25),(3, 'Charlie', 35);

插入后,同样的,立即进行查询:

SELECT * FROM ttl_example;

在这里插入图片描述

测试 TTL 机制

等待 1 分钟后,执行查询操作,可以观察到超过 TTL 时间的数据将会被自动删除:

SELECT * FROM ttl_example;

在这里插入图片描述

在等待 TTL 时间过去后,我们可以观察到超过 TTL 时间的数据会被自动删除,从而实现了数据的自动清理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/1836.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ETOJ P1023】同鱼系 题解(数学+取余)

题目描述 给定一个大小为 n n n 的数组 a a a 和一个整数 k k k。 你可以执行以下操作任意次(0次也行): 选择一个下标 i i i 满足 1 ≤ i ≤ n − k 1 \leq i \leq n-k 1≤i≤n−k,然后交换 a i a_i ai​ 和 a i k a_{ik} aik​。…

获取肖博数学全套视频+讲义

肖博数学是一个专业团队,教学方法非常颠覆,具有很多技巧&特殊的解题方法内容,能使得学生在高考时冲刺高分 hello,今天分享一下高中数学资料,肖博数学, 他们的教学方法与传统的教学方式有所不同&#…

vue实现周日历 日历按周切换 vue日程管理

实现的功能 1、点击今天:回到今日日期并选中今日日期,查当天数据 2、点击左箭头:切换上一周 3、点击右箭头:切换下一周 4、黄圆圈代表有日程提醒,点击选中,下方对应显示当前日程提醒的内容,没有…

Spring Cloud Zuul面试题

Spring Cloud Zuul面试题 1. Zuul概述1.1 什么是Zuul?1.2 Zuul有哪些核心功能?1.3 Zuul 1和Zuul 2有什么区别?1.4 为什么我们需要使用API网关如Zuul? 2. 路由功能2.1 Zuul是如何实现路由的?1. 集成 Zuul2. 配置路由3. …

C++设计模式|创建型 4.建造者模式

1.什么是建造者模式? 建造者模式(也被成为生成器模式),是一种创建型设计模式,软件开发过程中有的时候需要创建很复杂的对象,而建造者模式的主要思想是将对象的构建过程分为多个步骤,并为每个步骤定义一个…

nlp 自然语言处理的dataset数据库积累

下面的这个和 entity recognition有关的。 Weights & Biases

mybatis的一二级缓存

MyBatis 给我们提供了一级缓存和二级缓存机制来提高查询效率和减少数据库交互次数,一级缓存主要用于单次数据库会话内的查询优化,而二级缓存则着眼于整个应用层面的数据复用。 一级缓存(Local Cache) 特点: 一级缓存是…

Java Collections类、Stream流

Collections类 Java中的Collections类是一个功能丰富的工具类,它提供了一系列静态方法来操作和处理集合。以下是一些主要的功能: 创建集合:可以使用Collections类创建空集合、单元素集合以及不可变集合等。这为集合的初始化提供了便利。排序…

3i平台体验性能加持,13600KF+B760M+撼与科技A770 TITAN装机体验

在2022年,intel重启显卡线,带来了多款性价比十分不错的显卡。而近段时间,又有传言说intel第二代产品e即将面世,甚至已经有数款Battlemage GPU曝光,让不少intel忠实粉丝直呼期待,或许在今年年底,…

mysql面试题八(SQL语句)

目录 1.SQL 基本组成部分 常用操作示例 创建表 插入数据 查询数据 更新数据 删除数据 创建索引 授予用户权限 2.常见的聚合查询 1. 计数(COUNT) 2. 求和(SUM) 3. 平均值(AVG) 4. 最大值&…

卸载jenkins和docker

要卸载Docker中部署的Jenkins以及相关的容器和数据卷,您可以按照以下步骤操作: 卸载Jenkins容器及关联数据卷 停止并删除Jenkins容器: 使用Docker命令找到Jenkins容器的ID(如果您还不知道),然后停止并删除…

在stm32中,所需的库函数有那些

使用库函数中封装的函数来访问外设可以使得stm32开发更加方便,省去了查寄存器位操作,只用查库函数就可以了 但是使用库函数时要记住真正的其本质是获取寄存器的地址然后设置其中的位 库函数一般添加到自己创建的Lib文件夹中 库函数实际上分成了两块&…

vue e.target.currentSrc 获取图片图片里包含中文名字出现乱码

<div v-html"info.brief" class"content" click"judgeImg($event)"></div> //判断是否为图片并提取当前图片地址judgeImg(e){ let currentSrc decodeURIComponent(e.target.currentSrc) }, 在 Vue 中&#xff0c;当你从 e…

Opencv | 图像卷积与形态学变换操作

这里写目录标题 一. 滤波 / 卷积操作1. 平滑均值滤波/卷积2. 平滑中值滤波/卷积3. 平滑高斯滤波/卷积3.1 关注区域3.2 分解特性 二. 形态学变换1. 常用核2. cv.erode ( ) 腐蚀操作3. cv.dilate ( ) 膨胀操作4. Open 操作5. Close 操作6. Morphological Gradient 形态梯度操作7.…

设计模式之创建型模式---工厂模式

文章目录 工厂模式概述简单工厂简单工厂的代码实现简单工厂的使用简单工厂应用场景 工厂方法工厂方法模式的代码实现工厂方法的使用工厂方法应用场景 抽象工厂抽象工厂模式代码实现抽象工厂的使用方法抽象工厂模式的应用场景 总结 工厂模式概述 工厂模式从名字就能看出&#x…

查看文件的权限和实际类型

该文件确实存在于指定的位置。可以使用 ls 命令来检查文件是否存在&#xff0c;以及确认文件路径是否正确。 ls -l xxx.xx权限问题: 确保你有权限读取该文件。如果该文件位于受限制的目录中&#xff0c;可能需要使用 sudo 或其他管理员权限来运行命令。 文件格式不正确: 如果…

JS走马灯小功能制作

HTML代码&#xff1a; <div id"contain"><div id"content"> 作文&#xff0c;怎样才能写好&#xff1f;作文&#xff0c;好于勤读&#xff0c;作文&#xff0c;优于真情。作文一词&#xff0c;汇于欲要看究竟&#xff0c;处处细留心。作文于此…

损失函数汇总

kl 在多分类问题中&#xff0c;KL&#xff08;Kullback-Leibler&#xff09;损失通常用于衡量模型预测的概率分布与真实标签的概率分布之间的差异。在多分类任务中&#xff0c;通常使用交叉熵损失&#xff08;Cross Entropy Loss&#xff09;作为主要的损失函数&#xff0c;但…

Threejs绘制传送带

接下来会做一个MES场景下的数字孪生&#xff0c;所以开始做车间相关的模型&#xff0c;不过还是尽量少用建模&#xff0c;纯代码实现&#xff0c;因为一方面可以动态使用&#xff0c;可以调节长度和宽度等&#xff0c; 下面这节就做一个简单的传送带&#xff0c;这是所有车间都…

c++计算DNA探针的熔解温度

DNA探针的熔解温度(Tm)是指DNA双链在解离过程中的温度,可以用来估计DNA探针与靶序列的结合强度。 DNA探针富集实验中使用的盐浓度通常是在高盐条件下进行的,以帮助DNA与探针结合并提高富集效率。一般来说,盐浓度在0.5 M到1 M之间是常见的范围,但具体的盐浓度会根据实验的…