ClickHouse 数据类型、表引擎与TTL

文章目录

    • 数据类型
    • 表引擎
      • 1.TinyLog 引擎
      • 2.MergeTree 引擎
      • 3.ReplacingMergeTree 引擎
      • 4.AggregatingMergeTree 引擎
      • 5.SummingMergeTree 引擎
      • 6.CollapsingMergeTree 引擎
      • 7.Distributed 引擎
    • TTL
      • 列级 TTL
      • 表级TTL

数据类型

ClickHouse 数据类型Java 数据类型数据范围
UInt8Short0 到 255
UInt16Integer0 到 65,535
UInt32Long0 到 4,294,967,295
UInt64BigInteger0 到 18,446,744,073,709,551,615
Int8Byte-128 到 127
Int16Short-32,768 到 32,767
Int32Integer-2,147,483,648 到 2,147,483,647
Int64Long-9,223,372,036,854,775,808 到 9,223,372,036,854,775,807
Float32Float约 ±3.4x10^-38 到 ±3.4x10^38
Float64Double约 ±1.7x10^-308 到 ±1.7x10^308
Decimal(p,s)BigDecimal取决于精度和标度
StringString任意长度的字符串
FixedString(n)String固定长度的字符串,长度为 n
DateLocalDate0000-01-01 到 9999-12-31
DateTimeLocalDateTime0000-01-01 00:00:00 到 9999-12-31 23:59:59
DateTime64Instant0000-01-01 00:00:00 到 9999-12-31 23:59:59.999999999
Array(T)Array任意长度的 T 类型数组
Nullable(T)Object (T 或 null)T 类型或 null
Tuple(T1, T2, …)Object[]多个类型的元组
Enum8Enum8 位枚举值
Enum16Enum16 位枚举值
UUIDUUIDUUID 格式的字符串
IPv4InetAddressIPv4 地址
IPv6InetAddressIPv6 地址

表引擎

ClickHouse 表引擎是一种用于存储和管理数据的方式,它定义了数据在物理存储和查询处理方面的行为。

表引擎决定了数据的存储格式、索引方式、数据分布方式以及查询优化方式等方面。不同的引擎具有不同的特性和适用场景,可以根据数据的特点和应用需求选择合适的引擎来存储和处理数据。

1.TinyLog 引擎

TinyLog 是 ClickHouse 中的一种存储引擎,它专门用于小规模数据的存储和查询。

它将数据以文本文件的形式存储在磁盘上,每个文件对应一个分区,适用于数据量较小的场景,例如开发、测试或小型项目。

创建表

CREATE TABLE tinylog_example
(id UInt32,name String,age UInt8
)
ENGINE = TinyLog;

创建了一个名为 tinylog_example 的表,包含了三个列:id(ID)、name(姓名)和 age(年龄)。指定了引擎为 TinyLog,表明数据将以 TinyLog 引擎的方式存储。

插入数据

INSERT INTO tinylog_example (id, name, age)
VALUES(1, 'Alice', 30),(2, 'Bob', 25),(3, 'Charlie', 35);

查询数据

SELECT * FROM tinylog_example;

在这里插入图片描述

我们也可以进入到本地的磁盘文件中去查看该数据。

进入 ClickHouse 本地数据存储目录(需要切换到 root 用户):

cd  /var/lib/clickhouse/data

在这里插入图片描述
data 目录下的文件夹对应的就是我们创建的库,我上面创建的 tinylog_example 表存储在 test 库下,所以我这里进入到 test 目录中进行查看。

由于 ClickHouse 默认会进行压缩,所以我并不能直接看到:

在这里插入图片描述

2.MergeTree 引擎

用于存储有序的时间序列数据,支持灵活的数据分区和排序,适用于日志数据、传感器数据等场景。

假设我们要存储网站的访问日志数据,我们可以使用 MergeTree 引擎来存储这些数据,并且按照日期进行分区。

创建表

CREATE TABLE log_data
(date Date,time DateTime,user_id UInt32,page_visited String,duration Float32
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(date)
ORDER BY (date, time, user_id);

创建一个名为 log_data 的表,用于存储网站访问日志数据。数据按照日期进行分区,并且按照日期、时间和用户 ID 进行排序。

插入数据

INSERT INTO log_data (date, time, user_id, page_visited, duration)
VALUES('2024-04-01', '2024-04-01 10:15:00', 123, '/home', 3.5),('2024-04-01', '2024-04-01 10:20:00', 456, '/products', 5.2),('2024-04-02', '2024-04-02 08:30:00', 789, '/about', 2.1);

查询数据

SELECT *
FROM log_data
WHERE date = '2024-04-01';

在这里插入图片描述

查询表的分区信息

SELECT *
FROM system.parts
WHERE database = 'test'AND table = 'log_data';

在这里插入图片描述

3.ReplacingMergeTree 引擎

ReplacingMergeTree 引擎是 MergeTree 引擎的变种,支持在插入新数据时自动删除旧数据,适用于周期性更新的数据存储场景。

注意! 它在一些老的 ClickHouse 版本中并不会立即去重,而是在经过一定的周期后才会去重。

在新版中则会立即去重,但不同分区中还是可能存在相同的数据。因为它的去重机制并不是全局的,而是在每个分区内部进行操作的。

假设我们需要存储温度传感器数据,并且定期更新数据以保持最新。我们可以使用 ReplacingMergeTree 引擎来实现自动替换过期数据的功能。

创建表

CREATE TABLE temperature_data
(sensor_id UInt32,temperature Float32,timestamp DateTime
)
ENGINE = ReplacingMergeTree(timestamp)
PRIMARY KEY (sensor_id)
ORDER BY (sensor_id);

创建一个名为 temperature_data 的表,用于存储温度传感器数据。数据将按照传感器 ID 进行排序,只保留时间戳最大的值。

ReplacingMergeTree(timestamp) 中的参数 (timestamp) 可以不指定。在有重复列的情况下,会根据 ORDER BY 默认保留重复列中最后插入的那行数据。

插入数据

INSERT INTO temperature_data (sensor_id, temperature, timestamp)
VALUES(1, 23.5, '2024-04-01 12:00:00'),(2, 21.8, '2024-04-01 12:00:00'),(1, 24.3, '2024-04-01 12:15:00'),(2, 22.1, '2024-04-01 12:15:00');

查询数据

SELECT * FROM temperature_data;

在这里插入图片描述

查询出来,可能会出现并没有去重成功的情况,这是因为使用的 ClickHouse 是老版本的,在插入数据时不会立即去重。

此时,我们可以手动执行合并任务:

OPTIMIZE TABLE temperature_data FINAL;

合并任务执行完成后,我们再次查询:

在这里插入图片描述

可以看到,已经成功的完成了去重操作,并且在 ID 相同的情况下,保留了时间戳最大的数据。

4.AggregatingMergeTree 引擎

该引擎继承自 MergeTree,改变了数据部分合并的逻辑。

ClickHouse 将具有相同主键(或更准确地说,具有相同排序键)的所有行替换为存储聚合函数状态组合的单行(在一个数据部分内)。

假设我们有一个名为 website_logs 的表,用于存储网站访问日志数据,并且实时计算每小时的访问量。

创建表

CREATE TABLE website_logs(date Date,hour UInt8,visits UInt32
)
ENGINE = AggregatingMergeTree
PARTITION BY toYYYYMM(date)
ORDER BY (date, hour);

插入数据

INSERT INTO website_logs (date, hour, visits)
VALUES('2024-04-01', 0, 100),('2024-04-01', 1, 150),('2024-04-01', 2, 200),('2024-04-01', 3, 180),('2024-04-01', 4, 220),('2024-04-01', 5, 250),('2024-04-01', 6, 300),('2024-04-01', 7, 280),('2024-04-01', 8, 320),('2024-04-01', 9, 350),('2024-04-01', 10, 380),('2024-04-01', 11, 400),('2024-04-01', 12, 420),('2024-04-01', 13, 450),('2024-04-01', 14, 480),('2024-04-01', 15, 500),('2024-04-01', 16, 520),('2024-04-01', 17, 550),('2024-04-01', 18, 580),('2024-04-01', 19, 600),('2024-04-01', 20, 620),('2024-04-01', 21, 640),('2024-04-01', 22, 660),('2024-04-01', 23, 680);

查询数据

SELECT *
FROM website_logs
ORDER BY date, hour;

在这里插入图片描述

5.SummingMergeTree 引擎

SummingMergeTree 引擎用于对相同主键的行进行聚合,在插入新数据时对相同主键的行进行求和。

假设我们要存储每天的销售数据,并计算每种产品的总销售额。

创建表

CREATE TABLE sales_data
(date Date,product_id UInt32,sales_amount Float32
)
ENGINE = SummingMergeTree
PARTITION BY toYYYYMM(date)
ORDER BY (date, product_id);

创建了一个名为 sales_data 的表,用于存储销售数据。表包含了三个列:date(日期)、product_id(产品 ID)和 sales_amount(销售额)。

数据将按照日期和产品 ID 进行分区(这里相当于 date, product_id 是联合主键),并且按照日期和产品 ID 排序。

插入数据

INSERT INTO sales_data (date, product_id, sales_amount)
VALUES('2024-04-01', 1, 100.50),('2024-04-01', 2, 150.75),('2024-04-01', 3, 200.25),('2024-04-01', 1, 120.80),('2024-04-01', 2, 180.60),('2024-04-01', 3, 220.40);

查询数据

SELECT * FROM sales_data;

在这里插入图片描述

可以看到,即使我们插入了多行数据,但是因为其中包含 date, product_id(联合主键)相同的数据,所以它会自动合并(求和计算)除主键外的所有数值列。

6.CollapsingMergeTree 引擎

用于在插入新数据时折叠(合并)相同主键的行,并且保留最新的行。适用于存储以事件时间为主要维度的数据流,并保留最新的状态。

假设我们要存储用户在网站上的访问记录,并且保留每个用户的最新访问信息。

创建表:

CREATE TABLE user_visits
(user_id UInt32,visit_time DateTime,url String,is_active Int8
)
ENGINE = CollapsingMergeTree(is_active)
PARTITION BY toYYYYMM(visit_time)
ORDER BY (user_id, visit_time);

创建了一个名为 user_visits 的表,用于存储用户访问记录。表包含了四个列:user_id(用户 ID)、visit_time(访问时间)、url(访问的网址)和 is_active(活跃标志)。数据将按照访问时间和用户 ID 进行分区,并且按照用户 ID 和访问时间排序。

在创建表时,我们指定了 CollapsingMergeTree(is_active),表示当插入新数据时,如果有相同主键的行(在这里是相同的 user_id),ClickHouse 将根据 is_active 列的值来选择保留哪一行,只保留 is_active 最大的行。

插入数据

INSERT INTO user_visits (user_id, visit_time, url, is_active)
VALUES(1, '2024-04-01 10:00:00', '/page1', 1),(2, '2024-04-01 10:05:00', '/page2', 1),(1, '2024-04-01 10:10:00', '/page3', -1),(3, '2024-04-01 10:15:00', '/page4', 1),(2, '2024-04-01 10:20:00', '/page5', -1),(1, '2024-04-01 10:25:00', '/page6', 1);

查询数据:

SELECT *
FROM user_visits
ORDER BY user_id, visit_time;

在这里插入图片描述
可以看到,它并未进行合并操作,这是因为 ClickHouse 还没有合并数据,它在一个我们无法预料的未知时刻合并数据片段。

此时,我们可以手动执行合并任务,添加关键字 FINAL 强制进行合并:

SELECT *
FROM user_visits FINAL
ORDER BY user_id, visit_time;

在这里插入图片描述

它只会保留当前分区内 is_active 最大的行,最大值一样会保存多行。

7.Distributed 引擎

用于在多个 ClickHouse 节点上分布存储数据,并且实现数据的分片存储和并行查询处理,适用于构建分布式数据仓库和实时分析系统。

假设我们有多个 ClickHouse 节点,我们要在这些节点上分布存储数据,并且进行查询操作。

创建分布式表

CREATE TABLE distributed_log_data
(date Date,time DateTime,user_id UInt32,page_visited String,duration Float32
)
ENGINE = Distributed('cluster_name', 'default', 'log_data', rand());

创建一个名为 distributed_log_data 的分布式表,将数据分布在名为 cluster_name 的 ClickHouse 集群上,并且将数据存储在名为 log_data 的本地表中。

插入数据

INSERT INTO distributed_log_data (date, time, user_id, page_visited, duration)
VALUES('2024-04-01', '2024-04-01 10:15:00', 123, '/home', 3.5),('2024-04-01', '2024-04-01 10:20:00', 456, '/products', 5.2),('2024-04-02', '2024-04-02 08:30:00', 789, '/about', 2.1);

查询数据

SELECT *
FROM distributed_log_data
WHERE date = '2024-04-01';

TTL

TTL(Time to Live)是一种数据管理机制,在 ClickHouse 中,TTL 机制允许你为表中的数据设置生命周期,以控制数据的存储时间。你可以为表中的某个列设置 TTL,指定数据的存储时间,一旦数据的时间戳超过了 TTL 设置的时间,数据将被自动删除。

列级 TTL

注意,列级 TTL 功能只有在 ClickHouse 21.10 版本及以上才能使用,低版本会失效。

创建表并为指定字段设置 TTL

CREATE TABLE ttl_example_col
(d DateTime DEFAULT now(),a Int TTL d + INTERVAL 10 SECOND,b Int TTL d + INTERVAL 10 SECOND,c String
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(d)
ORDER BY d;

在这里,为 ab 字段设置了 TTL,指定了该列数据的存储时间为插入时间后的 10 秒,超过就会被自动清除。

如果表已经存在,那么可以通过修改表字段的方式进行添加:

ALTER TABLE ttl_example_col
MODIFY COLUMN a Int32 TTL d + INTERVAL 10 SECOND,
MODIFY COLUMN b String TTL d + INTERVAL 10 SECOND;

插入测试数据

INSERT INTO ttl_example_col (a, b, c) VALUES(10, 20, 'Data1'),(15, 25, 'Data2'),(20, 30, 'Data3');

插入后,立即进行查询:

SELECT * FROM ttl_example_col;

在这里插入图片描述

等待一分钟后,再次查询,验证数据是否过期,这里需要我们手动进行合并,因为 ClickHouse 默认合并需要等很久。

OPTIMIZE TABLE ttl_example_col FINAL; 

再次查询,此时如果你使用的 ClickHouse 版本是 21.10 以下,那么会不生效,如果是 21.10 版本及以上,则可以生效。

各位可以去 ClickHouse 的在线测试平台选择版本进行测试 —— ClickHouse Playground

这里提供完整的 SQL 测试代码:

CREATE TABLE ttl_example_col
(d DateTime DEFAULT now(),a Int TTL d + INTERVAL 10 SECOND,b Int TTL d + INTERVAL 10 SECOND,c String
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(d)
ORDER BY d;INSERT INTO ttl_example_col (a, b, c) VALUES(10, 20, 'Data1'),(15, 25, 'Data2'),(20, 30, 'Data3');SELECT * FROM ttl_example_col;SELECT sleep(3);
SELECT sleep(3);
SELECT sleep(3);
SELECT sleep(3);OPTIMIZE TABLE ttl_example_col FINAL; SELECT * FROM ttl_example_col;

使用 21.10 及以上版本运行结果 —— 成功:

在这里插入图片描述

使用 21.10 以下版本运行结果 —— 失败:

在这里插入图片描述

整个网上都没有人探讨这个问题,博主我也是踩了好久坑,一个一个版本测试出来的,一度以为是我本地 ClickHouse 的问题。

官网中也并没有提到哪些版本可以使用列级 TTL

在这里插入图片描述

表级TTL

整表设置 TTL 时,并没有出现因版本不同导致 TTL 失效的问题。

创建带有 TTL 的表

CREATE TABLE ttl_example
(id UInt32,name String,age UInt8,insertion_time DateTime DEFAULT now()
) 
ENGINE = MergeTree
ORDER BY id
TTL insertion_time + INTERVAL 1 MINUTE;

在这个示例中,我们创建了一个名为 ttl_example 的表,包含了 idnameageinsertion_time 四个列。我们通过 TTL 子句为表设置了 TTL,指定了数据的存储时间为插入时间后的 1 分钟,超过就会被自动删除。

如果表已经存在,同样也可以使用修改的方式添加:

ALTER TABLE ttl_example MODIFY TTL insertion_time + INTERVAL 1 MINUTE;

插入测试数据

INSERT INTO ttl_example (id, name, age) VALUES(1, 'Alice', 30),(2, 'Bob', 25),(3, 'Charlie', 35);

插入后,同样的,立即进行查询:

SELECT * FROM ttl_example;

在这里插入图片描述

测试 TTL 机制

等待 1 分钟后,执行查询操作,可以观察到超过 TTL 时间的数据将会被自动删除:

SELECT * FROM ttl_example;

在这里插入图片描述

在等待 TTL 时间过去后,我们可以观察到超过 TTL 时间的数据会被自动删除,从而实现了数据的自动清理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/1836.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

获取肖博数学全套视频+讲义

肖博数学是一个专业团队,教学方法非常颠覆,具有很多技巧&特殊的解题方法内容,能使得学生在高考时冲刺高分 hello,今天分享一下高中数学资料,肖博数学, 他们的教学方法与传统的教学方式有所不同&#…

vue实现周日历 日历按周切换 vue日程管理

实现的功能 1、点击今天:回到今日日期并选中今日日期,查当天数据 2、点击左箭头:切换上一周 3、点击右箭头:切换下一周 4、黄圆圈代表有日程提醒,点击选中,下方对应显示当前日程提醒的内容,没有…

C++设计模式|创建型 4.建造者模式

1.什么是建造者模式? 建造者模式(也被成为生成器模式),是一种创建型设计模式,软件开发过程中有的时候需要创建很复杂的对象,而建造者模式的主要思想是将对象的构建过程分为多个步骤,并为每个步骤定义一个…

nlp 自然语言处理的dataset数据库积累

下面的这个和 entity recognition有关的。 Weights & Biases

3i平台体验性能加持,13600KF+B760M+撼与科技A770 TITAN装机体验

在2022年,intel重启显卡线,带来了多款性价比十分不错的显卡。而近段时间,又有传言说intel第二代产品e即将面世,甚至已经有数款Battlemage GPU曝光,让不少intel忠实粉丝直呼期待,或许在今年年底,…

mysql面试题八(SQL语句)

目录 1.SQL 基本组成部分 常用操作示例 创建表 插入数据 查询数据 更新数据 删除数据 创建索引 授予用户权限 2.常见的聚合查询 1. 计数(COUNT) 2. 求和(SUM) 3. 平均值(AVG) 4. 最大值&…

Opencv | 图像卷积与形态学变换操作

这里写目录标题 一. 滤波 / 卷积操作1. 平滑均值滤波/卷积2. 平滑中值滤波/卷积3. 平滑高斯滤波/卷积3.1 关注区域3.2 分解特性 二. 形态学变换1. 常用核2. cv.erode ( ) 腐蚀操作3. cv.dilate ( ) 膨胀操作4. Open 操作5. Close 操作6. Morphological Gradient 形态梯度操作7.…

设计模式之创建型模式---工厂模式

文章目录 工厂模式概述简单工厂简单工厂的代码实现简单工厂的使用简单工厂应用场景 工厂方法工厂方法模式的代码实现工厂方法的使用工厂方法应用场景 抽象工厂抽象工厂模式代码实现抽象工厂的使用方法抽象工厂模式的应用场景 总结 工厂模式概述 工厂模式从名字就能看出&#x…

Threejs绘制传送带

接下来会做一个MES场景下的数字孪生,所以开始做车间相关的模型,不过还是尽量少用建模,纯代码实现,因为一方面可以动态使用,可以调节长度和宽度等, 下面这节就做一个简单的传送带,这是所有车间都…

基础SQL DML-插入语句

插入语句前,我们先创建一个表。表的创建在DDL语句里面涉及,可以参考:小赖同学吖-CSDN博客 我们创建一个员工表进行数据的插入操作 插入(添加)语句的语法 给员工表添加一条记录 给员工表添加多条记录 也可以通过下面的方…

年薪5.8万美元|临床医生赴美国康奈尔大学从事博士后研究

作为临床医学8年制的博士毕业生,A医生希望能到国外从事一段时间的博士后,以强化基础科研训练,弥补职业发展的短板。最终我们为其申请到康奈尔大学Weill Cornell医学院的博士后职位,年薪为5.8万美元。 A医生背景: 申请…

C语言项目实践——贪吃蛇

引言:本篇博客中,我将会使用结构体,链表,WIN32 API等一系列知识完成C语言项目——贪吃蛇的实现。在观看此篇博客之前,请将这些知识所熟悉,不然可能会造成理解困难。 更多有关C语言的知识详解可前往个人主页…

【C++】explicit关键字详解(explicit关键字是什么? 为什么需要explicit关键字? 如何使用explicit 关键字)

目录 一、前言 二、explicit关键字是什么? 三、构造函数还具有类型转换的作用 🍎单参构造函数 ✨引出 explicit 关键字 🍍多参构造函数 ✨为什么需要explicit关键字? ✨怎么使用explicit关键字? 四、总结 五…

npx\pnpm 镜像过期解决方法

. // 1. 清空缓存 npm cache clean --force // 2. 关闭SSL验证 npm config set strict-ssl false // 3. 安装 到这里就可以正常使用npm命令安装需要的工具了。如( npm install -g cnpm )

虚拟机中使用LNMP模拟跨域并结合前端代码解决CORS跨域的简单示例

目录 一、首先,下载lnmp_soft.tar.gz压缩包 二、解压lnmp_soft.tar.gz和下载相关的依赖,插件 三、修改/usr/local/nginx/conf/nginx.conf配置文件 四、/usr/local/nginx/sbin/nginx命令启动nginx 五、在/usr/local/nginx/html目录下新建80.html&…

书生·浦语大模型实战营之微调 Llama 3 实践与教程 (XTuner 版)

书生浦语大模型实战营之微调 Llama 3 实践与教程 (XTuner 版) Llama 3 近期重磅发布,发布了 8B 和 70B 参数量的模型,XTuner 团队对 Llama 3 微调进行了光速支持!!!开源同时社区中涌现了 Llama3-XTuner-CN 手把手教大家使用 XTuner 微调 Llama 3 模型。 XTuner:http:/…

图深度学习——2.图的理论知识

1.图 1.1 图的定义 图是由节点&#xff08;顶点&#xff09;和边构成的数学结构。图用于表示对象之间的关系&#xff0c;其中节点表示对象&#xff0c;边表示对象之间的关系。 一个图&#xff0c;记为 G <V, E> &#xff0c;它包括以下两个要素&#xff1a; 1.节点&am…

第22天:安全开发-PHP应用留言板功能超全局变量数据库操作第三方插件引用

第二十二天 一、PHP留言板前后端功能实现 开发环境&#xff1a; DW PHPStorm PhpStudy Navicat Premium DW : HTML&JS&CSS开发 PHPStorm : 专业PHP开发IDE PhpStudy &#xff1a;Apache MYSQL环境 Navicat Premium: 全能数据库管理工具 二、数据库创建&架…

机器学习(三)之监督学习2

前言&#xff1a; 本专栏一直在更新机器学习的内容&#xff0c;欢迎点赞收藏哦&#xff01; 笔者水平有限&#xff0c;文中掺杂着自己的理解和感悟&#xff0c;如果有错误之处还请指出&#xff0c;可以在评论区一起探讨&#xff01; 1.支持向量机&#xff08;Support Vector Ma…

iTwin Capture Modeler-23中文版下载地址及安装教程

文章目录 一、iTwin Capture Modeler23中文版安装教程二、iTwin Capture Modeler23中文版下载地址一、iTwin Capture Modeler23中文版安装教程 1. 解压安装包。订阅专栏(可获取专栏内所有文章阅读权限与软件安装包)后,从文末获取安装包解压,如下所示: 2. 右击安装包,选择以…