文章目录
- 一、简介
- 1、什么是ClickHouse
- 2、什么是OLAP
- 3、列式存储特性
- 二、安装
- 1、官方文档
- 2、docker安装
- 3、核心目录
- 4、clickhouse-client使用
- 参考资料
一、简介
1、什么是ClickHouse
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。
官网:https://clickhouse.com/
官方文档:https://clickhouse.com/docs/en/intro
2、什么是OLAP
OLAP(On-line Analytical Processing):联机分析处理。
OLAP场景要求在大型数据集上对具有以下特征的复杂分析查询
进行实时响应:
- 数据集可能是海量的——数十亿或数万亿行
- 数据组织在包含许多列的表中
- 只选择几列来回答任何特定的查询
- 结果必须以毫秒或秒为单位返回
OLAP的特性:
- 读多于写。将数据批量/实时写入后,后续可以进行任意维度的灵活搜索、洞察等。
- 大宽表。一张存在N多列的表,平时使用时可能只用到其中的部分字段。
- 数据批量/实时写入。数据很少更新。
- 查询条件灵活多变。不需要预先建模。
- 更多的是单表处理。
- 事务不是必须的。
- 查询结果明显小于源数据。
3、列式存储特性
列式存储是一种数据存储方式,它将数据按照列进行组织。在列式存储中,每一列的数据是在存储介质中是连续存储的,而不是像行式存储那样,将数据按照行的形式组织。这种存储方式特别适合于数据分析和处理,因为它可以显著降低磁盘的读写次数,提高数据处理的效率。
行式存储:数据以行的形式存储,将一整行数据作为一个存储单元。这种方式在写入性能方面较高,因为写入是一次完成的。但在读取性能方面,如果只读取少数几列,需要遍历其他无关列,所以IO开销较大。读取整行数据时,按存储顺序依次读取即可,性能较高。
列式存储:数据以列为单位进行存储,将每个字段独立存储。这种方式在读取性能方面较高,因为读取少数几列时,不需要读取无关列,所以性能高。读取整行时,需要分别读取所有列,并且拼装成行,所以性能低。在数据压缩方面,因为数据是以列为单位进行存储的,而同一列的数据类型是相同的,所以对压缩算法友好,压缩效率高。
列式存储的优势体现在存储上能节约空间、减少IO
,另一方面依靠列式数据结构做了计算上的优化。它特别适合于大规模数据分析场景,如数据仓库、商业智能等。
二、安装
1、官方文档
https://clickhouse.com/docs/en/install
2、docker安装
# 1、创建数据目录
mkdir -p /data/clickhouse/data
mkdir -p /data/clickhouse/conf
mkdir -p /data/clickhouse/log# 2、下载
# 下载最新版本clickhouse
docker pull clickhouse/clickhouse-server
# 下载指定版本clickhouse
docker pull clickhouse/clickhouse-server:22.7.3.5-alpine# 3、查看 Network ports | ClickHouse Docs 中端口号配置 ,暂时只需要映射8123(http-api) 9000(TCP) 两个端口# 4、创建临时容器,用以生成配置文件
# 容器关闭后会自动删除掉
docker run -d --rm --name clickhouse-server --ulimit nofile=262144:262144 clickhouse/clickhouse-server:22.7.3.5-alpine# 5、将配置文件复制到 /data/clickhouse/conf 路径下
docker cp clickhouse-server:/etc/clickhouse-server/config.xml /data/clickhouse/conf/config.xml
docker cp clickhouse-server:/etc/clickhouse-server/users.xml /data/clickhouse/conf/users.xml# 6、修改config.xml的listen_host配置
vi /data/clickhouse/conf/config.xml
<listen_host>::</listen_host># 7、关闭临时容器
docker stop clickhouse-server# 7、启动容器
docker run -d --name=clickhouse-server \
-p 8123:8123 -p 9090:9000 \
--ulimit nofile=262144:262144 \
-v /data/clickhouse/data:/var/lib/clickhouse:rw \
-v /data/clickhouse/conf/config.xml:/etc/clickhouse-server/config.xml \
-v /data/clickhouse/conf/users.xml:/etc/clickhouse-server/users.xml \
-v /data/clickhouse/log:/var/log/clickhouse-server:rw \
clickhouse/clickhouse-server:22.7.3.5-alpine# 8、验证
docker exec -it clickhouse-server /bin/bash
/usr/bin/clickhouse-clientshow databases;
quit;
3、核心目录
log日志:/var/log/clickhouse-server
bin目录:/usr/bin
clickhouse-server:服务端启动器
clickhouse-client:客户端启动器
数据:
/var/lib/clickhouse/data/库名/表名/数据
/var/lib/clickhouse/metadata/库名/表名/元数据/
conf配置:/etc/clickhouse-server/config.xml
path中配置着数据目录。
4、clickhouse-client使用
常用参数:
clickhouse-client
–host=xxx:指向clickhouse服务的hostname;
–port=9000:指向clickhouse服务的端口,默认9000;
-m运行输入多行sql语法,不加-m的话,sql只能写在一行;
-q ‘select * from user’:可以直接执行sql。
参考资料
https://blog.csdn.net/qq_25037929/article/details/123353215