ClickHouse 使用技巧总结

文章目录

  • 数据导入、导出技巧
    • 外部文件导入导技巧
    • 使用集成表引擎导入、导出数据
  • 建表技巧
    • 表引擎选择技巧
    • 分区键选择技巧
    • 数据结构选择技巧
    • 分区技巧
  • 高级技巧
    • 物化视图
    • 投影
    • 位图
    • 变更数据捕获
  • 常见报错及处理方法

数据导入、导出技巧

外部文件导入导技巧

ClickHouse作为OLAP即席分析引擎,不可避免地需要将数据从业务数据库、传统数据仓库等数据源中提取数据,当数据计算完成后,也可能需要将数据导出为外部数据文件供其他系统使用。
image.png

CSV、TSV文件导入建议

  • 尽量使用TSV代替CSV,CSV 中如果真实数据中也出现了逗号,此时引擎无法区分这个逗号是分隔符还是数据
  • 尽可能使用时间戳代替时间文本
  • 将ODS层数据表的时间类型设置为String 先将ClickHouse中目标表时间日期类型的字段设置为string,先将数据导入,接着对这个ODS的表进行数据清洗,通过ClickHouse内置的SQL函数解决问题

数据导出技巧

  • 通过INTO OUTFILE导出

    image.png

  • 通过文件表引擎导入、导出数据,创建表文件引擎:

    image.png
    导入导出SQL:
    image.png

  • 通过命令行重定向导出

    image.png

使用集成表引擎导入、导出数据

  • 利用MySQL表引擎实现数据的导入、导出

    image.png
    在创建MySQL表引擎时,需要注意ClickHouse中本地表的列名必须和远程MySQL的列名完全一致。
    MySQL 与 Clickhouse 数据类型映射关系如下:
    image.png
    创建MySQL外部表后,即可通过下面的SQL语句实现数据的导入、导出。
    image.png

  • 利用MongoDB表引擎实现数据的导入、导出

    利用下面的SQL语句创建外部MongoDB表引擎:
    image.png
    创建MongoDB外部表后,即可通过下面的SQL语句实现数据的导入:
    image.png

  • 利用HDFS表引擎实现数据的导入、导出

    利用下面的SQL语句创建外部HDFS表引擎
    image.png
    HDFS表引擎还支持对HDFS的路径使用通配符进行模糊处理,以支持更灵活的HDFS文件夹策略。ClickHouse支持的通配符如下图所示:
    image.png
    对数据进行导入、导出:
    image.png

  • 利用S3表引擎实现数据的导入、导出

    表引擎创建:
    image.png

  • 利用PostgreSQL表引擎实现数据的导入、导出

    image.png
    PostgreSQL和ClickHouse数据类型的对应关系
    image.png
    数据的导入、导出:
    image.png

  • 利用JDBC表引擎实现数据的导入、导出

    要使用JDBC表引擎,必须先运行一个名为clickhouse-jdbc-bridge的Java进程,并做适当的配置。关键要配置好数据库驱动和数据源地址。下面展示一段clickhouse-jdbc-bridge的配置信息。其中数据源驱动的地址可以是一个远程的地址,也可以配置成本地的文件路径:
    image.png
    表引擎创建:
    image.png
    image.png
    数据的导入、导出:
    image.png
    另外,JDBC表引擎由于配置信息已经存储在了clickhouse-jdbc-bridge的配置文件中,因此还有一种特殊的不需要创建ClickHouse虚拟表的访问方法。可以利用这种方式将数据导入ClickHouse本地表或外部数据文件,代码如下:
    image.png

  • 不要利用外部表引擎进行复杂查询

    在很多情况下,复杂SQL查询性能很差,而且有可能对业务产生影响。只有在满足如下条件时,利用该SQL查询的技巧才能获得比较高的收益。

    • 远程数据表经常发生变动。
    • 远程数据表数据量比较小。
    • 在ClickHouse中的查询语句是低频的。
    • 不会影响其他业务的正常运行,能够忍受这些影响。
  • 对数据量大的数据表进行迁移时,利用TSV进行中转

    在应对大批量数据时,建议按照年、月或日对任务进行切分,启动多个进程并行执行。另外,将数据先导入TSV进行中转,避免中途出错导致整个任务重新运行。

  • 利用Kafka表引擎实现数据的导入、导出

    Kafka表引擎一般和ClickHouse的物化视图一起使用,否则ClickHouse只会读取Kafka中最新的消息。通过ClickHouse的物化视图,在后台将Kafka中的数据源源不断地写入本地,以实现Kafka数据的持久化。下面展示创建Kafka表引擎的SQL语句:
    image.png
    image.png
    创建Kafka表引擎后,可以对该表引擎进行SELECT查询,但是对该表的查询只会查询到Kafka中最新的一条数据。需要从该时刻将Kafka中的数据源源不断地持久化保存,必须利用ClickHouse提供的物化视图的能力,代码如下:
    image.png

建表技巧

表引擎选择技巧

  • 优先选择MergeTree家族的表

    基于MergeTree表引擎所派生出来的多个表引擎说明如下:
    image.png
    在使用时建议先创建基础的MergeTree表,在基础MergeTree表上再构建这些派生的MergeTree表引擎,避免由于使用不恰当的主键组合导致数据丢失。

  • 利用Buffer表引擎解决大量INSERT带来的问题

    由于Buffer表必须有底层物理表,因此创建Buffer表时不需要列出各列的类型,代码如下:
    image.png
    通过Buffer表,可以解决ClickHouse遇到突发大量INSERT语句时报错的问题,起到缓冲的作用。使用Buffer表也存在如下一些问题:

    • 由于ClickHouse没有使用WAL(Write Ahead Log,预写日志)技术,因此系统崩溃可能导致丢失数据。
    • Buffer写入物理表时,可能由于物理表引擎的特性导致数据错乱。例如当底层表为折叠表时可能因为丢失顺序而造成错乱。

    建议在满足如下条件的情况下使用Buffer表:

    • 数据少量丢失不会影响业务。
    • 底层表选择基础的MergeTree表引擎。
  • 利用Memory表引擎提高并发查询能力

    Memory也是一个内存表,和Buffer不同的是,Memory表引擎不需要底层的数据表。Memory表也不会将数据定期写入磁盘。

    ClickHouse由于每次查询都会大量利用单机资源,因此并发能力并不高,解决该问题的一个策略是组建ClickHouse集群,在某些场景下还可以利用Memory表引擎提高ClickHouse的并发能力。

    利用ClickHouse的Memory表引擎提高并发能力,并不是随意将查询所需的表载入内存后查询。而是根据业务进行判断,如果大量的并发查询是查询某一个固定的模型,那么需要将该模型固化为Cube,将Cube保存为Memory表,以应对高并发查询的需求。

    Memory表引擎解决并发问题的核心在于,能够将模型转化为Cube,如果不能转化为Cube,那么使用Memory表引擎可能会得不偿失。需要根据业务的实际情况进行判断,千万不能将查询所涉及的表都塞入Memory表,否则ClickHouse的内存可能会溢出,导致服务器崩溃。

分区键选择技巧

ClickHouse的主键就是分区键,和传统事务数据库的主键不同,ClickHouse的主键不具备唯一性约束,只是分区键的别名,在选择分区键(主键)时也有一些技巧。

  • 最左原则,一定要将最频繁使用的列放在最左边。很多情况下,放在右边的列可能无法得到加速。
  • 适当冗余建表,ClickHouse是一个压缩率很高的数据库,我们完全不必强求数据在ClickHouse中只存一份,当遇到多个查询任务需要不同的排序键时,可以放心大胆地创建一个除了主键不同,其他都相同的数据表。

数据结构选择技巧

使用低基数类型

  • 低基数类型(LowCardinality)是ClickHouse中的一个特殊的包装类型,通过该类型可以将数据类型进行字典编码,替换为更高效的存储格式。尤其当某一类去重后的数量少于10000时,可以大幅提高SELECT操作的效率。

  • LowCardinality支持对String、FixedString、Date、DateTime和不包含Decimal的数组类型进行自动化的字典编码:

    image.png

  • 在ClickHouse中可以使用低基数类型替换原始的String类型,也可以使用低基数类型替换枚举类型

分区技巧

慎重使用分区

  • 不建议大量使用分区。在很多情况下,分区并不能提高查询效率,过多地分区有可能降低性能。ClickHouse中分区功能仅仅是为数据管理提供便利,例如以分区为单位进行删除等。

高级技巧

物化视图

使用物化视图代替视图

  • 物化视图会将数据写入磁盘,而视图只是一个虚拟的表,并不会真正存储数据。通过使用物化视图可以大幅提高查询速度:

    image.png
    物化视图和物理表类型的区别在于物化视图会自动识别底层表的变动,当底层表变动时会自动映射到物化视图中。

投影

使用投影能力

  • ClickHouse的索引满足最左原则,当未按照最左原则进行查询时,速度会变慢,投影就是一个解决该问题的方案,其实现原理是将不满足最左原则的查询条件进行固化,本质上可以理解为创建了一个按照新的顺序排列的数据副本,当查询条件满足这个副本时,自动在该副本上查询,从而实现性能加速:

    image.png

位图

使用位图结构

  • 使用 Bitmap 等位图结构可以节省大量存储空间,并且位图的计算效率很高。

变更数据捕获

使用内置的CDC能力获取实时数据

  • ClickHouse通过MaterializeMySQL和MaterializePostgreSQL两个引擎提供MySQL和PostgreSQL的CDC集成支持。

常见报错及处理方法

解决“too many parts”异常

  • too many parts是ClickHouse经常会出现的错误,出现这种错误的原因在于短期内建立了太多的分区。要解决这个问题,可以在数据进入ClickHouse前进行预排序,或者使用前边提到的缓冲区表引擎。

解决“memory limit”异常

  • 内存不足,优化SQL 或者将计算下推,使用 Spark 来查询复杂 SQL。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/847401.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每日一题《leetcode--206.反转链表》

https://leetcode.cn/problems/reverse-linked-list/ 这道题可以定义一个新结点newhead,newhead指向NULL。此时遍历所给链表将遍历的每个结点头插到newhead上。 struct ListNode* reverseList(struct ListNode* head) {struct ListNode* curhead;struct ListNode* n…

Spring中的核心概念

黑马程序员SSM框架教程 文章目录 一、IoC二、DI三、目标:充分解耦 一、IoC IoC(Inversion of Control)控制反转 使用对象时,由主动new产生对象转换为外部提供对象,此过程中对象创建控制权由程序转移到外部&#xff0c…

Visual Studio 2022开发CTP的问题汇总

订阅合约的函数原型如下 virtual int SubscribeMarketData(char *ppInstrumentID[], int nCount) 0;参数定义 char* ppInstrumentID[] { "rb2410", "sc2407" }; 报错:E0144 “const char *” 类型的值不能用于初始化 “char *” 类型的实体 …

Go语言垃圾回收(GC原理)

1. GC回收机制 1.1 V1.3标记清除法 (1)概述 1.STW暂停 STW(暂停业务逻辑,找出可达和不可达对象) 2.对可达对象做上标记 标记完成之后,对象5和对象6不可达,被GC清除.之后STW结束. (2).缺点 STW :让程序暂停,程序出现卡顿.标记需要扫描整个heap.清除数据会产生heap碎片. 1.…

常用的linux命令

工作中常用的linux命令 查看磁盘存储情况 df -h查看端口占用情况 netstat -tunlp | grep 端口号查看java服务运行情况 ps -ef | grep "java"查看运行内存使用情况 free -h清除内存中的缓存 echo 3 > /proc/sys/vm/drop_caches查看linux系统最大进程数 ulim…

前端面试题日常练-day50 【面试题】

题目 希望这些选择题能够帮助您进行前端面试的准备,答案在文末 1. 在Bootstrap中,以下哪个类用于创建一个具有响应式的图片? a) .img-responsive b) .responsive-img c) .responsive-image d) .image-fluid 2. 哪个Bootstrap类用于创建一…

YYDS练手 130道python练习题 完整版PDF

近年来,Python在编程语言界里赚足了风头,无论是受欢迎程度,还是薪资待遇,都非常可观,相应的,Python岗位要求也越来越高,无论你是零基础还是老前辈,在Python面试中都不能轻视。 不打…

Spring Boot 系统学习第五天:Spring循环依赖实战经验

1 概述 本篇主要介绍使用依赖注入的一些实战经验。 2 把握Bean的作用域 前面说到Setter方法注入时,提到了Spring中的Bean作用域的概念。作用域描述了Bean在Spring IoC容器上下文中的生命周期和可见性。现在讨论Spring框架中不同类型的Bean作用域及其在使用上的指导…

Java 枚举类型深入解析

在Java中,枚举(enum)是一种特殊的数据类型,它允许一个变量是预定义的常量集合中的一个值。枚举类型在许多场景中都非常有用,比如定义一组明确的常量、简化代码的可读性和维护性等。本文将详细讲解Java中的枚举类型&…

对比WPF和Avalonia的边框渲染差异

众所周知&#xff0c;诸如Border、Rectangle等元素&#xff0c;是具有边框的。但在WPF和Avalonia中&#xff0c;边框的渲染机制有所不同。 如下代码&#xff0c;Border的边框和背景色均为黑色&#xff0c;并且将透明度设为0.5&#xff1a; <Border Width"100" H…

模拟实现C++vector

一&#xff1a;C库中对于vector的介绍 vector的底层其实就是数据结构中的顺序表&#xff0c;顺序表的底层就是变长数组&#xff0c;是一段连续的物理空间 在下面的实现中&#xff0c;重点实现的是其中的迭代器和插入删除&#xff0c;下标访问等功能&#xff0c;模拟实现模板类…

BottomSheetDialog高度自适应,布局RecyclerView使用问题

public class CultureBottomDialogView {/*** 标题*/private static TextView textTitle;/*** 关闭按钮*/private static TextView textClose;/*** 列表*/private static RecyclerView recyclerView;private static BottomDialogAdapter dialogAdapter;private static List<…

15-JavaScript 中的 `call`、`apply` 和 `bind`

JavaScript 中的 call、apply 和 bind 笔记分享 在 JavaScript 中&#xff0c;函数作为一等公民&#xff0c;可以像其他对象一样被操作。这种特性使得我们可以通过特定的方法来控制函数的调用环境&#xff08;即 this 的值&#xff09;。call、apply 和 bind 是三个常用的方法…

消息队列RabbitMQ

1. 消息队列概述 1.1 什么是消息队列 消息队列是一种用于在分布式系统中传递消息的数据结构。它采用先进先出&#xff08;FIFO&#xff0c;First In First Out&#xff09;的方式进行数据存储和管理。消息队列能够解耦生产者和消费者&#xff0c;从而实现系统的松散耦合&#…

Flutter 视频播放利器:Chewie 的介绍与使用

在移动应用开发中&#xff0c;视频播放功能是常见的需求之一。Flutter 作为跨平台开发框架&#xff0c;其生态系统中有许多用于视频播放的插件。其中&#xff0c;Chewie 是一个非常受欢迎且功能强大的视频播放器插件&#xff0c;它是对官方 video_player 插件的包装&#xff0c…

Vue中使用vuex进行全局数据共享处理

1、简介 在之前的博文中&#xff0c;介绍了如何进行组件之间的数据传递&#xff0c;但是对于所有组件共享的变量来说&#xff0c;使用组件之间的数据传递实现复杂&#xff0c;因此本文引入vuex进行全局数据共享。 2、vuex的下载配置 2.1、vuex的下载 # 对于vue2来说&#xf…

第十六章 创建Web客户端 - 修改生成的客户端类

文章目录 第十六章 创建Web客户端 - 修改生成的客户端类修改生成的客户端类调整生成的类以处理极长的字符串 第十六章 创建Web客户端 - 修改生成的客户端类 修改生成的客户端类 生成 Web 客户端类后&#xff0c;通常不需要编辑该类。相反&#xff0c;可以编写代码来创建 Web …

IP地址开启HTTPS方法

可以使用IP地址申请SSL证书&#xff0c;申请之前必须是公网IP地址&#xff0c;不支持内网IP地址申请。 申请过程需要确定IP地址外网可以访问&#xff0c;这里特别注意只是申请过程中可以访问。访问验证过程必须采取80端口、443端口两者选择1个&#xff0c;不可以用其它端口进行…

下载视频怎么转换MP4?wmv转换mp4,推荐这3种方法

在数字化时代&#xff0c;我们经常需要从网上下载各种视频&#xff0c;但有时候下载的视频并不是我们想要的格式&#xff0c;比如WMV。为了能在更多的设备上播放或进行编辑&#xff0c;我们可能需要将其转换为更通用的MP4格式。 那么&#xff0c;下载的视频如何转换成MP4呢&am…

第三篇 编译器和译码器

实验三 编码器和译码器 3.1 实验目的 上一章节我们学习了简单组合逻辑电路——多路数据选择器&#xff0c;在本章节我们将学习另外一种数字系统中常见的简单组合逻辑电路——编码器和译码器。然后通过一个设计一个简易的计算器让大家进一步巩固FPGA开发的流程和方法。 本节您…