clickhouse join内存溢出

clickhouse join 内存溢出

  • 前言
  • 排查步骤
    • 查看sql
    • 统计数据量
    • 统计大小
    • 优化索引
    • 优化字段
    • 增加内存
    • 最终优化

前言

在一个离线工作流中任务报错

Code: 241. DB::Exception: Received from XXXXXX:9000. DB::Exception: Memory limit (for query) exceeded: would use 20.49 GiB (attempt to allocate chunk of 4413264 bytes), maximum: 20.49 GiB: (avg_value_size_hint = 43, avg_chars_size = 42, limit = 8192): (while reading column level_system_name): (while reading from part /data/clickhouse/clickhouse-server/store/eb1/eb151646-ab48-48e6-866b-f5bf913470a1/all_305_310_1/ from mark 432 with max_rows_to_read = 8192): While executing MergeTreeThread. (MEMORY_LIMIT_EXCEEDED)

接下来是排查步骤和处理方法

排查步骤

查看sql

SET max_memory_usage = 22000000000;
insert into  A(column........
) Selectcolumn......
From B Left Join C iOn C.id = B.id;

统计数据量

B 表大概9000w
C 表大概5000w

统计大小

SELECTtable,formatReadableSize(sum(data_compressed_bytes)) AS compressed_size,formatReadableSize(sum(data_uncompressed_bytes)) AS uncompressed_size,formatReadableSize(sum(bytes_on_disk)) AS size
FROM system.parts
WHERE table = 'A'
GROUP BY table;

最开始只统计了 bytes_on_disk 发现两张表都不超过2G,就很纳闷内存都已经给到22G 了还是不够,后来才发现是压缩之后的,压缩前A 8G B 11G

优化索引

经过检查 关联条件都在索引,没办法优化了

优化字段

经过检查select 的字段下游都有用到,也无法优化

增加内存

想修改max_memory_usage 参数,但是无限制的加内存也不是解决办法

最终优化

修改了 join的算法

insert into  A(column........
) Selectcolumn......
From B Left Join C iOn C.id = B.idSettings join_algorithm='partial_merge';

下面是ChatGPT给出的join 算法解释

在 ClickHouse 中,JoinAlgorithm 参数指定了执行 JOIN 操作时使用的算法。这些算法可以通过设置来优化查询的性能和内存利用情况。以下是各个 JoinAlgorithm 的含义和作用:1. **prefer_partial_merge**- 这个选项表示 ClickHouse 首选使用部分合并(partial_merge)算法来执行 JOIN 操作。- 部分合并算法会尽量在不需要将整个数据集加载到内存中的情况下执行 JOIN,因此在处理大数据量时可以减少内存的使用。- 如果部分合并算法不适用或无法使用,ClickHouse 会尝试使用其他适当的 JOIN 算法。2. **hash**- 使用哈希 JOIN 算法来执行 JOIN 操作。- 哈希 JOIN 是一种内存密集型算法,适合处理较小的数据集或者对性能要求较高的场景,因为它通常比其他 JOIN 算法更快速。- 这种算法会将数据加载到内存中,使用哈希表来快速查找匹配的行。3. **partial_merge**- 使用部分合并 JOIN 算法来执行 JOIN 操作。- 部分合并算法尝试在不需要加载整个数据集到内存中的情况下执行 JOIN,这在处理大数据量时可以节省内存和提高性能。- 它适合处理无序数据或者在其中一个表的数据较大时,可以减少内存压力。4. **auto**- ClickHouse 自动选择适当的 JOIN 算法来执行操作。- 这是默认的选项,ClickHouse 会根据查询的具体情况和表的大小自动选择合适的 JOIN 算法,以达到最佳的性能和内存利用效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/36092.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第 12 课:基于隐语的VisionTransformer框架

基于之前MPC的基础知识,本讲主要内容是MPCViT基于SecretFlow的VisionTransformer框架,主要从神经网络架构,隐私推理框架和实验结果三方面介绍。 一、MPCViT:安全且高效的MPC友好型 Vision Transformer架构 MPCViT隐私推理总体框架…

QT中子工程的创建,以及如何在含有库的子工程项目中引用主项目中的qt资源

1、背景 在qt中创建多项目类型,如下: CustomDll表示其中的一个动态库子项目; CustomLib表示其中的一个静态库子项目; MyWidget表示主项目窗口(main函数所在项目); 2、qrc资源的共享 如何在CustomDll和CustomLib等子项目中也同样使用 MyWidget项目中的qrc资源呢??? 直…

【AI应用探讨】—决策树应用场景

目录 1 命名实体识别(NER) 2 信用评估 3 医学诊断 4 垃圾邮件过滤 5 推荐系统 6 金融欺诈检测 7 医疗领域的其他应用 8 网络行为管理系统 1 命名实体识别(NER) 应用场景:在文本处理中,决策树可以用…

【项目实训】后端逻辑完善

经测试,我们决定前端可以同时选择多个类型的岗位进行查询,以显示相应的公司岗位信息 于是,修改后端函数的逻辑: 后端 首先,因为要对checkList中的job_name进行模糊匹配查询,于是使用以下代码&#xff1a…

mybatis批量处理

批量修改 <update id"updateTaskDistributions" parameterType"java.util.List"><foreach collection"viewTaskDistributions" index"index" item"item" open"begin" close";end;" separa…

【科学计算与可视化】3. Matplotlib 绘图基础

安装 pip install matplotlib 官方文档 https://matplotlib.org/stable/api/pyplot_summary.html 主要介绍一些图片绘制的简要使用&#xff0c;更加详细和进阶需要可参考 以上官方文档。 1 绘制基础 方法名说明title()设置图表的名称xlabel()设置 x 轴名称ylabel()设置 y 轴…

双指针:比较含退格的字符串

题目链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 代码看起来繁琐&#xff0c;但实际思想并不难。核心思路是&#xff1a;倒序遍历&#xff0c;遇到#就记录跳过次数&#xff0c;遇到字母就跳过记录次数&#xff0c;最后比较不用跳过时的字母是否一样。 class S…

负载组指南说明-负载柜

什么是负载组&#xff1f; 负载组是一种设备&#xff0c;旨在准确模拟电源在实际应用中看到的负载。这种负载组可以用电阻、电感或电容元件构建。它是一种电阻装置&#xff0c;以热量的形式消散一定量的能量&#xff0c;可以通过自然对流、强制空气或水冷系统去除。 为什么要使…

江协科技51单片机学习- p11 Proteus安装模拟51单片机

前言&#xff1a; 本文是根据哔哩哔哩网站上“江协科技51单片机”视频的学习笔记&#xff0c;在这里会记录下江协科技51单片机开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了江协科技51单片机教学视频和链接中的内容。 引用&#xff1a; Proteus快速入门&…

可溶性聚四氟乙烯离子交换柱PFA层析柱微柱一体成型

PFA微柱&#xff0c;也叫PFA层析柱、PFA离子交换柱等&#xff0c;主要用于地质同位素超净化、痕量、超痕量、微量元素分析实验室。 规格参考&#xff1a;1.5ml、15ml、30ml等。 其主要特性有&#xff1a; 1、PFA层析柱&#xff08;微柱&#xff09;专为离子交换设计&#xff…

SAP ERP公有云(全称 SAP S/4HANA Cloud Public Edition),赋能企业成为智能可持续的企业

在数字化浪潮中&#xff0c;每一家企业都需要应对快速的市场变化&#xff0c;不断追求降本增效&#xff0c;为创新提供资源&#xff0c;发展新的业务模式&#xff0c;安全无忧地完成关键任务系统的转型。 10年前&#xff0c;SAP进入云领域&#xff0c;用云ERP和覆盖全线业务的云…

双通道源表KEITHELY2636B详情参数吉时利2636B

Keithley的2636B是一款2600B系列双通道系统源表(SMU)仪器(0.1fA, 10A脉冲)。它是业界领先的电流/电压源和测量解决方案。这种双通道模型结合了精密电源&#xff0c;真电流源&#xff0c;6 1/2位DMM&#xff0c;任意波形发生器&#xff0c;脉冲发生器和电子负载的能力&#xff0…

锐起RDV5高性能云桌面

锐起是上海锐起信息技术有限公司旗下品牌。该公司创立于 2001 年&#xff0c;是桌面虚拟化产品和解决方案提供商&#xff0c;专注于桌面管理系统和私有云存储系统的系列软件产品研发&#xff0c;致力于简化 IT 管理、增强系统安全&#xff0c;提供简单、易用、稳定、安全的产品…

并发数据结构:ConcurrentHashMap深入分析

在Java并发编程中&#xff0c;ConcurrentHashMap是一个极其重要的类&#xff0c;它提供了比Hashtable和同步的HashMap更好的并发性能。本文将深入分析ConcurrentHashMap的内部结构、工作原理以及如何高效地使用它。 1. ConcurrentHashMap简介 ConcurrentHashMap是Java集合框架…

kubernetes Job yaml文件解析

一、yaml文件示例 apiVersion: batch/v1 kind: Job metadata:name: test-jobnamespace: mtactor spec:completions: 3parallelism: 1backoffLimit: 5activeDeadlineSeconds: 100template:spec:containers:- name: test-jobimage: centoscommand: ["echo","test…

linux创建逻辑盘再挂载

创建逻辑盘再挂载 原因&#xff1a;如果直接挂载整盘&#xff0c;后面想扩容会很麻烦。挂载逻辑卷的话就简单很多。为了以后方便。所以直接挂载逻辑卷 openEuler系统先装lvm2如果&#xff1a;-bash: pvcreate: command not found执行&#xff1a;yum install lvm2 df -hT ls…

我在高职教STM32——GPIO入门之按键输入(1)

大家好&#xff0c;我是老耿&#xff0c;高职青椒一枚&#xff0c;一直从事单片机、嵌入式、物联网等课程的教学。对于高职的学生层次&#xff0c;同行应该都懂的&#xff0c;老师在课堂上教学几乎是没什么成就感的。正因如此&#xff0c;才有了借助 CSDN 平台寻求认同感和成就…

Linux下创建虚拟磁盘

参考文档 https://blog.csdn.net/lujun9972/article/details/115762407 https://blog.csdn.net/Kiritow/article/details/118076034 1&#xff0c;创建挂载点 sudo mkdir /mnt/z //方式一&#xff0c;内存盘方式 2&#xff0c;创建内存盘 sudo mount -t ramfs -o size1G z /…

Java中的内存泄漏及其排查方法

Java中的内存泄漏及其排查方法 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 在Java开发中&#xff0c;内存管理通常由Java虚拟机&#xff08;JVM&#xff0…

【观察】戴尔科技+AMD:释放技术创新“乘数效应”,助力制造业打造“新质生产力”...

在今年的政府工作报告中&#xff0c;“人工智能”首次被写入报告&#xff0c;同时“大力推进现代化产业体系建设&#xff0c;加快发展新质生产力”也被列为2024年的首项政府工作任务&#xff0c;其重要性不言而喻。 尤其是最近几年&#xff0c;以人工智能、大模型、大数据、云计…