使用clickhouse-backup迁移数据

作者:俊达

1 说明

上一篇文章中,我们介绍了clickhouse-backup工具。除了备份恢复,我们也可以使用该工具来迁移数据。
这篇文章中,我们提供一个使用clickhouse-backup做集群迁移的方案。

2 前置条件

1、源端和目标端网络联通,主机之间开启ssh免密登录

2、Clickhouse配置保持一致。

  • 集群名称一致
  • 节点配置参数保持一致
  • clickhouse版本一致

3、迁移后库表结构和源端保持一致

3 CK集群架构

在这里插入图片描述

1、源和目标集群的shard数量一样,shard对shard迁移。各个shard可并行进行备份恢复操作。
2、备份在源端每一个shard的第一个replica上执行。
3、表结构需要在目标shard的每一个节点上恢复。
4、数据只需要在目标shard的第一个节点上恢复。

3 操作步骤

全量

1、源端全量备份

clickhouse-backup --config config.yml create full_back_shard_i

2、将备份文件同步到目标服务器
同步到目标shard第一个节点

rsync -av /data/clickhouse/data/backup/full_back_shard_i root@remote:/data/clickhouse/data/backup

同步到目标shard其他节点
其他节点只需要同步metadata,不需要同步shadow目录下的数据文件。

rsync --exlude shadow -av /data/clickhouse/data/backup/full_back_shard_i root@remote:/data/clickhouse/data/backup

3、目标服务器恢复数据
(1)目标shard所有节点执行
加上–schema参数,建立表结构。

clickhouse-backup --config config.yml restore --rm --schema full_back_shard_i

(2)目标shard第一个节点执行
加上–data参数,加载数据。集群中的其他副本会从该节点同步数据。

clickhouse-backup --config config.yml restore --rm --data full_back_shard_i

增量

1、源端备份数据
指定create_remote,将增量数据上传到sftp

clickhouse-backup --config config.yml create_remote --diff-from=full_back_shard_i inc_backup_1

2、目标端恢复数据

通过restore_remote恢复数据

(1)目标shard所有节点执行
(如果表结构没有变化,这一个步骤可以忽略)

clickhouse-backup --config config.yml restore_remote --rm --schema inc_backup_1
clickhouse-backup --config config.yml delete local inc_backup_1

(2)目标shard第一个节点执行
增量恢复时也需要添加–rm参数,删除历史数据再做恢复。

clickhouse-backup --config config.yml restore_remote --rm --data inc_backup_1

关于rm选项
如果不加–rm,表中又有数据,默认情况下会忽略该表的恢复。从日志中可以看到类似信息:

2022/11/14 07:09:55.879763  warn local_15507.oracle_sql_stat2 skipped cause system.replicas entry already exists and replication in progress from another replica logger=clickhouse

如果恢复时不想先清空原有的数据(比如恢复某一个分区的数据),需要在config.yml中配置参数。

# config.yml
check_replicas_before_attach: false# restore without rm option
clickhouse-backup --config config.yml restore --data partition_backup_i

这种情况下,如果restore命令执行多次,会导致数据重复。

4 基于分区的增量迁移

前置条件

若满足以下条件,可以使用基于分区的增量迁移

  • 全量数据已经恢复到目标shard
  • 表结构没有发生变化
  • 明确只存在部分分区存在数据变化

若选定的分区数据量相对所有数据占比不高,基于分区的增量迁移能提高迁移效率。

具体步骤如下:

1、源端备份分区数据
在源端shard第一个replica执行

clickhouse-backup --config config.yml create --partitions=xxx partition_backup_i

2、将备份文件rsync到目标shard第一个节点

rsync -av /data/clickhouse/data/backup/partition_backup_i root@remote:/data/clickhouse/data/backup

3、目标shard清空对应分区的数据
在目标分区第一个replica执行

for tab in tabs
doclickhouse-client --password=xx --database=xx --query="alter table $tab drop partition 'partion-xx'";
done

4、恢复数据
在目标shard的第一个replica上执行

clickhouse-backup --config config.yml restore --partitions=xxx --data partition_backup_i

加上–data参数

不能加–rm参数

注意config.yml需要配置check_replicas_before_attach: false。

#config.yml
clickhouse:username: defaultpassword: "hello123"host: localhostport: 9000...check_replicas_before_attach: false

恢复命令不能重复执行。若要执行,需要先清空partition内已有的数据。

更多技术信息请查看云掣官网https://yunche.pro/?t=yrgw

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/1074.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode刷题实战5:最长回文子串

题目内容 给你一个字符串 s,找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同,则该字符串称为回文字符串。 示例 1: 输入:s "babad" 输出:"bab" 解释:"aba"…

k8s 控制器StatefulSet原理解析

🐇明明跟你说过:个人主页 🏅个人专栏:《Kubernetes航线图:从船长到K8s掌舵者》 🏅 🔖行路有良友,便是天堂🔖 目录 一、前言 1、k8s概述 2、有状态服务和无状态服务…

von Mises-Fisher Distribution (代码解析)

torch.distribution 中包含了很多概率分布的实现,本文首先通过均匀分布来说明 Distribution 的具体用法, 然后再解释 von Mises-Fisher 分布的实现, 其公式推导见 von Mises-Fisher Distribution. 1. torch.distribution.Distribution 以下是 Uniform 的源码: cl…

C++语言·类和对象(下)

1. 初始化列表 我们回忆上节写的MyQueue类,其中有两个栈类和一个int类型,栈类因为其特殊性,要开空间,所以我们必须手搓Stack类的构造函数。但是正常来说MyQueue自动生成的构造函数会调用自定义类型的默认构造函数,也就…

基于SpringBoot+Vue的体检管理系统 免费获取源码

项目源码获取方式放在文章末尾处 项目技术 数据库:Mysql5.7/8.0 数据表:12张 开发语言:Java(jdk1.8) 开发工具:idea 前端技术:vue html 后端技术:SpringBoot 功能简介 (有文档) 项目获取关键字&…

浏览器渲染流程中的 9 个面试点

记得 08 年以前,打开网页的时候一个页面卡死整个浏览器凉凉。 这是因为当时浏览器是单进程架构,一个页面或者插件卡死,整个浏览器都会崩溃,非常影响用户体验。 经过了一代代工程师的设计,现代浏览器改成了多进程架构&…

异常检测 | SVDD支持向量数据描述异常数据检测(Matlab)

异常检测 | SVDD支持向量数据描述异常数据检测(Matlab) 目录 异常检测 | SVDD支持向量数据描述异常数据检测(Matlab)效果一览基本介绍程序设计参考资料 效果一览 基本介绍 用于一类或二元分类的 SVDD 模型 多种核函数(…

医学临床预测模型发展新趋势-并联式

医学临床预测模型发展新姿势-并联式 现有的预测模型是对单个结局指标进行分类或者回归,得出最终的结论,而辅助医生进行临床决策。众所周知,临床决策过程中,医生通常会考虑多个结局指标来做出最终的决策;临床研究中也通…

网络编程初步

协议: 一组规则 分层模型结构: OSI七层模型:物、数、网、传、会、表、应 TCP/IP 4层模型:网(链路层/网络接口层)、网、传、应 应用层:http、 ftp、 nfs、 ssh、 telneto o .传输层:TCP、UDP 网络层&…

【干货精品分享】Elasticsearch 6.7 Should 子语句的失效

在ES 使用多条件 查询,并且是多个条件只需要满足部分条件的时候,我们通常会使用到ES的should查询 GET /trademark_query_index/_search {"query":{"bool" : {"must":[{"match" : {"origin": {"…

229 基于matlab的网络入侵检测问题

基于matlab的网络入侵检测问题,主要使用有监督的Kohonen神经网络。有监督Kohonen神经网络的网络结构为38-36-5,网络训练结果受权值影响相当大。在算法初期,本文引入杂草算法对Kohonen网络进行权值寻优。文件包括:入侵数据(data.ma…

网站备案期间怎么关闭首页显示无法访问-文章及其它页面正常访问

自从做了开发者之后才发现每个人博主的需求都是不同的,的的确确颠覆了我的观点,无论是页面布局还是SEO相关的设置,可能是因为站点属性不同所以需求不同,慢慢的就会在主题加入一些自定接口来满足不同人的需求,有人需要P…

centos修改启动项加载不同内核

一.背景: 虚拟机中有时需要编译好几个内核版本,make install后系统存在几个内核版本。需要再哪个内核上开发调试就启动特定的内核版本。这就需要修改启动时的内核版本,再物理机或虚拟机启动时可以上下键选择。但有时是docket云环境中或远程时…

RK3568笔记二十二:基于TACO的垃圾检测和识别

若该文为原创文章,转载请注明原文出处。 基于TACO数据集,使用YOLOv8分割模型进行垃圾检测和识别,并在ATK-RK3568上部署运行。 一、环境 1、测试训练环境:AutoDL. 2、平台:rk3568 3、开发板: ATK-RK3568正点原子板子…

Tomcat源码解析——类加载机制

一、类加载器的创建 在之前的Tomcat启动源码中,简单的介绍了Tomcat的四种类加载器,再复习一遍。 类加载器 作用父加载器commonLoader(共同类加载器)加载$CATALINA_HOME/lib下的类加载器应用类加载器catalinaLoader(容器…

Games101-光线追踪(辐射度量学、渲染方程与全局光照)

Basic radiometry (辐射度量学) 光的强度假定l为10,但是10是什么。 Whitted-Style中间了很多不同简化,如能看到高光,表示做了布林冯着色,意味着一个光线打进来后会被反射到一定的区域里,而不是沿着完美的镜像方向&…

html select 支持内容过滤列表 -bootstrap实现

实现使用bootstrap-select插件 http://silviomoreto.github.io/bootstrap-select <!DOCTYPE html> <html> <meta charset"UTF-8"> <head><title>jQuery bootstrap-select可搜索多选下拉列表插件-www.daimajiayuan.com</title>&…

【Git】常用命令速查

目录 一、创建版本 二、修改和提交 三、查看提交历史 四、撤销 五、分支与标签 六、合并与衍合 七、远程操作 一、创建版本 命令简要说明注意事项git clone <url>克隆远程版本库 二、修改和提交 命令简要说明注意事项 三、查看提交历史 命令简要说明注意事项 …

Ribbon 添加快速访问区域

添加快速访问区域挺简单的&#xff0c;实例如下所示&#xff1a; void QtRightFuncDemo::createQuickAccessBar() { RibbonQuickAccessBar* quickAccessBar ribbonBar()->quickAccessBar(); QAction* action quickAccessBar->actionCustomizeButton(); act…

最邻近插值和线性插值

最邻近插值 在图像分割任务中&#xff1a;原图的缩放一般采用双线性插值&#xff0c;用于上采样或下采样&#xff1b;而标注图像的缩放有特定的规则&#xff0c;需使用最临近插值&#xff0c;不用于上采样或下采样。 自定义函数 这个是通过输入原始图像和一个缩放因子来对图像…