ElasticSearch 数据迁移工具elasticdump

ElasticSearch 数据迁移工具elasticdump

Elasticdump 是一个用于导入和导出 Elasticsearch 数据的命令行工具。它提供了一种方便的方式来在不同的 Elasticsearch 实例之间传输数据,或者进行数据备份和恢复。

使用 Elasticdump,你可以将 Elasticsearch 索引中的数据导出为 JSON 文件,或者将 JSON 文件中的数据导入到 Elasticsearch 索引中。它支持各种选项和过滤器,用于指定源和目标,包括索引模式、文档类型、查询过滤器等等。

主要特征包括

  • 支持在Elasticsearch实例或者集群之间传输和备份数据。可以将数据从一个集群复制到另一个集群。
  • 支持不同格式的数据传输,包括JSON、NDJSON、CSV、备份文件等。
  • 可以通过命令行或者程序化的方式使用。命令行方式提供了便捷的操作接口。
  • 支持增量式同步,只复制目标集群中不存在的文档。
  • 支持各种认证方式连接Elasticsearch,如basic auth、Amazon IAM等。
  • 支持多线程操作,可以加快数据迁移的速度。
  • 开源免费,代码托管在GitHub上。

一、安装node

首先获取安装包

wget https://nodejs.org/dist/v16.14.0/node-v16.14.0-linux-x64.tar.xz
tar axf node-v16.14.0-linux-x64.tar.xz -C /usr/local/
mv /usr/local/node-v16.14.0-linux-x64  /usr/local/node

然后配置环境变量

vim /etc/profile
export NODE_HOME=/usr/local/node
export PATH=$NODE_HOME/bin:$PATH

接下来刷新环境变量,然后测试一下安装是否完成

 source /etc/profilenode -vnpm -v

如果是mac 的话可以使用brew 安装

brew install node@16

二、在线安装elasticdump

执行下面的命令安装

npm install elasticdump -g

使用下面的命令查看安装目录

npm root -g

我的位置在这里/opt/homebrew/lib/node_modules

image-20230712113531952

三、离装elasticdump

这里的原理是将node安装包和elasticdump安装报复制到需要离线安装的服务器。

  1. 获取node 的离线安装包进行安装即可,参考第一步
  2. 获取elasticdump的安装包安装,所以我们首选需要一个打包工具
npm install -g npm-pack-all

然后我们切换到上面elasticdump的安装路,打包elasticdump,会在当前目录生成elasticdump-6.103.0.tgz 这样一个压缩包,这就是我们离线安装需要的包

cd /opt/homebrew/lib/node_modules/elasticdump/
npm-pack-all

image-20230712113727581

到这里我们看到离线包已经生成好了,接下来我们复制到我们之前已经安装好node 的机器上,执行下面的命令

npm install elasticdump-6.103.0.tgz

后面为了方便使用,我们可以配置一下elasticdump的环境变量

vim ~/.bashrc
# 追加以下内容
#node 
export DUMP_HOME=/opt/homebrew/lib/node_modules/elasticdump/
export PATH=$DUMP_HOME/bin:$PATH
# 刷新
source ~/.bashrc

四、使用elasticdump

这里的使用主要分为两种,一种是数据备份,一种是数据迁移

  1. 备份主要指的是生成备份的数据文件,在需要的时候进行还原
  2. 数据迁移是指将原来索引里的数据迁移到新的索引

其实数据备份也能达到数据迁移的目的,但是在两个环境的网络不通的时候我们只能使用数据备份

我们安装成功后,在elasticdump的bin目录下其实有两个工具,一个是elasticdump 另外一个是multielasticdump

image-20230714090711434

数据迁移

迁移索引

elasticdump \--input=http://192.168.1.140:9200/source_index \--output=http://192.168.1.141:9200/target_index \--type=mapping

迁移数据

elasticdump \--input=http://192.168.1.140:9200/source_index \--output=http://192.168.1.141:9200/target_index \--type=data \--limit=2000  # 每次操作的objects数量,默认100,数据量大的话,可以调大加快迁移速度

这个命令会将源 Elasticsearch 实例中的 “my_index” 索引的所有数据导出,并保存到 “/path/to/output.json” 的 JSON 文件中。

  • --input:指定输入的 Elasticsearch 实例和索引。可以是一个 URL,也可以是本地 Elasticsearch 实例的路径。
  • --output:指定输出的文件路径,数据将保存为一个 JSON 文件。
  • --type:指定要导出的数据类型,通常为 “data” 表示文档数据。

你还可以使用其他选项来进一步控制导出过程,如 --query, --size, --limit, --filter 等,具体取决于你的需求。可以通过运行 elasticdump --help 命令来

数据备份

导出索引和数据

elasticdump \--input=http://192.168.1.140:9200/source_index \--output=/data/source_index_mapping.json \--type=mapping
elasticdump \--input=http://192.168.1.140:9200/source_index \--output=/data/source_index.json \--type=data \--limit=2000

导入索引和数据

elasticdump \--input=/data/source_index_mapping.json \--output=http://192.168.1.141:9200/source_index \--type=mapping
elasticdump \--input=/data/source_index.json \--output=http://192.168.1.141:9200/source_index \--type=data \--limit=2000

其他用法

还有其他使用的细节,例如压缩,指定query 什么的,我们可以参考下面的例子

# Copy an index from production to staging with analyzer and mapping:
elasticdump \--input=http://production.es.com:9200/my_index \--output=http://staging.es.com:9200/my_index \--type=analyzer
elasticdump \--input=http://production.es.com:9200/my_index \--output=http://staging.es.com:9200/my_index \--type=mapping
elasticdump \--input=http://production.es.com:9200/my_index \--output=http://staging.es.com:9200/my_index \--type=data# Backup index data to a file:
elasticdump \--input=http://production.es.com:9200/my_index \--output=/data/my_index_mapping.json \--type=mapping
elasticdump \--input=http://production.es.com:9200/my_index \--output=/data/my_index.json \--type=data# Backup and index to a gzip using stdout:
elasticdump \--input=http://production.es.com:9200/my_index \--output=$ \| gzip > /data/my_index.json.gz# Backup the results of a query to a file
elasticdump \--input=http://production.es.com:9200/my_index \--output=query.json \--searchBody="{\"query\":{\"term\":{\"username\": \"admin\"}}}"# Specify searchBody from a file
elasticdump \--input=http://production.es.com:9200/my_index \--output=query.json \--searchBody=@/data/searchbody.json  # Copy a single shard data:
elasticdump \--input=http://es.com:9200/api \--output=http://es.com:9200/api2 \--input-params="{\"preference\":\"_shards:0\"}"# Backup aliases to a file
elasticdump \--input=http://es.com:9200/index-name/alias-filter \--output=alias.json \--type=alias# Import aliases into ES
elasticdump \--input=./alias.json \--output=http://es.com:9200 \--type=alias# Backup templates to a file
elasticdump \--input=http://es.com:9200/template-filter \--output=templates.json \--type=template# Import templates into ES
elasticdump \--input=./templates.json \--output=http://es.com:9200 \--type=template# Split files into multiple parts
elasticdump \--input=http://production.es.com:9200/my_index \--output=/data/my_index.json \--fileSize=10mb# Import data from S3 into ES (using s3urls)
elasticdump \--s3AccessKeyId "${access_key_id}" \--s3SecretAccessKey "${access_key_secret}" \--input "s3://${bucket_name}/${file_name}.json" \--output=http://production.es.com:9200/my_index# Export ES data to S3 (using s3urls)
elasticdump \--s3AccessKeyId "${access_key_id}" \--s3SecretAccessKey "${access_key_secret}" \--input=http://production.es.com:9200/my_index \--output "s3://${bucket_name}/${file_name}.json"# Import data from MINIO (s3 compatible) into ES (using s3urls)
elasticdump \--s3AccessKeyId "${access_key_id}" \--s3SecretAccessKey "${access_key_secret}" \--input "s3://${bucket_name}/${file_name}.json" \--output=http://production.es.com:9200/my_index--s3ForcePathStyle true--s3Endpoint https://production.minio.co# Export ES data to MINIO (s3 compatible) (using s3urls)
elasticdump \--s3AccessKeyId "${access_key_id}" \--s3SecretAccessKey "${access_key_secret}" \--input=http://production.es.com:9200/my_index \--output "s3://${bucket_name}/${file_name}.json"--s3ForcePathStyle true--s3Endpoint https://production.minio.co# Import data from CSV file into ES (using csvurls)
elasticdump \# csv:// prefix must be included to allow parsing of csv files# --input "csv://${file_path}.csv" \--input "csv:///data/cars.csv"--output=http://production.es.com:9200/my_index \--csvSkipRows 1    # used to skip parsed rows (this does not include the headers row)--csvDelimiter ";" # default csvDelimiter is ','

常用参数

--direction  dump/load 导出/导入
--ignoreType  被忽略的类型,data,mapping,analyzer,alias,settings,template
--includeType  包含的类型,data,mapping,analyzer,alias,settings,template
--suffix  加前缀,es6-${index}
--prefix  加后缀,${index}-backup-2018-03-13

总结

elasticdump是ElasticSearch提供的一个工具,我们主要可以用来完成

  1. 数据备份
  2. 数据迁移

这一节我们主要介绍了elasticdump的安装和使用,还有就是,Elasticdump 是一个第三方工具,不是官方的 Elasticsearch 产品。虽然它对某些用例很有帮助,但在使用之前,确保与你的 Elasticsearch 版本兼容,并查阅工具的文档以了解任何特定的注意事项或限制。

总体来说,elasticdump是一个非常实用的数据迁移和备份工具。它可以帮助我们轻松地在不同Elasticsearch集群之间进行数据迁移,实现集群之间的无缝数据同步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/4566.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

allure环境搭建

allure环境搭建 在搭建之前你应该有python、pycharm allure介绍 官网:https://docs.qameta.io/allure/ 英文介绍 Allure Framework is a flexible lightweight multi-language test report tool that not only shows a very concise representation of what have…

关于allure和pycharm的运行模式

案例 新建一个项目allure_mode 新建一个python代码test_allure_001.py 代码如下 import pytest, os def test_001(): assert 1 1 if __name__ __main__: pytest.main([-sv, __file__, --alluredir, ./html, --clean-alluredir]) os.system(fallure se…

【异常解决】postman请求提示Full authentication is required to access this resource

Full authentication is required to access this resource解决办法 报错问题:在使用 postman 测试接口时,该接口需要在 Header 中传入 access_token,实际上也在请求的 Header 中添加上了 access_token 参数,但是服务端还是返回4…

qt与opencv学习记录

qtopencv开发入门:4步搞定环境配置-1_哔哩哔哩_bilibili qtopencv开发入门:4步搞定opencv环境配置2_哔哩哔哩_bilibili 文章内容来自上面两个视频,感谢创作者。 ps:配置环境的过程中,遇到了很多问题,我…

性能测试工具 Jmeter 测试 JMS (Java Message Service)/ActiveMQ 性能

目录 前言 ActiveMQ 介绍 准备工作 编写jndi.properties添加到ApacheJMeter.jar 中 下载 ActiveMQ 配置 Jmeter 进行测试 点对点 (Queues 队列) 配置 Jmeter 进行测试 发布/订阅 (Topic 队列) 配置发布 Publisher 配置订阅 Subscriber 总结 前言 JMeter是一个功能强大…

Windows搭建Nginx实现RTMP转为HLS流

所需软件 nginx-1.7.11.3-Gryphon(这个包含必须的RTMP模块,普通的Ngxin没有这个)ffmpegVLC 配置Nginx 1为Nginx配置RTMP和HLS 这里定义了一个叫live的RTMP路径。同时设置其开启HLS功能,那么所有推送到这个地址的RTMP流都会自动生…

吴恩达ML2022-用于手写数字识别的神经网络

1 用到的包 导入在这个分配过程中需要的所有包。 Numpy 是使用 Python 进行科学计算的基本软件包。Matplotlib 是在 Python 中绘制图形的流行库。tensorflow是一种流行的机器学习平台。 import numpy as np import tensorflow as tf from tensorflow.keras.models import Se…

IIS Express本地开发测试如何映射到外网访问?

1.IIS Express是什么 IIS Express是为开发人员优化的轻量级、自包含版本的IIS。它具有IIS 7及以上的所有核心功能,以及为简化网站开发而设计的附加功能。 IIS Express(跟ASP.NET开发服务器一样)可以快速地从硬盘上的某个文件夹上启动网站…

【LeetCode周赛】2022上半年题目精选集——动态规划

文章目录 2140. 解决智力问题解法1——倒序DP(填表法)解法2——正序DP(刷表法)⭐⭐⭐ 2167. 移除所有载有违禁货物车厢所需的最少时间⭐⭐⭐解法1——前缀和⭐⭐⭐⭐⭐解法2——前后缀分解 动态规划代码1——看了思路之后自己写的…

亚信科技荣任「DBL电信行业工作组」副组长单位,AntDB数据库连年入选《中国数据库产品图谱》

日前,“2023可信数据库发展大会”在京圆满召开。亚信科技凭借自研的电信级核心交易数据库AntDB在通信行业15年的技术积累和行业贡献,成功当选为数据库应用创新实验室(DBL)电信行业工作组副组长单位。AntDB数据库连续两年入选《全球…

星火认知大模型,让我感受到了国产AI的崛起

文章目录 一、申请和测试代码二、实测GPT4.0和星火认知大模型的对比2.1 测试网站2.2 经典问题提问对比2.3 代码问题提问对比2.4 论文问题对比2.5 评价 一、申请和测试代码 在我之前的一篇文章中,我分享了如何申请星火认知大模型的内测,并提供了一份可以…

java项目之班级同学录网站(ssm+mysql+jsp)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的班级同学录网站。技术交流和部署相关看文章末尾! 开发环境: 后端: 开发语言:Java 框架&a…

UE5 DLC

前言 在网上找了很多文档,并没有介绍DLC如何创建,但是对比多篇文档后,可以总结为DLC也是Pak包,本质上还是补丁包,B站上有一篇视频介绍了: [UE4]如何在虚幻4游戏里添加DLC的教程(中英机翻)_哔哩哔哩_bilibili 但是也感觉不对,因为要改Build.cs文件。故研究了一下插件式…

day40-Mybatis(resultMap拓展)

0目录 Mybatis-resultMap拓展 1.2.3 1.数据库字段和javabean实体类属性不一致时 解决方案1:将sql语句中给予别名(别名同javabean中实体类保持一致) 解决方案2:使用resultMap 2.两表关联(用户表和角色表关联查询&…

迅镭激光赋能工程机械,客户连续复购激光加工设备达双赢!

工程机械是装备制造业的重要组成部分,当前,我国已成为门类齐全、规模庞大、基础坚实、竞争力强的工程机械设备制造大国。 随着工程机械产业正在全面向智能化、绿色化转型,激光加工成为推动工程机械产业转型升级的重要工具,越来越多…

mysql日志管理、备份与恢复

mysql日志管理、备份与恢复 一、数据备份重要性数据备份类型二、数据库备份类型2.1物理备份1.冷备份(脱机备份):2.热备份(联机备份)∶3.温备份: 2.2逻辑备份1.完全备份2.差异备份3.增量备份 三、常见的备份方法3.1物理冷备3.2专用备份工具3.3启用二进制日志进行增量备份3.4第三…

【C#】并行编程实战:使用延迟初始化提高性能

在前面的章节中讨论了 C# 中线程安全并发集合,有助于提高代码性能、降低同步开销。本章将讨论更多有助于提高性能的概念,包括使用自定义实现的内置构造。 毕竟,对于多线程编程来讲,最核心的需求就是为了性能。 延迟初始化 - .NET…

GoFrame v2.5 版本发布,企业级 Golang 开发框架

大家好啊,GoFrame 框架今天发布了 v2.5.0 正式版本啦!👏👏👏👏 本次版本主要是对已有功能组件以及开发工具上的改进工作。其中,开发工具新增了 gf gen ctrl 命令,以规范化定义、开发…

Bash 第十行

195 第十行 给定一个文本文件 file.txt,请只打印这个文件中的第十行。 示例: 假设 file.txt 有如下内容: Line 1 Line 2 Line 3 Line 4 Line 5 Line 6 Line 7 Line 8 Line 9 Line 10 你的脚本应当显示第十行: Line 10 来源:…

Hive概述

Hive 一 Hive基本概念 1 Hive简介 学习目标 - 了解什么是Hive - 了解为什么使用Hive####1.1 什么是 Hive Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询…