海量数据迁移:Elasticsearch到OpenSearch的无缝迁移策略与实践

文章目录

  • 一.迁移背景
  • 二.迁移分析
  • 三.方案制定
    • 3.1 使用工具迁移
    • 3.2 脚本迁移
  • 四.方案建议

一.迁移背景

  1. 目前有两个es集群,版本为5.2.2和7.16.0,总数据量为700T。
  2. 迁移过程需要不停服务迁移,允许一小时不写数据,但是需要提供数据存储方案。
  3. 迁移到opensearch的版本为1.3.4。

二.迁移分析

根据迁移背景中的描述进行分析:

  1. Opensearch的版本是基于elasticsearch 7.10版本做的二次开发迭代,因此,7.16的es集群迁移到os 1.3.4属于小版本之间数据迁移,可正常迁移,但 es 5.2.2版本迁移到os 1.3.4属于跨两个大版本迁移,需要开发协助验证数据结构和数据字段类型是否完全符合。
  2. 迁移过程不停服务,700T一小时无法迁移完成,需要考虑可以先迁业务,把业务的数据存储先指向os集群,然后历史数据追加到os集群。
  3. 历史数据迁移到os过程中,可能由于一些原因失败,需要考虑迁移方案是否具备断点续传的功能。
  4. 数据量较大,如果是es迁移到es建议使用snapshot方式,但是es迁移os此工具不行,虽然官方建议使用snapshot迁移es到os,但实际测试无法迁移。

总结

  1. 5.2.2 版本需要开在os版本中验证数据格式和数据类型是否可以,以确定是否可以迁移。
  2. 700T 数据量较大,需要考虑迁移时间和数据一致性的保证。
  3. 由于数据量较大,建议os使用商业版存储或SSD固态硬盘,以提升存储效率和查询效率。

三.方案制定

3.1 使用工具迁移

由于opensearch官网建议使用snapshot方式迁移,但实际测试过程中并不能迁移数据,使用elasticdump可实现数据迁移。

在这里插入图片描述
步骤:

  1. 将业务应用程序写入es断开
  2. 将业务应用程序的写入指向新的os集群
  3. 使用elasticdump将数据分批次导出/导入集群
比如导出1年数据
elasticdump --input ./data_mapping.json --output https://admin:admin@192.168.2.200:32001/test --type=data --searchBody "{ \"query\": { \"bool\": { \"filter\": { \"range\": { \"requestTime\": { \"gt\": \"20200000000000000\", \"lt\": \"20210000000000000\" } } } } } }"

优势:

  1. 开源程序,无需考虑自研
  2. 通过查询条件实现的类似断点续传的功能

劣势:

  1. 支持性不好,若elasticdump工具问题,不能快速解决
  2. 需要对es数据很熟悉,并且数据中有可以查询时间范围的字段
  3. 对es语法了解,需要会写es查询语句,删除语法
  4. 按时间段进行导入导出数据为了较少因导入过程中故障问题,可通过查询条件删除数据在重新导入,风险较大
  5. 由于分批次,导入导出周期很长
  6. 暂不支持5.2.2的导入导出,需开发先验证数据结构和字段是否支持两个版本
  7. 时间不可控,elasticdump工具不适合大数据量导入导出,时间周期会较长

3.2 脚本迁移

在这里插入图片描述
步骤:

  1. 将业务应用程序写入es断开
  2. 将业务应用程序的写入指向新的os集群
  3. 开启数据抽取脚本,并写入kafka
  4. 开启数据写入脚本,读取kafka消息,写入os中

为什么需要kafka呢?

  1. 解耦合
    使用程序可以实现从elasticsearch集群中抽取数据直接写入到opensearch集群中,但会增加opensearch集群的压力,所以中间加上kafka消息中间件进行解耦合。
  2. 多版本共存
    若是使用的java程序,elasticsearch的客户端java依赖一般是JDK8,而opensearch官方建议使用的客户端是JDK11, 一个java程序需要解决两个版本的JDK依赖问题,所以将抽取和写入程序分离开来。
    3.降成本
    对于数据抽取脚本,只需要按照数据格式可拆分的进行数据迁移,例如使用按照时间范围以及关键字进行数据查询抽取:
        "query": {"bool": {"must": [{"range": {"access_time.keyword": {"gte": 2023-01-01 00:00:00,
"lt": 2023-01-01 00:00:00,"format": "yyyy-MM-dd HH:mm:ss"}}}],"filter": {"term": {"loglevel.keyword": "ERROR"}}}}
}

这样每次只需改动数据抽取时间范围即可,同时将数据写入kafka中。若程序中断,可让写入脚本将消息消费完成,确定最后一条数据的写入时间,改动抽取脚本的时间范围即可再次启动抽取脚本,无需进行数据清理工作,只需等待写入完成即可。
数据写入脚本只需订阅相关topic即可,将数据写入到opensearch中,若脚本异常退出或网络中断,可重新进行消息的消费,无需考虑数据一致性问题。
优势:
1.自研脚本操作数据无需考虑版本兼容问题
2.可控数据传输(如:暂停,开始)
3.支持断点续传功能
4.无需停机迁移,业务可正常写入
5.支持性较好

劣势:
1.迁移过程应用程序读取数据问题,一段时间内无法读取到历史数据,因为在做数据同步过程,也可修改应用程序读取es集群中的历史数据

四.方案建议

综合以上优劣对比,建议使用方案3.2开发脚本进行数据迁移。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/60361.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【贪心算法】贪心算法三

贪心算法三 1.买卖股票的最佳时机2.买卖股票的最佳时机 II3.K 次取反后最大化的数组和4.按身高排序5.优势洗牌(田忌赛马) 点赞👍👍收藏🌟🌟关注💖💖 你的支持是对我最大的鼓励&#…

Devops业务价值流:敏捷测试最佳实践

在迭代增量开发模式下,我们强调按照用户故事的优先级进行软件小功能的频繁交付。由于迭代周期紧凑,测试与开发活动往往并行进行,测试时间相对有限。为确保在这种快节奏的开发环境中依然能够保持产品质量,我们特制定以下测试阶段的…

el-table 纵向垂直表头处理

项目中表格展示会遇到需要纵向垂直表头情况,下面,我们基于el-table组件来实现这种表格。 以下是这次需要用到的数据表格,已知左侧违章名称是固定的,而月份是不固定的,在后端返回数据格式已确定的情况下,需…

HDFS和HBase跨集群数据迁移 源码

HDFS集群间数据迁移(hadoop distcp) hadoop distcp \ -pb \ hdfs://XX.14.36.205:8020/user/hive/warehouse/dp_fk_tmp.db/ph_cash_order \ hdfs://XX.18.32.21:8020/user/hive/warehouse/dp_fksx_mart.db/HBase集群间数据(hbase ExportSnap…

浅谈单片机的gcc优化级别__以双音频信号发生器为例

IDE: CLion HOST: Windows 11 MinGW:x86_64-14.2.0-release-posix-seh-ucrt-rt_v12-rev0 GCC: arm-gnu-toolchain-13.3.rel1-mingw-w64-i686-arm-none-eabi 一、简介 gcc有多种优化级别,一般不选择的情况下&#x…

Ceph MDS高可用架构探索:从零到一构建多主一备MDS服务

文章目录 Ceph实现MDS服务多主一备高可用架构当前 mds 服务器状态添加 MDS 服务器验证ceph集群当前状态当前的文件系统状态设置处于激活状态 mds 的数量MDS 高可用优化分发配置文件并重启 mds 服务 Ceph实现MDS服务多主一备高可用架构 Ceph 的元数据服务(MDS&#…

PySpark 数据处理实战:从基础操作到案例分析

Spark 的介绍与搭建:从理论到实践_spark环境搭建-CSDN博客 Spark 的Standalone集群环境安装与测试-CSDN博客 PySpark 本地开发环境搭建与实践-CSDN博客 Spark 程序开发与提交:本地与集群模式全解析-CSDN博客 Spark on YARN:Spark集群模式…

使用GPT-SoVITS训练语音模型

1.项目演示 阅读单句话 1725352713141 读古诗 1725353700203 2.项目环境 开发环境:linux 机器配置如下:实际使用率百分之二十几, 3.开发步骤 1.首先是准备数据集,要求是wav格式,一到两个小时即可, 2.…

Python学习从0到1 day27 Python 高阶技巧 ③ 设计模式 — 单例模式

此去经年,再难同游 —— 24.11.11 一、什么是设计模式 设计模式是一种编程套路,可以极大的方便程序的开发最常见、最经典的设计模式,就是我们所学习的面向对象了。 除了面向对象外,在编程中也有很多既定的套路可以方便开发,我们称之为设计模…

3.2 软件需求:面对过程分析模型

面对过程分析模型 1. 需求分析的模型概述1.1 面对过程分析模型-结构化分析方法1.2 结构化分析的过程 2. 功能模型:数据流图初步2.1 加工2.2 外部实体(数据源点/终点)2.3 数据流2.4 数据存储2.5 注意事项 3. 功能模型:数据流图进阶…

Android Studio 运行模拟器无法打开avd

问题:已经下载了HAXM 打开模拟器时还是提示未下载HAXM,无法打开avd 解决方案: 控制面板 -> 启动或关闭Windows功能,打开图下两项,后重启电脑重启Android Studio:

Qt文件系统-二进制文件读写

实例功能概述 除了文本文件之外,其他需要按照一定的格式定义读写的文件都称为二进制文件。每种格式的二进制文件都有自己的格式定义,写入数据时按照一定的顺写入,读出时也按照相应的顺读出。例如地球物理中常用的SEG-Y格式文件,必…

ARXML汽车可扩展标记性语言规范讲解

ARXML: Automotive Extensible Markup Language (汽车可扩展标记语言) xmlns: Xml name space (xml 命名空间) xsd: Xml Schema Definition (xml 架构定义) 1、XML与HTML的区别,可扩展。 可扩展,主要是…

游戏引擎学习第六天

这节讲的内容比较多: 参考视频:https://www.bilibili.com/video/BV1apmpYVEQu/ XInput 是微软提供的一个 API,用于处理 Windows 平台上 Xbox 控制器(包括有线和无线)及其他游戏控制器的输入。它为开发者提供了一组函数,用于查询控…

vivado+modelsim: xxx is not a function name

xxx is not a function name vivado问题:xxx is not a function name原因 vivado问题:xxx is not a function name 在写verilog modelsim仿真时,遇到error:xxx is not a function name。 原因 该变量xxx在仿真文件里,如下图红框所示&#…

云计算在教育领域的应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 云计算在教育领域的应用 云计算在教育领域的应用 云计算在教育领域的应用 引言 云计算概述 定义与原理 发展历程 云计算的关键技…

立体工业相机提升工业自动化中的立体深度感知

深度感知对仓库机器人应用至关重要,尤其是在自主导航、物品拾取与放置、库存管理等方面。 通过将深度感知与各种类型的3D数据(如体积数据、点云、纹理等)相结合,仓库机器人可以在错综复杂环境中实现自主导航,物品检测…

模拟鼠标真人移动轨迹算法-易语言

一.简介 鼠标轨迹算法是一种模拟人类鼠标操作的程序,它能够模拟出自然而真实的鼠标移动路径。 鼠标轨迹算法的底层实现采用C/C语言,原因在于C/C提供了高性能的执行能力和直接访问操作系统底层资源的能力。 鼠标轨迹算法具有以下优势: 模拟…

JavaWeb——Web入门(8/9)- Tomcat:基本使用(下载与安装、目录结构介绍、启动与关闭、可能出现的问题及解决方案、总结)

目录 基本使用内容 下载与安装 目录结构介绍 启动与关闭 启动 关闭 可能出现的问题及解决方案 问题一:启动时窗口一闪而过 问题二:端口号冲突 问题三:部署应用程序 总结 基本使用内容 Tomcat 服务器在 Java Web 开发中扮演着至关重…

PostgreSQL中如果有Left Join的时候索引怎么加

在PostgreSQL中,当你的查询包含多个LEFT JOIN和WHERE条件时,合理地添加索引可以显著提高查询性能。以下是一些具体的优化步骤和建议: 1. 分析查询 使用 EXPLAIN ANALYZE 命令分析你的查询,了解查询的执行计划,识别出连…