MySQL同步到ES的方案选型

文章目录

  • 1. 同步双写
    • 优点
    • 缺点
    • 实现方式
  • 2. 异步双写
    • 优点
    • 缺点
    • 实现方式
  • 3. 另起应用 SQL 查询写入
    • 优点
    • 缺点
    • 实现方式
  • 4. Binlog 实时同步
    • 优点
    • 缺点
    • 实现方式
  • 5. 应用场景

本文参考:

  • https://www.bilibili.com/video/BV13hvZeaErr/?vd_source=b7e4d17fd13ffa91c4da6d37c08a6c7c

最近在重构某个老系统,其大部分查询逻辑都是做在 MySQL 存储层上的,当面临一些复杂的过滤逻辑以及分页逻辑时,都需要后端工程师根据前端传参做一些定制逻辑,后端项目上线发布的人力成本较大,并且大部分过滤逻辑都是在后端代码内部做的,代码可读性与复用性都不高。同时随着时间的迁移,数据库的数据量越来越多,核心首页接口的耗时碰到了瓶颈。为了项目未来的发展,于是决定将原项目重构,进行读写异构分离建设,写入 MySQL,查询走 ES。于是调研了一下 MySQL 数据写入 ES 的一些方式,简要分析各个方案的优缺点。

主要包含以下 4 种方案:

  1. 同步双写
  2. 异步双写
  3. 另起应用 SQL 查询写入
  4. Binlog 实时同步

1. 同步双写

数据写入 MySQL 的同时,通过编程逻辑将相同逻辑写入 ES

在这里插入图片描述

优点

  1. 实时性

    数据变更能直连写入 ES,近乎保证了 ES 的实时性

  2. 简单性
    实现起来比较简单,不需要引入额外的组件,也不需要复杂的逻辑

缺点

  1. 性能影响

    应用内部每次写入 MySQL 同时写入 ES,会对两个系统同时产生影响

  2. 数据一致性风险

    如果双写失败,比方说写入 MySQL 以后应用宕机未写入 ES,两者数据不一致

  3. 系统耦合

​ 每个写入操作都需要双写逻辑,增加了业务的复杂性和维护难度

  1. 集群容灾差

    如果要实现多集群容灾写入,相同的写入逻辑需要往每个集群都做一次

实现方式

分别调用 MySQL 和 ES 的 Client SDK 双写即可

2. 异步双写

利用消息队列异步处理数据写入操作

在这里插入图片描述

优点

  1. 性能提升

    MQ 异步处理,减少了接口同步等待的时间

  2. 容错性
    消息队列有持久化和重试机制,提高了 ES 数据同步的可靠性

  3. 集群容灾水平高
    MQ 消息可以被不同集群的 ES 消费者组监听

缺点

  1. 数据延迟

    异步处理数据延迟较高

  2. 系统复杂度

    需要引入消息队列和额外的消费逻辑,增加了系统的复杂度

  3. 数据一致性风险

    虽然消息队列具有持久化机制,可以重试保证最终一致,但是当应用写入 MySQL 但是还未将消息投递到消息队列时,仍然具有一致性的风险

实现方式

  1. 首先需要接入消息队列,在应用代码中编写生产者逻辑
  2. ES 侧也需要有消费者的逻辑

3. 另起应用 SQL 查询写入

通过定时任务或者单独起一个应用,去查询数据库中的某个时间段内的记录,并作转换逻辑同步至 ES

在这里插入图片描述

优点

  1. 性能提升

    也是异步处理,减少了接口同步等待的时间

  2. 无侵入性
    不需要修改原有的业务逻辑,原系统对此无感知

缺点

  1. 时效性差
    定时任务或者应用 RPC 拉取仍然存在延迟

  2. 性能压力
    查询某一时间段数据会对原来的数据库产生额外的查询压力

  3. 集群容灾差

    如果要实现多集群容灾写入,相同的写入逻辑需要往每个集群都做一次

实现方式

  1. 维护时间戳字段,方便每次查询出新时间段的记录
  2. 定时任务/应用代码逻辑单独上线

4. Binlog 实时同步

利用 MySQL 的 Binlog 日志,通过消息队列消费变化来同步至 ES

在这里插入图片描述

优点

  1. 性能提升

    也是异步处理,减少了接口同步等待的时间

  2. 无侵入性
    不需要修改原有的业务逻辑,原系统对此无感知

  3. 数据一致性
    MySQL Binlog 可以精准捕捉到数据库的所有变更

  4. 容错性
    通常搭配 MQ 使用,在网络波动下仍然能够重试,保证数据的最终一致;并且 MQ 还具有一定的削峰作用,对 ES 写入较友好

缺点

  1. 系统复杂度
    需要维护 Binlog 日志监听和消息队列系统,增加了系统的复杂度
  2. 延迟问题
    “准实时”同步,但是其中涉及到不同组件间的网络传输较多,相比于直连写入 ES 延迟较大

实现方式

  1. MySQL Binlog 日志开启
  2. Binlog 监听器配置
  3. 消息队列集成,确保 Binlog 变更能够发送到消息队列中
  4. 消费者逻辑开发,从消息队列中读取 Binlog 并转换成 ES 可以理解的格式

5. 应用场景

  • 在公司内部通常都采用第4种解决方案,通常都有内部的平台使用,实现存量数据和增量数据的迁移,前面两种方式还需要修改原有的逻辑代码。

  • 如果追求时效性的话,可以增加冗余写入链路,比方说直连写入 + 异步写入,保证一致性的同时增强时效性,但是注意处理 ES 的冲突解决策略,通常两条相同记录的写入采用的是替换 Replace 策略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/57004.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【题解】—— LeetCode一周小结42

🌟欢迎来到 我的博客 —— 探索技术的无限可能! 🌟博客的简介(文章目录) 【题解】—— 每日一道题目栏 上接:【题解】—— LeetCode一周小结41 14.鸡蛋掉落 题目链接:887. 鸡蛋掉落 给你 k 枚…

c++迷宫游戏

1、问题描述 程序开始运行时显示一个迷宫地图,迷宫中央有一只老鼠,迷宫的右下方有一个粮仓。游戏的任务是使用键盘上的方向健操纵老鼠在规定的时间内走到粮仓处。 基本要求: 老鼠形象可以辨认,可用键盘操纵老鼠上下左右移动;迷宫的墙足够结…

Springboot指定扫描路径

方式一:通过在启动类的SpringbootApplication中指定包扫描或类扫描 指定需要扫描的包 scanBasePackages{"待扫描包1","待扫描包2", . . . ," "} 指定需要扫描的类 scanBasePackageClasses{类1.class,类2.class,...} 方式二&#xff…

C语言函数实现:深入理解strcpy

文章目录 一、strcpy函数的基本用法二、strcpy函数的实现原理三、strcpy函数的应用场景四、strcpy函数的安全性问题五、结论 C语言函数实现:深入理解strcpy 在C语言编程中,字符串处理是一项基础且重要的任务。 strcpy函数作为C标准库中的一个基本函数&a…

CDC变更数据捕捉技术是什么?和ETL有什么不同?

一、什么是CDC技术? 变更数据捕获(Change Data Capture,简称 CDC)是一种用于识别和跟踪数据源中发生变化的数据的技术。 工作原理: 1.监测数据源:CDC 工具会持续监测指定的数据源,如数据库表、文件系统…

【C++复习】经典笔试题

文章目录 八大排序快排过程 卡特兰数反转链表链表的回文结构左叶子之和另一棵树的子树归并排序类与对象编程训练杨辉三角字符串乘积二叉树前序遍历成字符串数组的交集二叉树的非递归前序遍历连续子数组的最大乘积 八大排序 插冒归稳定 快排过程 以 [3,4,6,1,2,4,7] 为例&#…

MySQL 聚合函数

1. AVG函数求平均值 以 teacher 表为例,先查所有 teacher 信息: SELECT * FROM teacher;查询结果如下图: 可以使用 AVG() 函数求出全部教师平均年龄: SELECT AVG(age) FROM teacher;执行结果如下图: Tips&#…

Javascript 脚本查找B站限时免费番剧

目录 前言 脚本编写 脚本 前言 B站的一些番剧时不时会“限时免费”,白嫖党最爱,主打一个又占到便宜的快乐。但是在番剧索引里却没有搜索选项可以直接检索“限时免费”的番剧,只能自己一页一页的翻去查看,非常麻烦。 自己找限…

如何修改MAC地址破解网络无线网络限制-担心别人蹭网,路由器设置MAC地址过滤,限定了能访问无线网络的网卡地址-供大家学习参考

路由器都设置了MAC地址过滤,也就是限定了能访问无线网络的网卡的MAC地址。因为无线路由器不一定由自己控制,所以当更换了笔记本或者更换了无线网卡的时候,也许就上不了网了。我们可以修改网卡的MAC地址实现上网。 下载:https://do…

各种查询sql介绍

1. 关联查询(JOIN) 关联查询用于从多个表中检索数据。它基于两个或多个表之间的共同字段(通常是主键和外键)来组合数据。 内连接(INNER JOIN): sql SELECT a.name, b.order_date FROM custome…

计算机网络——CDN

空间编码例子:不是发送N个相同颜色值,而是仅发送2个值,颜色和重复个数 时间编码例子:不是发送i1帧的全部编码,而是仅发送帧i差别的地方 视频播放时,先下载manifest file文件——>解析(不…

机器学习与神经网络:科技的星辰大海

前提 近日,2024年诺贝尔物理学奖颁发给了机器学习与神经网络领域的研究者,这是历史上首次出现这样的情况。这项奖项原本只授予对自然现象和物质的物理学研究作出重大贡献的科学家,如今却将全球范围内对机器学习和神经网络的研究和开发作为了一…

Faster R-CNN模型微调检测航拍图像中的小物体

1. 项目简介 本项目的目标是基于Faster R-CNN模型对航拍图像中的小物体进行检测和识别。航拍图像通常具有视角广、分辨率高、小目标密集且物体尺寸较小的特点,因此检测难度较大。传统的目标检测模型在处理小物体时,容易受到物体尺寸、分辨率及背景复杂度…

大数据查询引擎之Tez

Apache Tez 是一个用于大数据处理的分布式计算框架,旨在提高 Hadoop 的 MapReduce 计算引擎的效率和性能。它是一个面向 DAG(有向无环图)任务执行的框架,主要用于大规模数据处理场景中,特别是在 Apache Hadoop 生态系统…

elementUI,设置日期,只能选择过去的和今天的日期

在 el-date-picker 组件中加&#xff1a;:picker-options"pickerOptions" <el-form-item label"票据生成日期&#xff1a;"> <el-date-picker v-model"date1" type"daterange" range-separator"至" value-format&…

大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 目前已经更新到了&#xff1a; Hadoop&#xff08;已更完&#xff09;HDFS&#xff08;已更完&#xff09;MapReduce&#xff08;已更完&am…

轻量级可视化数据分析报表,分组汇总表!

什么是可视化分组汇总表&#xff1f; 可视化分组汇总表&#xff0c;是一种结合了数据分组、聚合计算与视觉呈现功能的数据分析展示功能。它能够按照指定的维度&#xff08;如时间、地区、产品类型等&#xff09;对数据进行分组&#xff0c;还能自动计算各组的统计指标&#xf…

mongodb-7.0.14分片副本集超详细部署

mongodb介绍&#xff1a; 是最常用的nosql数据库&#xff0c;在数据库排名中已经上升到了前六。这篇文章介绍如何搭建高可用的mongodb&#xff08;分片副本&#xff09;集群。 环境准备 系统系统 BC 21.10 三台服务器&#xff1a;192.168.123.247/248/249 安装包&#xff1a…

SQL Injection | SQL 注入 —— 报错盲注

关注这个漏洞的其他相关笔记&#xff1a;SQL 注入漏洞 - 学习手册-CSDN博客 0x01&#xff1a;报错盲注 —— 理论篇 报错盲注&#xff08;Error-Based Blind SQL Injection&#xff09;是一种常见的 SQL 注入技术&#xff0c;适用于那些页面不会直接显示后端处理结果的查询方式…

安装nginx实现多ip访问多网站

关闭防火墙并停selinux&#xff1a; 挂载&#xff1a; 安装nginx&#xff1a; 判断nginx是否成功启动&#xff1a; 打开nmtui并添加多个ip&#xff1a; 重启nmtui&#xff1a; 查看多ip是否配置成功: 配置文件&#xff1a; 创建文件&#xff1a; 根据配置在主机创建数据文件&a…