MySQL同步到ES的方案选型

文章目录

  • 1. 同步双写
    • 优点
    • 缺点
    • 实现方式
  • 2. 异步双写
    • 优点
    • 缺点
    • 实现方式
  • 3. 另起应用 SQL 查询写入
    • 优点
    • 缺点
    • 实现方式
  • 4. Binlog 实时同步
    • 优点
    • 缺点
    • 实现方式
  • 5. 应用场景

本文参考:

  • https://www.bilibili.com/video/BV13hvZeaErr/?vd_source=b7e4d17fd13ffa91c4da6d37c08a6c7c

最近在重构某个老系统,其大部分查询逻辑都是做在 MySQL 存储层上的,当面临一些复杂的过滤逻辑以及分页逻辑时,都需要后端工程师根据前端传参做一些定制逻辑,后端项目上线发布的人力成本较大,并且大部分过滤逻辑都是在后端代码内部做的,代码可读性与复用性都不高。同时随着时间的迁移,数据库的数据量越来越多,核心首页接口的耗时碰到了瓶颈。为了项目未来的发展,于是决定将原项目重构,进行读写异构分离建设,写入 MySQL,查询走 ES。于是调研了一下 MySQL 数据写入 ES 的一些方式,简要分析各个方案的优缺点。

主要包含以下 4 种方案:

  1. 同步双写
  2. 异步双写
  3. 另起应用 SQL 查询写入
  4. Binlog 实时同步

1. 同步双写

数据写入 MySQL 的同时,通过编程逻辑将相同逻辑写入 ES

在这里插入图片描述

优点

  1. 实时性

    数据变更能直连写入 ES,近乎保证了 ES 的实时性

  2. 简单性
    实现起来比较简单,不需要引入额外的组件,也不需要复杂的逻辑

缺点

  1. 性能影响

    应用内部每次写入 MySQL 同时写入 ES,会对两个系统同时产生影响

  2. 数据一致性风险

    如果双写失败,比方说写入 MySQL 以后应用宕机未写入 ES,两者数据不一致

  3. 系统耦合

​ 每个写入操作都需要双写逻辑,增加了业务的复杂性和维护难度

  1. 集群容灾差

    如果要实现多集群容灾写入,相同的写入逻辑需要往每个集群都做一次

实现方式

分别调用 MySQL 和 ES 的 Client SDK 双写即可

2. 异步双写

利用消息队列异步处理数据写入操作

在这里插入图片描述

优点

  1. 性能提升

    MQ 异步处理,减少了接口同步等待的时间

  2. 容错性
    消息队列有持久化和重试机制,提高了 ES 数据同步的可靠性

  3. 集群容灾水平高
    MQ 消息可以被不同集群的 ES 消费者组监听

缺点

  1. 数据延迟

    异步处理数据延迟较高

  2. 系统复杂度

    需要引入消息队列和额外的消费逻辑,增加了系统的复杂度

  3. 数据一致性风险

    虽然消息队列具有持久化机制,可以重试保证最终一致,但是当应用写入 MySQL 但是还未将消息投递到消息队列时,仍然具有一致性的风险

实现方式

  1. 首先需要接入消息队列,在应用代码中编写生产者逻辑
  2. ES 侧也需要有消费者的逻辑

3. 另起应用 SQL 查询写入

通过定时任务或者单独起一个应用,去查询数据库中的某个时间段内的记录,并作转换逻辑同步至 ES

在这里插入图片描述

优点

  1. 性能提升

    也是异步处理,减少了接口同步等待的时间

  2. 无侵入性
    不需要修改原有的业务逻辑,原系统对此无感知

缺点

  1. 时效性差
    定时任务或者应用 RPC 拉取仍然存在延迟

  2. 性能压力
    查询某一时间段数据会对原来的数据库产生额外的查询压力

  3. 集群容灾差

    如果要实现多集群容灾写入,相同的写入逻辑需要往每个集群都做一次

实现方式

  1. 维护时间戳字段,方便每次查询出新时间段的记录
  2. 定时任务/应用代码逻辑单独上线

4. Binlog 实时同步

利用 MySQL 的 Binlog 日志,通过消息队列消费变化来同步至 ES

在这里插入图片描述

优点

  1. 性能提升

    也是异步处理,减少了接口同步等待的时间

  2. 无侵入性
    不需要修改原有的业务逻辑,原系统对此无感知

  3. 数据一致性
    MySQL Binlog 可以精准捕捉到数据库的所有变更

  4. 容错性
    通常搭配 MQ 使用,在网络波动下仍然能够重试,保证数据的最终一致;并且 MQ 还具有一定的削峰作用,对 ES 写入较友好

缺点

  1. 系统复杂度
    需要维护 Binlog 日志监听和消息队列系统,增加了系统的复杂度
  2. 延迟问题
    “准实时”同步,但是其中涉及到不同组件间的网络传输较多,相比于直连写入 ES 延迟较大

实现方式

  1. MySQL Binlog 日志开启
  2. Binlog 监听器配置
  3. 消息队列集成,确保 Binlog 变更能够发送到消息队列中
  4. 消费者逻辑开发,从消息队列中读取 Binlog 并转换成 ES 可以理解的格式

5. 应用场景

  • 在公司内部通常都采用第4种解决方案,通常都有内部的平台使用,实现存量数据和增量数据的迁移,前面两种方式还需要修改原有的逻辑代码。

  • 如果追求时效性的话,可以增加冗余写入链路,比方说直连写入 + 异步写入,保证一致性的同时增强时效性,但是注意处理 ES 的冲突解决策略,通常两条相同记录的写入采用的是替换 Replace 策略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/57004.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【题解】—— LeetCode一周小结42

🌟欢迎来到 我的博客 —— 探索技术的无限可能! 🌟博客的简介(文章目录) 【题解】—— 每日一道题目栏 上接:【题解】—— LeetCode一周小结41 14.鸡蛋掉落 题目链接:887. 鸡蛋掉落 给你 k 枚…

c++迷宫游戏

1、问题描述 程序开始运行时显示一个迷宫地图,迷宫中央有一只老鼠,迷宫的右下方有一个粮仓。游戏的任务是使用键盘上的方向健操纵老鼠在规定的时间内走到粮仓处。 基本要求: 老鼠形象可以辨认,可用键盘操纵老鼠上下左右移动;迷宫的墙足够结…

Springboot指定扫描路径

方式一:通过在启动类的SpringbootApplication中指定包扫描或类扫描 指定需要扫描的包 scanBasePackages{"待扫描包1","待扫描包2", . . . ," "} 指定需要扫描的类 scanBasePackageClasses{类1.class,类2.class,...} 方式二&#xff…

C语言函数实现:深入理解strcpy

文章目录 一、strcpy函数的基本用法二、strcpy函数的实现原理三、strcpy函数的应用场景四、strcpy函数的安全性问题五、结论 C语言函数实现:深入理解strcpy 在C语言编程中,字符串处理是一项基础且重要的任务。 strcpy函数作为C标准库中的一个基本函数&a…

CDC变更数据捕捉技术是什么?和ETL有什么不同?

一、什么是CDC技术? 变更数据捕获(Change Data Capture,简称 CDC)是一种用于识别和跟踪数据源中发生变化的数据的技术。 工作原理: 1.监测数据源:CDC 工具会持续监测指定的数据源,如数据库表、文件系统…

【C++复习】经典笔试题

文章目录 八大排序快排过程 卡特兰数反转链表链表的回文结构左叶子之和另一棵树的子树归并排序类与对象编程训练杨辉三角字符串乘积二叉树前序遍历成字符串数组的交集二叉树的非递归前序遍历连续子数组的最大乘积 八大排序 插冒归稳定 快排过程 以 [3,4,6,1,2,4,7] 为例&#…

mysql--用户管理

目录 1、创建用户 2、删除用户 3、修改密码 4、数据库权限 5、回收权限 6、查看权限 7、权限列表 1、创建用户 create user 用户名 登录主机 / ip identified by 密码; 2、删除用户 drop user 用户名’登陆主机名‘; 3、修改密码 #用户自己修…

MySQL 聚合函数

1. AVG函数求平均值 以 teacher 表为例,先查所有 teacher 信息: SELECT * FROM teacher;查询结果如下图: 可以使用 AVG() 函数求出全部教师平均年龄: SELECT AVG(age) FROM teacher;执行结果如下图: Tips&#…

Javascript 脚本查找B站限时免费番剧

目录 前言 脚本编写 脚本 前言 B站的一些番剧时不时会“限时免费”,白嫖党最爱,主打一个又占到便宜的快乐。但是在番剧索引里却没有搜索选项可以直接检索“限时免费”的番剧,只能自己一页一页的翻去查看,非常麻烦。 自己找限…

React 前端框架:全面介绍与代码实现

React 是一个由 Facebook 开发的开源 JavaScript 库,用于构建用户界面。作为目前最受欢迎的前端框架之一,React 为开发者提供了一个模块化的方式来构建复杂的用户界面。无论是构建简单的单页应用,还是大型的动态 Web 应用,React 都…

JavaSE——集合16:不可变集合

目录 一、不可变集合基本介绍 二、创建不可变的List集合 三、创建不可变的Set集合 四、创建不可变的Map集合 (一)最多10个键值对 (二) 键值对的数量超过10个 五、总结 一、不可变集合基本介绍 不可变集合:不可以被修改的集合。包括长度、内容等。 应用场景&…

【iOS】使用AFNetworking更方便实现网络请求

目录 前言 如何使用AFNetworing实现网络请求 使用单例 进行网络申请 结语 前言 OC中原生的网络请求流程非常麻烦,通常是以下流程: 创建NSURL对象确定请求地址。使用NSURL创建NSURLRequest对象,可设置请求方法、请求头等。创建NSURLSess…

如何修改MAC地址破解网络无线网络限制-担心别人蹭网,路由器设置MAC地址过滤,限定了能访问无线网络的网卡地址-供大家学习参考

路由器都设置了MAC地址过滤,也就是限定了能访问无线网络的网卡的MAC地址。因为无线路由器不一定由自己控制,所以当更换了笔记本或者更换了无线网卡的时候,也许就上不了网了。我们可以修改网卡的MAC地址实现上网。 下载:https://do…

各种查询sql介绍

1. 关联查询(JOIN) 关联查询用于从多个表中检索数据。它基于两个或多个表之间的共同字段(通常是主键和外键)来组合数据。 内连接(INNER JOIN): sql SELECT a.name, b.order_date FROM custome…

计算机网络——CDN

空间编码例子:不是发送N个相同颜色值,而是仅发送2个值,颜色和重复个数 时间编码例子:不是发送i1帧的全部编码,而是仅发送帧i差别的地方 视频播放时,先下载manifest file文件——>解析(不…

机器学习与神经网络:科技的星辰大海

前提 近日,2024年诺贝尔物理学奖颁发给了机器学习与神经网络领域的研究者,这是历史上首次出现这样的情况。这项奖项原本只授予对自然现象和物质的物理学研究作出重大贡献的科学家,如今却将全球范围内对机器学习和神经网络的研究和开发作为了一…

Python库numpy之五

Python库numpy之五 数据类型数组类型和类型之间的转换数值数据类型字符串和字节的数据类型 数据类型 数组类型和类型之间的转换 NumPy 比 Python 支持更多种类的数值类型。 NumPy 数值类型是 numpy.dtype对象的实例,每个对象都具有独特的特征。可以使用 numpy 顶…

【Kuberntes】k8s权限管理

文章目录 权限管理概述核心概念配置RBAC创建Role和ClusterRole创建RoleBinding和ClusterRoleBinding 默认角色和角色绑定权限的实现注意事项 如何在 Kubernetes 中实现 RBAC 的细粒度权限控制?1. Role和ClusterRole2. RoleBinding和ClusterRoleBinding3. 配置RBAC4.…

gaussdb 基础管理 数据库 表 用户 模式 权限 存储过程

数据库database #创建数据库,指定字符集UTF8,缺省情况下新数据库将通过复制标准系统数据库template0来创建,且仅支持使用template0来创建。 CREATE DATABASE devdb ENCODING UTF8 template template0; CREATE DATABASE testdb; 标识符的命名…

Faster R-CNN模型微调检测航拍图像中的小物体

1. 项目简介 本项目的目标是基于Faster R-CNN模型对航拍图像中的小物体进行检测和识别。航拍图像通常具有视角广、分辨率高、小目标密集且物体尺寸较小的特点,因此检测难度较大。传统的目标检测模型在处理小物体时,容易受到物体尺寸、分辨率及背景复杂度…