包拯断案 | MySQL5.7替换路上踩过的坑 一键get解决办法@还故障一个真相

提问:作为DBA运维的你,是否有过这些烦恼

1、业务系统进行替换投产时,发现数据库回放并行度低

2、虽然2个数据库集群使用同一份数据,却在关闭双一后,二级从库的回放效率依旧缓慢,不知是什么原因?

心中有章,遇事不慌

作为DBA的你,遇到问题无从下手,除了在问题面前徘徊,还能如何选择?如果你一次或多次遇到该问题还是无法解决,又很懊恼,该如何排忧呢?关注公众号,关注《包拯断案》专栏,让小编为你排忧解难~

图片

#包拯秘籍#

一整套故障排错及应对策略送给你,让你像包拯一样断案如神:

 #首先

遇到此类问题后,我们要做到心中有章(章程),遇事不慌。一定要冷静,仔细了解故障现象(与研发/用户仔细沟通其反馈的问题,了解故障现象、操作流程、数据库架构等信息)

#其次

我们要根据故障现象进行初步分析。心中要想:是什么原因导致回放数据慢?例如:是二级从库出了问题,还是资源遇到瓶颈?

#然后

针对上述思考,我们需要逐步验证并排除,确定问题排查方向。

#接着

确定了问题方向,进行具体分析。通过现象得出部分结论,通过部分结论继续排查并论证。

#最后

针对问题有了具体分析后,再进行线下复现,最终梳理故障报告。

真刀实战,我们能赢

说了这么多理论,想必实战更让你心动。那我们就拿一个真实案例进行分析---某国有大型商业银行子业务系统要进行替换投产,在替换过程中遇到回放数据慢的问题,该如何快速分析处理:

1.故障发生场景

在项目现场兢兢业业准备数据库替换上线的你,正计划把客户子业务系统中的数据库从MySQL 5.7.21 替换到GreatDB最新版本,该业务系统采用主从级联复制,原计划流程如下:

1. 停止旧环境的一台从库(以下称“一级从库”),使用冷备方式拷贝一份数据文件副本到新环境。在新环境上使用原地替换的方式,将数据文件替换为GreatDB最新版本(以下称“二级从库”);

2.  第二天晚上,启动之前停止的一级从库,将二级从库主从连接到一级从库上,两库开始追赶近3天的增量数据;

3. 第三天凌晨,发现两台从库应用增量数据缓慢,磁盘iops高。为加快追赶增量数据速度,关闭两台库的双一参数,iops显著下降。一段时间后,一级从库接近追平数据,而二级从库则回放缓慢。发现二级从库资源使用率较低,没有瓶颈,因此利用show processlist 查看worker进程,发现回放并行度低,只能中止替换投产工作。

图片

图片

(示意图)

何为“双一:即系统变量 sync_binlog = 1 和 innodb_flush_log_at_trx_commit = 1,以便从库的二进制日志和redo log 能即时同步到磁盘,否则已提交的二进制日志可能因意外宕机而丢失。

2.故障分析

一级从库和二级从库使用同一份数据,在关闭双一之前未看到明显的延迟差异。关闭双一后,一级从库回放速度大幅提升,二级从库回放效率依旧缓慢。正常情况下,如果资源没有瓶颈,二级从库应该会出现回放并行度下降的问题。

3.原理分析:结合并行复制原理进行分析

1)基本原理

通过事务分组,优化减少了生成二进制日志所需的操作数。当事务同时提交时,它们将在单个操作中写入二进制日志。若事务能同时提交成功,则它们不会共享任何锁,这就意味着它们没有冲突,可以在Slave上并行执行。

2)事务合并机制

binlog中的事务记录了两个值:

  • last_commit上个事务的提交顺序号

  • sequence_number本次事务的提交顺序号

根据组提交和两阶段提交机制,last_commit值可以合并,即相近事务可以具有相同的last_commit值。事务分发时,last_commit work线程会检查事务的last_commit, last_commit对应的上一事务完成提交后,本事务才能进行回放。last_commit相同的事务,可同时通过分发阶段,即可以并行执行。

3)last_commit值的产生方式

事务提交时,可分成以下三个阶段:

  • Stage 1:prepare

     获取全局的提交号,固定为事务的last_commit值,进行innodb redo prepare。

  • Stage 2:binlog flush

    进行redo刷盘,获得innodb_flush_log_at_trx_commit 的生效点。将事务信息写入binlog并进行刷盘,则获得了sync_binlog 的生效点。

  • Stage 3:commit

    进行innodb commit,更新全局提交号。

由于redo和binlog全局只有一份,因此此处只能串行执行。每个Stage同一时间只允许一个线程操作,其它线程的事务将进入每个stage设置的等待队列。为提高效率,此时需引入组提交机制。当一个线程获得执行stage的执行权限时,会将【等待队列】中的事务合并执行提交任务。因此,各阶段可以同时存在多个事务。在一定时间内,通过stage 1提交的事务,则具有了相同的last_commit值。

4)关闭双一下的last_commit

当双一关闭,执行stage 1和stage 2的时间就会大幅压缩,等待队列积累的事务长度会减少,提交就会很快进入Stage 3阶段,全局提交号递增频率增加。binlog中事务记录的last_commit值就会快速递增。从库使用读取这份binlog进行回放,并行度就下降了。

   

如下图所示,关闭双一后,stage 1和stage 2的执行时间大幅压缩:

图片

如下图所示,开启双一情况下,一级从库binlog的last_commit。二级从库回放时,8号事务完成后,9-16号事务可以并行回放。

   

图片

如下图所示,关闭双一情况下,一级从库binlog的last_commit。二级从库回放时,8号事务完成后,只有9号事务的last_commit为8,退化为串行回放。

  

图片

    

下图为复制链路示意图:关闭双一前,一级/二级从库能高并发回放。关闭双一后,二级从库并发降级。

图片

4.故障优化方案

由于级联复制追赶增量数据时,既要考虑释放IO能力,也要兼顾降低last_commit的递增数。

因此,可以参考以下方法:

1)设置innodb_flush_log_at_trx_commit=0,sync_binlog=1

sync_binlog保持为1,减缓事务进入Stage 3,降低【全局提交号】的递增速度,保护并行度。

设置innodb_flush_log_at_trx_commit=0,降低IO消耗。同时,事务进入stage 1的效率提升,获取相同last_commit的概率增大。

2) 设置slave_preserve_commit_order=0

若事务是回放线程发起的,在开启slave_preserve_commit_order情况下,事务进入Stage 1等待队列前,会先进入排队状态,以保证从库事务提交顺序和主库保持一致,保护事务提交时间的线性增加。与此同时,会延缓事务进入stage 1队列,降低提交效率和并行度。从库延迟大时,可以考虑关闭。这个操作在高并发场景时效果尤其明显。

3)优化刷脏,释放iops能力

关闭double write,增大redo,增大buffer_pool,提高脏页低水位线,调整innodb_io_capacity等。通过调整刷脏相关参数,减少刷脏消耗的磁盘IO。

4)不建议从库调整组提交等待参数

binlog_group_commit_sync_no_delay_count,这一参数受限于从库并发量,很难稳定触发。

binlog_group_commit_sync_delay ,这一参数受限于从库并行执行,无法通过此参数合并大量事务提交,容易进入无意义的空等,反而减慢事务回放。

5)改变last_commit算法(针对MySQL5.7.22以上版本,GreatDB全系版本支持) 

MySQL5.7.22引入了新的last_commit计算方法,提高并行度。

设置参数如下:

-   transaction_write_set_extraction=XXHASH64

-   binlog_transaction_dependency_tracking=WRITESET/WRITESET_SESSION

  

开启后,事务提交会将改变的行保存在内存写集合中。新事务提交会比对写集合,没有冲突则不递增last_commit。冲突则清空写集合,并改变last_commit,此举可大幅提高并行度。

复盘总结

01

投产暂停原因:

本次替换投产工作暂停,是级联复制二级从库回放并行度低引起的,造成二级从库大幅度延迟。主要是MySQL的级联复制机制引起的,而非GreatDB问题。

02

维护措施:

替换过程中,一定要做好监控及定期巡检,确保数据库处于稳定运行状态;

03

替换优化方案:

1)替换方案:

针对冷备数据目录目前间隔两天才启动二级从库追平数据的方案,可以优化替换策略:缩短二级从库冷备目录到开始追平数据之间的时间差(1天内),保证二级从库实际可用的回放时间;

2)后期优化方案:

a.优化slave_preserve_commit_order、innodb_flush_log_at_trx_commit、sync_binlog等数据库参数,以提升磁盘能力;

b.修改并行复制算法”WRITESET“,大幅提升并行度能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/14015.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器人开源项目分享,助力一户一机器人

最初,因隋炀帝思念心切,命工匠按照柳抃的形象制作了木偶机器人,被认为是历史上最早的机器人之一。这些木偶机器人通过精巧设计的机关,能够执行坐、起、拜、伏等动作。 如今,随着科技的发展,机器人已经广泛…

从ES5迈向ES6:探索 JavaScript 新增声明命令与解构赋值的魅力

个人主页:学习前端的小z 个人专栏:JavaScript 精粹 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结,欢迎大家在评论区交流讨论! ES5、ES6介绍 文章目录 💯声明命令 let、const🍟1 let声明符&a…

Linux磁盘初始化与fstab文件更新

环境: Redhat 7.9 本文操作: >>给disk设置分区 (fdisk) >>给disk设置file system格式 (mkfs ) >>创建路径,并将disk mount上(mkdir和mount ) >>修改fstab文件 初始化Disk 初始化前&#xff…

【计算机网络原理】对传输层TCP协议的重点知识的总结

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

桌面文件不见了怎么恢复?五种方法解决文件恢复难题,建议收藏

不小心误删除了桌面文件,导致文件丢失。事实上误删的文件并没有被永久删除,而是被移动到了回收站中,可以恢复这些文件。本文将分享多种方法,具体步骤如下。 方法一:从回收站中恢复 大多数操作系统都有回收站或垃圾桶的…

【C语言】结构体内存对齐:热门面试话题

🔥引言 书接上文,我们了解关于结构体的基本知识,这篇将深入剖析结构体中一个重要的知识点:内存对齐 关于内存对齐是属于热门面试话题,对此单独放在一篇来分享 🌈个人主页:是店小二呀 🌈C语言笔记…

3D工业视觉

前言 本文主要介绍3D视觉技术、工业领域的应用、市场格局等,主要技术包括激光三角测量、结构光、ToF、立体视觉。 一、核心内容 3D视觉技术满足工业领域更高精度、更高速度、更柔性化的需求,扩大工业自动化的场景。 2D视觉技术基于物体平面轮廓&#…

软件无线电学习-第二代移动通信系统过程理解

本文知识内容摘自《软件无线电原理和应用》 无线通信领域让大家感受最深的是民用移动通信的快速发展。民用移动通信在短短的二十年时间里已发展了三代:20世纪80年代的模拟体制(TACS/AMPS)为第一代移动通信(简称1G);20世纪90年代的数字体制(GSMCDMATDMA)…

Git提交和配置命令

一、提交代码到仓库 在软件开发中,版本控制是一个至关重要的环节。而Git作为目前最流行的版本控制系统之一,为我们提供了便捷高效的代码管理和协作工具。在日常开发中,我们经常需要将本地代码提交到远程仓库,以便于团队协作和版本…

Java基础教程 - 9 集合

更好的阅读体验:点这里 ( www.doubibiji.com ) 更好的阅读体验:点这里 ( www.doubibiji.com ) 更好的阅读体验:点这里 ( www.doubibiji.com ) 9 集合 什么是集合&…

【stm32/CubeMX、HAL库】嵌入式实验六:定时器(2)|PWM输出

参考: 【【正点原子】手把手教你学STM32CubeIDE开发】 https://www.bilibili.com/video/BV1Wp42127Cx/?p13&share_sourcecopy_web&vd_source9332b8fc5ea8d349a54c3989f6189fd3 《嵌入式系统基础与实践》刘黎明等编著,第九章定时器&#xff0c…

爱普生TG5032SFN温补晶振在机器人控制中的应用

机器人控制是机器人技术的核心组成部分,它涉及通过传感器采集外部环境信息,然后经过信号处理、运动规划和执行控制等步骤,最终实现机器人的运动控制和任务执行。在技术的不断更选,机器人控制也在不断进步和演变。智能化机器人具备…

Z缓冲技术在AI去衣中的关键角色

引言: 人工智能(AI)技术的飞速发展,为图像处理领域带来了革命性的变化。其中,AI去衣技术作为一种新兴的应用,引起了广泛关注。它不仅在多媒体内容的编辑、虚拟现实和增强现实等领域具有重要的应用价值&…

Jenkins 构建 Maven 项目:项目和服务器在一起的情况

bash.sh内容 #!/bin/bash#删除历史数据 rm -rf ruoyi-admin.jar# appname$1 appnamevideo.xxxxx.com #获取传入的参数 echo "arg:$appname"#获取正在运行的jar包pid # pidps -ef | grep $1 | grep java -jar | awk {printf $2} pidps -ef | grep $appname | grep ja…

1673. 找出最具竞争力的子序列

题目 给定一个整数数组 nums 和一个正整数 k,返回长度为 k 且最具竞争力的 nums 子序列。 数组的子序列是从数组中删除一些元素(可能不删除元素)得到的序列。 在子序列 a 和子序列 b 第一个不相同的位置上,如果 a 中的数字小于…

mysql 删除特殊字符 表中存了特殊字符 换行符 回车符 word字符 查询不到

省流: UPDATE t1 SET f1 REPLACE(REPLACE( f1 , CHAR(10), ), CHAR(13), ); 用 replace() 函数将 换行符char(10) 和 回车符char(13) 替换为空字符串。 char(10):换行 char(13):回车 发现表里存进很多换行符,如下图&#xff1a…

Python中文分词工具库之jieba使用详解

概要 在自然语言处理(NLP)领域,中文文本的分词是一个重要且基础的任务。Python的jieba库是一个广泛使用的中文分词工具,提供了丰富的功能,包括精准模式、全模式、搜索引擎模式等,适用于不同的应用场景。本文将详细介绍jieba库,包括其安装方法、主要特性、基本和高级功能…

java技术:oauth2协议

目录 一、黑马程序员Java进阶教程快速入门Spring Security OAuth2.0认证授权详解 1、oauth服务 WebSecurityConfig TokenConfig AuthorizationServer 改写密码校验逻辑实现类 2、oauth2支持的四种方式: 3、oauth2授权 ResouceServerConfig TokenConfig 4、…

MySQL的索引是什么

MySQL的索引 一、索引概述二、索引结构1.简要概述2.从二叉树说起3.再在说下B-Tree4.为什么选择BTree5.Hash又是什么6.博主被面试官经常问的题目 三、索引分类四、聚集索引&二级索引五、索引语法 一、索引概述 1.索引是帮助MySQL 高效获取数据的数据结构(有序)。在数据之外…

[STM32-HAL库]Flash库-HAL库-复杂数据读写-STM32CUBEMX开发-HAL库开发系列-主控STM32F103C6T6

目录 一、前言 二、实现步骤 1.STM32CUBEMX配置 2.导入Flash库 3.分析地址范围 4.找到可用的地址 5.写入读取普通数据 6.写入读取字符串 6.1 存储相关信息 6.2 存取多个参数 三、总结及源码 一、前言 在面对需要持久化存储的数据时,除了挂载TF卡,我们…