MySQL同步状态双Yes的假象及seconds_behind_master的含义

  近期由于特殊原因有一台主库宕机了一个小时没有处理,说起来这是个挺不好啥意思的事情,但是由于这个事情反而发现个比较诡异的情况,那就是在主库宕机一个小时候后,监控才发出从库IO thread中断的报警,也就是说在那一个小时内,从库的同步状态是双Yes的。这是多么诡异的现象,那么这是因为什么原因呢?我们下来分析一下。

 

  众所周知,MySQL的同步是异步完成的,其中IO thread负责接收从主库dump的binlog到从库上生成relay log,然后SQL thead负责解析relay log后在从库上进行重放来完成同步。这个2步是完全异步的,单独停止其中一个,并不会影响另一个的正行工作。当这两个thread都正常工作的时候,show slave status会显示双Yes状态,表示同步正常。

  提到这2个状态就不得不提另外一个非常重要的状态,那就是seconds_behind_master,一般意义上说代表着从库和主库的延迟时间,数值越高意味着延迟越大,但是当SBM为0的时候,并不真正意味着从库已经追上主库了。相信大家都遇到过,从监控图上看,SBM一直都是0,在某一个时间点之后突然就变得非常高。这是由于在主库上执行了一个非常大的event,在这个event在主库上没执行完毕的时候,从库的SBM会显示为0,而当主库执行完毕传到从库上开始执行的时候,就会显示SBM非常巨大了。官方的文档解释如下:

It is also possible that transient values for Seconds_Behind_Master may not reflect the situation accurately. When the slave SQL thread has caught up on I/O, Seconds_Behind_Master displays 0; but when the slave I/O thread is still queuing up a new event, Seconds_Behind_Master may show a large value until the SQL thread finishes executing the new event. This is especially likely when the events have old timestamps; in such cases, if you execute SHOW SLAVE STATUS several times in a relatively short period, you may see this value change back and forth repeatedly between 0 and a relatively large value.

 

   想要验证的同学可以按照如下的方式进行测试,可以100%复现。

1、首先搭建一个主从关系的数据库集群
2、在主库上随便建立一个表。
3、执行如下语句
insert into aaa select 1 from aaa where x = 1 or sleep(10);
以上语句会在主库上执行一段时间
4、在执行时间内,在从库上show slave status会看到SBM全部都是0。(但是这时候其实已经是不同步的了)
5、等待在主库执行完毕之后,我们就会看到SBM变成一个较大的数字了。

 

   那么这个seconds_behind_master的值到底是怎么计算出来的呢?官方的解释如下:

Seconds_Behind_Master: The number of seconds that the slave SQL thread is behind processing the master binary log

 

   也就是说,是SQL thread在执行IO thread dump下来的relay log的时间差。大家都知道relay log中event记录的时间戳是主库上的时间戳,而SQL thread的时间戳是从库上的,也就是说,如果主库和从库的时间是一致的,那么这个SBM代表的确实是从库延后主库的一个时间差。但是如果主库和从库的时间不是一致的,那么这个SBM的意义就基本不存在了。我们可以做如下的测试。

1、还是上的测试环境
2、在从库上修改时间设置
date -s“+1 hour”
3、执行上面带有sleep的语句
4、等待主库执行完毕之后在从库执行
show slave status
5、可以看到,这时候的SBM的数值至少是一个大于3600的数值这也就验证了我们上面的观点。

 

  说完了seconds_behind_master,我们继续来说IO thread和SQL thread的双Yes假象的问题。

  我们进行了如下实验:

1、正常shutdown,结果状态单no
2kill mysqld,结果状态单no
3kill -9 mysqld,结果状态双Yes
4、reboot 服务器,结果状态双Yes

 

  可以看出,只有在重启服务器的时候(也就是我们今天越到的这个场景),从库的状态是双Yes的。推测在服务器重启的时候,作为从库是不知道主库是已经宕机还是并没有写入,所以一直保持双Yes状态,一直等待到一定时间点(预估一个小时)之后重试的时候才会真正发现主库已经宕机了。

  有如下3个重要参数控制着这个过程slave-net-timeout,master-connect-retry,master-retry-count。根据官方文档解释如下

slave-net-timeout意味着在没有得到更多数据之后slave等待的时间,默认值3600s
master-connect-retry意味着每次和主库建立链接重试的等待时间,默认值为60s
master-retry-count意味着从库同主库建立链接的重试次数,默认86400次

 

  而这个重试机制是按照如下方法运行的,当从库发现从主库上无法获得更多的暑假了,就会等待slave-net-timeout时间,然后将IO thread置为no状态,接着开始尝试重建建立连接,每次建立失败之后等待master-connect-retry时间,一直重试master-retry-count次。

 

  所以,由于以上的原因,就造成了我们今天遇到的双Yes状态假象,其实当时主库已经宕机了很久了。

  解决的办法其实很简单,将slave-net-timeout降低即可,比如修改成5分钟或者1分钟,这样可以缩短进入重试机制的等待时间,可以尽早发现问题。

 

  另,感谢@zolker提醒, MySQL5.5之后增加了relication的heartbeat机制,可以在从库上通过执行show global status like 'Slave_received_heartbeats'进行查看。

  当主库没有写入的时候会按照间隔时间跳动,可以依据此进行一定的health-check。

STOP SLAVE;
CHANGE MASTER TO master_heartbeat_period= milliseconds;
START SLAVE;
SHOW STATUS like 'slave_heartbeat period'
SHOW STATUS like 'slave_received_heartbeats'

    


  参考文档:

  http://dev.mysql.com/doc/refman/5.5/en/replication-options-slave.html#sysvar_slave_net_timeout

  http://dev.mysql.com/doc/refman/5.5/en/replication-administration-status.html

  http://dev.mysql.com/doc/refman/5.5/en/slave-io-thread-states.html

  

 

  

 

  

转载于:https://www.cnblogs.com/billyxp/p/3470376.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/461781.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

内核配置与编译——内核的配置原理

以下内容源于朱有鹏嵌入式课程的学习与整理,如有侵权请告知删除。 概述 编译内核前需要进行两步配置,即先make x210ii_qt_defconfig,然后再make menuconfig。第一步如果成功,则会提示“configuration written to .config”。注意…

gluPickMatrix和glReadPixels

gluPickMatrix的使用2008年12月03日 星期三 23:40void gluPickMatrix(GLdouble x,GLdouble y,GLdouble width,GLdouble height,GLint viewport[4]); 它是用来根据当前鼠标选择区域生成一个相应的投影矩阵的。这里面头两个参数不是这个选择区域的左上角位置,而是整个…

STM32的串口通信

在基础实验成功的基础上,对串口的调试方法进行实践。硬件代码顺利完成之后,对日后调试需要用到的printf重定义进行调试,固定在自己的库函数中。 b) 初始化函数定义: void USART_Configuration(void); //定义串口初始化函…

感谢大家对我微软TECHED2013课程的支持

http://technet.microsoft.com/zh-cn/teched2013_hols 转载于:https://blog.51cto.com/136840/1339733

C语言简介

摘自 老九学堂 徐嵩老师转载于:https://www.cnblogs.com/CheeseIce/p/11238694.html

内核源码——汇编阶段的head.S文件

以下内容源于朱有鹏嵌入式课程的学习,如有侵权,请告知删除。 前言 1、内容总结 汇编阶段,或者说内核引导阶段,主要是arch/arm/kernel/head.S文件,主要完成以下内容: (1)校验启动合法…

phpcms V9利用num++实现多样形式列表标签调用

在首页或者频道页调用文章列表的时候,经常会使用到左右对称或者每五行出现一条横线的调用形式。 其实代码很简单,利用num的循环方式,以及{if}{/if}进行样式判断即可。代码如下: {pc:content action"lists" catid"6…

Python第十七课(面向对象基础)

Python第17课(面向对象基础) >>>思维导图>>>中二青年 面向对象编程思想OOP 什么是面向对象 面向对象是一种编程思想,是前辈们总结出的经验,指导程序员如何编写出更好的程序,核心是对象,程序就是一系列对象的…

USACO 6.1.3 Cow XOR

题目大意: 给出一个数列,求最大区间异或和。异或和相同时取终点最靠前的,仍相同取最短的。简单题解:先求出前缀和。对每个数,将其前一项的前缀和插入0-1树中。然后在该树中,从高位到低位(贪心思…

内核源码——C语言阶段的start_kernel函数

以下内容源于朱有鹏嵌入式课程的学习,如有侵权请告知删除。 前言 1、内容总结 C语言阶段的start_kernel函数位于内核源码/init/main.c文件,主要完成以下内容: (1)打印一些输出信息。 (2)初始化…

Excel2007数据透视表学习(四)改变数据透视表布局

通过在【数据透视表字段列表】对话框内将【列标签】、【行标签】和【报表筛选】区域的字段转换即可创建不同分析角度的数据透视表。 如果还是习惯Excel2003版本字段拖拽方式创建数据透视表,可以在数据透视表中单击鼠标右键→【数据透视表选项】→【显示】→勾选【…

经典基础算法之面试题(系列一)(转)

1. 打靶问题的递归解法 Technorati 标记: 递归算法,字典法,二分法,打靶问题,日期问题,求幂,多项式求值伦敦奥运会火热进行中,让我们来看个打靶的问题:一个射击运动员打靶,靶一共有10环,求连开10枪打中90环的可能行有多少种&#x…

2013年11月份我国网络不良与垃圾短信息分析报告

IDC评述网(idcps.com)12月17日报道:近日,12321网络不良与垃圾信息举报受理中心最新播报了11月份我国不良与垃圾短信息发送情况。根据报告显示,11月份垃圾邮件发送IP地址与上月大体相同,主要集中在湖北、北京…

字节对齐的写法.

What I write, what I lose. 之前看到Nginx的code的时候. 看到一个关于字节对齐的实现. 突然想起之前去面试的时候, 别人让我实现一个4字节对齐. 当然奇怪别人怎么问这种问题. 这时候开始有一点点体会. 以下将个人总结的几种写法写上. #define common_align1(x) ((x/4((x%4)?…

SCOM Rule 介绍 [SCOM中文系列之六]

SCOM的Rule主要用来收集数据,我们看到的EventView,PerformanceData,Report所需数据大部分都是通过Rule来收集的。 SCOM Rule的基础结构是触发指定的条件,就执行指定的动作。这个我们通过Rule的属性界面可以看的清楚点:…

init进程的详解

以下内容源于朱有鹏嵌入式课程的学习与整理,如有侵权请告知删除。 参考博客 内核源码——C语言阶段的start_kernel函数_天糊土的博客-CSDN博客 分析根文件系统中的/linuxrc文件_天糊土的博客-CSDN博客 linux内核sys_mount()分析_kai_ding的博客-CSDN博客_sys_mount…

跟着石头哥哥学cocos2d-x(四)--cocos2dx中的动画以及TexturePacker使用

2019独角兽企业重金招聘Python工程师标准>>> 之前向Andreas Loew申请了一枚TexturePacker注册码,很快都下来了,作为回报我打算还是写一篇关于TexturePacker的使用博客吧,有兴趣的可以在这里申请密钥,http://www.codeandweb.com&am…

【C/C++学习】之七、指向函数的指针

什么是指向函数的指针 函数指针是指向函数的指针变量,不是指向对象的指针!函数指针本身应该是“指针变量”; “在C语言中,函数本身不是变量,但可以定义指向函数的指针,这种指针可以被赋值、存放于数组之中&…

头像和Karma汽车

Powered by Zoundry RavenTechnorati : Karma, 头像, 汽车 Del.icio.us : Karma, 头像, 汽车 转载于:https://www.cnblogs.com/bsmagic/archive/2008/08/06/1261858.html

内核中架构相关代码简介

以下内容源于朱友鹏《物联网大讲堂》课程的学习,如有侵权,请告知删除。 1、内核代码基本分为3块 (1)arch:本目录下全是cpu架构有关的代码 (2)drivers:本目录下全是硬件的驱动 &am…