MongoDB副本集同步原理

MongoDB的同步原理,官方文档介绍的比较少,网上资料也不是太多,下面是结合官方文档、网上资料和测试时候的日志,整理出来的一点东西。
因为MongoDB的每个分片也是副本集,所以只需要搞副本集的同步原理即可。

一、Initial Sync

大体来说,MongoDB副本集同步主要包含两个步骤:

1. Initial Sync,全量同步
2. Replication,即sync oplog

先通过init sync同步全量数据,再通过replication不断重放Primary上的oplog同步增量数据。全量同步完成后,成员从转换 STARTUP2为SECONDARY

1.1 初始化同步过程

1) 全量同步开始,获取同步源上的最新时间戳t1
2) 全量同步集合数据,建立索引(比较耗时)
3) 获取同步源上最新的时间戳t2
4) 重放t1到t2之间所有的oplog
5) 全量同步结束

简单来说,就是遍历Primary上的所有DB的所有集合,将数据拷贝到自身节点,然后读取全量同步开始到结束时间段内的oplog并重放。

initial sync结束后,Secondary会建立到Primary上local.oplog.rs的tailable cursor,不断从Primary上获取新写入的oplog,并应用到自身。

1.2 初始化同步场景

Secondary节点当出现如下状况时,需要先进⾏全量同步

1) oplog为空
2) local.replset.minvalid集合⾥_initialSyncFlag字段设置为true(用于init sync失败处理)
3) 内存标记initialSyncRequested设置为true(用于resync命令,resync命令只用于master/slave架构,副本集无法使用)

这3个场景分别对应(场景2和场景3没看到官网文档有写,参考张友东大神博客)

1) 新节点加⼊,⽆任何oplog,此时需先进性initial sync
2) initial sync开始时,会主动将_initialSyncFlag字段设置为true,正常结束后再设置为false;如果节点重启时,发现_initialSyncFlag为true,说明上次全量同步中途失败了,此时应该重新进⾏initial sync
3)当⽤户发送resync命令时,initialSyncRequested会设置为true,此时会强制重新开始⼀次initial sync

1.3 疑问点解释

1.3.1 全量同步数据的时候,会不会源数据的oplog被覆盖了导致全量同步失败?

在3.4版本及以后,不会。
下面这张图说明了3.4对全量同步的改进(图来自张友东博客):

官方文档是:

initial sync会在为每个集合复制文档时构所有集合索引。在早期版本(3.4之前)的MongoDB中,仅_id在此阶段构建索引。
Initial sync复制数据的时候会将新增的oplog记录存到本地(3.4新增)。

二、Replication

2.1 sync oplog的过程

全量同步结束后,Secondary就开始从结束时间点建立tailable cursor,不断的从同步源拉取oplog并重放应用到自身,这个过程并不是由一个线程来完成的,mongodb为了提升同步效率,将拉取oplog以及重放oplog分到了不同的线程来执行。
具体线程和作用如下(这部分暂时没有在官方文档找到,来自张友东大神博客):

  • producer thread:这个线程不断的从同步源上拉取oplog,并加入到一个BlockQueue的队列里保存着,BlockQueue最大存储240MB的oplog数据,当超过这个阈值时,就必须等到oplog被replBatcher消费掉才能继续拉取。
  • replBatcher thread:这个线程负责逐个从producer thread的队列里取出oplog,并放到自己维护的队列里,这个队列最多允许5000个元素,并且元素总大小不超过512MB,当队列满了时,就需要等待oplogApplication消费掉
  • oplogApplication会取出replBatch thread当前队列的所有元素,并将元素根据docId(如果存储引擎不支持文档锁,则根据集合名称)分散到不同的replWriter线程,replWriter线程将所有的oplog应用到自身;等待所有oplog都应用完毕,oplogApplication线程将所有的oplog顺序写入到local.oplog.rs集合。

针对上面的叙述,画了一个图方便理解:

producer的buffer和apply线程的统计信息都可以通过db.serverStatus().metrics.repl来查询到。

2.2 对过程疑问点的解释

2.2.1 为什么oplog的回放要弄这么多的线程?

和mysql一样,一个线程做一个事情,拉取oplog是单线程,其他线程进行回放;多个回放线程加快速度。

2.2.2 为什么需要replBatcher线程来中转?

oplog重放时,要保持顺序性,⽽且遇到create、drop等DDL命令时,这些命令与其他的增删改查命令是不能并⾏执⾏的,⽽这些控制就是由replBatcher来完成的。

2.2.3 如何解决secondary节点oplog重放追不上primary问题?

方法一:设置更大的回放线程数

  * mongod命令行指定:mongod --setParameter replWriterThreadCount=32* 配置文件中指定
setParameter:replWriterThreadCount: 32

方法二:增大oplog的大小
方法三:将writeOpsToOplog步骤分散到多个replWriter线程来并发执行,看官方开发者日志已经实现了这个(在3.4.0-rc2版本)

2.3 注意事项

  • initial sync单线程复制数据,效率比较低,生产环境应该尽量避免initial sync出现,需合理配置oplog。
  • 新加⼊节点时,可以通过物理复制的⽅式来避免initial sync,将Primary上的dbpath拷⻉到新的节点,然后直接启动。
  • 当Secondary同步滞后是因为主上并发写入太高导致,db.serverStatus().metrics.repl.buffer的 sizeBytes值持续接近maxSizeBytes的时候,可通过调整Secondary上replWriter并发线程数来提升。

三、日志分析

3.1 初始化同步日志

将日志级别 verbosity设置为 1,然后过滤日志
cat mg36000.log |egrep "clone|index|oplog" >b.log
最后拿出过滤后的部分日志。
3.4.21新加入节点日志

因为日志太多,贴太多出来也没什么意义,下面贴出了对db01库的某个
集合的日志。
可以发现是先创建collection索引,然后clone集合数据和索引数据,这样就完成了该集合的clone。最后将配置改为下一个集合。
2019-08-21T16:50:10.880+0800 D STORAGE  [InitialSyncInserters-db01.test20] create uri: table:db01/index-27-154229953453504826 config: type=file,internal_page_max=16k,leaf_page_max=16k,checksum=on,prefix_compression=true,block_compressor=,,,,key_format=u,value_format=u,app_metadata=(formatVersion=8,infoObj={ "v" : 2, "key" : { "num" : 1 }, "name" : "num_1", "ns" : "db01.test2" }),
2019-08-21T16:50:10.882+0800 I INDEX    [InitialSyncInserters-db01.test20] build index on: db01.test2 properties: { v: 2, key: { num: 1.0 }, name: "num_1", ns: "db01.test2" }
2019-08-21T16:50:10.882+0800 I INDEX    [InitialSyncInserters-db01.test20]      building index using bulk method; build may temporarily use up to 500 megabytes of RAM
2019-08-21T16:50:10.882+0800 D STORAGE  [InitialSyncInserters-db01.test20] create uri: table:db01/index-28-154229953453504826 config: type=file,internal_page_max=16k,leaf_page_max=16k,checksum=on,prefix_compression=true,block_compressor=,,,,key_format=u,value_format=u,app_metadata=(formatVersion=8,infoObj={ "v" : 2, "key" : { "_id" : 1 }, "name" : "_id_", "ns" : "db01.test2" }),
2019-08-21T16:50:10.886+0800 I INDEX    [InitialSyncInserters-db01.test20] build index on: db01.test2 properties: { v: 2, key: { _id: 1 }, name: "_id_", ns: "db01.test2" }
2019-08-21T16:50:10.886+0800 I INDEX    [InitialSyncInserters-db01.test20]      building index using bulk method; build may temporarily use up to 500 megabytes of RAM
2019-08-21T16:50:10.901+0800 D INDEX    [InitialSyncInserters-db01.test20]      bulk commit starting for index: num_1
2019-08-21T16:50:10.906+0800 D INDEX    [InitialSyncInserters-db01.test20]      bulk commit starting for index: _id_
2019-08-21T16:50:10.913+0800 D REPL     [repl writer worker 11] collection clone finished: db01.test2
2019-08-21T16:50:10.913+0800 D REPL     [repl writer worker 11]     collection: db01.test2, stats: { ns: "db01.test2", documentsToCopy: 2000, documentsCopied: 2000, indexes: 2, fetchedBatches: 1, start: new Date(1566377410875), end: new Date(1566377410913), elapsedMillis: 38 }
2019-08-21T16:50:10.920+0800 D STORAGE  [InitialSyncInserters-db01.collection10] create uri: table:db01/index-30-154229953453504826 config: type=file,internal_page_max=16k,leaf_page_max=16k,checksum=on,prefix_compression=true,block_compressor=,,,,key_format=u,value_format=u,app_metadata=(formatVersion=8,infoObj={ "v" : 2, "key" : { "_id" : 1 }, "name" : "_id_", "ns" : "db01.collection1" }),

3.6.12加入新节点日志

3.6较3.4的区别是,复制数据库的线程明确了是:repl writer worker 进行重放(看文档其实3.4已经是如此了)
还有就是明确是用cursors来进行。
其他和3.4没有区别,也是创建索引,然后clone数据。
2019-08-22T13:59:39.444+0800 D STORAGE  [repl writer worker 9] create uri: table:db01/index-32-3334250984770678501 config: type=file,internal_page_max=16k,leaf_page_max=16k,checksum=on,prefix_compression=true,block_compressor=,,,,key_format=u,value_format=u,app_metadata=(formatVersion=8,infoObj={ "v" : 2, "key" : { "_id" : 1 }, "name" : "_id_", "ns" : "db01.collection1" }),log=(enabled=true)
2019-08-22T13:59:39.446+0800 I INDEX    [repl writer worker 9] build index on: db01.collection1 properties: { v: 2, key: { _id: 1 }, name: "_id_", ns: "db01.collection1" }
2019-08-22T13:59:39.446+0800 I INDEX    [repl writer worker 9]      building index using bulk method; build may temporarily use up to 500 megabytes of RAM
2019-08-22T13:59:39.447+0800 D REPL     [replication-1] Collection cloner running with 1 cursors established.
2019-08-22T13:59:39.681+0800 D INDEX    [repl writer worker 7]      bulk commit starting for index: _id_
2019-08-22T13:59:39.725+0800 D REPL     [repl writer worker 7] collection clone finished: db01.collection1
2019-08-22T13:59:39.725+0800 D REPL     [repl writer worker 7]     database: db01, stats: { dbname: "db01", collections: 1, clonedCollections: 1, start: new Date(1566453579439), end: new Date(1566453579725), elapsedMillis: 286 }
2019-08-22T13:59:39.725+0800 D REPL     [repl writer worker 7]     collection: db01.collection1, stats: { ns: "db01.collection1", documentsToCopy: 50000, documentsCopied: 50000, indexes: 1, fetchedBatches: 1, start: new Date(1566453579440), end: new Date(1566453579725), elapsedMillis: 285 }
2019-08-22T13:59:39.731+0800 D STORAGE  [repl writer worker 8] create uri: table:test/index-34-3334250984770678501 config: type=file,internal_page_max=16k,leaf_page_max=16k,checksum=on,prefix_compression=true,block_compressor=,,,,key_format=u,value_format=u,app_metadata=(formatVersion=8,infoObj={ "v" : 2, "key" : { "_id" : 1 }, "name" : "_id_", "ns" : "test.user1" }),log=(enabled=true)

4.0.11加入新节点日志

使用cursors,和3.6基本一致
2019-08-22T15:02:13.806+0800 D STORAGE  [repl writer worker 15] create uri: table:db01/index-30--463691904336459055 config: type=file,internal_page_max=16k,leaf_page_max=16k,checksum=on,prefix_compression=true,block_compressor=,,,,key_format=u,value_format=u,app_metadata=(formatVersion=8,infoObj={ "v" : 2, "key" : { "num" : 1 }, "name" : "num_1", "ns" : "db01.collection1" }),log=(enabled=false)
2019-08-22T15:02:13.816+0800 I INDEX    [repl writer worker 15] build index on: db01.collection1 properties: { v: 2, key: { num: 1.0 }, name: "num_1", ns: "db01.collection1" }
2019-08-22T15:02:13.816+0800 I INDEX    [repl writer worker 15]      building index using bulk method; build may temporarily use up to 500 megabytes of RAM
2019-08-22T15:02:13.816+0800 D STORAGE  [repl writer worker 15] create uri: table:db01/index-31--463691904336459055 config: type=file,internal_page_max=16k,leaf_page_max=16k,checksum=on,prefix_compression=true,block_compressor=,,,,key_format=u,value_format=u,app_metadata=(formatVersion=8,infoObj={ "v" : 2, "key" : { "_id" : 1 }, "name" : "_id_", "ns" : "db01.collection1" }),log=(enabled=false)
2019-08-22T15:02:13.819+0800 I INDEX    [repl writer worker 15] build index on: db01.collection1 properties: { v: 2, key: { _id: 1 }, name: "_id_", ns: "db01.collection1" }
2019-08-22T15:02:13.819+0800 I INDEX    [repl writer worker 15]      building index using bulk method; build may temporarily use up to 500 megabytes of RAM
2019-08-22T15:02:13.820+0800 D REPL     [replication-0] Collection cloner running with 1 cursors established.

3.2 复制日志

2019-08-22T15:15:17.566+0800 D STORAGE  [repl writer worker 2] create collection db01.collection2 { uuid: UUID("8e61a14e-280c-4da7-ad8c-f6fd086d9481") }
2019-08-22T15:15:17.567+0800 I STORAGE  [repl writer worker 2] createCollection: db01.collection2 with provided UUID: 8e61a14e-280c-4da7-ad8c-f6fd086d9481
2019-08-22T15:15:17.567+0800 D STORAGE  [repl writer worker 2] stored meta data for db01.collection2 @ RecordId(22)
2019-08-22T15:15:17.580+0800 D STORAGE  [repl writer worker 2] db01.collection2: clearing plan cache - collection info cache reset
2019-08-22T15:15:17.580+0800 D STORAGE  [repl writer worker 2] create uri: table:db01/index-43--463691904336459055 config: type=file,internal_page_max=16k,leaf_page_max=16k,checksum=on,prefix_compression=true,block_compressor=,,,,key_format=u,value_format=u,app_metadata=(formatVersion=8,infoObj={ "v" : 2, "key" : { "_id" : 1 }, "name" : "_id_", "ns" : "db01.collection2" }),log=(enabled=false)


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/518065.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里技术专家告诉你,如何画出优秀的架构图?

作者 | 三画责编 | Carol来源 | 公众号「阿里巴巴云原生」导读:技术传播的价值,不仅仅体现在通过商业化产品和开源项目来缩短我们构建应用的路径,加速业务的上线速率,也体现在优秀工程师在工作效率提升、产品性能优化和用户体验改…

解决Linux docker中的mysql区分大小写问题

注:mysql5.7为本例docker中mysql容器的名称。 进入mysql容器: docker exec -it mysql5.7 /bin/bash以root用户登录mysql: mysql -u root -p查看当前mysql的大小写敏感配置: show global variables like %lower_case%;lower_case_file_sys…

不要低估AI面临的困境

“通过对7000多家“AI初创企业”进行研究分析,我发现大多数人低估了AI发展所面临的困境和挑战。这其中,有你的参与吗?” 你可能听过Andrew Ng这句话类似的一些说法:“AI正如同我们新时代的电力!电力的发展曾经改变了无数行业;现如今的AI也将如…

mysql-修改mysql最大连接数

1、修改mysql最大连接数 systemctl start mysqld 启动mysql systemctl status mysqld 查看mysql状态 systemctl restart mysqld 重启mysql进入mysql查看最大连接数: mysql -u root -p sh…

重构技术架构首先解决组织架构

技术架构来源于人员组织架构 过去两年做了不少大型的中台项目,什么是中台?这篇文章就不多说了,自行百度一下,总而言之最后我得出了一个结论——企业什么样的人员组织架构就会什么样的系统技术架构。我们先以下一幅图:…

为你整理了一份 Mysql 的学习笔记,建议收藏学习!

作者 | 陈熹责编 | Carol来源 | 早起PythonSQL是一个存活近半个世纪的语言,如今仍有大量人在使用。它语法简单,对培养数据整理和提取的思维有很大帮助。我将我过去的笔记分享给大家,希望能为大家的学习提供参考,更希望有人因此能迈…

Redis 混合存储最佳实践指南

Redis 混合存储实例是阿里云自主研发的兼容Redis协议和特性的云数据库产品,混合存储实例突破 Redis 数据必须全部存储到内存的限制,使用磁盘存储全量数据,并将热数据缓存到内存,实现访问性能与存储成本的完美平衡。 架构及特性 命…

Android 控件 - EditText输入框、ImageView图片、ProgressBar进度条

1、EditText输入框 1.1 输入提示 以及 提示颜色 android:hint &#xff1a; 输入提示 android:textColorHint &#xff1a; 提示颜色 <EditTextandroid:hint"请输入用户名"android:textColorHint"#95a1aa"android:layout_width"200dp"andr…

项目启动时flowable报错提示 version mismatch: library version is *, db version is *

项目启动时flowable报错提示 version mismatch: library version is *, db version is * 可能原因 1.项目中的flowable版本更换了但是数据库中缓存了之前的版本信息 解决&#xff1a; 找到数据库中act_ge_property(ACT_GE_PROPERTY)表更改schema.version的版本或者全部改掉&…

云控平台的双向音频解决方案

导读 随着移动互联网的发展&#xff0c;行业内衍生了基于移动平台的各类解决方案。其中&#xff0c;设备规模化管理的云控能力是各互联网公司在设备集群控制背景下的诉求。因此涌现了大批提供类似解决方案的平台。如&#xff1a;阿里系的阿里云MQC、阿里无线和菜鸟Nimitz等&am…

蚂蚁金服高要求的领域建模能力,对研发来说到底指什么?

来源 | 独自慎思责编 | Carol封图由 CSDN 付费下载于视觉中国最近&#xff0c;由于工作需要&#xff0c;作者接触了网商银行的一个项目。项目里对应的业务模型设计&#xff0c;是我工作这三年来见过的所有模型里最复杂的。于是&#xff0c;利用五一这个短暂的假期&#xff0c;我…

如何造一个“钉钉”?谈谈消息系统架构的实现

阿里妹导读&#xff1a;消息类场景是表格存储&#xff08;Tablestore&#xff09;主推的方向之一&#xff0c;因其数据存储结构在消息类数据存储上具有天然优势。为了方便用户基于Tablestore为消息类场景建模&#xff0c;Tablestore封装Timeline模型&#xff0c;旨在让用户更快…

SprinBoot 集成 Flowable 工作流引擎镜像制作

文章目录一、实现原理1. 镜像制作个数2. 调用流程3. 调用流程分析二、前期准备2.1. 克隆项目到本地2.2. 修改数据库连接和容器别名2.3. 修改请求地址为容器别名&#xff08;后端&#xff09;三、 修改请求地址为容器别名&#xff08;前端&#xff09;3.1. 环境配置3.2. 安装依赖…

Android 控件 - Notification通知、Toolbar、AlertDiallog、PopupWindow

1、Notification通知 创建一个NotificationManager NotificationManager类是一个通知管理器类&#xff0c;这个对象是由系统维护的服务&#xff0c;是以单例模式的方式获得&#xff0c;所以一般并不直接实例化这个对象。在Activity中&#xff0c;可以使用Activity.getSystemSe…

阿里云 ESSD 采用自研新一代存储网络协议,打造“超级高速”

8月26日&#xff0c;阿里云透露&#xff0c;正投入自研数据存储“超级高速”&#xff0c;核心存储产品ESSD已率先采用这一最新的自研存储网络协议&#xff0c;并实现大规模商用&#xff0c;数据传输效率提高50%。 据了解&#xff0c;未来该协议还将继续演进&#xff0c;有望取…

1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contai

文章目录1. 现象2. docker内部mysql容器 解决方案3. windows和linux 解决方案1. 现象 在使用sql语句创建表时&#xff0c;报错&#xff1a; 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column ‘information_schema.PRO…

10 人,2 个月 | 虾米音乐的监控体系升级之路

背景 监控一直是服务端掌握应用运行状态的重要手段&#xff0c;经过近几年的发展&#xff0c;阿里虾米服务端目前已经有 100 多个 Java 应用&#xff0c;承担核心业务的应用也有将近 50 个&#xff0c;对于应用的监控配置也是因人而异。有的人配置的监控比较细&#xff0c;有的…

Python 本身真的没什么用!

越来越多的人学习编程不再只是为了当程序员&#xff0c;而是为了提升效率&#xff0c;多一份职业技能&#xff0c;正面应对瞬息万变的全球大环境。据麦肯锡全球研究院发布的一份就业报告中显示&#xff0c;到 2030 年&#xff0c;中国预计将有 1200 万&#xff5e; 1.02 亿人面…

Timestream开发最佳实践

背景 Timestream模型是针对时序场景设计的特有模型&#xff0c;可以让用户快速完成业务代码的开发&#xff0c;实现相关业务需求。但是&#xff0c;如果业务系统不仅想实现基础的相关业务功能&#xff0c;还要达到最佳的性能&#xff0c;并且兼顾到未来的扩展性的话&#xff0…

linux-ubuntu-16.04 安装系统、安装 SSH 服务、设置root用户密码

1、ubuntu-16.04安装 使用UltraISO 软碟通 将 ubuntu-16.04-desktop-amd64.iso 制作为U盘镜像插入U盘&#xff0c;开机按F12选择U盘启动安装过程参考 https://blog.csdn.net/weixin_59605625/article/details/125807363 2、ubuntu-16.04 安装 SSH 服务 $ 在linux中代表普通用…