MongoDB存储引擎发展及WiredTiger深入解析(二)

在现代的数据管理领域中,MongoDB作为一个高性能、开源的NoSQL数据库系统,已经在全球范围内被广泛应用。而MongoDB背后的存储引擎,作为其数据管理的核心组件,也经历了不断的发展和优化。本文将对MongoDB的存储引擎发展进行简要回顾,并重点介绍其当前的默认存储引擎——WiredTiger。

一、MongoDB存储引擎发展概述

在早期,MongoDB主要使用的是MMAPv1存储引擎。基于内存映射文件的数据管理方式,MMAPv1在某些特定场景下表现出色。然而,随着数据量的增长和复杂应用场景的增多,MMAPv1在大量写入操作下的性能瓶颈逐渐显现。

为了解决这个问题,MongoDB团队开始寻找新的存储引擎方案。最终,他们选择了收购WiredTiger存储引擎团队,并在后续的版本中将其集成为MongoDB的新存储引擎。自MongoDB 3.2版本起,WiredTiger正式成为了默认存储引擎,为MongoDB带来了显著的性能提升和更多的功能特性。

二、WiredTiger存储引擎的实现原理

  1. 核心数据结构:B树

WiredTiger的核心数据结构是B树,这是一种自平衡的搜索树。B树能够在O(log n)的时间复杂度内进行查找、插入和删除操作,这使得WiredTiger能够在大规模数据存储的场景下,仍能够保持较低的查询延迟和高吞吐量。WiredTiger使用B树来管理数据的索引,以实现高效的数据访问和修改。

在这里插入图片描述

  1. 多版本并发控制(MVCC)

WiredTiger还采用了多版本并发控制(MVCC)的机制,这是一种并发控制技术。通过为每个事务创建不同的数据版本,MVCC实现了并发事务的隔离性。在WiredTiger中,每个数据页都会记录事务的版本号,以及该版本号对应的数据。当事务需要读取数据时,WiredTiger会根据事务的版本号来选择合适的数据版本。这种机制可以避免读取操作与写入操作之间的冲突,提高并发性能。

  1. 数据压缩算法

为了减少数据存储的空间占用,WiredTiger实现了一系列的数据压缩算法。数据压缩可以通过使用更少的磁盘空间来存储数据,从而减少IO操作的次数,提高系统的整体性能。WiredTiger支持多种压缩算法,如Snappy、LZ4等,用户可以根据实际需求选择合适的压缩算法。

  1. 事务管理与日志记录

在WiredTiger中,每个事务都有一个唯一的事务ID,用于标识事务的开始和结束。事务的提交是通过将所有修改操作写入事务日志来实现的,确保数据的持久性和一致性。在系统发生故障时,WiredTiger可以通过回放事务日志来恢复数据的一致性。

  1. Cache与WAL

WiredTiger的Cache采用Btree的方式组织,每个Btree节点为一个page,root page是btree的根节点,internal page是btree的中间索引节点,leaf page是真正存储数据的叶子节点。btree的数据以page为单位按需从磁盘加载或写入磁盘。WiredTiger采用Copy on write的方式管理修改操作(insert、update、delete),修改操作会先缓存在cache里,持久化时,修改操作不会在原来的leaf page上进行,而是写入新分配的page。

此外,按照MongoDB的默认配置,WiredTiger的写操作会先写入Cache,并持久化到WAL(Write Ahead Log)。每60秒或log文件达到2GB时,会做一次Checkpoint,将当前的数据持久化,产生一个新的快照。

总结来说,WiredTiger存储引擎的实现原理主要包括B树的使用、MVCC机制、数据压缩算法以及事务管理和日志记录等。这些机制的结合使得WiredTiger能够在大规模数据存储和高并发访问的场景下,提供高性能和高可靠性的数据存储解决方案。

三、WiredTiger存储引擎深入解析

在这里插入图片描述

WiredTiger是一个高性能、可扩展的存储引擎,为MongoDB提供了强大的数据存储和管理能力。以下是WiredTiger存储引擎的一些关键特性和优势:

  1. 文档级别的并发控制:WiredTiger支持文档级别的并发控制,这意味着多个客户端可以同时修改集合中的不同文档,而不会相互干扰。这种并发控制机制大大提高了MongoDB的并发处理能力和整体性能。

  2. 高度可压缩的数据存储:为了减少磁盘空间的占用和降低I/O开销,WiredTiger支持多种压缩算法,如Snappy、zlib等。通过压缩数据和索引,WiredTiger能够更高效地存储和管理大量数据,同时提高查询性能。

  3. 支持事务:从MongoDB 4.0版本开始,WiredTiger引擎引入了多文档事务的支持。事务是一组操作,要么全部成功,要么全部失败,保证了数据的一致性和完整性。这对于需要执行复杂操作和处理关键数据的应用场景至关重要。

  4. 基于B+树的索引:WiredTiger使用B+树作为索引结构,支持快速的数据检索和范围查询。B+树是一种平衡的多路搜索树,能够有效地管理大量的索引数据,提供高效的查询性能。

  5. 日志和检查点机制:为了保证数据的持久性和恢复能力,WiredTiger采用了日志(journaling)和检查点(checkpoint)机制。日志记录了所有的数据修改操作,可以用于在系统崩溃后恢复数据。检查点则是将内存中的数据定期刷新到磁盘上,确保数据的持久性。这种机制保证了即使在意外情况下,数据也能得到完整的恢复。

  6. 灵活的存储配置:WiredTiger提供了灵活的存储配置选项,可以根据不同的工作负载和硬件环境进行优化。开发者可以根据实际需求调整内存大小、缓存策略、日志大小等参数,以适应特定的性能需求和应用场景。

四、总结与展望

通过引入WiredTiger存储引擎,MongoDB在数据存储和管理方面取得了显著的进步。WiredTiger的高性能、高并发、可压缩和事务支持等特点,使得MongoDB能够处理大规模的数据集,并满足各种复杂应用场景的需求。

未来,随着技术的不断发展和应用场景的不断拓展,MongoDB和WiredTiger将继续优化和演进,为开发者提供更加高效、稳定和灵活的数据存储解决方案。我们期待着MongoDB和WiredTiger在未来的发展中带来更多的创新和突破。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/677924.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习2--逻辑回归(案列)

糖尿病数据线性回归预测 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import load_diabetes diabetesload_diabetes() datadiabetes[data] targetdiabetes[target] feature_namesdiabetes[feature_names] data.shape df …

第66讲管理员登录功能实现

项目样式初始化 放assets目录下; border.css charset "utf-8"; .border, .border-top, .border-right, .border-bottom, .border-left, .border-topbottom, .border-rightleft, .border-topleft, .border-rightbottom, .border-topright, .border-botto…

华为机考入门python3--(9)牛客9-提取不重复的整数

分类:列表 知识点: 从右往左遍历每一个字符 my_str[::-1] 题目来自【牛客】 def reverse_unique(n): # 将输入的整数转换为字符串,这样可以从右向左遍历每一位 str_n str(n) # 创建一个空列表来保存不重复的数字 unique_digits []…

TS学习与实践

文章目录 学习资料TypeScript 介绍TypeScript 是什么?TypeScript 增加了什么?TypeScript 开发环境搭建 基本类型编译选项类声明属性属性修饰符getter 与 setter方法static 静态方法实例方法 构造函数继承 与 super抽象类接口interface 定义接口implement…

C++笔记之regex(正则表达式)

C++笔记之regex(正则表达式) ——2024-02-10 ——《C++标准库》(第2版,侯捷译) Page 717 code review! 文章目录 C++笔记之regex(正则表达式)例1:使用正则表达式进行搜索(`std::regex_search`)例2:使用正则表达式进行全文匹配(`std::regex_match`)例3:使用正则表达式…

文件包含漏洞的应用与绕过技巧、防御方法

目录 包含日志文件 包含session 绕过技巧 指定前缀绕过 一、目录遍历 二、编码绕过 指定后缀绕过 一、利用URL 二、利用协议 三、长度截断 四、%00截断 文件包含漏洞防御 上一篇文章和大家介绍了一下文件包含漏洞和PHP伪协议的基本知识和利用PHP伪协议进行文件包含…

Java 内存区域介绍

(1)程序计数器 程序计数器主要有两个作用: 字节码解释器通过改变程序计数器来依次读取指令,从而实现代码的流程控制,如:顺序执行、选择、循环、异常处理。 在多线程的情况下,程序计数器用于记录…

《剑指 Offer》专项突破版 - 面试题 38、39 和 40 : 通过三道面试题详解单调栈(C++ 实现)

目录 面试题 38 : 每日温度 面试题 39 : 直方图最大矩形面积 方法一、暴力求解 方法二、递归求解 方法三、单调栈法 面试题 40 : 矩阵中的最大矩形 面试题 38 : 每日温度 题目: 输入一个数组,它的每个数字是某天的温度。请计算每天需要等几天才会…

力扣[面试题 01.02. 判定是否互为字符重排(哈希表,位图)

Problem: 面试题 01.02. 判定是否互为字符重排 文章目录 题目描述思路复杂度Code 题目描述 思路 思路1:哈希表 1.若两个字符串长度不相等,则一定不符合题意; 2.创建一个map集合,先将字符串s1中的每一个字符与其对应的数量存入集合…

【书生·浦语大模型实战营】学习笔记1

大模型成为发展通用人工智能的重要途经 专用模型:针对特定任务,一个模型解决一个问题 通用大模型:一个模型应对多种任务、多种模态 书生浦语大模型系列 上海人工智能实验室 轻量级、中量级、重量级 7B 和 123B的轻量级和中量级大模型都是开源…

Python爬虫——请求库安装

目录 1.打开Anaconda Prompt 创建环境2.安装resuests3.验证是否安装成功4.安装Selenium5.安装ChromeDriver5.1获取chrom的版本5.1.1点击浏览器右上三个点5.1.2点击设置5.1.3下拉菜单,点击最后关于Chrome,获得其版本 5.2 打开网址 [chromedriver](https:/…

树与二叉树---数据结构

树作为一种逻辑结构,同时也是一种分层结构,具有以下两个特点: 1)树的根结点没有前驱,除根结点外的所有结点有 且只有一个前驱。 2)树中所有结点可以有零个或多个后继。 树结点数据结构 满二叉树和完全二…

GPIO结构

GPIO简介 GPIO(General Purpose Input Output)通用输入输出口 可配置为8种输入输出模式 引脚电平:0V~3.3V,部分引脚可容忍5V 输出模式下可控制端口输出高低电平,用以驱动LED、控制蜂鸣器、模拟通信协议输出时序等 输入模式下可读取端口的高低电平或电压&#x…

推荐系统|物品冷启动01_优化目标评价(包括基尼系数)

文章目录 物品冷启动冷启动的类型“新”按常规推送链路的角度按产品生态角度 物品冷启动的目标和评价指标作者侧用户侧 冷启动的衡量 物品冷启动 冷启动的类型 冷启动的内容种类包括很多方面,本文只介绍UGC的冷启动。 所谓UGC,就是User Generate Conte…

Flink cdc debug调试动态变更表结构

文章目录 前言调试流程1. 拉取代码本地打包2. 配置启动参数3. 日志配置4. 启动验证5. 断点验证 问题1. Cannot find factory with identifier "mysql" in the classpath.2.JsonFactory异常3. NoSuchMethodError异常其他 结尾 前言 接着上一篇Flink cdc3.0动态变更表…

tkinter-TinUI-xml实战(10)展示画廊

tkinter-TinUI-xml实战(10)展示画廊 引言声明文件结构核心代码主界面统一展示控件控件展示界面单一展示已有展示多类展示 最终效果在这里插入图片描述 ![](https://img-blog.csdnimg.cn/direct/286fcaa2fa5648a992a0ac79b4efad82.png) ………… 结语 引言…

【华为云】容灾方案两地三中心实践理论

应用上云之后,如何进行数据可靠性以及业务连续性的保障是非常关键的,通过华为云云上两地三中心方案了解相关方案认证地址:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiXCBUCNXI057Self-paced/about当前内容为灾备常见理论…

C++:理解拷贝在变量,指针,引用以及构造函数里的意义

变量,指针,引用 //拷贝与拷贝构造函数 //拷贝(copy):拷贝数据,拷贝内存 //始终是在拷贝值,但是指针存储的是内存的地址,变量存储的是数据的值 //特别注意,在引用里面的拷…

Mysql Day04

mysql体系结构 连接层服务层引擎层(索引)存储层 存储引擎 存储引擎是基于表建立的,默认是innoDB show create table tb; 查看当前数据库支持的存储引擎 show engines; InnoDB 特点 DML(数据增删改)遵循ACID模…

【算法与数据结构】42、LeetCode接雨水

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:   程序如下: 复杂度分析: 时间复杂度: O ( ) O() O()。空间复…