【分布式存储】数据存储和检索~LSM

在数据库领域,B+树拥有无可撼动的地位,但是B+树的缺点就是在写多读少的场景下,需要进行大量随机的磁盘IO读写,而这个性能是最差的。并且在删除和添加数据的时候,会造成整个树进行递归的合并、分裂,数据在磁盘上也不是连续的。所以会不断的随机写入操作。

所以针对这个问题,如何在写多读少的场景下提升性能,LSM就是为了解决这个问题。
LSM(Log Structure Merge Tree)比B+树更适合写多读少的场景。
主要原理LSM通过批量的合并写数据,减少磁盘旬道的开销。

早期LSM Tree

C0-tree 是存储在内存中,而C1-tree是存储在磁盘中。
在这里插入图片描述
核心流程是:先将数据写入到C0-tree,当C0-tree数据写入到一定的阈值时,然后开始批量将数据合并和覆写,因为可以批量写入,所以写入磁盘可以进行顺序写入,避免单次的随机写操作。

现代的LSM-tree也是通过内存维护有序结构,然后延迟写入磁盘的时机,通过合并多次随机写操作。降低磁盘移动的开销。
所以在写多读少的场景下,比B+树能获得更多的性能。

现代 LSM Tree

包含三部分,memtable、immutable memtable、SSTable,前两个在内存中,后一个在磁盘中。先将数据写入到memtable、然后在合适的时机写入到SSTbale中。
在这里插入图片描述
其实仔细一想,如果数据都在内存中,那么一旦出现断电或者机器宕机,那么内存中的数据就会丢失?LSM如何来防止出现数据丢失呢
很简单,其实就是利用WAL机制,也就是同步写入到内存中的时候,同步写入到磁盘中一份,因为是是以追加append Only的方式存储,所以可以在一定程度提写数据的性能。

1.Memtable
memtable存储的是近期最新的数据记录,一般使用跳表或者哈希等实现。可以快速的删除和查找。
2.Immutable Table
在memtable达到一定的量级之后,然后会进行数据的合并,好处是一个可以快速的进行顺序写入磁盘中,另一个通过数据副本的方式,memtable可以继续提供服务。
3.SSTable
在这里插入图片描述
包含两部分一个是索引文件,另一个就是数据文件。
写入数据的时候,会按照一个segment为一段,直接将最新的数据追加。那样的话,从尾部查询最后一条数据就是最新的数据。但是这样极端情况下,可能多个数据存储多次,造成磁盘的浪费。并且重复数据多的话,查询效率很差,但是可以利用布隆过滤器进行优化。
在这里插入图片描述

压缩数据
压缩数据,其实就是将多个segment合并成一个新的segment,图中最新的dog是84,所以dog:52在合并之后就不存储了。
在这里插入图片描述
删除数据
删除数据的时候,其实不删除真实数据,而是逻辑删除,通过标记位tombstone。如果存在就代表数据被删除,否则数据存在。
在这里插入图片描述

小结

本篇主要为了解决在B+树中读少写多而带来的数据合并和分裂,引入了LSM,LSM的核心其实就是将数据分为两部分,一部分在内存中,定时更新到磁盘,使用WAL机制来保证数据不丢失。所以在写多读少的场景下,可以通过使用LSM结构进行构建分布式存储结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/37059.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JVM】类装载的执行过程

文章目录 类装载的执行过程1.加载2.验证3.准备4.解析5.初始化6.使用7.卸载 类装载的执行过程 类装载总共分为7个过程,分别是 加载,验证,准备、解析、初始化、使用、卸载 1.加载 将类的字节码文件加载到内存(元空间)中。这一步会…

16.3.1 【Linux】程序的观察

既然程序这么重要,那么我们如何查阅系统上面正在运行当中的程序呢?利用静态的 ps 或者是动态的 top,还能以 pstree 来查阅程序树之间的关系。 ps :将某个时间点的程序运行情况撷取下来 仅观察自己的 bash 相关程序: p…

Keburnetes 存储卷 volumes

K8S 的 存储卷 volumes emptyDir 可实现Pod中的容器之间共享目录数据,但emptyDir存储卷没有持久化数据的能力,存储卷会随着Pod生命周期结束而一起删除 (一个pod中创建了docker1 docker2两个容器,他们都挂载这个emptyDir&#xff0…

Gradle依赖管理:编译时和运行时依赖的区别

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

【LeetCode】《LeetCode 101》第十一章:妙用数据结构

文章目录 11.1 C STL11.2 数组448. 找到所有数组中消失的数字(简单)48. 旋转图像(中等)74. 搜索二维矩阵(中等)240. 搜索二维矩阵 II(中等)769. 最多能完成排序的块(中等…

ROSpider机器人评测报告

ROSpider机器人评测报告 最近入手了一款ROSpider六足仿生机器人,ROSpider是一款基于ROS 操作系统开发的智能视觉六足机器人。 外观 外观上ROSpider六足机器人如同名字一样有六只机械腿,整体来看像一只六腿的蜘蛛。腿上的关节处用了明亮的橙黄色很是显…

Redis使用Lua脚本和Redisson来保证库存扣减中的原子性和一致性

文章目录 前言1.使用SpringBoot Redis 原生实现方式2.使用redisson方式实现3. 使用RedisLua脚本实现3.1 lua脚本代码逻辑 3.2 与SpringBoot集成 4. Lua脚本方式和Redisson的方式对比5. 源码地址6. Redis从入门到精通系列文章7. 参考文档 前言 背景:最近有社群技术交…

C++——函数重载及底层原理

函数重载的定义 函数重载: 是函数的一种特殊情况,C允许在同一作用域重声明几个功能类似的同名函数,这些同名函数的形参列表(参数个数或者类型,类型的顺序)不同,常用来处理实现功能类似数据结构…

春秋云镜 CVE-2021-41947

春秋云镜 CVE-2021-41947 Subrion CMS v4.2.1 存在sql注入 靶标介绍 Subrion CMS v4.2.1 存在sql注入。 启动场景 漏洞利用 exp http://localhost/panel/visual-mode.json?getaccess&typeblocks UNION ALL SELECT username, password FROM sbr421_members -- -&o…

【需求输出】流程图输出

文章目录 1、什么是流程图2、绘制流程图的工具和基本要素3、流程图的分类和应用场景4、如何根据具体场景输出流程图 1、什么是流程图 2、绘制流程图的工具和基本要素 3、流程图的分类和应用场景 4、如何根据具体场景输出流程图

Dubbo1-架构的演变

分布式系统上的相关概念 项目:传统项目、互联网项目 传统项目: 一般为公司内部使用,或者小群体小范围的使用,一般不要求性能,美观,并发等 互联网项目的特点: 1.用户多 2.流量大,并…

用python来爬取某鱼的商品信息(2/2)

目录 上一篇文章 本章内容 设置浏览器为运行结束后不关闭(可选) 定位到搜索框的xpath地址 执行动作 获取cookie 保存为json文件 修改cookie的sameSite值并且导入cookie 导入cookie(出错) 导入cookie(修改后&…

Android Ble蓝牙App(五)数据操作

Ble蓝牙App(五)数据操作 前言正文一、操作内容处理二、读取数据① 概念② 实操 三、写入数据① 概念② 实操 四、打开通知一、概念二、实操三、收到数据 五、源码 前言 关于低功耗蓝牙的服务、特性、属性、描述符都已经讲清楚了,而下面就是使…

电脑系统重装日记

重装原因 电脑C盘几乎爆炸故重装系统一清二白 此片原因 记录重装过程,强调一些要注意的点,以防日后重装。 重装过程 1.清空电脑文件后重启,电脑冒蓝光,一直蓝屏反复重启,故只能重装系统以解难题。 2.准备一个U盘&…

设计HTML5文档结构

定义清晰、一致的文档结构不仅方便后期维护和拓展,同时也大大降低了CSS和JavaScript的应用难度。为了提高搜索引擎的检索率,适应智能化处理,设计符合语义的结构显得很重要。 1、头部结构 在HTML文档的头部区域,存储着各种网页元…

Python Opencv实践 - 图像属性相关

import numpy as np import cv2 as cv import matplotlib.pyplot as pltimg cv.imread("../SampleImages/pomeranian.png", cv.IMREAD_COLOR) plt.imshow(img[:,:,::-1])#像素操作 pixel img[320,370] print(pixel)#只获取蓝色通道的值 pixel_blue img[320,370,0]…

【Hystrix技术指南】(7)故障切换的运作流程原理分析(含源码)

背景介绍 目前对于一些非核心操作,如增减库存后保存操作日志发送异步消息时(具体业务流程),一旦出现MQ服务异常时,会导致接口响应超时,因此可以考虑对非核心操作引入服务降级、服务隔离。 Hystrix说明 官方…

Grounding DINO:根据文字提示检测任意目标

文章目录 1. 背景介绍2. 方法创新2.1 Feature Extraction and Enhancer2.2 Language-Guided Query Selection2.3 Cross-Modality Decoder2.4 Sub-Sentence Level Text Feature2.5 Loss Function3. 实验结果3.1 Zero-Shot Transfer of Grounding DINO3.2 Referring Object Detec…

设备管理系统能起到什么作用?

在现代工业运营中,设备的高效管理和维护对于保障生产稳定运行和提升企业竞争力至关重要。而设备管理系统作为一种关键工具,能够极大地提高企业的生产效率和设备维护的准确性。本文将深入探讨设备管理系统的作用,以PreMaint设备数字化平台为例…

ES踩坑记录之UNASSIGNED分片无法恢复

问题背景 换节点 我们线上有一套ES集群,三台机器,共运行了6个节点。一直在线上跑了几个月也一直没出什么问题。然而好巧不巧,就在昨天,集群中的3号节点磁盘出现故障,导致机器直接瘫痪。本来大家觉得问题不大&#xf…