B+树

引言

时隔一年,我又想起当初看数据库时,看到的B+树,就是数据库的索引使用的数据结构。再整理一下,看看自己没有忘记很多吧。

概述

B+树之前,先来看一下二叉查找树(1,2,3,4,5,6,7)

恩, 差不多就长这样。诚然,在二叉查找树中查找某个元素是很快速的,二分查找嘛。但想想数据库查找数据的场景:

select * from user where id > 10, 显然,对于这种查找区间来说,二叉查找树并不高效。那么B+树是如何解决这个问题的呢?

试想一下,区间查找比较高效的数据结构是什么?数组,只要找到id为10的元素下标,那么之后的所有就都符合了。

那么把上面修改一下,让二叉查找树树的叶子节点直接指向数组的下标不就好了嘛。修改后结构如下:

这时,如果想找select * from user where id > 2 and id < 5, 那么,直接找到2的下标,然后向后遍历,到第一个>=5的值出现停止,之间是满足条件的数据。没错,这就是B+树。

这个结构是怎么想出来的我不知道啊,但是我今天突然发现,他的存储方式和跳表十分之像啊。莫非是受到了跳表的启发?亦或是跳表受到了B+树的启发?咱也不知道。

引申

很好,B+树整明白了,新的问题出现了。如果数据库使用这种数据结构存储,全部放到内存中肯定是不现实的,势必要将其存储到硬盘中,待查找时再到文件中读取。但如果放到文件中,势必会造成IO的缓慢,每次读取节点都访问文件,要是树到高度很夸张的话,光IO就要耗尽耐心了。

既然如此,那就降低IO好了,增加树每一层的节点数量,也就是二叉树变成n叉树(也确实是这么做的)。

算一下,如果是3叉树,高度为3(这个高度为索引树的高度),可索引的数组长度为:(3^4=81);如果是5叉树,高度为3,可索引数组长度为:(5^4=625);如果是100叉树,高度为3,可索引长度为:(100^4=1亿)。索引1亿的数据量,高度也只有3,意味着只要进行3此IO就可以定位到。完美。

那树进行分叉过多,是不是在每个节点搜索子节点的效率下降了?这里可以再使用一些查找算法降低时间复杂度。


以上就是我回忆的内容了,感觉并没有什么晦涩的,大部分是重新回忆了一遍。但是,温故而知新嘛。不知点新怎么好意思写出来。一下就是我最近才晓得的了。

B+树是不是分叉越多越好

那肯定不是越多越好啊,要是一层就把所有数据都存储了,要他还有什么用,根本没有起到快速定位的作用。

但我想说的并不是这。我们知道,操作系统在读取磁盘中的数据时,是按照页来读取和管理的,一页大小为4kb。当读取数据时,如果大小超过4kb,就会触发多次IO。4kb的大小,其实对于存储节点已经很大了。也就是说,我们每个节点的大小最好是<=4kb,否则就会触发多次IO。

但是,节点在更新时,势必会导致其大小改变。如何保证n叉树始终为n叉树呢?

添加节点

其实很简单,多了就拆呗。如果节点超出大小,就拆分成两个节点。但拆分后父节点不就多了么。那就父节点在拆,一直拆到根节点为止。如果根节点在超出大小,那就再拆,整个新的根节点出来。

删除节点

其实,删除节点不做处理也不会影响节点大小超出限制。但是,长此以往,可能会导致某些节点元素过少,严重影响查询效率。那么,如果节点内元素的数量小于n/2,就把相邻的两个节点合并为一个节点。那要是合并后元素数量超出大小呢?再拆呗。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/508454.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于相对性的思考

换位思考是一直都在倡导的做法。也就是说&#xff0c;在考虑问题时&#xff0c;不光要站在自己的角度来思考&#xff0c;还要站在他人的角度来思考。不光要站在一个角度思考&#xff0c;要尝试多个角度来思考问题。 下面一则小故事&#xff1a; 熊大&#xff1a;熊二&#xff…

Python导入运行的当前模块报错

引言 今天遇到了一个奇怪的现象&#xff0c;简单举个栗子&#xff1a; 文件结构如下&#xff1a; 其中tt.py文件中定义了一个方法&#xff1a; def tt():print(tt) 我现在要在test.py中使用tt(), 代码如下&#xff1a; from test.tt import tt ​ if __name__ __main__:t…

Python中的+=

引出 今天在运行之前写的一个Python脚本时&#xff0c;发生了一个奇怪的现象&#xff08;我怎么老遇到奇怪的现象&#xff5e;&#xff5e;&#xff09;。当时的代码大概长这样&#xff1a; a [1, 2, 3] b [4, 5, 6] # ...一大段逻辑 c a c b # ...一大段逻辑 # 在这里&a…

网络带宽是什么

引出 最近有盆友在购买云服务器&#xff0c;问我带宽选多大的比较合适&#xff1f;当时我说&#xff0c;就你这小网站&#xff0c;整个1M妥妥的。 也罢&#xff0c;就简单介绍一下带宽吧。 概述 其实简单的说&#xff0c;可以比作网速&#xff08;当然还是有区别的&#xf…

js new Date 创建时间默认是8点

起因 最近在写一个页面&#xff0c;需要用到时间控制。然后我通过new Date()传入日期字符串创建了一个对象&#xff0c;并与当前时间做时间戳比较&#xff0c;结果12点刚过&#xff0c;就出问题了。举个栗子&#xff1a; // 假设当前时间是2019年12月22日0点20分 new Date(20…

js解决客户端与服务器时间不一致的问题

引出 最近在写一个项目时&#xff0c;要根据时间进行不同的展示&#xff0c;直接用new Date().getTime()获取当前时间&#xff0c;结果就出问题了。有些用户擅自修改自己的本地时间&#xff0c;导致获取到的时间并不是当前时间&#xff0c;尴尬。 思路 既然如此&#xff0c;…

Python实现cmd命令连续执行

之前是想写一个微信控制程序&#xff0c;通过登录网页微信&#xff0c;可以直接执行命令行代码。也不用ssh登录了&#xff0c;想法很方便。 但是现实很残酷&#xff0c;微信登录这块基本没有问题&#xff0c;已经有大佬写好了&#xff0c;但是命令行执行遇到问题了。 运行cmd…

Python可以减少代码量?我不信

突然看到好几篇文章&#xff0c;内容基本上是什么用Java需要100行&#xff0c;用PHP只需要30行&#xff0c;用Python只需要10行&#xff08;数字记不清了&#xff09;。简单说一下我的看法。 我不服&#xff0c;凭啥都是编程语言&#xff0c;你行我就不行&#xff1f; 我记不…

关于意志的思考

今天在看书后&#xff0c;突然有些感觉&#xff0c;恩&#xff1f;不对啊 先提出疑问&#xff0c;人类是否在做出选择、产生欲望时&#xff0c;是出于自己自由的选择&#xff1f; 如果是&#xff0c;那可以试着&#xff11;分钟让大脑什么都不去想&#xff0c;我试过了&#…

Ubuntu14升级MySQL

最近需要将测试环境的MySQL从5.6升级到5.7. 我就自己先虚拟机搭了一个Ubuntu14进行模拟升级, 不得了 开始了各种踩坑记录 方案一 此方案可以跳过, 全是坑. 搜索 Ubuntu14 MySQL升级5.7, 出现很多结果 查看后发现处理方法全都一样, 既然大家都是这么升级的, 肯定么得问题. …

微信朋友圈技术实现设想

前提 微信朋友圈是我们每天都在用的功能, 但是如果让你来实现一个微信朋友圈, 你会如何做呢? 我来简单设想一下. 实现功能 发朋友圈评论动态查看朋友圈(只能查看好友的)查看评论(只能查看共同好友的) 是不是看着很简单? 也没有几个功能嘛. so easy. 开始实现 数据库选用…

redis的多路复用是什么鬼

有没有人和我一样, 自打知道了redis, 就一直听说什么redis单线程, 使用了多路复用等等. 天真的我以为多路复用是redis实现的技术. 今天才发现, 我被自己骗了, 多路复用是系统来实现的. 对不起自己的专业了. 为了引出多路复用, 我来大胆设想一下技术的发展路程. 前提 一个应用…

WebSocket小叙

概述 刚看到WeSocket的时候&#xff0c;我以为是HTTP相关&#xff0c;但是在前两天搭了一个简单的Client之后, 我发现这不就是TCP长连接么? 建立连接->通信->断开连接. 直到今天, 我在调试的时候, 发现发出了HTTP请求, 我想, 事情可能不是我想的那样. 先来简单描述一下…

基于redis的分布式锁

概述 在之前, 我也使用redis做过分布式锁, 当时的做法是这样的: setnx: 向 redis中创建一个过期时间为1s的key, 若创建失败, 则锁获取失败expire: 获取锁成功后, 给锁增加过期时间del: 处理后释放锁 当时觉得貌似没什么问题. 是我太天真了, 今天突然想到, 恩, 有问题. 问题…

PHP实现RPC(简版)

概述 RPC这个东西是什么? 第一次听说他, 还要在它的前边加个G, 当时我以为GRPC是一项技术, 后来才知道, 并不是这样. GRPC只是RPC的谷歌实现. 谷歌搜了一下, RPC就是一种: 远程函数调用, 看到这里, 我已经等不及了, 不往下看了, 先自己实现一个. 如果只给你这样一个概念, 如…

如何生成全局唯一标识

引出 大家都用过QQ或者微信吧, 当我们注册的时候, 会被自动分配一个QQ号, 这个号码是全局唯一且固定的, 那么, 如果是你来写的话, 如何为新注册的用户分配一个号码呢? 亦或是一个电商网站, 要为每个订单生成一个订单号? 再或是一个即时聊天, 要为每个消息生成一个消息ID??…

GC算法的评价标准

GC是什么 GC就是垃圾回收, 哎, 现在Java如日中天, JVM都又算了解吧. 其中的垃圾回收还经常在面试中问道(虽然我忘完了). 当然, 垃圾回收不只是JVM, Python、等等高级语言都用到了. 简单说, GC完成的任务就两件事: 找到内存中已经无用的垃圾将垃圾回收, 以便于之后可以再次利用…

GC算法-标记清除算法

概述 标记清除算法, 描述起来很简单, 从名字上就能看出, 分为两个阶段: 标记阶段: 遍历所有对象, 将活动对象都打上标记清除阶段: 遍历堆, 将没有标记的对象释放掉. 介绍完毕, 本文结束. 开玩笑, 确实看上去很简单啦. 那就具体思考一下实现吧. 实现 介绍写的很清楚了, 实现…

GC算法-引用计数法

概述 引用计数法又是什么鬼呢? 顾名思义, 对对象的引用进行计数. 通过记录每个对象被引用的次数, 来确定这个对象是否可以被回收. 实现 首先, 对对象的引用数量进行管理, 什么时候会更新呢? 创建对象: 新建一个对象(对这个新的对象引用数量1)更新指针: 将一个指向A对象的…

GC算法-复制算法

概述 复制算法就是将内存空间二等分, 每次只使用其中一块. 当执行GC时, 讲A部分的所有活动对象集体移到B中, 就可以讲A全部释放. 画个图就是: ​ 在执行GC前, 内存长这样: ​ 当执行GC后, 内存就变成这样了: 还记得标记清除算法的问题是什么吗? 内存碎片化严重. 现在好了, …