数据结构 | B树、B+树、B*树

文章目录

  • 搜索结构
  • B树
    • B树的插入
    • B树的遍历
    • B树的性能
  • B+树
    • B+树的插入
    • B+树的遍历
  • B*树
    • B*树的插入
  • 总结


搜索结构

  • 如果我们有大量的数据需要永久存储,就需要存储到硬盘之中。
  • 但是硬盘的访问速度远远小于内存,并且由于数据量过大,无法一次性加载到内存中。

此时,就可以考虑将数据存储在硬盘中,而数据的地址则加载到内存中,通过某种搜索结构进行存储,使用时只需要通过该结构查找到地址,在通过地址去找到对应的数据即可。

常用的几种搜索结构:二叉搜索树、AVL树、红黑树、哈希、位图、布隆过滤器。

考虑到查找性能以及内存消耗,其中适合这种场景的只有平衡二叉搜索树(AVL、红黑树)。

在这里插入图片描述

但即使平衡二叉搜索树的搜索性能能达到 O(log2N),由于数据量过于庞大,例如存储了 10亿个数,则可能最多需要查找 30次。这个数字看起来不是很多,因为之前我们比较的是内存的速度,即使是 10亿个数 也能一瞬间查找完。但是对于硬盘来说,由于硬盘的速率低,每一次 IO 都意味这大量的损耗,所以这种方法也不太合适。

如果想要提高查找的效率,那么唯一的方法就是压缩树的高度,而压缩的方法,就是将二叉树变为 M叉树,也就是使用到 M路平衡搜索树——B树


B树

B树 即一棵平衡的 M路平衡搜索树(M > 2),可以是 空树 或者满足以下性质:

  • 根节点至少有 2 个孩子、最多有 M 个孩子;
  • 除根结点外的非叶节点有 i 个孩子, M/2(上取整) <= i <= M
  • 每个非叶节点有 j 个关键字, M/2-1(上取整) <= j <= M-1 ,并且以升序排列
  • key[i]key[i+1] 之间的孩子节点的值介于 key[i]、key[i+1] 之间;
  • 所有的叶子节点都在同一层。

对照一棵 M=3B树 来理解:
在这里插入图片描述

节点实现

template<class K, int M = 3>
struct BTreeNode
{K _keys[M]; // 存放元素BTreeNode<K, M>* _pSub[M+1]; // 存放孩子节点,注意:孩子比数据多一个BTreeNode<K, M>* _pParent; // 在分裂节点后可能需要继续向上插入,为实现简单增加parent域size_t _size; // 节点中有效元素的个数BTreeNode(): _pParent(NULL), _size(0){for(size_t i = 0; i <= M; ++i)_pSub[i] = NULL;}
};

B树的插入

下面拿一个 M=3三叉B树 来举例子。(PS:三叉树即每个节点至多 3 个孩子,2keykey 的数量永远比孩子少一个)

假设使用以下数据构建B树 {63, 131, 85, 39, 148, 31, 111}(B树从叶子节点的位置进行插入):

在这里插入图片描述
首先依次插入前三个节点,当插入到第三个时,由于三叉树的 key 只能有 2 个,所以此时会采取分裂的方法来维持树的平衡。

B树分裂的规则是:创建一个兄弟节点,拷贝右半区间的数据到兄弟节点,左半区间保留,中位数放到父亲节点(如果没有则创建新的根节点)。

B树AVL 的旋转、红黑树的旋转+变色不一样,它使用了分裂的方法来维持树的平衡,这样的好处是既能做到平衡,也保证了非根节点至少有一半的空间利用率

所以此时按照上面的规则进行分裂:
在这里插入图片描述

接着插入 39,148

在这里插入图片描述

然后插入 31,开始分裂:
在这里插入图片描述
接着插入111,此时再次发生分裂:
在这里插入图片描述
此时可以看到,叶子节点已经分裂成了 4 个,并且根节点的 key 也达到了 3 个,不符合 B树 的性质:每个根节点最多有 M 个孩子、M - 1 个key,因此继续分裂:
在这里插入图片描述
此时,树重新平衡。从上面可以看出来,本质上B树的设计还是参考了二叉搜索树。


B树的遍历

B树的有序遍历还是通过中序遍历来完成,不过需要通过队列或者递归遍历完这个节点的所有的key

void _InOrder(PNode pRoot)
{if(NULL == pRoot)return;for(size_t i = 0; i < pRoot->_size; ++i){_InOrder(pRoot->_pSub[i]);cout << pRoot->_keys[i] << " ";}_InOrder(pRoot->_pSub[pRoot->_size]);
}

B树的性能

作为一个M路平衡搜索树,B树的搜索性能达到了 log⁡M+1N\log_{M+1}NlogM+1N ~ log⁡M/2N\log_{M/2}NlogM/2N 之间,查找到指定关键字的方法是:

  • 在根结点所包含的关键字 K1、…、Kn 查找给定的关键字(可用顺序查找或二分查找法),若找到等于给定值的关键字,则查找成功;
  • 否则,一定可以确定要查找的关键字在 KiKi+1之间,Pi 为指向子树根节点的指针,此时取指针 Pi 所指的结点继续查找,直至找到,或指针 Pi 为空 时查找失败。

比起二叉平衡搜索树,速度快了一大截,并且大大的减少了硬盘 IO 的次数,所以在文件系统以及数据库索引等方面使用的都是这种数据结构。


B+树

B+树是B树的变形,主要性质如下:

  • 其定义基本与B树相同
  • 非叶子节点的 孩子key 个数相同(简化规则)
  • 非叶子节点由叶子节点的最小值构成(充当索引,所以不可能在非叶子节点命中
  • 所有数据都出现在叶子节点,并且所有叶子节点都链接起来,同时是有序的。(方便遍历)

在这里插入图片描述


B+树的插入

这里为了方便,使用 三阶B+树 举例子,这里还是使用同样的数据。{63, 131, 85, 39, 148, 31, 111}

首先插入 63,并把 63 作为父节点的索引:
在这里插入图片描述

接着插入 131,85 :
在这里插入图片描述
当插入 39 时,发生分裂,分裂规则与之前略有区别。

B+树的分裂规则:因为此时父节点存储的是索引,所以此时只会将左半部分数据保留,右半部分数据放入新建的兄弟节点,并且会向上更新父节点的索引。

在这里插入图片描述
当插入 111 时,发生分裂:

在这里插入图片描述


B+树的遍历

从上面可以看出来,B+树的主要特点其实就是更方便进行遍历,因为其将所有数据存储在叶子节点,所有非叶子节点就相当于一个索引。其所有叶子节点连接起来,像遍历链表一样遍历B+树。这样的结构使得B+树的查找相当于对关键字全集做一次二分查找。

所以通常文件的索引系统都会采用B+树的结构。


B*树

B*树则又是对B+树的变形,其性质如下:

  • 其定义基本与B+树相同
  • 将非叶子节点也连接起来
  • 分裂方式再次修改,保证每个节点中 key 的数量 [2/3 * M,M](提高空间利用率,从1/2提升到了2/3)

在这里插入图片描述


B*树的插入

B*树再次修改了插入规则,规则修改为:

  • 如果当前节点数据已满而兄弟节点未满,则将数据放入兄弟节点,而当两个节点都满了之后再进行分裂;
  • 分裂时,在原节点与兄弟节点之间创建新节点,从两个节点分别取出 1/3 的数据放入新创建的结点。

还是原来那些数据 {63, 131, 85, 39, 148, 31, 111} :
在这里插入图片描述

接下来插入 39
在这里插入图片描述

插入 148、31

在这里插入图片描述

此时插入111,发生分裂,从两边各取走 1/3 的数据:
在这里插入图片描述

从上面可以看出,B*树的最大改进就是将B+树的空间利用率从1/2提升到了2/3,并且对非叶子节点也进行了连接,查找更加便利。


总结

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/443751.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 索引 :哈希索引、B+树索引、全文索引

文章目录索引引言常见的索引哈希索引自适应哈希索引B树索引聚集索引非聚集索引使用方法联合索引最左前缀匹配规则覆盖索引全文索引使用方法索引 引言 为什么需要索引&#xff1f; 倘若不使用索引&#xff0c;查找数据时&#xff0c;MySQL必须遍历整个表。而表越大&#xff0c;…

服装店怎么引流和吸引顾客 服装店铺收银系统来配合

实体店的同城引流和经营是实体经济的一个重要的一环&#xff0c;今天我们来分享服装行业的实体店铺怎么引流和吸引、留住顾客&#xff0c;并实现复购。大家点个收藏&#xff0c;不然划走就再也找不到了&#xff0c;另外可以点个关注&#xff0c;下次有新的更好的招&#xff0c;…

MySQL 锁的相关知识 | lock与latch、锁的类型、简谈MVCC、锁算法、死锁、锁升级

文章目录lock与latch锁的类型MVCC一致性非锁定读&#xff08;快照读&#xff09;一致性锁定读&#xff08;当前读&#xff09;锁算法死锁锁升级lock与latch 在了解数据库锁之前&#xff0c;首先就要区分开 lock 和 latch。在数据库中&#xff0c;lock 和 latch 虽然都是锁&…

MySQL 存储引擎 | MyISAM 与 InnoDB

文章目录概念innodb引擎的4大特性索引结构InnoDBMyISAM区别表级锁和行级锁概念 MyISAM 是 MySQL 的默认数据库引擎&#xff08;5.5版之前&#xff09;&#xff0c;但因为不支持事务处理而被 InnoDB 替代。 然而事物都是有两面性的&#xff0c;InnoDB 支持事务处理也会带来一些…

MySQL 事务 | ACID、四种隔离级别、并发带来的隔离问题、事务的使用与实现

文章目录事务ACID并发带来的隔离问题幻读&#xff08;虚读&#xff09;不可重复读脏读丢失更新隔离级别Read Uncommitted (读未提交)Read Committed (读已提交)Repeatable Read (可重复读)Serializable (可串行化)事务的使用事务的实现Redoundo事务 事务指逻辑上的一组操作。 …

MySQL 备份与主从复制

文章目录备份主从复制主从复制的作用备份 根据备份方法的不同&#xff0c;备份可划分为以下几种类型&#xff1a; 热备(Hot Backup) &#xff1a; 热备指的是在数据库运行的时候直接备份&#xff0c;并且对正在运行的数据库毫无影响&#xff0c;这种方法在 MySQL 官方手册中又…

C++ 流的操作 | 初识IO类、文件流、string流的使用

文章目录前言IO头文件iostreamfstreamsstream流的使用不能拷贝或对 IO对象 赋值条件状态与 iostate 类型输出缓冲区文件流fstream类型文件模式文件光标函数tellg() / tellp()seekg() / seekp()向文件存储内容/读取文件内容string流istringstreamostringstream前言 我们在使用 …

C++ 右值引用 | 左值、右值、move、移动语义、引用限定符

文章目录C11为什么引入右值&#xff1f;区分左值引用、右值引用move移动语义移动构造函数移动赋值运算符合成的移动操作小结引用限定符规定this是左值or右值引用限定符与重载C11为什么引入右值&#xff1f; C11引入了一个扩展内存的方法——移动而非拷贝&#xff0c;移动较之拷…

且谈关于最近软件测试的面试

前段时间有新的产品需要招人&#xff0c;安排和参加了好几次面试&#xff0c;下面就谈谈具体的面试问题&#xff0c;在面试他人的同时也面试自己。 面试问题是参与面试同事各自设计的&#xff0c;我也不清楚其他同事的题目&#xff0c;就谈谈自己设计的其中2道题。 过去面试总是…

C++ 多态 | 虚函数、抽象类、虚函数表

文章目录多态虚函数重写重定义&#xff08;参数不同&#xff09;协变&#xff08;返回值不同&#xff09;析构函数重写&#xff08;函数名不同&#xff09;final和override重载、重写、重定义抽象类多态的原理虚函数常见问题解析虚函数表多态 一种事物&#xff0c;多种形态。换…

C++ 运算符重载(一) | 输入/输出,相等/不等,复合赋值,下标,自增/自减,成员访问运算符

文章目录输出运算符<<输入运算符>>相等/不等运算符复合赋值运算符下标运算符自增/自减运算符成员访问运算符输出运算符<< 通常情况下&#xff0c;输出运算符的第一个形参是一个 非常量ostream对象的引用 。之所以 ostream 是非常量是因为向流写入内容会改变…

C++ 重载函数调用运算符 | 再探lambda,函数对象,可调用对象

文章目录重载函数调用运算符lambdalambda等价于函数对象lambda等价于类标准库函数对象可调用对象与function可调用对象function函数重载与function重载函数调用运算符 函数调用运算符必须是成员函数。 一个类可以定义多个不同版本的调用运算符&#xff0c;互相之间应该在参数数…

C++ 运算符重载(二) | 类型转换运算符,二义性问题

文章目录类型转换运算符概念避免过度使用类型转换函数解决上述问题的方法转换为 bool显式的类型转换运算符类型转换二义性重载函数与类型转换结合导致的二义性重载运算符与类型转换结合导致的二义性类型转换运算符 概念 类型转换运算符&#xff08;conversion operator&#…

分布式理论:CAP、BASE | 分布式存储与一致性哈希

文章目录分布式理论CAP定理BASE理论分布式存储与一致性哈希简单哈希一致性哈希虚拟节点分布式理论 CAP定理 一致性&#xff08;Consistency&#xff09;&#xff1a; 在分布式系统中的所有数据副本&#xff0c;在同一时刻是否一致&#xff08;所有节点访问同一份最新的数据副…

分布式系统概念 | 分布式事务:2PC、3PC、本地消息表

文章目录分布式事务2PC&#xff08;二阶段提交协议&#xff09;执行流程优缺点3PC&#xff08;三阶段提交协议&#xff09;执行流程优缺点本地消息表&#xff08;异步确保&#xff09;分布式事务 分布式事务就是指事务的参与者、支持事务的服务器、资源服务器以及事务管理器分…

数据结构算法 | 单调栈

文章目录算法概述题目下一个更大的元素 I思路代码下一个更大元素 II思路代码132 模式思路代码接雨水思路算法概述 当题目出现 「找到最近一个比其大的元素」 的字眼时&#xff0c;自然会想到 「单调栈」 。——三叶姐 单调栈以严格递增or递减的规则将无序的数列进行选择性排序…

最长下降子序列

文章目录题目解法DP暴搜思路代码实现贪心二分思路代码实现题目 给出一组数据 nums&#xff0c;求出其最长下降子序列&#xff08;子序列允许不连续&#xff09;的长度。&#xff08;类似于lc的最长递增子序列&#xff09; 示例&#xff1a; 输入&#xff1a; 6 // 数组元素个…

Linux 服务器程序规范、服务器日志、用户、进程间的关系

文章目录服务器程序规范日志rsyslogd 守护进程syslog函数openlog函数setlogmask函数closelog函数用户进程间的关系进程组会话系统资源限制改变工作目录和根目录服务器程序后台化服务器程序规范 Linux 服务器程序一般以后台进程&#xff08;守护进程[daemon]&#xff09;形式运…

IO模型 :阻塞IO、非阻塞IO、信号驱动IO、异步IO、多路复用IO

文章目录IO模型阻塞IO非阻塞IO信号驱动IO多路复用IO异步IOIO模型 根据各自的特性不同&#xff0c;IO模型被分为阻塞IO、非阻塞IO、信号驱动IO、异步IO、多路复用IO五类。 最主要的两个区别就是阻塞与非阻塞&#xff0c;同步与异步。 阻塞与非阻塞 阻塞与非阻塞最主要的区别就…

Tomcat服务器集群与负载均衡实现

一、前言 在单一的服务器上执行WEB应用程序有一些重大的问题&#xff0c;当网站成功建成并开始接受大量请求时&#xff0c;单一服务器终究无法满足需要处理的负荷量&#xff0c;所以就有点显得有点力不从心了。另外一个常见的问题是会产生单点故障&#xff0c;如果该服务器坏掉…