数据结构 | B树、B+树、B*树

文章目录

  • 搜索结构
  • B树
    • B树的插入
    • B树的遍历
    • B树的性能
  • B+树
    • B+树的插入
    • B+树的遍历
  • B*树
    • B*树的插入
  • 总结


搜索结构

  • 如果我们有大量的数据需要永久存储,就需要存储到硬盘之中。
  • 但是硬盘的访问速度远远小于内存,并且由于数据量过大,无法一次性加载到内存中。

此时,就可以考虑将数据存储在硬盘中,而数据的地址则加载到内存中,通过某种搜索结构进行存储,使用时只需要通过该结构查找到地址,在通过地址去找到对应的数据即可。

常用的几种搜索结构:二叉搜索树、AVL树、红黑树、哈希、位图、布隆过滤器。

考虑到查找性能以及内存消耗,其中适合这种场景的只有平衡二叉搜索树(AVL、红黑树)。

在这里插入图片描述

但即使平衡二叉搜索树的搜索性能能达到 O(log2N),由于数据量过于庞大,例如存储了 10亿个数,则可能最多需要查找 30次。这个数字看起来不是很多,因为之前我们比较的是内存的速度,即使是 10亿个数 也能一瞬间查找完。但是对于硬盘来说,由于硬盘的速率低,每一次 IO 都意味这大量的损耗,所以这种方法也不太合适。

如果想要提高查找的效率,那么唯一的方法就是压缩树的高度,而压缩的方法,就是将二叉树变为 M叉树,也就是使用到 M路平衡搜索树——B树


B树

B树 即一棵平衡的 M路平衡搜索树(M > 2),可以是 空树 或者满足以下性质:

  • 根节点至少有 2 个孩子、最多有 M 个孩子;
  • 除根结点外的非叶节点有 i 个孩子, M/2(上取整) <= i <= M
  • 每个非叶节点有 j 个关键字, M/2-1(上取整) <= j <= M-1 ,并且以升序排列
  • key[i]key[i+1] 之间的孩子节点的值介于 key[i]、key[i+1] 之间;
  • 所有的叶子节点都在同一层。

对照一棵 M=3B树 来理解:
在这里插入图片描述

节点实现

template<class K, int M = 3>
struct BTreeNode
{K _keys[M]; // 存放元素BTreeNode<K, M>* _pSub[M+1]; // 存放孩子节点,注意:孩子比数据多一个BTreeNode<K, M>* _pParent; // 在分裂节点后可能需要继续向上插入,为实现简单增加parent域size_t _size; // 节点中有效元素的个数BTreeNode(): _pParent(NULL), _size(0){for(size_t i = 0; i <= M; ++i)_pSub[i] = NULL;}
};

B树的插入

下面拿一个 M=3三叉B树 来举例子。(PS:三叉树即每个节点至多 3 个孩子,2keykey 的数量永远比孩子少一个)

假设使用以下数据构建B树 {63, 131, 85, 39, 148, 31, 111}(B树从叶子节点的位置进行插入):

在这里插入图片描述
首先依次插入前三个节点,当插入到第三个时,由于三叉树的 key 只能有 2 个,所以此时会采取分裂的方法来维持树的平衡。

B树分裂的规则是:创建一个兄弟节点,拷贝右半区间的数据到兄弟节点,左半区间保留,中位数放到父亲节点(如果没有则创建新的根节点)。

B树AVL 的旋转、红黑树的旋转+变色不一样,它使用了分裂的方法来维持树的平衡,这样的好处是既能做到平衡,也保证了非根节点至少有一半的空间利用率

所以此时按照上面的规则进行分裂:
在这里插入图片描述

接着插入 39,148

在这里插入图片描述

然后插入 31,开始分裂:
在这里插入图片描述
接着插入111,此时再次发生分裂:
在这里插入图片描述
此时可以看到,叶子节点已经分裂成了 4 个,并且根节点的 key 也达到了 3 个,不符合 B树 的性质:每个根节点最多有 M 个孩子、M - 1 个key,因此继续分裂:
在这里插入图片描述
此时,树重新平衡。从上面可以看出来,本质上B树的设计还是参考了二叉搜索树。


B树的遍历

B树的有序遍历还是通过中序遍历来完成,不过需要通过队列或者递归遍历完这个节点的所有的key

void _InOrder(PNode pRoot)
{if(NULL == pRoot)return;for(size_t i = 0; i < pRoot->_size; ++i){_InOrder(pRoot->_pSub[i]);cout << pRoot->_keys[i] << " ";}_InOrder(pRoot->_pSub[pRoot->_size]);
}

B树的性能

作为一个M路平衡搜索树,B树的搜索性能达到了 log⁡M+1N\log_{M+1}NlogM+1N ~ log⁡M/2N\log_{M/2}NlogM/2N 之间,查找到指定关键字的方法是:

  • 在根结点所包含的关键字 K1、…、Kn 查找给定的关键字(可用顺序查找或二分查找法),若找到等于给定值的关键字,则查找成功;
  • 否则,一定可以确定要查找的关键字在 KiKi+1之间,Pi 为指向子树根节点的指针,此时取指针 Pi 所指的结点继续查找,直至找到,或指针 Pi 为空 时查找失败。

比起二叉平衡搜索树,速度快了一大截,并且大大的减少了硬盘 IO 的次数,所以在文件系统以及数据库索引等方面使用的都是这种数据结构。


B+树

B+树是B树的变形,主要性质如下:

  • 其定义基本与B树相同
  • 非叶子节点的 孩子key 个数相同(简化规则)
  • 非叶子节点由叶子节点的最小值构成(充当索引,所以不可能在非叶子节点命中
  • 所有数据都出现在叶子节点,并且所有叶子节点都链接起来,同时是有序的。(方便遍历)

在这里插入图片描述


B+树的插入

这里为了方便,使用 三阶B+树 举例子,这里还是使用同样的数据。{63, 131, 85, 39, 148, 31, 111}

首先插入 63,并把 63 作为父节点的索引:
在这里插入图片描述

接着插入 131,85 :
在这里插入图片描述
当插入 39 时,发生分裂,分裂规则与之前略有区别。

B+树的分裂规则:因为此时父节点存储的是索引,所以此时只会将左半部分数据保留,右半部分数据放入新建的兄弟节点,并且会向上更新父节点的索引。

在这里插入图片描述
当插入 111 时,发生分裂:

在这里插入图片描述


B+树的遍历

从上面可以看出来,B+树的主要特点其实就是更方便进行遍历,因为其将所有数据存储在叶子节点,所有非叶子节点就相当于一个索引。其所有叶子节点连接起来,像遍历链表一样遍历B+树。这样的结构使得B+树的查找相当于对关键字全集做一次二分查找。

所以通常文件的索引系统都会采用B+树的结构。


B*树

B*树则又是对B+树的变形,其性质如下:

  • 其定义基本与B+树相同
  • 将非叶子节点也连接起来
  • 分裂方式再次修改,保证每个节点中 key 的数量 [2/3 * M,M](提高空间利用率,从1/2提升到了2/3)

在这里插入图片描述


B*树的插入

B*树再次修改了插入规则,规则修改为:

  • 如果当前节点数据已满而兄弟节点未满,则将数据放入兄弟节点,而当两个节点都满了之后再进行分裂;
  • 分裂时,在原节点与兄弟节点之间创建新节点,从两个节点分别取出 1/3 的数据放入新创建的结点。

还是原来那些数据 {63, 131, 85, 39, 148, 31, 111} :
在这里插入图片描述

接下来插入 39
在这里插入图片描述

插入 148、31

在这里插入图片描述

此时插入111,发生分裂,从两边各取走 1/3 的数据:
在这里插入图片描述

从上面可以看出,B*树的最大改进就是将B+树的空间利用率从1/2提升到了2/3,并且对非叶子节点也进行了连接,查找更加便利。


总结

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/443751.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 索引 :哈希索引、B+树索引、全文索引

文章目录索引引言常见的索引哈希索引自适应哈希索引B树索引聚集索引非聚集索引使用方法联合索引最左前缀匹配规则覆盖索引全文索引使用方法索引 引言 为什么需要索引&#xff1f; 倘若不使用索引&#xff0c;查找数据时&#xff0c;MySQL必须遍历整个表。而表越大&#xff0c;…

服装店怎么引流和吸引顾客 服装店铺收银系统来配合

实体店的同城引流和经营是实体经济的一个重要的一环&#xff0c;今天我们来分享服装行业的实体店铺怎么引流和吸引、留住顾客&#xff0c;并实现复购。大家点个收藏&#xff0c;不然划走就再也找不到了&#xff0c;另外可以点个关注&#xff0c;下次有新的更好的招&#xff0c;…

约瑟夫环(丢手绢问题)

文章目录问题描述思路代码实现问题描述 有 1~N 个数字&#xff0c;从 1~m 依次报数&#xff0c;数到 m 的数字要被删掉&#xff0c;求最后剩下的数字是&#xff1f; 思路 第一次报数第二次报数1n-m12n-m2……m-2n-2m-1n-1m被删掉了m11m22……n-1n-1-mnn-m 通过上面的表格&…

MySQL 锁的相关知识 | lock与latch、锁的类型、简谈MVCC、锁算法、死锁、锁升级

文章目录lock与latch锁的类型MVCC一致性非锁定读&#xff08;快照读&#xff09;一致性锁定读&#xff08;当前读&#xff09;锁算法死锁锁升级lock与latch 在了解数据库锁之前&#xff0c;首先就要区分开 lock 和 latch。在数据库中&#xff0c;lock 和 latch 虽然都是锁&…

Hibernate使用原生SQL适应复杂数据查询

HQL尽管容易使用&#xff0c;但是在一些复杂的数据操作上功能有限。特别是在实现复杂的报表统计与计算&#xff0c;以及多表连接查询上往往无能为力&#xff0c;这时可以使用SQL&#xff08;Native SQL&#xff09;实现HQL无法完成的任务。 1、使用SQL查询 使用SQL查询可以通过…

MySQL 存储引擎 | MyISAM 与 InnoDB

文章目录概念innodb引擎的4大特性索引结构InnoDBMyISAM区别表级锁和行级锁概念 MyISAM 是 MySQL 的默认数据库引擎&#xff08;5.5版之前&#xff09;&#xff0c;但因为不支持事务处理而被 InnoDB 替代。 然而事物都是有两面性的&#xff0c;InnoDB 支持事务处理也会带来一些…

MySQL 事务 | ACID、四种隔离级别、并发带来的隔离问题、事务的使用与实现

文章目录事务ACID并发带来的隔离问题幻读&#xff08;虚读&#xff09;不可重复读脏读丢失更新隔离级别Read Uncommitted (读未提交)Read Committed (读已提交)Repeatable Read (可重复读)Serializable (可串行化)事务的使用事务的实现Redoundo事务 事务指逻辑上的一组操作。 …

MySQL 备份与主从复制

文章目录备份主从复制主从复制的作用备份 根据备份方法的不同&#xff0c;备份可划分为以下几种类型&#xff1a; 热备(Hot Backup) &#xff1a; 热备指的是在数据库运行的时候直接备份&#xff0c;并且对正在运行的数据库毫无影响&#xff0c;这种方法在 MySQL 官方手册中又…

C++ 流的操作 | 初识IO类、文件流、string流的使用

文章目录前言IO头文件iostreamfstreamsstream流的使用不能拷贝或对 IO对象 赋值条件状态与 iostate 类型输出缓冲区文件流fstream类型文件模式文件光标函数tellg() / tellp()seekg() / seekp()向文件存储内容/读取文件内容string流istringstreamostringstream前言 我们在使用 …

Hibernate 更新部分更改的字段 hibernate update

Hibernate 中如果直接使用 Session.update(Object o);或则是Session.updateOrUpdate(Object o); 会把这个表中的所有字段更新一遍。 如&#xff1a; ExperClass4k e new ExperClass4k(); e.setTime(time); e.setQ_num(q_num); e.setK(k); if (str "finch_fix")…

C++ 类的行为 | 行为像值的类、行为像指针的类、swap函数处理自赋值

文章目录概念行为像值的类行为像指针的类概念引用计数动态内存实现计数器类的swap概念swap实现自赋值概念 行为像值的类和行为像指针的类这两种说法其实蛮拗口的&#xff0c;这也算是 《CPrimer》 翻译的缺点之一吧。。。 其实两者的意思分别是&#xff1a; 行为像值的类&am…

C++ 右值引用 | 左值、右值、move、移动语义、引用限定符

文章目录C11为什么引入右值&#xff1f;区分左值引用、右值引用move移动语义移动构造函数移动赋值运算符合成的移动操作小结引用限定符规定this是左值or右值引用限定符与重载C11为什么引入右值&#xff1f; C11引入了一个扩展内存的方法——移动而非拷贝&#xff0c;移动较之拷…

且谈关于最近软件测试的面试

前段时间有新的产品需要招人&#xff0c;安排和参加了好几次面试&#xff0c;下面就谈谈具体的面试问题&#xff0c;在面试他人的同时也面试自己。 面试问题是参与面试同事各自设计的&#xff0c;我也不清楚其他同事的题目&#xff0c;就谈谈自己设计的其中2道题。 过去面试总是…

C++ 多态 | 虚函数、抽象类、虚函数表

文章目录多态虚函数重写重定义&#xff08;参数不同&#xff09;协变&#xff08;返回值不同&#xff09;析构函数重写&#xff08;函数名不同&#xff09;final和override重载、重写、重定义抽象类多态的原理虚函数常见问题解析虚函数表多态 一种事物&#xff0c;多种形态。换…

C++ 运算符重载(一) | 输入/输出,相等/不等,复合赋值,下标,自增/自减,成员访问运算符

文章目录输出运算符<<输入运算符>>相等/不等运算符复合赋值运算符下标运算符自增/自减运算符成员访问运算符输出运算符<< 通常情况下&#xff0c;输出运算符的第一个形参是一个 非常量ostream对象的引用 。之所以 ostream 是非常量是因为向流写入内容会改变…

C++ 重载函数调用运算符 | 再探lambda,函数对象,可调用对象

文章目录重载函数调用运算符lambdalambda等价于函数对象lambda等价于类标准库函数对象可调用对象与function可调用对象function函数重载与function重载函数调用运算符 函数调用运算符必须是成员函数。 一个类可以定义多个不同版本的调用运算符&#xff0c;互相之间应该在参数数…

C++ 运算符重载(二) | 类型转换运算符,二义性问题

文章目录类型转换运算符概念避免过度使用类型转换函数解决上述问题的方法转换为 bool显式的类型转换运算符类型转换二义性重载函数与类型转换结合导致的二义性重载运算符与类型转换结合导致的二义性类型转换运算符 概念 类型转换运算符&#xff08;conversion operator&#…

Tomcat中JVM内存溢出及合理配置

Tomcat本身不能直接在计算机上运行&#xff0c;需要依赖于硬件基础之上的操作系统和一个Java虚拟机。Tomcat的内存溢出本质就是JVM内存溢出&#xff0c;所以在本文开始时&#xff0c;应该先对Java JVM有关内存方面的知识进行详细介绍。 一、Java JVM内存介绍 JVM管理两种类型的…

俄罗斯农民乘法 | 快速乘

文章目录概念概念 俄罗斯农民乘法经常被用于两数相乘取模的场景&#xff0c;如果两数相乘已经超过数据范围&#xff0c;但取模后不会超过&#xff0c;我们就可以利用这个方法来拆位取模计算贡献&#xff0c;保证每次运算都在数据范围内。 A 和 B 两数相乘的时候我们如何利用加…

Linux网络编程 | socket选项设定 及 网络信息API

文章目录读取和设置 socket 选项SO_REUSEADDRSO_RCVBUF 和 SO_SNDBUFSO_RCVLOWAT 和 SO_SNDLOWATSO_LINGER 选项网络信息APIgethostbyname 和 gethostbyaddrgetservbyname 和 getservbyportgetaddrinfogetnameinfo读取和设置 socket 选项 正如 fcntl 系统调用是控制文件描述符…