索引是帮助数据库高效获取数据的数据结构
索引的数据结构
1.hash表
a.利用hash存储的话需要将所有的数据文件添加到内存,比较耗费内存空间
b.hash表存储的是无序数据,范围查找的时候需要挨个进行遍历,比较耗费时间。
2.二叉树
二叉树规定左子树必须小于根节点,右子树必须大于根节点,可能会导致右子树变成一条链表,对提升查询效率没有帮助。
3.平衡树(AVL树)
AVL树是一颗严格意义上的平衡树,它要求最高子树和最低子树的高度之差不超过1,因此在进行元素插入的时候,会进行1到n次的旋转,严重影响插入的效率。
4.红黑树
红黑树是基于AVL树的一个升级,损失了部分查询的性能,来提升插入的性能,在红黑树中,最高子树不能超过最低子树的2倍,在插入的时候,不需要进行N多次的旋转操作,而且加入了变色的特性,来满足插入和查询性能的平衡。ps:二叉树及其变种的其他树都不能支撑索引的需求,原因是其插入数据的性能比较低,并且树的深度无法控制,都会因为树的深度过深而造成io的次数变多,影响读取数据的效率。
5.B-Tree
B树的特点:
1.所有键值分布在整颗树上
2.搜索可能在非叶子节点上结束,在关键字全集内做一次查找,性能逼近二分查找
3.节点中的数据索引从左到右递增排列
缺点:每个节点同时包含了key和data,而每个页存储空间是有限的,
如果data比较大的话会导致每个节点存储的元素数量变小。
当存储量变大时,会导致深度变大,增大磁盘io次数,进而影响查询性能。
6.B+Tree
B+Tree是在B-Tree的基础之上做的一种优化:
1.B+Tree的非叶子节点只存储索引,不存储data,使非叶子节点可以包含更多的节点,这样有两个好处,一是大大降低了树的高度,二是将数据范围变成多个区间,增加了检索的效率。
2.叶子节点存储所有的索引和data,而且所有的叶子节点相互连接,形成了一种链式结构,范围查询性能更高。ps:索引的从磁盘到内存的load过程中会产生磁盘I/O消耗,相对于内存读取,I/O存取的消耗要高好几个数量级,所以评价一个数据结构作为索引的优劣最重要的指标就是在查找过程中磁盘I/O操作次数。换句话说,索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数。B+Tree这种数据结构利用了磁盘预读原理,将每个节点的大小设为等于一个页,每个节点只需要一次I/O就可以载入,并且节点中的数据和索引从左到右递增排列,符合局部性原理,所以B+Tree拥有更好的性能。
InnoDB索引实现
聚簇索引
在InnoDB这种存储引擎下,数据和索引是放在一起的.frm存放的是表结构.ibd存放表数据和索引
ps:innoDB存储引擎默认情况下会把所有的数据文件放到表空间中,不会单独为每一张表保存一份数据文件,如果需要将每一张表单独使用文件保存,设置如下属性:set gobal innodb_file_per_table=on
InnoDB--B+Tree
1.叶子节点直接存放索引和数据
2.InnoDB中至少有一个聚簇索引,一般会通过B+Tree对主键创建索引,如果没有主键,会选择唯一键,如果没有唯一键,会自动生成一个6位rowid来作为主键
3.在非聚簇索引中,叶子节点上存储的是该行数据的主键,然后通过聚簇索引找到对应的数据,也就是要走两次B+Tree,叫做回表
MyISAM索引实现
非聚簇索引
在MyISAM这种存储引擎下,数据和索引文件是单独的文件.frm存放的是表结构.MYI存放索引.MYD存放表数据
MyISAM--B+Tree
1.叶子节点存放索引和对应数据的磁盘文件地址
2.MyISAM不存在回表的问题