mysql面试题：索引(B+树、聚集索引、二级索引、回表查询、覆盖索引、超大分页查询、索引创建原则)

索引

概念

索引（index）是帮助MySQL高效获取数据的数据结构(有序)。在数据之外，数据库系统还维护着满足特定查找算法的数据结构**（B+树）**，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法，这种数据结构就是索引。

底层数据结构——B+树

其他树相关的数据结构

在这里插入图片描述
只要是二叉树，最好的搜索时间复杂度就是O（log2n），如果一张表的数据量有一千万，那么依旧要很长时间。

B-Tree，B树是一种多叉路衡查找树，相对于二叉树，B树每个节点可以有多个分支，即多叉。
以一颗最大度数（max-degree）为5(5阶)的b-tree为例，那这个B树每个节点最多存储4个key，那么其搜索时间复杂度就是O（log4n）
在这里插入图片描述

B+树

B+Tree是在BTree基础上的一种优化，使其更适合实现外存储索引结构。
不同的是，B+树只有叶子节点才存储数据，非叶子节点不存储数据，只存储指针，使得存储更少，查询效率更稳定。
且叶子节点之间使用双向指针连接，更方便扫库和区间查询。
在这里插入图片描述
B树与B+树对比:
①：磁盘读写代价B+树更低；②：查询效率B+树更加稳定；③：B+树便于扫库和区间查询

索引分类（聚集索引和二级索引）

在这里插入图片描述

聚集索引选取规则:

如果存在主键，主键索引就是聚集索引。
如果不存在主键，将使用第一个唯一（UNIQUE）索引作为聚集索引。
如果表没有主键，或没有合适的唯一索引，则InnoDB会自动生成一个rowid作为隐藏的聚集索引。

在这里插入图片描述

回表查询

通过二级索引找到对应的主键值，到聚集索引中查找整行数据，这个过程就是回表。

覆盖索引

覆盖索引是指查询使用了索引，并且需要返回的列，在该索引中已经全部能够找到。
（我真的觉得覆盖索引这个词用的不好，搞得像聚集索引和二级索引一样像是索引分类的一种，但实际上它更像是回表查询之类的查询分类，我自己就是把覆盖索引当作覆盖查询来记得）

举例如下：
在这里插入图片描述

超大分页查询

在数据量比较大时，如果进行limit分页查询，在查询时，越往后，分页查询效率越低。
在这里插入图片描述
因为，当在进行分页查询时，如果执行 limit 9000000,10 ，此时需要MySQL排序前9000010 记录，仅仅返回 9000000 - 9000010 的记录，其他记录丢弃，查询排序的代价非常大。

为此我们可以通过覆盖索引加子查询形式进行优化。

select * from tb_sku t,(select id from tb_sku order by id limit 9000000,10) awhere t.id = a.id;

效率如下：
在这里插入图片描述
覆盖索引加子查询的方式之所以比limit要快是因为
前者是先在索引（B+树）上进行查找后直接返回id，然后根据id再去真表中拿数据。
后者是在真表中先把每一行的数据都拿出来，再判断是否是想要的那一条。按照这个逻辑查了很多条，而且前面大部分都是无用的数据。

索引创建原则

1). 针对于数据量较大，且查询比较频繁的表建立索引。
2). 针对于常作为查询条件（where）、排序（order by）、分组（group by）操作的字段建立索引。
3). 尽量选择区分度高的列作为索引，尽量建立唯一索引，区分度越高，使用索引的效率越高。
4). 如果是字符串类型的字段，字段的长度较长，可以针对于字段的特点，建立前缀索引。
5). 尽量使用联合索引，减少单列索引，查询时，联合索引很多时候可以覆盖索引，节省存储空间，避免回表，提高查询效率。
6). 要控制索引的数量，索引并不是多多益善，索引越多，维护索引结构的代价也就越大，会影响增删改的效率。
7). 如果索引列不能存储NULL值，请在创建表时使用NOT NULL约束它。当优化器知道每列是否包含NULL值时，它可以更好地确定哪个索引最有效地用于查询。