index
- 存储引擎
- 索引
- InnoDB中的索引
- MyISAM索引
存储引擎
以前一直认为关系型数据库中的索引不重要,知道最近学了MySQL高级篇,才发现,对MySQL一知半解。都是听人泛泛而谈。
首先MySQL服务器是怎么存数据的,怎么取到的,内存怎么跟磁盘交付的?
可以确定的是,MySQL5.7以后默认使用了InnoDB作为存储引擎。
使用存储引擎来拿到硬盘上的数据,然后放到内存,内存再跟缓冲池交互。
缓冲池是主内存中的一部分空间,用来缓存已使用的表和索引数据。缓冲池使得经常被使用的数据能够直接在内存中获得,从而提高速度。
我们用程序做的持久化操作,都是先把数据放到缓冲池,然后经过一定时间,数据会进行刷盘操作,然后持久化到硬盘上。
那么表的中的数据和索引又是怎么回事呢?
在MySQL8.0中,表的在硬盘的表示形式是.ibd文件存储。这个文件即存储了索引,又保存了数据。
索引
上面所里索引,这个玩意到底是什么。
索引是一种数据结构,是树,是数据。
InnoDB中的索引
-
InnoDB
- InnoDB中的索引使用了B+树作为数据结构保存。
- 每个表都有聚簇索引,如果有主键,主键默认是聚簇索引;如果没有主键,unique声明的列就是聚簇索引;每个没pk,uk,那么MySQL会默认指定一个索引,这个索引是隐藏的。
- 聚簇索引,保存了主键,也保存了数据。以主键作为检索条件。
- 非聚簇索引,保存了索引的列,还保存了列对应的主键索引值,以列的值作为检索条件。查这种索引时,会找到这个列,然后找到主键。根据主键查聚簇索引,再拿到完整数据。这种就称为
回表
。 - 除此之外,还有联合索引,即多个列构成的索引。
-
索引的基本结构,怎么演变来的
真是站在巨人的肩膀呀,别说我树还没玩明白。🤣
创建下面的表,有三个列,指明了行格式。
mysql> CREATE TABLE index_demo(
-> c1 INT,
-> c2 INT,
-> c3 CHAR(1),
-> PRIMARY KEY(c1)
-> ) ROW_FORMAT = Compact;
假定下图是index_demo表某一行数据的结构。
c1, c2, c3是列,里面存放了数据。
record_type :记录头信息的一项属性,表示记录的类型, 0 表示普通记录、 2 表示最小记录、 3 表示最大记录、 1是非叶子节点。
next_record :记录头信息的一项属性,表示下一条地址相对于本条记录的地址偏移量,我们用箭头来表明下一条记录是谁。
各个列的值 :这里只记录在 index_demo 表中的三个列,分别是 c1 、 c2 和 c3 。
其他信息 :除了上述3种信息以外的所有信息,包括其他隐藏列的值以及记录的> 额外信息。
补充:
数据存储的最小基本单位是页
,每一页里面存储了许多行,就像上面的结构一样,逻辑上多条数据是在一个页中的。
多个页构成了区
,表示连续的页,方便查找。
多个区构成了段
,表示数据区和页目录区。
还有一个零散区,可以放数据。
哥几个都属于表空间的。
这个是一页数据。
1. 包含最小记录,最大记录值
2. 普通记录值,列。
3. 最小记录指向主键,最小的主键从小往大排,执行最大记录值。
4. 这个页相当于一个叶子节点,然后也保存了数据
5. 多条数据构成了单向链表。
既然是B+树,不止一个叶子节点的,也不知3条数据的。这时页分裂了,我愿称之为细胞分裂 。
所有的主键是按从小到大排列的!橙色的背景。
多页数据来了,这个是双向链表,由页头里面的信息确认的。每个页不是连续的,所以页码是乱的,但是逻辑上是双向链表。
这时候,我知道了页面,也知道了每页的最小主键值,抽取页目录。
页目录就是看到的索引。使用二分法,可以快速找到数据。
比如,我查找主键是10的数据
1. 使用二分法定位10在5-12之间
2. 目录项3中的主键比10大
3. 找到目录2,循环列表得到10.
最终结构,将页目录抽取。
这就是B+树。
MyISAM索引
数据和索引是分开存储的,底层也是B+树,叶子节点存储的是磁盘上的地址。
MyISAM引擎都是非聚簇索引。
MyISAM的索引方式都是“非聚簇”的,与InnoDB包含1个聚簇索引是不同的。小结两种引擎中索引的区别:
① 在InnoDB存储引擎中,我们只需要根据主键值对 聚簇索引 进行一次查找就能找到对应的记录,而在
MyISAM 中却需要进行一次 回表 操作,意味着MyISAM中建立的索引相当于全部都是 二级索引 。
② InnoDB的数据文件本身就是索引文件,而MyISAM索引文件和数据文件是 分离的 ,索引文件仅保存数
据记录的地址。
③ InnoDB的非聚簇索引data域存储相应记录 主键的值 ,而MyISAM索引记录的是 地址 。换句话说,
InnoDB的所有非聚簇索引都引用主键作为data域。
④ MyISAM的回表操作是十分 快速 的,因为是拿着地址偏移量直接到文件中取数据的,反观InnoDB是通
过获取主键之后再去聚簇索引里找记录,虽然说也不慢,但还是比不上直接用地址去访问。
⑤ InnoDB要求表 必须有主键 ( MyISAM可以没有 )。如果没有显式指定,则MySQL系统会自动选择一个
可以非空且唯一标识数据记录的列作为主键。如果不存在这种列,则MySQL自动为InnoDB表生成一个隐
含字段作为主键,这个字段长度为6个字节,类型为长整型。