【MySQL】索引与B+树
- 索引概念
- 前导
- 硬件
- 软件方面
- 索引的理解
- 单个page
- 多个page
- 引入B+树
- B+树的特征
- 为什么B+树做索引优于其他数据结构?
- 聚簇索引与非聚簇索引
- 辅助索引
- 索引的创建
- 主键索引的创建和查看
- 唯一键索引的创建和查看
- 普通索引的创建和查看
- 复合索引
- 全文索引
- 索引的其他查找方式
- 索引的删除
- 索引创建原则
索引概念
索引的本质就是一个数据结构
用于加快数据库表的查询和检索速度。索引可以理解为数据库表中的目录,它保存了特定列的值和对应的行位置。
索引:提高数据库的性能,不用加内存,不用改程序,不用调sql,只要执行正确的 create index
,查询速度就可能提高成百上千倍。查询速度的提高是以插入、更新、删除的速度为代价的,这些写操作,增加了大量的IO。所以它的价值,在于提高一个海量数据的检索速度。
常见索引分为:
主键索引(primary key)
唯一索引(unique)
普通索引(index)
全文索引(fulltext)–解决中子文索引问题。
使用方法:
alter table 表名 add index(列名);
前导
硬件
MySQL 给用户提供存储服务,而存储的都是数据,数据在磁盘这个外设当中
磁盘的物理结构
数据库文件,本质其实就是保存在磁盘的盘片当中。也就是上面的一个个小格子中,就是我们经常所说的扇区。当然,数据库文件很大,也很多,一定需要占据多个扇区。
我们在使用Linux,所看到的大部分目录或者文件,其实就是保存在硬盘当中的
找到一个文件,本质就是在磁盘找到所有保存文件的扇区。而我们能够定位任何一个扇区,那么便能找到所有扇区,因为查找方式是一样的
- 柱面(磁道): 多盘磁盘,每盘都是双面,大小完全相等。那么同半径的磁道,整体上便构成了一个柱面
- 每个盘面都有一个磁头,那么磁头和盘面的对应关系便是1对1的
所以,我们只需要知道,磁头、柱面(等价于磁道)、扇区对应的编号。即可在磁盘上定位所要访问的扇区。这种磁盘数据定位方式叫做 CHS 。不过实际系统软件使用的并不是 CHS (但是硬件是),而是 LBA ,一种线性地址,可以想象成虚拟地址与物理地址。系统将 LBA 地址最后会转化成为 CHS ,交给磁盘去进行数据读取。
小结:
我们现在已经能够在硬件层面定位,任何一个基本数据块了(扇区)。但是在系统软件上,就不是直接按照扇区(512字节,部分4096字节),进行IO交互了,这是因为如果操作系统直接使用硬件提供的数据大小进行交互,那么系统的IO代码,就和硬件强相关,换言之,如果硬件发生变化,系统必须跟着变化;另外目前来看,单次IO 512字节,还是太小了。IO单位小,意味着读取同样的数据内容,需要进行多次磁盘访问,会带来效率的降低。
**文件系统读取基本单位,就不是扇区,而是数据块。既系统读取磁盘,是以块为单位的,基本单位是【4KB】 **
磁盘随机访问(Random Access)与连续访问(Sequential Access)
- 随机访问:本次IO所给出的扇区地址和上次IO给出扇区地址不连续,这样的话磁头在两次IO操作之间需要作比较大的移动动作才能重新开始读/写数据。
- 连续访问:如果当次IO给出的扇区地址与上次IO结束的扇区地址是连续的,那磁头就能很快的开始这次IO操作,这样的多个IO操作称为连续访问。
因此尽管相邻的两次IO操作在同一时刻发出,但如果它们的请求的扇区地址相差很大的话也只能称为随机访问,而非连续访问。
磁盘是通过机械运动进行寻址的,随机访问不需要过多的定位,故效率比较高
软件方面
而 MySQL 作为一款应用软件,可以想象成一种特殊的文件系统。它有着更高的IO场景,所以,为了提高基本的IO效率, MySQL 进行IO的基本单位是 16KB
mysql> show global status like 'innodb_page_size';
+------------------+-------+
| Variable_name | Value |
+------------------+-------+
| Innodb_page_size | 16384 |
+------------------+-------+
磁盘这个硬件设备的基本单位是 512 字节,而 MySQL InnoDB引擎 使用 16KB 进行IO交互。即MySQL 和磁盘进行数据交互的基本单位是 16KB 。这个基本数据单元,在 MySQL 这里叫做page
-
MySQL 中的数据文件,是以page为单位保存在磁盘当中的。
-
MySQL 的 CURD 操作,都需要通过计算,找到对应的插入位置,或者找到对应要修改或者查询的数据
-
只要涉及计算,就需要CPU参与,而为了便于CPU参与,一定要能够先将数据移动到内存当中
- 所以在特定时间内,数据一定是磁盘中有,内存中也有。后续操作完内存数据之后,以特定的刷新策略,刷新到磁盘。而这时,就涉及到磁盘和内存的数据交互,也就是IO。此时IO的基本单位就是Page。
-
为了更好的进行上面的操作, MySQL 服务器在内存中运行的时候,在服务器内部,就申请了被称为 Buffer Pool 的的大内存空间,来进行各种缓存。其实就是很大的内存空间,来和磁盘数据进行IO交互
-
为了更高的效率,一定要尽可能的减少系统和磁盘IO的次数
总的来看:MySQL和磁盘忽略掉文件缓冲区之后,就是以page为单位交换的,MySQL不管os搬运4kb数据多少次,只在乎读写数据的时候有没有16kb
索引的理解
mysql> create table if not exists user (-> id int primary key, -> age int not null,-> name varchar(16) not null-> );mysql> desc user;
+-------+-------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-------+-------------+------+-----+---------+-------+
| id | int(11) | NO | PRI | NULL | |
| age | int(11) | NO | | NULL | |
| name | varchar(16) | NO | | NULL | |
+-------+-------------+------+-----+---------+-------+mysql> insert into user (id, age, name) values(3, 18, '杨过');
mysql> insert into user (id, age, name) values(4, 16, '小龙女');
mysql> insert into user (id, age, name) values(1, 16, '赵志敬');mysql> show create table user\G
*************************** 1. row ***************************Table: user
Create Table: CREATE TABLE `user` (`id` int(11) NOT NULL,`age` int(11) NOT NULL,`name` varchar(16) NOT NULL,PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mysql> select * from user;
+----+-----+-----------+
| id | age | name |
+----+-----+-----------+
| 1 | 16 | 赵志敬 |
| 3 | 18 | 杨过 |
| 4 | 16 | 小龙女 |
+----+-----+-----------+
我们向一个具有主键的表中,乱序插入数据,发现数据会自动排序,这是为什么?提高查询效率
首先磁盘上有对应的文件数据,文件数据最终会被预读到文件缓冲区,mysql启动的时候会申请buffer pool,mysql层面上,所有的page都会被放到buffer pool中;
理解mysql中page的概念:一个page是16KB,mysql内部一定需要并且会存在大量的page,也就决定了mysql必须要将多个同时存在的page管理起来。要管理所有的mysql内的page,需要先描述,再组织,所以不要简单将page认为是一个内存块,page内部也必须写入对应的管理信息!如:
struct page
{struct page*next;struct page*prev;char buffer[NUM];
};
MySQL和磁盘进行IO交互的时候,采用Page的方案进行交互的原因:减少IO次数
单个page
MySQL 中要管理很多数据表文件,而要管理好这些文件,就需要先描述,再组织 ,我们目前可以简单理解成一个个独立文件是有一个或者多个Page构成的
MySQL 会默认按照主键给我们的数据进行排序,从上面的Page内数据记录可以看出,数据是有序且彼此关联的;插入数据时排序的目的,就是优化查询的效率
多个page
单个page内部有页目录,减少了page内部的检索次数,提升了单page的搜索效率,上图中多个page之间的连接关系,从图中看出页目录在多个page中也是呈现顺序关系的,如果是跨页搜索数据,也只能从前往后顺序遍历每个页的页目录,如果page一多,这种检索方式会大大降低页与页之间数据搜索速度,为了解决该问题,我们同样使用目录的方式对每个页中的目录进行管理,如下图:
添加一个目录页(新page)来管理页目录(子page),目录页中的数据存放的就是指向的那一页中最小的数据。然后就可通过比较,找到该访问那个Page,进而通过指针,找到下一个Page。
引入B+树
如果底层的page很多,会造成一级目录的数量变多,那么我们对一级目录的遍历又变成了线性遍历,这个时候,需要再加一层
这就是B+树,把整个的B+树称作mysql innode db下的索引结构,一般我们建表的时候,就是在该结构下进行CURD,即使没有主键也是这样子的,会有默认主键的
- 并不是所有的存储引擎的索引都是采用B+树,还有哈希索引等方式。主流的存储引擎是采用B+树作为索引的数据结构。
- 只有叶子结点采用链表进行级联,这是因为这是B+树的特性;同时,叶子结点进行级联可以满足范围查找(有时候数据读取的时候跨页了,叶子结点有指向next页的指针,方便查找)
B+树的特征
- 非叶节点不保存数据,只用来索引,所有数据都保存在叶子节点。
- 数据只在叶子结点保存,并保存指向前后叶子结点的指针,通过链表指针对叶子结点进行级联,且叶子结点本身依关键字的自小而大顺序连接。
为什么B+树做索引优于其他数据结构?
线性数据结构
线性数据结构如链表、顺序表,挨个挨个遍历,上文就是因为线性表效率低下的问题,一次次修改结构为B+树。
二叉搜索树
这种数据结构的时间复杂度完全由查找分支的高度决定,最优的时间复杂度是O(lgN),但是二叉搜索树可能退化为线性结构,这个时候时间复杂度将会大大提高。
红黑树和AVL树
这两种数据结构很优秀。但是红黑树和AVL树本质上都是二叉树,相同数据下树的高度会比B+树高,树的高度越高,单次查找所淘汰的数据量越少,效率越低。查找效率略逊于B+树。
Hash
官方的索引实现方式中, MySQL 的索引是支持Hash的,不过 InnoDB 和 MyISAM 并不支持。哈希的查找效率是O(1),但是它不支持范围查找。
B树和B+树的区别
B树
B+树
- B树的非叶节点中除了存放下一层的页目录,也会存放数据,这就导致了每个非叶节点存放的下一层的页目录变少,可能会增加整颗树的高度,增加IO次数。
- B树的叶节点之间没有采用链式结构进行连接。范围查找需要重新遍历整棵树。
聚簇索引与非聚簇索引
像innodb存储引擎那样把B+树和数据存放在一起称为聚簇索引
MyISAM 存储引擎-主键索引
MyISAM 引擎同样使用B+树作为索引结果,叶节点的data域存放的是数据记录的地址。下图为 MyISAM表的主索引, Col1 为主键
MyISAM 最大的特点是,将索引Page和数据Page分离,也就是叶子节点没有数据,只有对应数据的地址。这种方式叫做非聚簇索引
聚簇索引与非聚簇索引的区别在底层看来就是创建表的时候,MySQL文件系统中聚簇索引有两个文件,非聚簇索引的表有三个文件
辅助索引
MyISAM辅助索引
- MySQL 除了默认会建立主键索引外,我们用户也有可能建立按照其他列信息建立的索引,一般这种索引可以叫做辅助(普通)索引。
- 对于 MyISAM ,建立辅助(普通)索引和主键索引没有差别,无非就是主键不能重复,而非主键可重复。
- MyISAM存储引擎可以在一张表中建立多个索引,下图就是基于 MyISAM 的 Col2 建立的索引,和主键索引没有差别
innodb的辅助(普通)索引
索引的叶子结点只存主键
InnoDB 除了主键索引,用户也会建立辅助(普通)索引,我们以上表中的 Col3 建立对应的辅助索引:
InnoDB的非主键索引中叶子节点并没有数据,而只有对应记录的key值。所以通过辅助(普通)索引,找到目标记录,需要两遍索引:首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录。这种过程,就叫做回表查询
为何InnoDB针对这种辅助(普通)索引的场景,不给叶子节点也附上数据呢?
表的主键索引数据,如果辅助索引也有数据,太浪费空间了
索引的创建
主键索引的创建和查看
--直接指明主键
mysql> create table user1(id int primary key, name varchar(30));
--与第一种方式类似
mysql> create table user2(id int , name varchar(30),primary key(id));
--创建表之后添加主键
mysql> create table user3(id int , name varchar(30));
mysql> alter table user3 add primary key(id);
查看索引
mysql> show index from user1\G
*************************** 1. row ***************************Table: user1Non_unique: 0Key_name: PRIMARY--索引名Seq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment:
Index_comment:
一个表中,最多有一个主键索引,当然可以使符合主键
主键索引的效率高(主键不可重复)
创建主键索引的列,它的值不能为null,且不能重复
主键索引的列基本上是int
唯一键索引的创建和查看
-- 在表定义时,在某列后直接指定unique唯一属性
mysql> create table user4(id int primary key, name varchar(30) unique);-- 创建表时,在表的后面指定某列或某几列为unique
mysql> create table user5(id int primary key, name varchar(30), unique(name));
Query OK, 0 rows affected (0.02 sec)
--先建表,然后再添加唯一键
mysql> create table user6(id int primary key, name varchar(30));
mysql> alter table user6 add unique(name);
查看索引
mysql> show index from user6\G
*************************** 1. row ***************************Table: user6Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment:
Index_comment:
*************************** 2. row ***************************Table: user6Non_unique: 0Key_name: nameSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment:
Index_comment:
一个表中,可以有多个唯一索引
查询效率高
如果在某一列建立唯一索引,必须保证这列不能有重复数据
如果一个唯一索引上指定not null,等价于主键索引
普通索引的创建和查看
--在表的定义最后,指定某列为索引
mysql> create table user8(id int primary key,-> name varchar(20),-> email varchar(30),-> index(name)-> ); --
mysql> create table user9(id int primary key, name varchar(20), email-> varchar(30));
--创建完表以后指定某列为普通索引
mysql> alter table user9 add index(name);mysql> create table user10(id int primary key, name varchar(20), email varchar(30));
---- 创建一个索引名为 myindex 的索引
mysql> create index myindex on user10(name);
查看索引
mysql> show index from user10\G
*************************** 1. row ***************************Table: user10Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment:
Index_comment:
*************************** 2. row ***************************Table: user10Non_unique: 1Key_name: myindex--索引名Seq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment:
Index_comment:
复合索引
--name和email共同作为索引
mysql> alter table user10 add index(name,email);
mysql> show index from user10\G
*************************** 1. row ***************************Table: user10Non_unique: 1Key_name: nameSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment:
Index_comment:
*************************** 2. row ***************************Table: user10Non_unique: 1Key_name: nameSeq_in_index: 2Column_name: emailCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment:
Index_comment:
创建的复合索引其实在一颗B+树上,发现name和email的索引名称一样,复合索引的作用在于指定多个字段构建一颗B+树,如果需要高频的通过name找到email的操作,就可以构建复合索引,这样就避免了回表查询,通过索引找另一个索引的方式叫索引覆盖
全文索引
当对文章字段或有大量文字的字段进行检索时,会使用到全文索引。MySQL提供全文索引机制,但是有要求,要求表的存储引擎必须是MyISAM,而且默认的全文索引支持英文,不支持中文。如果对中文进行全文检索
mysql> CREATE TABLE articles (-> id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,-> title VARCHAR(200),-> body TEXT,-> FULLTEXT (title,body)--创建全文索引-> )engine=MyISAM;mysql> INSERT INTO articles (title,body) VALUES-> ('MySQL Tutorial','DBMS stands for DataBase ...'),-> ('How To Use MySQL Well','After you went through a ...'),-> ('Optimizing MySQL','In this tutorial we will show ...'),-> ('1001 MySQL Tricks','1. Never run mysqld as root. 2. ...'),-> ('MySQL vs. YourSQL','In the following database comparison ...'),-> ('MySQL Security','When configured properly, MySQL ...');mysql> select * from articles;
+----+-----------------------+------------------------------------------+
| id | title | body |
+----+-----------------------+------------------------------------------+
| 1 | MySQL Tutorial | DBMS stands for DataBase ... |
| 2 | How To Use MySQL Well | After you went through a ... |
| 3 | Optimizing MySQL | In this tutorial we will show ... |
| 4 | 1001 MySQL Tricks | 1. Never run mysqld as root. 2. ... |
| 5 | MySQL vs. YourSQL | In the following database comparison ... |
| 6 | MySQL Security | When configured properly, MySQL ... |
+----+-----------------------+------------------------------------------+
--使用如下查询方式,虽然查询出数据,但是没有使用到全文索引:
mysql> select * from articles where body like '%database%';
+----+-------------------+------------------------------------------+
| id | title | body |
+----+-------------------+------------------------------------------+
| 1 | MySQL Tutorial | DBMS stands for DataBase ... |
| 5 | MySQL vs. YourSQL | In the following database comparison ... |
+----+-------------------+------------------------------------------+
--使用explain 检查是否使用了索引
mysql> explain select * from articles where body like '%database%'\G
*************************** 1. row ***************************id: 1select_type: SIMPLEtable: articlespartitions: NULLtype: ALL
possible_keys: NULLkey: NULLkey_len: NULL--key为nul,表示没有使用索引ref: NULLrows: 6filtered: 16.67Extra: Using where--使用全文索引
--返回在"title"和"body"列中包含"database"关键词的所有文章记录。
mysql> select * from articles where match(title,body) against('database');
+----+-------------------+------------------------------------------+
| id | title | body |
+----+-------------------+------------------------------------------+
| 5 | MySQL vs. YourSQL | In the following database comparison ... |
| 1 | MySQL Tutorial | DBMS stands for DataBase ... |
+----+-------------------+------------------------------------------+mysql> explain select * from articles where match(title,body) against('database')\G
*************************** 1. row ***************************id: 1select_type: SIMPLEtable: articlespartitions: NULLtype: fulltext--索引类型
possible_keys: titlekey: title--使用了titlekey_len: 0ref: constrows: 1filtered: 100.00Extra: Using where
索引的其他查找方式
--方式一
show keys from 表名;
--方式二:常用
show index from 表名;
----方式三
desc 表名;mysql> show index from test1\G;
*************************** 1. row ***************************Table: test1Non_unique: 0Key_name: PRIMARY--索引名称Seq_in_index: 1Column_name: id--以id列为索引构建的B+树Collation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREE--索引类型(B+树)Comment:
Index_comment:
索引的删除
删除主键索引
alter table 表名 drop primary key;
其他索引的删除
--索引名就是show keys from 表名中的 Key_name 字段
alter table 表名 drop index 索引名;
--drop index 索引名 on 表名
mysql> drop index name on user9;
索引创建原则
有主键和唯一键约束的字段自带索引
某一列频繁的被作为查询条件
唯一性太差的列不适合作为索引,即使这一列被频繁查询
更新频繁的字段不适合作为索引
不会出现在where子句中的字段不该创建索引