MySQL与磁盘的交互
根据冯诺依曼结构体系,我们知道我们任何上层的应用想要去访问磁盘就必须要通过内存来访问,MySQL作为一款储存数据的服务,肯定是很多时间要用来访问磁盘。而大量访问磁盘一定会影响运行效率的在innoDB的存储引擎下为了减少对磁盘的访问次数,所以每次与os进行交互时就会16字节进行读写。而磁盘一般在与os进行交互时都是采用4字节交互,所以os一次性也要4kb*4进行读写。
磁盘随机访问(Random Access)与连续访问(Sequential Access)
随机访问:本次IO所给出的扇区地址和上次IO给出扇区地址不连续,这样的话磁头在两次IO操作之间需 要作比较大的移动动作才能重新开始读/写数据,磁头一定会发生移动,这就导致在硬件层面上有时间的损耗。
连续访问:如果当次IO给出的扇区地址与上次IO结束的扇区地址是连续的,那磁头就能很快的开始这次 IO操作,这样的多个IO操作称为连续访问。
因此尽管相邻的两次IO操作在同一时刻发出,但如果它们的请求的扇区地址相差很大的话也只能称为随 机访问,而非连续访问。 磁盘是通过机械运动进行寻址的,连续访问不需要过多的定位,故效率比较高。
而 MySQL 作为一款应用软件,可以想象成一种特殊的文件系统。它有着更高的IO场景,所以,为了提高 基本的IO效率, MySQL 进行IO的基本单位是 16KB ( InnoDB 存储引擎)
也就是说,磁盘这个硬件设备的基本单位是 512 字节,而 MySQL InnoDB引擎 使用 16KB 进行IO交互。 即, MySQL 和磁盘进行数据交互的基本单位是 16KB 。这个基本数据单元,在 MySQL 这里叫做page(注 意和系统的page区分)
总结
1.MySQL是以16kb为单位进行MySQL级别IO。
2.MySQL有自己的buffer pool读写操作都是在buffer pool当中,当操作完数据时再IO进磁盘当中。
3.为了减少IO次数所以一次多读一些数据(也是一种空间换时间的做法。
索引
主键的作用
我们先创建一张表
create table if not exists user (
id int primary key, --一定要添加主键哦,只有这样才会默认生成主键索引
age int not null,
name varchar(16) not null
);
继续插入数据
插入的id列我们是以乱序的方式进行插入
但是进行查表的它却是进行了排序的,其实这就是索引的一个功能,当我们添加了一个主键,他就会根据这个主键的值进行升序排序。
为何要有page
为何MySQL和磁盘进行IO交互的时候,要采用Page的方案进行交互呢?用多少,加载多少不香吗? 如上面的5条记录,如果MySQL要查找id=2的记录,第一次加载id=1,第二次加载id=2,一次一条记录,那 么就需要2次IO。如果要找id=5,那么就需要5次IO。
但,如果这5条(或者更多)都被保存在一个Page中(16KB,能保存很多记录),那么第一次IO查找id=2的时 候,整个Page会被加载到MySQL的Buffer Pool中,这里完成了一次IO。但是往后如果在查找id=1,3,4,5 等,完全不需要进行IO了,而是直接在内存中进行了。所以,就在单Page里面,大大减少了IO的次数。 你怎么保证,用户一定下次找的数据,就在这个Page里面?我们不能严格保证,但是有很大概率,因为有局部性原理。
往往IO效率低下的最主要矛盾不是IO单次数据量的大小,而是IO的次数。
MySQL 中要管理很多数据表文件,而要管理好这些文件,就需要 先描述,在组织 ,我们目前可以简单理解 成一个个独立文件是有一个或者多个Page构成的,再让这些通过指针进行连接。
页目录
当我们查阅一本书时,肯定第一想到的就是通过目录来找到我们需要查阅内容的页数。上面的page里的页目录也就是这个作用。而创建的主键就是来构建这个页目录的,当指定了一个主键之后就会根据这个主键在page里构建这个页目录,所以为什么主键一定是要唯一的呢?主要就是要用来做kv模型k键的唯一值。就类似于书目录的章节对应唯一的页数。
当我们做查找的时候就遍历这些page,通过查key的对应值是否在page表里,取而代之的就是不用便利所有数据(page表的每一个字段)。那么当page表也变得非常多的时候呢?这时候就需要再添加一层page就行了
给Page也带上目录
使用一个目录项来指向某一页,而这个目录项存放的就是将要指向的页中存放的最小数据的键值。 和页内目录不同的地方在于,这种目录管理的级别是页,而页内目录管理的级别是行。
其中,每个目录项的构成是:键值+指针。图中没有画全。
存在一个目录页来管理页目录,目录页中的数据存放的就是指向的那一页中最小的数据。有数据,就可 通过比较,找到该访问那个Page,进而通过指针,找到下一个Page
如果这一层还是太多了呢?那就再加一层
其实也可以看出来了其实这就是一颗b+树。所谓的索引就是一颗B+树(innoDB存储引擎下)
当我们要通过id来查找一行数据时就可以通过id来快速查找。按照上面这种三层模型,我们查找的次数就只会有三次!在一个非常庞大的数据中。
聚簇索引 VS 非聚簇索引
MyISAM 引擎同样使用B+树作为索引结果,叶节点的data域存放的是数据记录的地址。下图为 MyISAM 表的主索引, Col1 为主键。
其中, MyISAM 最大的特点是,将索引Page和数据Page分离,也就是叶子节点没有数据,只有对应数据 的地址。 相较于 InnoDB 索引, InnoDB 是将索引和数据放在一起的
其中, MyISAM 这种用户数据与索引数据分离的索引方案,叫做非聚簇索引,像innoDB这种将数据与索引放在一起的方案就叫聚簇索引。
当然, MySQL 除了默认会建立主键索引外,我们用户也有可能建立按照其他列信息建立的索引,一般这 种索引可以叫做辅助(普通)索引。 对于 MyISAM ,建立辅助(普通)索引和主键索引没有差别,无非就是主键不能重复,而非主键可重复。
下图就是基于 MyISAM 的 Col2 建立的索引,和主键索引没有差别
同样, InnoDB 除了主键索引,用户也会建立辅助(普通)索引,我们以上表中的 Col3 建立对应的辅助 索引如下图:
其实添加一个普通索引不就是再构建一颗B+树吗?及在每棵树的叶子节点里边存的就不再是这一行的数据,而是主键的值,再通过主键再来查找这一行的数据,这并不会损耗太多时间。】
索引操作
创建主键索引
方式一:
-- 在创建表的时候,直接在字段名后指定 primary key
create table user1(id int primary key, name varchar(30));
方式二:
-- 在创建表的最后,指定某列或某几列为主键索引
create table user2(id int, name varchar(30), primary key(id));
方式三:
-- 在创建表的最后,指定某列或某几列为主键索引
create table user2(id int, name varchar(30), primary key(id));
主键索引的特点: 一个表中,最多有一个主键索引,当然可以使符合主键,主键索引的效率高(主键不可重复)
创建主键索引的列 它的值不能为null 且不能重复 主键索引的列基本上是int
唯一索引的创建
方式一:
在表定义时,在某列后直接指定unique唯一属性。
create table user4(id int primary key, name varchar(30) unique);
方式二:
-- 创建表时,在表的后面指定某列或某几列为unique
create table user5(id int primary key, name varchar(30), unique(name));
方式三:
create table user6(id int primary key, name varchar(30));
alter table user6 add unique(name);
唯一索引的特点: 一个表中,可以有多个唯一索引
1.查询效率高 2.如果在某一列建立唯一索引,必须保证这列不能有重复数据 3.如果一个唯一索引上指定not null,等价于主键索引
普通索引的创建
方式一:
create table user8(id int primary key,
name varchar(20),
email varchar(30),
index(name) --在表的定义最后,指定某列为索引
);
方式二:
create table user9(id int primary key, name varchar(20), email
varchar(30));
alter table user9 add index(name); --创建完表以后指定某列为普通索引
方式三:
create table user10(id int primary key, name varchar(20), email
varchar(30));
-- 创建一个索引名为 idx_name 的索引
create index idx_name on user10(name);
普通索引的特点:
1.一个表中可以有多个普通索引,普通索引在实际开发中用的比较多
2.如果某列需要创建索引,但是该列有重复的值,那么我们就应该使用普通索引
补充知识
复合索引
所谓符合索引就是用连个key值组成的页目录。但是他需要满足最左匹配原则
简单举个例子。假如我们创建了一个复合索引index(name,qq),在查找时,1.查name,返回的是qq,2.查(name,qq)返回的是主键,3.不能查qq,意思是只能从最左边开始查,可以联想一下c++的缺省参数,只能从最右边开始省略。
删除索引
第一种方法-删除主键索引: alter table 表名 drop primary key;
第二种方法-其他索引的删除: alter table 表名 drop index 索引名;
索引名就是show keys from 表名中的 Key_name 字段 mysql> alter table user10 drop index idx_name;
第三种方法方法: drop index 索引名 on 表名 mysql> drop index name on user8;
索引创建原则
比较频繁作为查询条件的字段应该创建索引
唯一性太差的字段不适合单独创建索引,即使频繁作为查询条件
更新非常频繁的字段不适合作创建索引 不会出现在where子句中的字段不该创建索引