【MySQL】索引的机制、使用

        在学习索引知识之前,我们可以先了解一下什么是索引。实际上,索引就是数据库中一个或多个列存储的结构,能够支持数据库管理系统在不扫描整张表的情况下也能查询到数据行,能够大大提升查询效率。举个例子,我们想要找到一本书的某一章节,一页页翻效率肯定是非常低的,而查目录后直接翻到对应页,查找速度就会大大提高,这就是索引起到的作用。

数据库与磁盘

对磁盘的基本理解

        我们知道,数据库是用于为用户提供存储数据服务的,能够支持用户有效地组织、检索和管理数据。那么为了持久化存储数据,就需要把数据存到磁盘中,而磁盘作为机械设备,效率是远低于计算机的其它电子器件的,所以磁盘IO往往是数据库操作的性能瓶颈,所以提升与磁盘交互的效率就成了MySQL要考虑的一个重要问题。

        所以让我们先对磁盘有个基本的了解:

磁盘通常由多个盘片组成,每个盘片包含两个面,两个面都有读写磁头用以访问磁盘数据。我们根据:柱面(cylinder)、磁头(header)、扇区(sector)对应的编号就能够找到所有的扇区位置,读取任何一个扇区的数据了。

上图显示的是一个盘面,盘面中一圈圈的灰色同心圆就是磁道,从圆心向外作直线就能将磁道划分为若干个弧段,每个磁道上的一个弧段称为一个扇区,扇区的大小通常是512字节,但近年来在迁移到4096字节。尽管最新的磁盘已经慢慢让扇区的大小变得不同了,但我们为了简化方便理解,还是认为每个扇区大小是512个字节。

        而我们的数据库文件本质上就是存储在磁盘的一个个扇区当中的,也就是说我们要想访问文件,就需要根据我们前面提到的CHS就能够定位需要访问的扇区了。

        

MySQL与磁盘的交互

        前面我们提到了,磁盘的基本单位是扇区,扇区的大小通常是512字节,那么MySQL一次也是从磁盘中读取512字节吗?其实并不是,首先文件系统从磁盘中读取数据的基本单位是4KB,也称为块,而MySQL访问磁盘必须通过文件系统来访问,所以显然不可能只有512字节。

        我们以MySQL的innodb存储引擎为例,它的IO基本单位是16KB(16 * 1024 = 16384),称为一个page:

page设置得比较大,而不是用多少加载多少的原因在于:

空间局部性原理:如果一个数据被访问,那么它周围的数据有较大的可能会在之后再次被访问

所以说如果MySQL在查询时把这个数据附近的数据一起查询了,有较大可能下次要查询的数据也在这次的查询结果中,这样一来就减少了磁盘IO次数,也就提高了查询效率。

        所以说要想通过局部性原理对查询效率进行优化,在数据库存储数据时,也需要把相关性要的数据存在一起,也就是说MySQL是以page为单位来管理数据的。

总结和基本共识

        在理解索引之前,我们先对前面的知识进行总结并建立一些基本共识:

1. MySQL中的数据文件是以page为单位,保存在磁盘中的

2. 对MySQL的CURD(增删查改)操作需要通过计算来找到插入/删除/查询/修改的位置

3. 涉及到计算操作,就意味着数据要被加载到内存当中,交给CPU来计算

4. 所以说在特定时间内,数据在磁盘和内存中都存在,如果数据在内存中被修改了,就要把内存中的数据刷新到磁盘中,这个IO的基本单位是page

5. 由于数据需要被加载到内存中,MySQL服务器分配了一块称为Buffer Pool的大内存空间来进行和磁盘的数据交互

6. 要优化数据库的效率就必须尽可能减少磁盘IO的次数

对索引的理解

索引结构的优势

        为了帮助大家更直观地理解索引对效率的提升,让我们来看一个简单的例子:

比方说我们要对这一张表进行查询,现在没有索引结构,所以就只能遍历整张表,假设一行记录的大小如下:

则在最坏情况下我们要进行的磁盘IO次数为:(8 + 40 + 8 + 72)*  800 / 512 = 200次

如果我们进行一点小优化,用一个索引表存放数据地址,则大小如下:

则此时在最坏情况下我们要进行的磁盘IO次数为:(8 + 8)* 800 / 512 = 25次

确实是减少了不少的IO次数,但如果数据量再大一些呢,比方说有80000条记录,那么最坏情况下我们需要进行2500次磁盘IO,这依然是比较慢的。

如果我们再此基础上再次建立索引:

则最坏情况下需要进行:(800 / 32 * 16 + 32 * 16)/ 512 = 1.78次

如果我们把这个索引结构倒过来,其实就非常像一棵B+树了:

前面提到的只是我们自己模拟的一个简单的索引结构,接下来让我们学习一下innodb是如何实现索引的吧。

Page与B+树结构

        前面提到了,访问数据时会把page加载到内存中,MySQL需要管理许多表文件,那么内存中就会有很多page,则数据库必须管理这些page,进行先描述再组织,然后用处理数据结构的方式就能对page进行增删查改了。

        页间目录结构:页目录是页内部的组件,将几条记录分为一组,这样在页内查找记录时,就可以先二分查找快速定位记录在哪个组中,然后在组内线性查找即可找到需要查询的记录。由于单个Page的大小是固定的,当一个Page不够用时,就需要再创建一个Page来保存新的书就,然后用指针将这些页组织起来。

        页间目录结构:如果我们只用前面的链表结构存储Page,那么要查询某一页时,依然需要线性查找,效率还是不够高,所以还需要引入页间目录结构。

        如下图所示,我们可以用值存放目录的页来作为目录页,目录项存放指向的页的最小的数据即可,这样一来我们就能快速定位数据页的位置。

但是目录页依然需要遍历,不过没关系,我们可以再添加一层上级索引:

而这,就是B+树。假设表建好了B+树索引,表中有100万条记录,当我们查询id=5000的记录时:

1. 查询开始时,先访问B+树根节点,如果根节点不在内存中,就从磁盘加载到内存

2. 自顶向下逐层查找,当查找的节点不在内存中时,从磁盘加载到内存

3. 最终找到对应的叶子节点,包含了指向数据页的指针,将数据从磁盘加载到内存即可

为什么选择B+树

        通过前面的学习我们可以发现B+树确实可以提升数据库的性能,那为什么其它数据结构不行呢?

        首先是链表,在查询时只能够线性查找效率过于低下,所以显然不行;然后是二叉树,在某些情况下可能会退化为线性结构,大大降低效率,不够稳定所以也不行;还有AVL树和红黑树,虽然能够保证树的平衡,但是一方面AVL树和红黑树在数据比较多的情况下,树的高度都会比较高,而B+树的索引结构注定了它是矮胖的树,自顶向下进行查找,层高更低也就意味着磁盘IO次数更少,效率更高;那哈希表呢和B树呢?MySQL确实支持用哈希表作为索引结构,但innodb和myisam不支持。虽然哈希表有时候可以达到O(1)的时间复杂度,但不支持范围查找,B树同样不支持范围查找,相比之下,B+树的叶子节点是以双向链表的形式存储起来的,可以非常方便地支持范围查找。

聚簇索引和非聚簇索引

        innodb和myisam都是MySQL中的存储引擎,它们的索引机制也都是通过B+树实现的,但有一点区别,实际上我们前面讲的让叶子节点直接存放数据是innodb实现索引的方式,被称为聚簇索引。而myisam索引使用的B+树的叶子节点不存放数据,只存放数据记录的地址,也就是将索引page和数据page分离,这种方式我们称为非聚簇索引。

聚簇索引:

非聚簇索引:

        口说无凭,让我们实际地来看看两者之间的差别,我们分别使用innodb和myisam存储引擎建表:

然后在/var/lib/mysql路径下的index_db中可以发现:

.frm文件:存储表的元数据(如定义、结构等),所有存储引擎都会创建该文件

.ibd文件:存储innodb表的实际数据和索引

.myd文件:每个使用myisam的表都有一个.myd文件,存储表中每一行具体内容

.myi文件:每个使用myisam的表都有一个.myi文件,存储表的索引

        我们前面提的索引都是以主键为关键字建立的B+树,其实也可以用其它列来建立索引。假设我们要给表的普通键建立索引,则对于非聚簇索引来说,它的数据页与目录页是分离的,所以再建一棵以唯一键为关键字的B+树花费并不大,即对myisam而言建立主键索引和辅助索引区别不大;而聚簇索引的叶子节点存的就是数据,所以辅助索引的叶子节点不能存数据否则就太浪费了,它的叶子节点存的是主键,通过主键访问主键索引,这样的操作叫做回表查询。

索引的操作

创建索引

主键索引的创建

        第一种方式:

-- 在创建表时,在字段后直接设置主键
create table user1(id int primary key, name varchar(20) not null);

        第二种方式:

-- 在创建表的最后,指定某一列或某几列作为主键
create table user2(id int, name varchar(20) not null, primary key(id));

        第三种方式:

-- 在创建表后,添加某一列或某几列为主键
create table user3(id int, name varchar(20) not null);
alter table user3 add primary key(id);

主键索引的特点:

1. 一个表最多有一个主键索引,效率高

2. 建立主键索引的列的值不能为null,且不能重复

3. 建立主键索引的类型一般为int

唯一索引的创建

        第一种方式:

-- 创建表时,直接设置唯一键
create table user4(id int primary key, name varchar(20) unique key);

        第二种方式:

-- 在创建表的最后设置唯一键
create table user5(id int primary key, name varchar(20) not null, unique key(name));

         第三种方式:

-- 在创建完表后,添加唯一键索引
create table user6(id int primary key, name varchar(20) not null);
alter table user6 add unique key(name);

唯一键索引的特点:

1. 一个表可以有多个唯一键索引,效率高

2. 某一列设置唯一键索引,就要保证这一列数据不重复

3. 如果唯一键索引加上not null,等价于主键索引

普通索引的创建

        第一种方式:

-- 在创建表的后面添加普通索引
create table user7(id int primary key, name varchar(20), index(name));

        第二种方式:

create table user8(id int, name varchar(20));
alter table user8 add index(name); -- 创建表后指定某列为普通索引

        第三种方式:

create table user10(id int primary key, name varchar(20), email
varchar(30));
-- 创建一个索引名为 idx_name 的索引
create index idx_name on user10(name);

普通索引的特点:
1. 一个表中可以有多个普通索引,在实际开发中用的比较多

2. 某一列需要建立索引,但存在重复值,此时应该使用普通索引

查询索引

        方法一:

        方法二:

        方法三:

删除索引

        方法一(删除主键索引):

alter table 表名 drop primary key;

        方法二(其他索引):

alter table 表名 drop index 索引名; 索引名就是show keys
from 表名中的 Key_name 字段

        方法三:

mysql> drop index name on user8

创建索引原则

1.需要频繁查找的列应该设置索引

2.唯一性差的列不适合单独创建索引,即使需要频繁查找

3. 更新得频繁的字段不适合创建索引

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/57124.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

信号与噪声分析——第一节-确定信号的分析

目录 1.确定信号的分析 1.1确定信号的分类: 1.周期信号与非周期信号: 周期信号的定义: 性质: 2.能量信号与功率信号: 定义 区别: 3.基带信号与频带信号: 基带信号的定义: …

【RabbitMQ】RabbitMQ 的七种工作模式介绍

目录 1. Simple(简单模式) 2. Work Queue(工作队列) 3. Publish/Subscribe(发布/订阅) 4. Routing(路由模式) 5. Topics(通配符模式) 6. RPC(RPC通信) 7. Publisher Confirms(发布确认) 上一篇文章中我们简单认识了RabbitM1: 【RabbitMQ】RabbitMQ 的概念以及使用Rabb…

IO编程——消息队列

题目&#xff1a; 代码实现&#xff1a; #include <myhead.h> //正文大小 #define MSGSZ (sizeof(struct msgbuf)-sizeof(long)) //定义要发送的消息类型 struct msgbuf{long msgtype; //消息类型char mtext[1024]; //消息正文 };int main(int argc, const char *ar…

linux下建立软链接

深度学习训练中经常会遇到数据量庞大或者工程中模型报错太多导致磁盘空间不够&#xff0c;但是又不想修改原来在代码中写的路径&#xff0c;这个时候制作软连接很有作用&#xff0c;把占用量大的目录移到别的空闲磁盘&#xff0c;然后在原来的目录做一个软连接指向那个移到的空…

k8s ETCD数据备份与恢复

在 Kubernetes 集群中&#xff0c;etcd 是一个分布式键值存储&#xff0c;它保存着整个集群的状态&#xff0c;包括节点、Pod、ConfigMap、Secrets 等关键信息。因此&#xff0c;定期对 etcd 进行备份是非常重要的&#xff0c;特别是在集群发生故障或需要恢复数据的情况下。本文…

Java--集合(三)之vectorlinkedlisthashset结构

文章目录 0.架构图1.vector解析2.LinkedList分析2.1源码分析2.2迭代器遍历的三种方式 3.set接口的使用方法3.1基本使用说明3.2基本遍历方式3.3HashSet引入3.4数组链表模拟3.5hashset扩容机制3.6hashset源码解读3.7扩容*转成红黑树机制**我的理解 0.架构图 1.vector解析 和之前介…

【Vue】Vue3.0(十四)接口,泛型和自定义类型的概念及使用

上篇文章&#xff1a; 【Vue】Vue3.0&#xff08;十三&#xff09;中标签属性ref&#xff08;加在普通标签上、加在组件标签上&#xff09;、局部样式 &#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f916;Vue专栏&#xff1a;点击&#xff01; ⏰️创作时间&…

数据结构——二叉树的基本操作及进阶操作

前言 介绍 &#x1f343;数据结构专区&#xff1a;数据结构 参考 该部分知识参考于《数据结构&#xff08;C语言版 第2版&#xff09;》116 ~ 122页 及 《数据结构教程》201 ~ 213页 重点 树的基本实现并不难&#xff0c;重点在于对递归的理解才是树这部分知识带来的最大收…

python绝对值怎么表示

python abs()函数用于获取数字的绝对值&#xff0c;参数可以是负数、正数、浮点数或者长整形。 语法&#xff1a; abs( x ) 下面是详细参数&#xff1a; X&#xff1a;这是一个数值表达式。 返回值&#xff1a; x的绝对值。 例如&#xff1a; #!/usr/bin/python print &q…

smbms(2)

目录 一、修改密码功能实现 二、优化密码修改&#xff0c;加入旧密码确认环节【使用Ajax】 三、用户管理实现 获取用户数量 获取用户列表 获取角色列表 Servlet 一、修改密码功能实现 1、导入前端素材 2、UserDao接口 3、UserDaoImpl实现类 4、UserService接口 5、Us…

力扣76~80题

题76&#xff08;困难&#xff09;&#xff1a; 分析&#xff1a; 这道题其实不难&#xff0c;但是是我做最久的了&#xff0c;我居然去用res去接所有可能得值&#xff0c;然后再求长度导致空间暴力&#xff0c;我还以为是我queue的问题。。。 最后用暴力求解解的&#xff0c…

【wpf】08 xml文件的存取操作

在使用wpf编程过程中&#xff0c;会用到xml的配置文件&#xff0c;实现对其读取和存储的操作是必须的。 1 xml说明 可扩展标记语言 (Extensible Markup Language, XML) &#xff0c;标准通用标记语言的子集&#xff0c;可以用来标记数据、定义数据类型&#xff0c;是一种允许…

破局汽车基础软件发展丨昂辉科技亮相2024芜湖新能源汽车零部件和后市场生态博览会

10月14—17日&#xff0c;2024芜湖新能源汽车零部件和后市场生态博览会在芜湖市宜居国际博览中心盛大开幕。昂辉科技携新一代EasySAR车载基础软件工具链产品亮相核心零部件展区。 作为新能源汽车行业的一次盛会&#xff0c;本届博览会以“会议论坛展区展示”为特色&#xff0c…

cefsharp79.1.360(Chromium 79.0.3945.130)支持H264视频播放-PDF预览 老版本回顾系列体验

一、关于此版本 版本:Cef 79.1.36/CefSharp 79.1.360/Chromium 79.0.3945.130/支持H264/支持PDF预览 支持PDF预览和H264推荐版本 63/79/84/88/100/111/125 运行环境需要 visual c++ 2015不支持xp/vista/2003/2008默认不支持h264(版权问题)支持打印预览 print preview已知问题…

网络资源模板--Android Studio 实现简易新闻App

目录 一、项目演示 二、项目测试环境 三、项目详情 四、完整的项目源码 一、项目演示 网络资源模板--基于Android studio 实现的简易新闻App 二、项目测试环境 三、项目详情 登录页 用户输入&#xff1a; 提供账号和密码输入框&#xff0c;用户可以输入登录信息。支持“记…

RestHighLevelClient操作es查询文档

目录 利用RestHighLevelClient客户端操作es查询文档 查询match_all dsl语句&#xff1a; ​编辑 java代码 小结 match字段全文检索查询 dsl语句 java代码 multi_match多字段全文检索查询 dsl语句 java代码 term精确查询 dsl语句 java代码 range范围查询 dsl语句 j…

基于SpringBoot的旅店管理系统的设计与实现源码+Vue前端(酒店、民宿、功能较多)

&#x1f497;博主介绍&#x1f497;&#xff1a;✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示&#xff1a;文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…

Windows系统部署redis自启动服务【亲测可用】

文章目录 引言I redis以本地服务运行(Windows service)使用MSI安装包配置文件,配置端口和密码II redis服务以终端命令启动缺点运行redis-server并指定端口和密码III 知识扩展确认redis-server可用性Installing the Service引言 服务器是Windows系统,所以使用Windows不是re…

文献阅读:通过深度神经网络联合建模多个切片构建3D整体生物体空间图谱

文献介绍 文献题目&#xff1a; 通过深度神经网络联合建模多个切片构建3D整体生物体空间图谱 研究团队&#xff1a; 杨灿&#xff08;香港科技大学&#xff09;、吴若昊&#xff08;香港科技大学&#xff09; 发表时间&#xff1a; 2023-10-19 发表期刊&#xff1a; Nature M…

每日OJ题_牛客_[NOIP2001]装箱问题_01背包_C++_Java

目录 牛客_[NOIP2001]装箱问题_01背包 题目解析 C代码 Java代码 牛客_[NOIP2001]装箱问题_01背包 [NOIP2001]装箱问题 (nowcoder.com) 描述&#xff1a; 有一个箱子容量为V&#xff08;正整数&#xff0c;0 ≤ V ≤ 20000&#xff09;&#xff0c;同时有n个物品&…