结合数据索引结构看SQL的真实执行过程

引言

关于数据库设计与优化的前几篇文章中,我们提到了数据库设计优化应该遵守的指导原则、数据库底层的索引组织结构、数据库的核心功能组件以及SQL的解析、编译等。这些其实都是在为SQL的优化、执行的理解打基础。
今天这篇文章,我们以MySQL中InnoDB存储引擎中的数据索引组织及一条SQL的物理执行过程,来更直观的理解数据库中我们提交一条SQL后,数据库默默帮我们做的事情。

准备工作

我们依然以前一篇文章中的t_customer表为例,建表语句如下:

create table t_customer(id int not null auto_increment comment '会员id',name varchar(32) comment '会员姓名',gender tinyint not null default 0 comment '会员性别:0未知,1男,2女',city varchar(32) comment '会员所在城市',primary key(`id`),key `idx_city` (`city`)
) comment '会员信息表';

然后我们编写一个Python脚本,利用Faker框架,来生成测试数据:

import random
from faker import Faker
from faker.providers import BaseProvider
import pymysql
import db_config as db_cfgprint(db_cfg.host)conn = pymysql.connect(host=db_cfg.host, port=db_cfg.port, user=db_cfg.user, password=db_cfg.password,database=db_cfg.database)
cursor = conn.cursor()
sql = "insert into t_customer(name, gender, city) values('{}', {}, '{}')"class GenderProvider(BaseProvider):def gender(self):return random.sample([1, 2, 0], counts=[100, 100, 1], k=1)[0]# 指定语言环境为中文环境,创建Faker生成器
fk = Faker('zh_CN')
fk.add_provider(GenderProvider)
for i in range(10000):cursor.execute(sql.format(fk.name(), fk.gender(), fk.city()))
conn.commit()
cursor.close()
conn.close()

测试数据大概如下:

其实这里我们只是从数据组织结构上展开SQL的执行,没有测试数据也没啥影响。不过,还是强烈建议感兴趣的了解下Python,很好用,很好玩。这里不再展开,需要理解的可以看下笔者关于Python的相关系列文章。

B+树的索引组织结构

简单说下B+树索引

B+树索引,就是传统意义上的索引,也是目前关系型数据库系统中查找最为常用和最有效的索引。
需要注意的是,从使用的角度来看,B+树索引的构造类似于二叉树,根据键值(key value)能够快速找到相应的数据。但是,有几个细节需要提一下:

  • B+树中的B不是表示二叉(binary),而是代表平衡(balance),因为B+树是从最早的平衡二叉树演化而来的,但是B+树不是一个二叉树
  • 树结构的索引,只有是平衡树,才能降低树的高度,从而降低基于索引检索的磁盘IO的次数
  • B+树索引,实际上并不能通过一个给定的键值查到具体的某一行数据,而是只能找到被查找符合键值的数据所在的页,这些数据按照键值顺序进行组织存储。然后数据库通过把页读入内存,然后在内存中执行进一步的查找操作,最终得到要查找的数据。后续我们简化一下操作,假设每个页都只存储一条数据,以便更好地进行表述、理解
  • 关于数据以页为单位进行读取,前面的文章中已经提到,可以更好地利用程序的局部性原理,从而提高检索的效率
t_customer的索引结构

引言中已经提到,我们这里以MySQL的InnoDB存储引擎为例进行介绍,其他数据库中的底层原理也基本类似。
从前面的建表语句中,可以看出t_customer有两个索引:

  • 主键索引 id,是聚簇索引(Clustered Index)
  • idx_city,是辅助索引(Secondary Index)

索引的示意图大概如下:

前面已经提到,我们简化一下,一个页只存储一条数据。
辅助索引的叶子结点,存储的都是该索引的键值及对应的主键的值;
聚簇索引的叶子节点,存储的都是一行行完整的数据。

SQL执行过程

接下来,我们将要执行的是这样一条SQL语句:

select id,name 
from t_customer 
where city = '合肥' and gender = 1

假设数据库的优化器最终决定要走idx_city这个索引,进行SQL的执行,主要的执行过程大概如下:

  • 从索引idx_city中找到第一个满足city = '合肥'的主键id;
  • 到主键id索引中取出整行,将id, name, gender取出,如果gender = 1 则将id, name的值放入内存缓冲区;
  • 重复前两个步骤,直到在idx_city索引中找到的city值不满足查询条件为止
  • 将内存缓冲区的数据返回给用户

上面的这条SQL,首先从idx_city索引中找到主键id,然后再到聚簇索引中找到整行记录,然后还要判断是否符合条件,再决定是否返回改行数据。这种查询场景,叫做”回表“。
回表的操作,会增加磁盘IO的次数,如果辅助索引结构中已经包含了用户需要的所有字段,则可以避免回表的操作,这时候的索引叫做”覆盖索引“。

下面,我们对这条SQL稍微修改一下:

select id,name 
from t_customer 
where city = '合肥' and gender = 1
order byname 
limit 100

现在这条要执行的SQL中,添加了排序及limit操作,执行的过程会发生相应的调整,假设优化器还是选择了要走idx_city这个索引:

  • 从索引idx_city中找到第一个满足city = '合肥'的主键id;
  • 到主键id索引中取出整行,将id, name, gender取出,如果gender = 1 则将id, name的值放入排序缓冲区sor_buffer中;
  • 重复前两个步骤,直到在idx_city索引中找到的city值不满足查询条件为止
  • 对sort_buffer中的数据按照字段name进行快速排序;
  • 按照排序结果的数据取出前100条,返回给用户

其实,涉及到排序的话,问题会突然变得复杂起来,这里简单描述下,可能的情况:
1、符合条件的行数很多,sort_buffer中放不下,这时候就不能直接基于内存的排序算法进行了,就需要我们前面文章提到的TPMMS的算法了,进行基于磁盘的多路归并排序;
2、加入最终返回的字段比较多,执行引擎在执行的过程中,可能决定不将所有字段都放入sort_buffer,可能只放主键id和参与排序的字段,然后排序完成之后,需要再按序进行一次回表的操作,获取用户需要的所有字段,然后再返回给用户。基于是否将所有字段放入sort_buffer中,排序的操作符可以简单分为全字段排序和rowid排序。

实际上SQL的执行要考虑的真实场景比较复杂,本文为了便于描述与理解,做了相应的简化,感兴趣的可以自行研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/38465.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vim卡死

有些时候使用vim的时候莫名其妙的会卡死,导致输入不了内容。查了一下资料发现,其实并不是vim卡死,而是在使用vim的工程中带入了许多Windows上的使用习惯,比如“Ctrl-s”保存等,这可能会与Linux平台的有些快捷键冲突。c…

Oracle PL / SQL 表 table

关系数据库允许您在数据库管理系统(DBMS)中存储多个表。 您可以使用计算机上的查询语言来操作表中的数据。 当前的查询语言是结构化查询语言(SQL)。 SQL是一组无关的命令,用于操作关系数据库管理系统(RD…

CleanMyMacX2024免费且强大的mac电脑系统优化工具

如果你的Mac电脑出现了存储空间不足、运行缓慢、电池电量消耗过快等问题,那么CleanMyMacX这款软件或许能为你提供解决方案。作为一款强大的系统优化工具,它能够帮助用户清理垃圾文件、优化内存和电池使用,从而提升Mac的性能表现,让…

后端之路第三站(Mybatis)——XML文件操作sql

一、XML映射文件是啥 前面我们学过了在Mapper接口用注解的方式来操作sql语句 那么XML映射文件就另一种操作sql语句的方法 为什么还要有这么个玩意? 我简单说就是:如果有的sql特别复杂的话,比如需要【动态sql】的话,就得用到XM…

【Android面试八股文】Fragment的add和replace的区别,分别对Fragment的生命周期有什么影响?

文章目录 一、Fragment的add和replace的区别 ,分别对Fragment的生命周期有什么影响?1.1 `add` 方法1.2 `replace` 方法1.3 应用场景1.4 Fragment事务操作提交流程1.5 replace操作的本质是不是就是remove操作和add操作的组合?1.6 示例代码:将一个已经存在的 `FragmentA` 替换…

电脑开机之后,键盘鼠标需要重新插拔才能正常使用?

前言 小白平时修电脑修得多,总是会遇到各种各样的奇葩问题。这不,又有一位小伙伴来咨询:电脑开机之后,键盘鼠标都不能用,需要重新插拔一下才能正常使用。 啧啧啧,真的是很奇怪的问题,基本上没见…

分页缓存与下拉刷新的整合原理 - DoraPageDatabaseCacheRepository

何为分页缓存? 顾名思义,分页缓存就是边分页边缓存,分页通常使用下拉刷新控件实现,而缓存通常说的是指磁盘缓存,即保存到数据库中,数据库本身也是一个索引文件。 为什么缓存还要分页? 在很大…

SSH 无密登录配置流程

一、免密登录原理 非对称加密: 由于对称加密的存在弊端,就产生了非对称加密,非对称加密中有两个密钥:公钥和私钥。公钥由私钥产生,但却无法推算出私钥;公钥加密后的密文,只能通过对应的私钥来解…

光速入门 Tailwind CSS

文章目录 入门安装IDE 设置使用预编译器生产环境优化 基础概念分层指令tailwindlayerapplyconfig 函数theme()screen() 基础案例怎么设置属性任意值?hover 父元素时,怎么选中子元素添加样式?添加 animation 动画 配置主题 Tailwind CSS 中文网…

.so: file not recognized: file format not recognized

项目场景: 自Linux 4.8起,传统的GPIO sysfs接口被弃用。libgpiod操作gpio的方式感觉更加方便。 但是单板上好像没装这个工具,又到了熟悉的交叉编译环节(痛苦)。 问题描述 按照流程装完libgpiod,自信地去交…

安卓Gradle学习与应用:从入门到实践

引言 在Android开发的世界里,Gradle不仅仅是一个构建工具,它更是一种强大的自动化系统,能够帮助开发者高效地管理项目依赖、编译、测试、打包以及部署。本篇博客旨在深入探讨Gradle在Android开发中的应用,从基础概念到实战技巧&a…

334. 递增的三元子序列

334. 递增的三元子序列 题目链接&#xff1a;334. 递增的三元子序列 代码如下&#xff1a; class Solution { public://贪心bool increasingTriplet(vector<int>& nums) {if(nums.size()<3) {return false;}int firstnums[0],secondINT_MAX;for(int i1;i<…

Go源码--context包

简介 Context 是go语言比较重要的且也是比较复杂的一个结构体&#xff0c;Context主要有两种功能: 取消信号&#xff1a;包括直接取消&#xff08;涉及的结构体&#xff1a;cancelCtx ; 涉及函数&#xff1a;WithCancel&#xff09;和携带截止日期的取消&#xff08;涉及结构…

密室逃脱——收集版

一、原版修改 1、导入资源 Unity Learn | 3D Beginner: Complete Project | URP 2、设置Scene 删除SampleScene&#xff0c;打开UnityTechnologies-3DBeginnerComplete下的MainScene 3、降低音量 (1) 打开Hierarchy面板上的Audio降低音量 (2) 打开Prefabs文件夹&#xf…

Git安装与使用及整合IDEA使用的详细教程

1. 版本控制软件介绍 版本控制软件提供完备的版本管理功能&#xff0c;用于存储、追踪目录&#xff08;文件夹&#xff09;和文件的修改历史&#xff0c;是软件开发者的必备工具&#xff0c;是软件公司的基础设施。版本控制软件的最高目标&#xff0c;是支持软件公司的配置管理…

第三天:LINK3D核心原理讲解【第2部分】

三、 变量 // 点云容器 pcl::PointCloud<pcl::PointXYZI> laserCloud; // 一帧原始点云 pcl::PointCloud<pcl::PointXYZI> cornerPointsLessSharp; // 次极大边线点 pcl::PointCloud<pcl::PointXYZI> surfPointsLessFlat; // 次极小平面点 pcl::PointCloud&…

ubuntu中后台启动一个jar

1.使用 nohup 和 & 启动应用程序&#xff1a; nohup java -jar 你的jar包.jar > output.log 2>&1 &解释&#xff1a; nohup&#xff1a;忽略挂起信号&#xff08;SIGHUP&#xff09;&#xff0c;使进程在退出终端后继续运行。java -jar lxyoj-code-sandbox-…

管理统计学

第1章 统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。 统计学是处理数据的方法论。 参数 表示总体特征的概括性数字度量&#xff0c;是研究者想要了解的总体的某种特征值。 统计量 是用来描述样本特征的概括性数字度量。 常用统计量包括&#xff1a; &#xff…

达梦数据库系列—14. 表空间的备份和还原

目录 1、表空间备份 2、表空间还原 3、表空间恢复 4、增量还原恢复 1、表空间备份 表空间只能在联机状态下进行备份。 BACKUP TABLESPACE TBS BACKUPSET /dm/backup/dm_bak/ts_bak_01; 完全备份 BACKUP TABLESPACE TBS FULL BACKUPSET /dm/backup/dm_bak/ts_full_bak_01…

ESP8266[ 关于-巴发云MQTT/TCP:arduino 设置回调函数 ] 日志2024/6/29

ESP8266 [ 关于-巴发云MQTT/TCP:arduino 设置回调函数 ] 日志2024/6/29 arduino库:#include <PubSubClient.h> 回调函数 是其库设置好的 可以改名字 这里只写上关键代码 设置客户端为 A 关键代码: A.setCallback(回调名) //MQTT 回调处理mqttmsgg(自定义…