MySQL查询执行(二):order by工作原理

假设你要查询城市是“杭州”的所有人名字, 并且按照姓名排序返回前1000个人的姓名、 年龄。

假设这个表的部分定义是这样的:

-- 创建表t
CREATE TABLE `t` (`id` int(11) NOT NULL,`city` varchar(16) NOT NULL,`name` varchar(16) NOT NULL,`age` int(11) NOT NULL,`addr` varchar(128) DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `city` (`city`)) ENGINE=InnoDB;

这时, 你的SQL语句可以这么写:

select city, name, age from t where city='杭州' order by name limit 1000;

全字段排序


为避免全表扫描, 我们需要在city字段加上索引。在city字段上创建索引之后, 我们用explain命令来看看这个语句的执行情况。

Extra这个字段中的“Using filesort”表示的就是需要排序, MySQL会给每个线程分配一块内存用于排序, 称为sort_buffer。

为了说明这个SQL查询语句的执行过程, 我们先来看一下city这个索引的示意图。

通常情况下, 这个语句执行流程如下所示(即全字段排序流程):

1)初始化sort_buffer, 确定放入name、 city、 age这三个字段;

2)从索引city找到第一个满足city='杭州’条件的主键id, 也就是图中的ID_X;

3)到主键id索引取出整行, 取name、 city、 age三个字段的值, 存入sort_buffer中;

4)从索引city取下一个记录的主键id;

5)重复步骤3、 4直到city的值不满足查询条件为止, 对应的主键id也就是图中的ID_Y;

6)对sort_buffer中的数据按照字段name做快速排序;

7)按照排序结果取前1000行返回给客户端。

全字段排序示意图:

注:图中“按name排序”这个动作, 可能在内存中完成, 也可能需要使用外部排序, 这取决于排序所需的内存和参数sort_buffer_size。

sort_buffer_size, 就是MySQL为排序开辟的内存(sort_buffer) 的大小。 如果要排序的数据量小于sort_buffer_size, 排序就在内存中完成。 但如果排序数据量太大, 内存放不下, 则不得不利用磁盘临时文件辅助排序。

问1:什么是sort_buffer?

答:sort buffer是MySQL Server层的一种优化。

1)MySQL会给每个线程分配一块内存用于排序,称为sort_buffer。

2)sort_buffer_size:决定sort_buffer的大小,默认:256KB。

  • 如果要排序的数据量小于sort_buffer_size,排序就在内存中完成。
  • 如果排序数据量太大,内存放不下,则不得不利用磁盘临时文件辅助排序。

3)max_sort_length:决定了放入sort_buffer的一行数据的最大长度,默认:1KB。

4)判断策略:MySQL根据 sort_buffer_size / max_sort_length 估算出sort_buffer可容纳的行数;然后与实际待排序的行数比较,如果待排序行数小于该行数,则在内存排序。

5)可通过HINT显式指定一个语句的sort_buffer大小,比如:

select /*+ SET_VAR(sort_buffer_size = 10M)*/  host, user from mysql.user orderby user desc;

问2:sort_buffer和innodb_sort_buffer的区别是什么?

  1. innodb_sort_buffer:是在执行DML语句时,执行数据更新时,对数据进行排序,然后写入磁盘,以此使得数据能够尽可能”按顺序”插入B+树,以提升性能。
  2. innodb_sort_buffer_size:决定了innodb_sort_buffer的大小,默认:1MB。

问3:如何确定一个排序语句是否使用了临时文件?

答:

/* 打开optimizer_trace,只对本线程有效 */
SET optimizer_trace='enabled=on'; /* @a保存Innodb_rows_read的初始值 */
select VARIABLE_VALUE into @a from  performance_schema.session_status where variable_name = 'Innodb_rows_read';/* 执行语句 */
select city, name, age from t where city='杭州' order by name limit 1000; /* 查看 OPTIMIZER_TRACE 输出 */
SELECT * FROM `information_schema`.`OPTIMIZER_TRACE`\G/* @b保存Innodb_rows_read的当前值 */
select VARIABLE_VALUE into @b from performance_schema.session_status where variable_name = 'Innodb_rows_read';/* 计算Innodb_rows_read差值 */
select @b-@a;

这个方法是通过查看 OPTIMIZER_TRACE 的结果来确认的, 你可以从 number_of_tmp_files中看到是否使用了临时文件。

number_of_tmp_files表示的是, 排序过程中使用的临时文件数。 你一定奇怪, 为什么需要12个文件? 内存放不下时, 就需要使用外部排序, 外部排序一般使用归并排序算法。 可以这么简单理解, MySQL将需要排序的数据分成12份, 每一份单独排序后存在这些临时文件中。 然后把这12个有序文件再合并成一个有序的大文件。

如果sort_buffer_size超过了需要排序的数据量的大小, number_of_tmp_files就是0, 表示排序可以直接在内存中完成。否则就需要放在临时文件中排序。 sort_buffer_size越小, 需要分成的份数越多, number_of_tmp_files的值就越大。

注1:当sort_buffer_size小于需要排序的数据量的大小时,排序流程为:

  1. 把待排序的数据读入sort_buffer,直到读满为止。
  2. 对sort_buffer中的数据进行排序,并把排好序的数据存在一个临时文件中(每一份单独排序后的数据存放到一个临时文件中)。
  3. 清空sort_buffer,继续往sort_buffer中读入剩余待排序数据。
  4. 跳转至步骤二(直至处理完所有数据)。
  5. 最后,对所有临时文件使用归并排序方法进行排序。

注2:对于InnoDB表来说, 执行全字段排序会减少磁盘访问, 因此会被优先选择。

rowid排序


全字段排序算法只对原表的数据读了一遍, 剩下的操作都是在sort_buffer和临时文件中执行的。 但这个算法有一个问题, 就是如果查询要返回的字段很多的话, 那么sort_buffer里面要放的字段数太多, 这样内存里能够同时放下的行数很少, 要分成很多个临时文件, 排序的性能会很差。

问1:如果MySQL认为排序的单行长度太大会怎么做呢?

答:如果MySQL认为单行太大, 它会换一个算法。什么时候换算法由参数max_length_for_sort_data决定。

max_length_for_sort_data, 是MySQL中专门控制用于排序的行数据的长度的一个参数。 它的意思是, 如果单行的长度超过这个值, MySQL就认为单行太大, 要换一个算法。

假设city、 name、 age这三个字段的定义总长度是36, 我把max_length_for_sort_data设置为16(如下所示), 我们再来看看计算过程有什么改变。

// 把用于排序的行数据长度设为16
SET max_length_for_sort_data = 16;

新算法放入sort_buffer的字段, 只有要排序的列( 即name字段) 和主键id。

但这时, 排序的结果就因为少了city和age字段的值, 不能直接返回了, 整个执行流程就变成如下所示的样子(rowid排序):

1)初始化sort_buffer, 确定放入两个字段, 即name和id;

2)从索引city找到第一个满足city='杭州’条件的主键id, 也就是图中的ID_X;

3)到主键id索引取出整行, 取name、 id这两个字段, 存入sort_buffer中;

4)从索引city取下一个记录的主键id;

5)重复步骤3、 4直到不满足city='杭州’条件为止, 也就是图中的ID_Y;

6)对sort_buffer中的数据按照字段name进行排序;

7)遍历排序结果, 取前1000行, 并按照id的值回到原表中取出city、 name和age三个字段返回给客户端。

rowid排序示意图:

问2:根据这个说明过程和图示, 你可以想一下, 这个时候执行select @b-@a, 结果会是多少呢?

rowid排序的OPTIMIZER_TRACE部分输出:

图中的examined_rows的值还是4000, 表示用于排序的数据是4000行。 但是select @b- @a这个语句的值变成5000了。因为排序后需要输出的1000行数据都需要回表操作,所以多了1000行。

注:

  1. sort_mode变成了, 表示参与排序的只有name和id这两个字段。
  2. number_of_tmp_files变成10了, 是因为这时候参与排序的行数虽然仍然是4000行, 但是每一行都变小了, 因此需要排序的总数据量就变小了, 需要的临时文件也相应地变少了。

全字段排序 VS rowid排序


因为rowid排序涉及回表,因此在内存够用的情况下优先选择全字段排序。

这也是MySQL的一个设计思想:如果内存够用,就要多利用内存,尽量减少磁盘访问。

对于InnoDB表来说, rowid排序会要求回表多造成磁盘读, 因此不会被优先选择。

由此得出MySQL做排序是一个成本比较高的操作。

问:是不是所有的order by都需要排序操作呢?

答:并不是所有的order by语句, 都需要排序操作的。

从上面分析的执行过程, 我们可以看到, MySQL之所以需要生成临时表, 并且在临时表上做排序操作, 其原因是原来的数据都是无序的。

如果能够保证从city这个索引上取出来的行, 天然就是按照name递增排序的话,那么就不用再排序了。

利用索引减少排序

就前面的表t而言,可以在该表上创建一个city和name的联合索引, 对应的SQL语句是:

alter table t add index city_user(city, name);

作为与city索引的对比, 我们来看看这个索引的示意图。

在联合索引下,只要city的值是杭州, name的值就一定是有序的。

整个查询过程如下:

  1. 从索引(city, name)找到第一个满足city='杭州’条件的主键id。
  2. 到主键id索引取出整行, 取name、 city、 age三个字段的值, 作为结果集的一部分直接返回。
  3. 从索引(city, name)取下一个记录主键id。
  4. 重复步骤2、 3, 直到查到第1000条记录, 或者是不满足city='杭州’条件时循环结束。

联合索引查询示意图:

可以看到, 这个查询过程不需要临时表, 也不需要排序。 接下来, 我们用explain的结果来印证一下。

从图中可以看到, Extra字段中没有Using filesort了, 也就是不需要排序了。 而且由于(city,name)这个联合索引本身有序, 所以这个查询也不用把4000行全都读一遍, 只要找到满足条件的前1000条记录就可以退出了。 也就是说, 在我们这个例子里, 只需要扫描1000次。

覆盖索引减少回表

虽然上述联合索引可以避免排序,但仍存在回表操作,仍会有磁盘IO消耗。

针对这个查询, 我们可以创建一个city、 name和age的联合索引, 对应的SQL语句就是:

alter table t add index city_user_age(city, name, age);

这时, 对于city字段的值相同的行来说, 还是按照name字段的值递增排序的, 此时的查询语句也就不再需要排序了。

这样整个查询语句的执行流程就变成了:

  1. 从索引(city,name,age)找到第一个满足city='杭州’条件的记录, 取出其中的city、 name和age这三个字段的值, 作为结果集的一部分直接返回;
  2. 从索引(city,name,age)取下一个记录, 同样取出这三个字段的值, 作为结果集的一部分直接返回;
  3. 重复执行步骤2, 直到查到第1000条记录, 或者是不满足city='杭州’条件时循环结束。

覆盖索引查询执行示意图:

再来看看explain的结果

可以看到, Extra字段里面多了“Using index”, 表示的就是使用了覆盖索引, 性能上会快很多。

注:并不是说要为了每个查询能用上覆盖索引, 就要把语句中涉及的字段都建上联合索引, 毕竟索引还是有维护代价的。 这是一个需要权衡的决定。

小结:思考题


假设你的表里面已经有了city_name(city, name)这个联合索引, 然后你要查杭州和苏州两个城市中所有的市民的姓名, 并且按名字排序, 显示前100条记录。 如果SQL查询语句是这么写的 :

select * from t where city in ('杭州',"苏州") order by name limit 100;

思考1:这个语句执行的时候会有排序过程吗?

答:有排序。虽然有(city,name)联合索引, 对于单个city内部, name是递增的。 但是由于这条SQL语句不是要单独地查一个city的值, 而是同时查了"杭州"和" 苏州 "两个城市, 因此所有满足条件的name就不是递增的了。 也就是说, 这条SQL语句需要排序。

思考2:如何避免排序?

答:用到(city,name)联合索引的特性, 把这一条语句拆成两条语句(将结果集在业务端排序,取前100条), 执行流程如下:

1)执行select * from t where city=“杭州” order byname limit 100; 这个语句是不需要排序的, 客户端用一个长度为100的内存数组A保存结果。

2)执行select * from t where city=“苏州” order byname limit 100; 用相同的方法, 假设结果被存进了内存数组B。

3)现在A和B是两个有序数组, 然后你可以用归并排序的思想, 得到name最小的前100值, 就是我们需要的结果了。

思考3:如果有分页需求,要显示第101页,即语句最后要改成 “limit 10000,100”,如何实现?

分别执行如下两条语句,将结果集在业务端排序,取前100条;

select * from t where city in ('杭州') order by name limit 10100;
select * from t where city in ("苏州") order by name limit 10100;

这时候数据量较大, 可以同时起两个连接一行行读结果, 用归并排序算法拿到这两个结果集里,按顺序取第10001~10100的name值, 就是需要的结果了。

当然这个方案有一个明显的损失, 就是从数据库返回给客户端的数据量变大了。所以, 如果数据的单行比较大的话, 可以考虑把这两条SQL语句改成下面这种写法:

select id, name from t where city="杭州" order by name limit 10100;
select id, name from t where city="苏州" order by name limit 10100;

然后, 再用归并排序的方法取得按name顺序第10001~10100的name、 id的值, 然后拿着这100个id到数据库中去查出所有记录。

上面这些方法, 需要你根据性能需求和开发的复杂度做出权衡。

思考4:无条件的order by语句是否走索引?

场景1)只有order by create_time,即便create_time上有索引,也不走。

因为优化器认为走二级索引再去回表成本比全表扫描排序更高。所以选择走全表扫描,然后根据前述两种排序方式选择一种来排序。

场景2)order by create_time limit m,如果m值较小,可以走索引。

因为优化器认为根据索引有序性去回表查数据,然后得到m条数据,就可以终止循环,那么成本比全表扫描小,则选择走二级索引。

即便没有二级索引,mysql针对order by limit也做了优化,采用堆排序。

注:说白了都是基于CBO的考量。

思考5:使用group by语句是否走索引?

场景1)如果是group by a,a上不能使用索引,则走rowid排序。

场景2)如果是group by limit,不能使用索引,则走堆排序。

场景3)如果是只有group by a,a上有索引,则根据选取值不同,索引的扫描方式不同:

  1. select * from t group by a -- 走索引全扫描。
  2. select a from t group by a --走的是索引松散扫描,也就说只需要扫描每组的第一行数据即可,不用扫描每一行的值。

思考6:bigint/int类型,在其后加数字是否影响其占用空间大小?

答:不影响,bigint(1)和bigint(19)都能存储2^64-1范围内的值,int是2^32-1。只是有些前端会根据括号里来截取显示而已。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/49651.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker 搭建Elasticsearch详细步骤

本章教程使用Docker搭建Elasticsearch环境。 一、拉取镜像 docker pull docker.elastic.co/elasticsearch/elasticsearch:8.8.2二、运行容器 docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-n

maven clean报错:Failed to delete xxxxx\target\xxxx.jar

问题描述 今天使用maven的clean命令时候出错如下: 分析问题 target文件可能时编译的文件被其他程序占用,导致资源无法回收 解决问题 1 打开任务管理器 右键任务栏。进入任务管理器 点击详细信息 2 进入 点击性能,点击打开资源监视器 …

推荐2024年大家都在用的4款ai写作免费神器

最近公司年中总结,要写好多像工作报告,工作计划之类的文件。我尝试着使用AI写作工具帮助,没想到效果意外的好,省事又省力。如果你也有和我一样的烦恼的话,可以去使用这4个写作工具,都是可以免费使用的。 1、…

错误代码0x80070035是什么情况?针对错误代码0x80070035的解决方法

错误代码 0x80070035 通常与网络连接和文件共享有关,表示“找不到网络路径”。这个问题可能由多种原因引起,包括网络设置不当、服务未启动、注册表配置错误等。今天这篇文章就和大家分享几种针对错误代码0x80070035的解决方法。 针对错误代码0x80070035问…

express连接mysql

一、 安装express npm install express --save二、express配置 //引入 const express require("express"); //创建实例 const app express(); //启动服务 app.listen(8081, () > {console.log("http://localhost:8081"); });三、安装mysql npm i m…

简过网:大学生考公,一定要先好好看看这篇文章!

大家好,我是简过网,今天这篇文章我们来聊聊关于大学生考公的那些事儿,希望能给大学生们一点点的帮助! 首先,可能有朋友会问了,大学生一般从什么时候开始备考公务员呢,在这里小编建议大家从大三…

mysql1055报错解决方法

目录 一、mysql版本 二、 问题描述 三、解决方法 1.方法一(临时) 2.方法二(永久) 一、mysql版本 mysql版本:5.7.23 二、 问题描述 在查询时使用group by语句,出现错误代码:1055&#xf…

FastAPI(七十四)实战开发《在线课程学习系统》接口开发-- 删除留言

源码见:"fastapi_study_road-learning_system_online_courses: fastapi框架实战之--在线课程学习系统" 之前文章FastAPI(七十三)实战开发《在线课程学习系统》接口开发-- 回复留言,那么我们这次分享删除留言接口的开发…

MySQL可重复读的隔离机制下是否彻底解决了幻读?

答案:没有彻底解决。 一、什么是幻读? 当同一个查询在不同时间产生不同的结果集时,事务中就会出现幻读问题。 幻读关注的是记录数量的不同。 不可重复读关注的是记录内容的不同。 二、快照读和当前读 InnoDB引擎的默认隔离级别是可重复读&…

搭建自己的金融数据源和量化分析平台(四):自动化更新上市公司所属一级、二级行业以及股票上市状态

前面做了更新沪深交易所的上市股票列表的读取和更新,但一旦股票退市则需要在数据库里将该股票状态更新为退市,同时附上退市日期,将股票名更改为XX退。 此外深交所下载的xls解析出来是没有上市公司所属的二级行业的,因此还需要建立…

鸿蒙仓颉语言之【安全密码库crypto4cj】功能示例

功能示例 MD5使用样例 from crypto4cj import md5cj.*main() { var md: Array<UInt8> Array<UInt8>(16, item: 0)var result: String String(Array<Char>(33, item: 0))var str: String "helloworld"var ret md5(str.toUtf8Array(), md)r…

不支持jdk8的jenkins部署jdk8项目

1、背景 目前最新的jenkins必须基于jdk8以上&#xff0c;才能安装。jenkins最新的插件部分也不支持jdk8了。 2、全局工具配置 配置一个jdk8 配置一个jdk8以上的版本&#xff0c;如jdk17 3、部署maven项目 jdk17项目 可以直接使用maven插件&#xff0c;部署。 jdk8项目 由…

git等常用工具以及cmake

一、将git中的代码克隆进电脑以及常用工具介绍 1.安装git 首先需要安装git sudo apt install git 注意一定要加--recursive&#xff0c;因为文件中有很多“引用文件“&#xff0c;即第三方文件&#xff08;库&#xff09;&#xff0c;加入该选项会将文件中包含的子模…

C嘎嘎浅谈模板

这篇文章给大家介绍一下c嘎嘎内存管理和模板&#xff0c;那么我们直接进入正题 c/c的程序内存分布 这里的了解一下即可 new和delete的定义和操作 格式&#xff1a;类型* 对象名 new 类型&#xff1b; 数组(对象)定义格式&#xff1a;类型* 对象名 new 类型[元素个数]&…

NOIP图论 最小生成树——Prim算法(详细图解)

最小生成树的概念 经典题目 prim算法简介 prim算法解析 &#xff08;详细图解&#xff09; 代码实现 代码实战 最小生成树的概念 在一给定的无向图G (V, E) 中&#xff0c;(u, v) 代表连接顶点 u 与顶点 v 的边&#xff0c;而 w(u, v) 代表此的边权重&#xff0c;若存在 …

Kali中docker与docker-compose的配置

权限升级 sudo su 升级为root用户 更新软件 apt-get update安装HTTPS协议和CA证书 apt-get install -y apt-transport-https ca-certificates下载docker apt下载docker apt install docker.io 验证docker安装是否成功 查版本 docker -v 启动docker systemctl start …

QT自定义无边框窗口(可移动控制和窗口大小调整)

QT是一个功能强大的跨平台开发框架&#xff0c;它提供了丰富的界面设计工具和组件。在界面开发中&#xff0c;QT窗口自带的标题栏无法满足我们的需求。我们就需要自定义无边框窗口&#xff0c;包括自定义标题栏和窗口大小调整功能。本文将介绍如何在QT中实现这些功能。 一、简…

Java代码基础算法练习-计算握手次数-2024.07.27

任务描述&#xff1a; 有n(0<n<50)个同学聚会&#xff0c;如果见面时&#xff0c;每个人都要跟其他人握手1次&#xff0c;请计算一共握手多少次? 解决思路&#xff1a; 为了计算在一次聚会上 n 个人相互之间握手的总次数&#xff0c;我们可以采用组合数学的方法。给定 …

【QT】TCP

目录 核心API 示例&#xff1a;服务器和客户端信息互发 服务器代码实现 第一步&#xff1a;创建QTcpServer对象的实例 第二步&#xff1a;绑定信号槽&#xff0c;处理新的连接 第三步&#xff1a;绑定并监听端口号 客户端代码实现 第一步&#xff1a;创建socket对象的实…

financial是“财务”吗-《分析模式》漫谈14

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 “Analysis Patterns”的Preface&#xff08;前言&#xff09;有这么一句&#xff1a; David Creager, Steve Shepherd, and their team at Citibank worked with me in developing t…