你知道group by的工作原理和优化思路吗?

前言

日常开发中,我们经常会使用到group by。亲爱的小伙伴,你是否知道group by的工作原理呢?group byhaving有什么区别呢?group by的优化思路是怎样的呢?使用group by有哪些需要注意的问题呢?本文将跟大家一起来学习,攻克group by~

  • 使用group by的简单例子

  • group by 工作原理

  • group by + where 和 having的区别

  • group by 优化思路

  • group by 使用注意点

  • 一个生产慢SQL如何优化

1. 使用group by的简单例子

group by一般用于分组统计,它表达的逻辑就是根据一定的规则,进行分组。我们先从一个简单的例子,一起来复习一下哈。

假设用一张员工表,表结构如下:

CREATE TABLE `staff` (`id` bigint(11) NOT NULL AUTO_INCREMENT COMMENT '主键id',`id_card` varchar(20) NOT NULL COMMENT '身份证号码',`name` varchar(64) NOT NULL COMMENT '姓名',`age` int(4) NOT NULL COMMENT '年龄',`city` varchar(64) NOT NULL COMMENT '城市',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=15 DEFAULT CHARSET=utf8 COMMENT='员工表';

表存量的数据如下:

3770c784d9ebfb924665b3f160e1906c.png

我们现在有这么一个需求:统计每个城市的员工数量。对应的 SQL 语句就可以这么写:

select city ,count(*) as num from staff group by city;

执行结果如下:

e492b463d38989e8d506bb884b14ab33.png

这条SQL语句的逻辑很清楚啦,但是它的底层执行流程是怎样的呢?

2. group by 原理分析

2.1 explain 分析

我们先用explain查看一下执行计划

explain select city ,count(*) as num from staff group by city;
52e12cdeb3ddb123546293b8eaa3e0c1.png
  • Extra 这个字段的Using temporary表示在执行分组的时候使用了临时表

  • Extra 这个字段的Using filesort表示使用了排序

group by 怎么就使用到临时表和排序了呢?我们来看下这个SQL的执行流程

2.2 group by 的简单执行流程

explain select city ,count(*) as num from staff group by city;

我们一起来看下这个SQL的执行流程哈

  1. 创建内存临时表,表里有两个字段citynum

  2. 全表扫描staff的记录,依次取出city = 'X'的记录。

  • 判断临时表中是否有为 city='X'的行,没有就插入一个记录 (X,1);

  • 如果临时表中有city='X'的行的行,就将x 这一行的num值加 1;

  1. 遍历完成后,再根据字段city排序,得到结果集返回给客户端。

这个流程的执行图如下:

8c6f30cea43cf67a6fdc389707768915.png

临时表的排序是怎样的呢?

就是把需要排序的字段,放到sort buffer,排完就返回。在这里注意一点哈,排序分全字段排序rowid排序

  • 如果是全字段排序,需要查询返回的字段,都放入sort buffer,根据排序字段排完,直接返回

  • 如果是rowid排序,只是需要排序的字段放入sort buffer,然后多一次回表操作,再返回。

  • 怎么确定走的是全字段排序还是rowid 排序排序呢?由一个数据库参数控制的,max_length_for_sort_data

对排序有兴趣深入了解的小伙伴,可以看我这篇文章哈。

  • 看一遍就理解:order by详解

3. where 和 having的区别

  • group by + where 的执行流程

  • group by + having 的执行流程

  • 同时有where、group by 、having的执行顺序

3.1 group by + where 的执行流程

有些小伙伴觉得上一小节的SQL太简单啦,如果加了where条件之后,并且where条件列加了索引呢,执行流程是怎样

好的,我们给它加个条件,并且加个idx_age的索引,如下:

select city ,count(*) as num from staff where age> 30 group by city;
//加索引
alter table staff add index idx_age (age);

再来expain分析一下:

explain select city ,count(*) as num from staff where age> 30 group by city;
e9f13da4b286a83839ebc778fe52de69.png

从explain 执行计划结果,可以发现查询条件命中了idx_age的索引,并且使用了临时表和排序

Using index condition:表示索引下推优化,根据索引尽可能的过滤数据,然后再返回给服务器层根据where其他条件进行过滤。这里单个索引为什么会出现索引下推呢?explain出现并不代表一定是使用了索引下推,只是代表可以使用,但是不一定用了。大家如果有想法或者有疑问,可以加我微信讨论哈。

执行流程如下:

  1. 创建内存临时表,表里有两个字段citynum

  2. 扫描索引树idx_age,找到大于年龄大于30的主键ID

  3. 通过主键ID,回表找到city = 'X'

  • 判断临时表中是否有为 city='X'的行,没有就插入一个记录 (X,1);

  • 如果临时表中有city='X'的行的行,就将x 这一行的num值加 1;

  1. 继续重复2,3步骤,找到所有满足条件的数据,

  2. 最后根据字段city排序,得到结果集返回给客户端。

3.2 group by + having 的执行

如果你要查询每个城市的员工数量,获取到员工数量不低于3的城市,having可以很好解决你的问题,SQL酱紫写:

select city ,count(*) as num from staff  group by city having num >= 3;

查询结果如下:

14a8de67b5f5e187c71480cd385155be.pnghaving称为分组过滤条件,它对返回的结果集操作。

3.3 同时有where、group by 、having的执行顺序

如果一个SQL同时含有where、group by、having子句,执行顺序是怎样的呢。

比如这个SQL:

select city ,count(*) as num from staff  where age> 19 group by city having num >= 3;
  1. 执行where子句查找符合年龄大于19的员工数据

  2. group by子句对员工数据,根据城市分组。

  3. group by子句形成的城市组,运行聚集函数计算每一组的员工数量值;

  4. 最后用having子句选出员工数量大于等于3的城市组。

3.4 where + having 区别总结

  • having子句用于分组后筛选,where子句用于条件筛选

  • having一般都是配合group by 和聚合函数一起出现如(count(),sum(),avg(),max(),min())

  • where条件子句中不能使用聚集函数,而having子句就可以。

  • having只能用在group by之后,where执行在group by之前

4. 使用 group by 注意的问题

使用group by 主要有这几点需要注意:

  • group by一定要配合聚合函数一起使用嘛?

  • group by的字段一定要出现在select中嘛

  • group by导致的慢SQL问题

4.1 group by一定要配合聚合函数使用嘛?

group by 就是分组统计的意思,一般情况都是配合聚合函数如(count(),sum(),avg(),max(),min())一起使用。

  • count() 数量

  • sum() 总和

  • avg() 平均

  • max() 最大值

  • min() 最小值

如果没有配合聚合函数使用可以吗?

我用的是Mysql 5.7 ,是可以的。不会报错,并且返回的是,分组的第一行数据。

比如这个SQL:

select city,id_card,age from staff group by  city;

查询结果是

b903d6dbcdbe8e0485db014f649578b5.png

大家对比看下,返回的就是每个分组的第一条数据022df6cf6b0d9caf4c2f19145fe48ba3.png

当然,平时大家使用的时候,group by还是配合聚合函数使用的,除非一些特殊场景,比如你想去重,当然去重用distinct也是可以的。

4.2 group by 后面跟的字段一定要出现在select中嘛。

不一定,比如以下SQL:

select max(age)  from staff group by city;

执行结果如下:

57a2366054ab9b98b460756f2b291354.png

分组字段city不在select 后面,并不会报错。当然,这个可能跟不同的数据库,不同的版本有关吧。大家使用的时候,可以先验证一下就好。有一句话叫做,纸上得来终觉浅,绝知此事要躬行

4.3 group by导致的慢SQL问题

到了最重要的一个注意问题啦,group by使用不当,很容易就会产生慢SQL 问题。因为它既用到临时表,又默认用到排序。有时候还可能用到磁盘临时表

  • 如果执行过程中,会发现内存临时表大小到达了上限(控制这个上限的参数就是tmp_table_size),会把内存临时表转成磁盘临时表

  • 如果数据量很大,很可能这个查询需要的磁盘临时表,就会占用大量的磁盘空间。

这些都是导致慢SQL的x因素,我们一起来探讨优化方案哈。

5. group by的一些优化方案

从哪些方向去优化呢?

  • 方向1:既然它默认会排序,我们不给它排是不是就行啦。

  • 方向2:既然临时表是影响group by性能的X因素,我们是不是可以不用临时表?

我们一起来想下,执行group by语句为什么需要临时表呢?group by的语义逻辑,就是统计不同的值出现的个数。如果这个这些值一开始就是有序的,我们是不是直接往下扫描统计就好了,就不用临时表来记录并统计结果啦?

  • group by 后面的字段加索引

  • order by null 不用排序

  • 尽量只使用内存临时表

  • 使用SQL_BIG_RESULT

5.1 group by 后面的字段加索引

如何保证group by后面的字段数值一开始就是有序的呢?当然就是加索引啦。

我们回到一下这个SQL

select city ,count(*) as num from staff where age= 19 group by city;

它的执行计划

5f68d8e4e2f0b5d8ee1f70fb247753c5.png

如果我们给它加个联合索引idx_age_city(age,city)

alter table staff add index idx_age_city(age,city);

再去看执行计划,发现既不用排序,也不需要临时表啦。13c400901adecfb21a43f37f418d2c88.png

加合适的索引是优化group by最简单有效的优化方式。

5.2 order by null 不用排序

并不是所有场景都适合加索引的,如果碰上不适合创建索引的场景,我们如何优化呢?

如果你的需求并不需要对结果集进行排序,可以使用order by null

select city ,count(*) as num from staff group by city order by null

执行计划如下,已经没有filesort

c84fa66216ad28d8fd298d1924b5c1ad.png

5.3 尽量只使用内存临时表

如果group by需要统计的数据不多,我们可以尽量只使用内存临时表;因为如果group by 的过程因为内存临时表放不下数据,从而用到磁盘临时表的话,是比较耗时的。因此可以适当调大tmp_table_size参数,来避免用到磁盘临时表

5.4 使用SQL_BIG_RESULT优化

如果数据量实在太大怎么办呢?总不能无限调大tmp_table_size吧?但也不能眼睁睁看着数据先放到内存临时表,随着数据插入发现到达上限,再转成磁盘临时表吧?这样就有点不智能啦。

因此,如果预估数据量比较大,我们使用SQL_BIG_RESULT 这个提示直接用磁盘临时表。MySQl优化器发现,磁盘临时表是B+树存储,存储效率不如数组来得高。因此会直接用数组来存

示例SQl如下:

select SQL_BIG_RESULT city ,count(*) as num from staff group by city;

执行计划的Extra字段可以看到,执行没有再使用临时表,而是只有排序b6d73502be0d8e7fd3895ed0b83713f1.png

执行流程如下:

  1. 初始化 sort_buffer,放入city字段;

  2. 扫描表staff,依次取出city的值,存入 sort_buffer 中;

  3. 扫描完成后,对 sort_buffer的city字段做排序

  4. 排序完成后,就得到了一个有序数组。

  5. 根据有序数组,统计每个值出现的次数。

6. 一个生产慢SQL如何优化

最近遇到个生产慢SQL,跟group by相关的,给大家看下怎么优化哈。

表结构如下:

CREATE TABLE `staff` (`id` bigint(11) NOT NULL AUTO_INCREMENT COMMENT '主键id',`id_card` varchar(20) NOT NULL COMMENT '身份证号码',`name` varchar(64) NOT NULL COMMENT '姓名',`status` varchar(64) NOT NULL COMMENT 'Y-已激活 I-初始化 D-已删除 R-审核中',`age` int(4) NOT NULL COMMENT '年龄',`city` varchar(64) NOT NULL COMMENT '城市',`enterprise_no` varchar(64) NOT NULL COMMENT '企业号',`legal_cert_no` varchar(64) NOT NULL COMMENT '法人号码',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=15 DEFAULT CHARSET=utf8 COMMENT='员工表';

查询的SQL是这样的:

select * from t1 where status = #{status} group by #{legal_cert_no}

我们先不去探讨这个SQL的=是否合理。如果就是这么个SQL,你会怎么优化呢?有想法的小伙伴可以留言讨论哈,也可以加我微信加群探讨。如果你觉得文章那里写得不对,也可以提出来哈,一起进步,加油呀

参考与感谢

  • mySQL 45讲 (https://time.geekbang.org/column/article/80477?cid=100020801)

求点赞、在看、分享三连d86614766fd9fc4ab9b7e072ea8ab85e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/544329.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关Jquery判断input type=checkbox元素是否被选中的判断

2019独角兽企业重金招聘Python工程师标准>>> 在用到复选框的时候&#xff0c;想在js中判断chekbox是否被选中 <input name"isPermit" id"isPermit" type"checkbox"> 百度了很多的判断方法 1、 if($("#isPermit").att…

Redis夺命十二问,你能扛到第几问?

Redis是面试中绕不过的槛&#xff0c;只要在简历中写了用过Redis&#xff0c;肯定逃不过。今天我们就来模拟一下面试官在Redis这个话题上是如何一步一步深入&#xff0c;全面考察候选人对于Redis的掌握情况。小张&#xff1a;面试官&#xff0c;你好。我是来参加面试的。面试官…

bzoj 1192

http://www.lydsy.com/JudgeOnline/problem.php?id1192 好像学过一个东西&#xff1a; [0..2^(N1)-1]内的数都的都可以由2^0,2^1,...,2^N这N1个数中若干个相加得到。 #include<cstdio> #include<cstdlib> #include<iostream> #include<fstream> #incl…

Spring Boot Admin 报警提醒和登录验证功能实现!

作者 | 磊哥来源 | Java中文社群&#xff08;ID&#xff1a;javacn666&#xff09;转载请联系授权&#xff08;微信ID&#xff1a;GG_Stone&#xff09;Spring Boot Admin&#xff08;SBA&#xff09;是一个开源的社区项目&#xff0c;用于管理和监控 Spring Boot 应用程序&…

企业Shell面试题18:单词及字母去重排序案例

1、按单词出现频率降序排序&#xff01; 2、按字母出现频率降序排序&#xff01; the squid project provides a number of resources to assist users design,implement and support squid installations. Please browse the documentation and support sections for more inf…

5种高大上的yml读取方式,你知道几种?

我们今天就来点实战&#xff0c;总结一下除了烂大街的Value和ConfigurationProperties外&#xff0c;还有哪些读取yml配置文件的方法&#xff1f;1、Environment在Spring中有一个类Environment&#xff0c;它可以被认为是当前应用程序正在运行的环境&#xff0c;它继承了Proper…

为什么ConcurrentHashMap不允许插入null值?

作者&#xff1a;磊哥来源 | Java面试真题解析&#xff08;ID&#xff1a;aimianshi666&#xff09;转载请联系授权&#xff08;微信ID&#xff1a;GG_Stone&#xff09;在 Java 语言中&#xff0c;ConcurrentHashMap 和 Hashtable 这些线程安全的集合是不允许 key 或 value 插…

.NET APlayer播放器 demo

工作需要,想开发一款播放器,当无意间浏览到APlayer的时候大爱啊,有木有迅速投入精力,在APlayer论坛看大牛们的作品及经验,看SDK中提供的chm电子书最后看了博客园中周见智的文章(灰常好!最终作品也用的他的demo改进)先来晒一下最终的效果图片。 效果截图&#xff1a;1.初始界面。…

Spring Cloud Alibaba Nacos 服务注册与发现功能实现!

作者 | 磊哥来源 | Java中文社群&#xff08;ID&#xff1a;javacn666&#xff09;转载请联系授权&#xff08;微信ID&#xff1a;GG_Stone&#xff09;Nacos 是 Spring Cloud Alibaba 中一个重要的组成部分&#xff0c;它提供了两个重要的功能&#xff1a;服务注册与发现和统一…

加分进了字节,MySQL真yyds!

Java研发工程师必备技能非MySQL莫属&#xff0c;虽说易学好上手&#xff0c;但应对大厂面试&#xff0c;最容易遭遇滑铁卢、功败垂成的也是它。上手简单&#xff0c;玩转难&#xff0c;才是这款开源数据库叱咤业界多年的真实写照。MySQL 8.0正式版的到来&#xff0c;在性能和速…

Nacos服务注册与发现的2种实现方法!

作者 | 磊哥来源 | Java中文社群&#xff08;ID&#xff1a;javacn666&#xff09;转载请联系授权&#xff08;微信ID&#xff1a;GG_Stone&#xff09;Spring Cloud Alibaba 技术体系中的 Nacos&#xff0c;提供了两个重要的功能&#xff1a;注册中心&#xff08;服务注册与发…

面试必备:Spring 面试 63 问!

作者 | 夏目blog.csdn.net/wuzhiwei549/article/details/122324261Sping原理Spring是一个轻量级Java开发框架&#xff0c;最早有Rod Johnson创建&#xff0c;目的是为了解决企业级应用开发的业务逻辑层和其他各层的耦合问题。它是一个分层的JavaSE/JavaEE full-stack&#xff0…

为什么HashMap会产生死循环?

作者&#xff1a;磊哥来源 | Java面试真题解析&#xff08;ID&#xff1a;aimianshi666&#xff09;转载请联系授权&#xff08;微信ID&#xff1a;GG_Stone&#xff09;面试合集&#xff1a;https://gitee.com/mydb/interviewHashMap 死循环是一个比较常见、比较经典的问题&am…

iOS的自动化测试

2019独角兽企业重金招聘Python工程师标准>>> iOS的自动化测试:http://www.360doc.com/content/13/1225/22/1912775_340124906.shtml 转载于:https://my.oschina.net/CeShiXiaoSongShu/blog/496660

为什么阿里全面推动 K8S 落地,咬紧牙关也要搞云原生?

身为让容器应用实现大规模工业生产的一大功臣&#xff0c;过去几年&#xff0c;Kubernetes 势头迅猛&#xff0c;BAT、京东、美团、字节都走上了全域容器化部署以及云原生架构的康庄大道。而作为支撑阿里万亿级应用背后的核心&#xff0c;阿里云早在2016年就顺势搭上容器化这趟…

Spring Cloud Alibaba Nacos路由策略之保护阈值!

作者 | 磊哥来源 | Java中文社群&#xff08;ID&#xff1a;javacn666&#xff09;转载请联系授权&#xff08;微信ID&#xff1a;GG_Stone&#xff09;在 Nacos 的路由策略中有 3 个比较重要的内容&#xff1a;权重、保护阈值和就近访问。因为这 3 个内容都是彼此独立的&#…

浅谈 OneAPM 在 express 项目中的实践

【编者按】OneAPM 运营团队&#xff0c;近日在 github 上发现了一篇文章&#xff0c;特别奉献给大家。本文作者王宇先生从2015年年初就开始使用我们的产品&#xff0c;也是OneAPM 的忠实用户。 OneAPM 是一个优秀的性能监控平台。为什么我们要使用性能监控呢&#xff1f; 并不是…

【万字长文】Spring Cloud Alibaba 开箱即用!

互联网时代&#xff0c;面对复杂业务&#xff0c;讲究 分而治之。将一个大的单体系统拆分为若干个微服务&#xff0c;保证每个系统的职责单一&#xff0c;可以垂直深度扩展。但是一个个独立的微服务像一座座孤岛&#xff0c;如何将他们串联起来&#xff0c;才能发挥最大价值。这…

HDFS DataNode 设计实现解析

前文分析了 NameNode&#xff0c;本文进一步解析 DataNode 的设计和实现要点。 文件存储 DataNode 正如其名是负责存储文件数据的节点。HDFS 中文件的存储方式是将文件按块&#xff08;block&#xff09;切分&#xff0c;默认一个 block 64MB&#xff08;该大小可配置&#xff…

芭比扣了!Nacos中服务删除不了,肿么办?

作者 | 磊哥来源 | Java中文社群&#xff08;ID&#xff1a;javacn666&#xff09;转载请联系授权&#xff08;微信ID&#xff1a;GG_Stone&#xff09;前两天遇到了一个问题&#xff0c;Nacos 中的永久服务删除不了&#xff0c;折腾了一番&#xff0c;最后还是顺利解决了。以下…