面试突击63:distinct 和 group by有什么区别?

26b93acefbc9f0aa7c0c8eaf3345b27a.jpeg

作者 | 磊哥

来源 | Java面试真题解析(ID:aimianshi666)

转载请联系授权(微信ID:GG_Stone)

在 MySQL 中,最常见的去重方法有两个:使用 distinct 或使用 group by,那它们有什么区别呢?接下来我们一起来看。

1.创建测试数据

-- 创建测试表
drop table if exists pageview;
create table pageview(id bigint primary key auto_increment comment '自增主键',aid bigint not null comment '文章ID',uid bigint not null comment '(访问)用户ID',createtime datetime default now() comment '创建时间'
) default charset='utf8mb4';
-- 添加测试数据
insert into pageview(aid,uid) values(1,1);
insert into pageview(aid,uid) values(1,1);
insert into pageview(aid,uid) values(2,1);
insert into pageview(aid,uid) values(2,2);

最终展现效果如下:33ed81c6734e28a01862bd04e82027e1.png

2.distinct 使用

distinct 基本语法如下:

SELECT DISTINCT column_name,column_name FROM table_name;

2.1 单列去重

我们先用 distinct 实现单列去重,根据 aid(文章 ID)去重,具体实现如下:1365baa74989ef5ebbe2be29d95273f3.png

2.2 多列去重

除了单列去重之外,distinct 还支持多列(两列及以上)去重,我们根据 aid(文章 ID)和 uid(用户 ID)联合去重,具体实现如下:b58f9a0acba136b6737bec72adf95dc9.png

2.3 聚合函数+去重

使用 distinct + 聚合函数去重,计算 aid 去重之后的总条数,具体实现如下:79518465cda1bb0ef9371833b3ad9050.png

3.group by 使用

group by 基础语法如下:

SELECT column_name,column_name FROM table_name 
WHERE column_name operator value 
GROUP BY column_name

3.1 单列去重

根据 aid(文章 ID)去重,具体实现如下:80beb7e3a121cc7bacab05a2808baad2.png与 distinct 相比 group by 可以显示更多的列,而 distinct 只能展示去重的列。

3.2 多列去重

根据 aid(文章 ID)和 uid(用户 ID)联合去重,具体实现如下:b5a3e75756bd580c061410effe77f6ad.png

3.3 聚合函数 + group by

统计每个 aid 的总数量,SQL 实现如下:2b142299d7a91bcb6ea1ec957aa76450.png从上述结果可以看出,使用 group by 和 distinct 加 count 的查询语义是完全不同的,distinct + count 统计的是去重之后的总数量,而 group by + count 统计的是分组之后的每组数据的总数。

4.distinct 和 group by 的区别

官方文档在描述 distinct 时提到:在大多数情况下 distinct 是特殊的 group by,如下图所示:60a40fde443ea3f2ec1e6ef53ab40af7.png官方文档地址:https://dev.mysql.com/doc/refman/8.0/en/distinct-optimization.html但二者还是有一些细微的不同的,比如以下几个。

区别1:查询结果集不同

当使用 distinct 去重时,查询结果集中只有去重列信息,如下图所示:26b78ae9d315f60b4df23e745e5818d6.png当你试图添加非去重字段(查询)时,SQL 会报错如下图所示:4f7b310e8a6512cef082780b8f4cf199.png而使用 group by 排序可以查询一个或多个字段,如下图所示:94f96c084ae07aab58840e4f4fdc1b6b.png

区别2:使用业务场景不同

统计去重之后的总数量需要使用 distinct,而统计分组明细,或在分组明细的基础上添加查询条件时,就得使用 group by 了。使用 distinct 统计某列去重之后的总数量:4e882c7362cf90b63053738c3cdde696.png统计分组之后数量大于 2 的文章,就要使用 group by 了,如下图所示:e38f3ca6e4f40386636e536c932c05a8.png

区别3:性能不同

如果去重的字段有索引,那么 group by 和 distinct 都可以使用索引,此情况它们的性能是相同的;而当去重的字段没有索引时,distinct 的性能就会高于 group by,因为在 MySQL 8.0 之前,group by 有一个隐藏的功能会进行默认的排序,这样就会触发 filesort 从而导致查询性能降低。

总结

大部分场景下 distinct 是特殊的 group by,但二者也有细微的区别,比如它们在查询结果集上、使用的具体业务场景上,以及性能上都是不同的。

参考 & 鸣谢

zhuanlan.zhihu.com/p/384840662

是非审之于己,毁誉听之于人,得失安之于数。

公众号:Java面试真题解析

面试合集:https://gitee.com/mydb/interview

1e7103819b4ebd6b60bdbf3984ae2b1c.gif

往期推荐

8293829d728ddb48f1e189b52230d407.jpeg

面试突击62:group by 有哪些注意事项?


346ee3c0f1ab1e929abe40a0eabef24f.jpeg

面试突击61:说一下MySQL事务隔离级别?


99de5e08ee92b0beede6cf3ee6d28da5.jpeg

面试突击60:什么情况会导致 MySQL 索引失效?


74bbdc8e2added3178889b9a46285f31.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/544075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从20s优化到500ms,我用了这三招

前言接口性能问题,对于从事后端开发的同学来说,是一个绕不开的话题。想要优化一个接口的性能,需要从多个方面着手。本文将接着接口性能优化这个话题,从实战的角度出发,聊聊我是如何优化一个慢查询接口的。上周我优化了…

camelcase_在Python中将字符串转换为camelCase

camelcaseHere, we are implementing a python program to convert a given string to camelCase. 在这里,我们正在实现一个python程序,将给定的字符串转换为camelCase。 Example of camelCase: camelCase的示例: String: "Hello worl…

面试拆解:系统上线后CPU急速飙升,该怎么排查?

上次面试官问了个问题:应用上线后Cpu使用率飙升如何排查?其实这是个很常见的问题,也非常简单,那既然如此我为什么还要写呢?因为上次回答的时候我忘记将线程PID转换成16进制的命令了。所以我决定再重温一遍这个问题&…

提高Python运行效率的六个窍门

Python性能优化的20条建议 http://segmentfault.com/a/1190000000666603优化算法时间复杂度 算法的时间复杂度对程序的执行效率影响最大,在Python中可以通过选择合适的数据结构来优化时间复杂度,如list和set查找某一个元素的时间复杂度分别是O(n)和O(1)。…

ruby hash方法_Hash.fetch()方法以及Ruby中的示例

ruby hash方法Hash.fetch()方法 (Hash.fetch() Method) In this article, we will study about Hash.fetch() Method. The working of this method can be predicted with the help of its name but it is not as simple as it seems. Well, we will understand this method wi…

MySQL 死锁了,怎么办?

作者:小林coding提纲如下:正文有个业务主要逻辑就是新增订单、修改订单、查询订单等操作。然后因为订单是不能重复的,所以当时在新增订单的时候做了幂等性校验,做法就是在新增订单记录之前,先通过 select ... for upda…

lcfirst_PHP lcfirst()函数与示例

lcfirstPHP lcfirst()函数 (PHP lcfirst() function) lcfirst() function is a string function, it is used to convert first character to lowercase. It accepts string and returns string with first lowercase character. lcfirst()函数是一个字符串函数,用于…

在notepad++中运行python代码

#在notepad中运行python代码1、安装插件pyNPP, 2、允许插件pyNPP中的第一个和第二个选项即可,如果代码过少代码执行一闪而过,可能无法看到,可加入少量sleep时间即可 方法二:1、安装插件NppExec2、打开NppExec--Execute…

10 张图搞懂服务注册发现机制

在微服务架构或分布式环境下,服务注册与发现技术不可或缺,这也是程序员进阶之路必须要掌握的核心技术之一,本文通过图解的方式带领大家轻轻松松掌握。引入服务注册与发现组件的原因先来看一个问题,假如现在我们要做一个商城项目&a…

c# datetime._C#| DateTime.GetHashCode()方法与示例

c# datetime.DateTime.GetHashCode()方法 (DateTime.GetHashCode() Method) DateTime.GetHashCode() method is used get the 32-bit signed integer hash code of DateTime class object. DateTime.GetHashCode()方法用于获取DateTime类对象的32位带符号整数哈希码。 Syntax:…

ASP.NET 5 Beta8 已经发布

Microsoft ASP.NET and Web Tools 2015 (Beta8) http://www.microsoft.com/en-us/download/details.aspx?id49442 .net core 完成了98%,绝大部分类库完成了跨平台开发,已经基本可用,下一版本为RC,发布时间为12月,将可…

面试突击65:HTTPS有什么优点?说一下它的执行流程?

作者 | 磊哥来源 | Java面试真题解析(ID:aimianshi666)转载请联系授权(微信ID:GG_Stone)说到 HTTPS 相信大部分人都是不陌生,因为目前我们使用的绝大数网站都是基于 HTTPS 的,比如以…

nanf flash校验_C ++中带有示例的nanf()函数

nanf flash校验C Nanf()函数 (C nanf() function) nanf() function is a library function of cmath header, it is used to get the NaN value of type float. It accepts an argument (which is an implementation-specific C String – to get NaN value we have to pass a…

Cell.reuseIdentifier 指什么

Cell.reuseIdentifier 指的是 默认为空,如果不定义,在执行 [_tableView registerNib:templateCellNib forCellReuseIdentifier:_templateCell.reuseIdentifier]; 时,提示 must pass a valid reuse identifier to -[UITableView registerNib:f…

缓存穿透、缓存雪崩、缓存击穿?

背景 在现代软件架构中,缓存的应用已经非常普及。缓存的使用在面试和实践中都是避不开的硬技能、硬知识,如果你说还不太熟悉缓存的使用,可能都不好意思说自己是程序员。这篇文章,带大家进一步学习在缓存使用中不得不考虑三个特殊场…

c语言 div ldiv_C ++中带有示例的ldiv()函数

c语言 div ldivC ldiv()函数 (C ldiv() function) ldiv() function is a library function of cstdlib header. It is used for integral division, it accepts two parameters (numerator and denominator) and returns a structure that contains the quot (quotient) and r…

网盘搜索

http://pan.java1234.com1、在http://baidu.com的搜索框中输入:site:http://pan.baidu.com 搜索词(回复中林涛同学建议第一条如果用谷歌搜site:百度网盘的话效果会好一点)2、壹搜 网盘搜索引擎3、盘易搜 盘易搜-百度网盘搜索4、BD盘搜索 百度…

如何防止订单重复支付?

大家好,我是磊哥,想必大家对在线支付都不陌生,今天和大家聊聊如何防止订单重复支付。看看订单支付流程我们来看看,电商订单支付的简要流程:订单钱包支付流程从下单/计算开始:下单/结算:这一步虽…

c ++atoi函数_atoi()函数以及C ++中的示例

c atoi函数C atoi()函数 (C atoi() function) atoi() function is a library function of cstdlib header. It is used to convert the given string value to the integer value. It accepts a string containing an integer (integral) number and returns its integer valu…

IOS沙盒中的Documents、Library、tmp区别

1.Documents: 用户生成的文件、其他数据及其他程序不能重新创建的文件,iTunes备份和恢复的时候会包括此目录。 2.Library/Caches: 可以重新下载或者重新生成的数据,数据库缓存文件和可下载内容应该保存到这个文件夹,iTunes不会备份此目录&…