group by 的实现原理

转载:https://cloud.tencent.com/developer/article/1513067

写过 Sql 的同学应该都知道 group by 是用来对数据进行分组的,一般与聚合函数一起使用,对分组后的数据进行聚合。虽然大家都在用,但是有些同学还是不太清楚 group by 的底层到底是如何实现分组并且最后进行聚合的。今天就讲讲 group by 的底层实现。

我们直接来看例子,下面有一张表 t,存储了不同日期对应的不同品类的销量,具体数据如下:

现在我们要统计2019年1月1到1月3期间没每个品类的总销量,这个需求我们就可以用 group by 来实现,实现代码如下:

select    cat    ,sum(sales)
fromt
where sale_date between "2019/1/1" and "2019/1/3"
group by cat

上面代码中的 group by 具体执行过程是什么样子的呢?我们看一下下面这这张图。

通过上图我们可以看出 group by 会对所有的数据先根据 cat 字段进行分组,然后针对分组后的数据在组内进行聚合运算(计数、求和、求均值等),最后再将聚合后的每组数据进行汇总就得到了我们想要的结果。在上图中大家应该看到了分组模块只有 cat 这一列是标红加粗,sale_date 和 sales 这两列是比较虚的字体,为什么会这样呢?难道我写错了?其实不然,是我故意的。为什么要故意呢?我们看一下下面这张图:

上图是将表 t 在 Excel 中做一个数据透视表,如果我们只将 cat 这一列拖到行区域的时候,在表中只显示出了 cat 这一列,别的列是没有显示出来的,Sql 中也是一样的道理,所以我们只有 cat 列是标红加粗显示,而其他列是虚的,是因为其他列在这个阶段是没有显示出来,不过他们也是随时待命的状态。

一旦你指明了要按照哪列数据进行聚合,他们就会按照事先分好的组对要聚合的列去进行相应的聚合运算,然后将结果进行汇总,就是我们想要的数据了。

上面的是最简单的一个例子,就是只按照 cat 这一列进行分组,如果我们现在想要同时对 cat 和 sale_date 这两列来进行分组的话该怎么实现呢?实现代码如下:

selectcat,sale_date,sum(sales)
fromt
where sale_date between "2019/1/1" and "2019/1/3"
group by cat,sale_date

这个时候就相当于在透视表里面把 cat 和 sale_date 同时拖到了行区域,但是也是只显示这两列,而别的列是不显示的,只有指明了聚合列的时候,才会把聚合后的结果展示出来。

单纯的分组聚合的原理大家应该都明白了,不过这里有一个特别需要注意的点不知道大家有没有注意到,就是除了聚合列以外,select 后面要查询的列,必须在 group by 的后面出现。为什么要这样呢?通过上面的两个例子,我们也看到了,虽然一个数据表会有多列,但是在 group by 的时候,只会显示出来你 group by 的列,而其他列是不显示出来的,没有显示出来的列,你在 select 的时候肯定是查询不到的。

源数据如下:

按照c1, c2分组之后:

因为第1行和第6行属于同一个分组,因此只剩下5条记录

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/463211.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎么让sublime text3可以运行c/c++

轻巧便捷的sublime text 3代码编辑功能非常强大,并且很漂亮啊有木有!!!!以前我会在安装了CodeBlocks这样的编译器的基础上,再安装一个NotePad,作为编辑器。因为编辑器类似于记事本,只…

LeetCode:Path Sum II

Given a binary tree and a sum, find all root-to-leaf paths where each paths sum equals the given sum. For example: Given the below binary tree and sum 22, 5/ \4 8/ / \11 13 4/ \ / \7 2 5 1return [[5,4,11,2],[5,8,4,5] ]解题思路:通过遍历树保…

设有n个正整数,将他们连接成一排,组成一个最大的多位整数

题目描述: 设有n个正整数,将他们连接成一排,组成一个最大的多位整数。 如:n3时,3个整数13,312,343,连成的最大整数为34331213。 如:n4时,4个整数7,13,4,246连接成的最大整数为7424613。输入描述: 有多组测试样例,每组测…

C++中使用try{}catch()的优/缺点

优点:提高了代码的健壮性,防止因为没有接收到异常导致崩溃。 缺点:增加了系统的开销。 增加系统开销的原因 : try catch会在已有的代码上面增加额外的cost, 导致性能的降低。 这个额外的cost不是说只有throw exception的时候才会…

还在公司

原本都买好6点半回程的票了,但是突然来了个重要的会议.不得不留到现在,杯具的是参加会议的希腊人英语惨不忍睹. 10点钟坐GF的姐夫的车子回去,到家要12点以后了吧.转载于:https://www.cnblogs.com/JeffChen/archive/2009/12/18/2600174.html

odoo基础数据加载

odoo 基础数据加载 这里介绍的odoo基础数据加载分两种方式&#xff0c;一种是演示数据加载&#xff0c;一种是默认数据加载&#xff0c;下面就是详细介绍 首先&#xff0c;当然是创建一个date文件夹 项目目录&#xff0c;右键自定义一个文件夹XML数据定义格式 <record id&qu…

c++现在有一棵合法的二叉树,树的节点都是用数字表示,现在给定这棵树上所有的父子关系,求这棵树的高度

题目描述 现在有一棵合法的二叉树&#xff0c;树的节点都是用数字表示&#xff0c;现在给定这棵树上所有的父子关系&#xff0c;求这棵树的高度 输入描述: 输入的第一行表示节点的个数n&#xff08;1 ≤ n ≤ 1000&#xff0c;节点的编号为0到n-1&#xff09;组成&#xff0c; …

理解CSS3 transform中的Matrix(矩阵)

一、哥&#xff0c;我被你吓住了 打架的时候会被块头大的吓住&#xff0c;学习的时候会被奇怪名字吓住&#xff08;如“拉普拉斯不等式”&#xff09;。这与情感化设计本质一致&#xff1a;界面设计好会让人觉得这个软件好用&#xff01; 所以&#xff0c;当看到上面“Matrix(矩…

Rocksdb的优劣及应用场景分析

Rocksdb的优劣及应用场景分析 Rocksdb也是一样&#xff0c;也有它的优势劣势及特定的适用场景。今天我就从设计的角度来分析一下。 基础架构 上图就是Rocksdb的基础架构。Rocksdb中引入了ColumnFamily(列族, CF)的概念&#xff0c;所谓列族也就是一系列kv组成的数据集。所有…

MOSS服务器场迁移1-有关切换登录用户时需要刷新一次才能成功的问题

在本次的MOSS服务器场的迁移过程中&#xff0c;发现当我们新建好一个网站&#xff0c;然后用一个用户名和密码登录进去后&#xff0c;此时一切都很美好&#xff0c;但是当我们用其他的用户登录&#xff08;右上角的用其他的用户登录&#xff09;时&#xff0c;发现输入新的用户…

AWR报告中Top 10 Foreground Events存在”reliable message”等待事件的处理办法

操作系统版本&#xff1a;HP-UNIX B.11.31 数据库版本&#xff1a;11.2.0.4 RAC &#xff08;一&#xff09; 问题概要 &#xff08;1&#xff09;在AWR报告的Top 10 Foreground Events中发现reliable message占用了较高的DB Time&#xff0c;如下&#xff1a; Top 10 Foregrou…

疯狂java学习笔记1023---线程的同步

同步代码块&#xff1a; 文件并发被访问时容易造成异常。 同步代码块语法格式&#xff1a; synchronized(obj) { ... //此处的代码就是同步代码块 } obj是同步监视器 线程开始执行同步代码块之前&#xff0c;必须先获得对同步监视器的锁定。 注&#xff1a;任何时…

C语言const易错点

const int a; int const a; 这两个写法是等同的&#xff0c;表示a是一个int常量。const int *a; 表示a是一个指针&#xff0c;可以任意指向int常量或者int变量&#xff0c;它总是把它所指向的目标当作一个int常量。也可以写成int const* a;含义相同。int * const a; 表示a是一个…

Postgre体系结构图

原文链接&#xff1a;https://blog.csdn.net/q936889811/article/details/83030845 由于工作原因需要调研postgre部分的缓存模块&#xff1a;分给pg的内存不足时&#xff0c;将内存中的数据写出到外部file或者其他的介质中&#xff0c;防止内存不足时&#xff0c;系统运行缓慢…

业界资讯:adobe 技术开发中心 放出游戏单元

昨天晚上光顾了adobe 技术者开发中心&#xff0c;发现一个新的东西。看到大大标题显示出这个部分的内容. 可以看出adobe 未来一个动作&#xff0c;对游戏支持。flash 平台迅速进行推广&#xff0c;目前来讲flex 技术应用在社区开发和网页游戏比较多&#xff0c;这部分能够对企业…

asp.net 开发注意的几点

WIN7中组件服务中的DCOM配置找不到Microsoft Excel应用程序的解决办法: 这主要是64位系统的问题&#xff0c;excel是32位的组件&#xff0c;所以在正常的系统组件服务里是看不到的 可以通过在运行里面输入 comexp.msc -32 来打开32位的组件服务&#xff0c;在里就能看到excel组…

ubuntu安装codeblock的方法

由于本人比较喜欢体积较小的IDE&#xff0c;不喜欢太多东西&#xff0c;运行很慢的VS&#xff0c;所以在windows下发现了很好用的codeblock&#xff0c;现在把它安装到ubuntu系统的方法写下来总体方法很简单&#xff0c;用的最简单的apt安装的&#xff0c;也可以去官网下载code…

200多个js技巧代码(五)

161.标题栏 document.title//162.背景图片 <body style"BACKGROUND-ATTACHMENT: fixed" background"img/bgfix.gif"></body>//背景图片不动<STYLE TYPE"text/css"> <!-- BODY {background-image:img/bgchild.jpg; backgrou…

ios 后台下载,断点续传总结

2018年12月05日 16:09:00 weixin_34101784 阅读数&#xff1a;5 https://blog.csdn.net/weixin_34101784/article/details/87569604 断点续传 demo demog.gif 断点续传的原理是在HTTP1.1协议&#xff08;RFC2616&#xff09;中定义了断点续传相关的HTTP头的Range和Content-Rang…

Spring.NET教程(二十)——整合Quartz.NET(应用篇)

Quartz.NET是一个开源的作业调度框架&#xff0c;是OpenSymphony 的 Quartz API的.NET移植&#xff0c;它用C#写成&#xff0c;可用于WinForm和ASP.NET应用中。它提供了巨大的灵活性而不牺牲简单性。你能够用它来为执行一个作业而创建简单的或复杂的调度。它有很多特征&#xf…