Atitit  数据存储的分组聚合 groupby的实现attilax总结

 

 

 

Atitit  数据存储的分组聚合 groupby的实现attilax总结

 

1. 聚合操作1

1.1. a、标量聚合 流聚合1

1.2. b、哈希聚合2

1.3. 所有的最优计划的选择都是基于现有统计信息来评估3

1.4. 参考资料3

 

1. 聚合操作

聚合也是我们在写T-SQL语句的时候经常遇到的,我们来分析一下一些常用的聚合操作运算符的特性和可优化项。

1.1. a、标量聚合 流聚合

标量聚合是一种常用的数据聚合方式,比如我们写的语句中利用的以下聚合函数:MAX()MIN()AVG()COUNT()SUM()

以上的这些数据结果项的输出基本都是通过流聚合的方式产生,并且这个运算符也被称为:标量聚合

 

其实,流聚合这种算法最常用的方式是分组(GROUP BY)计算,上面的标量计算也是利用这个特性,只不过把整体形成了一个大组进行聚合。

 

 

我么通过如下代码理解

 

clear the current aggredate results

clear the current group by columnsfor each input row

begin

    if the input row does not match the current group by columns

    begin

       output the current aggreagate results(if any)

       clear the current aggreagate results

       set the current group by columns to the input row

    end

   update the aggregate results with the input row

end

 

流聚合运算符其实过程很简单,维护一个聚合组和聚合值,依次扫描表中的数据,如果能不匹配聚合组则忽略,如果匹配,则加入到聚合组中并且更新聚合值结果项。

举个例子

SELECT ShipAddress,ShipCity,COUNT(*)

FROM Orders

GROUP BY ShipAddress,ShipCity

所以这里我们已经总结出对于流聚合的一种优化方式:尽量避免排序产生,而要避免排序就需要将分组(Group by)字段在索引覆盖范围内。

 

 

1.2. b、哈希聚合

上述的流聚合的方式需要提前排序,我们知道排序是一个非常大的消耗过程,所以不适合大表的分组聚合操作,为了解决这个问题,又引入了另外一种聚合运算:哈希聚合

所谓的哈希聚合内部的方法和本篇前面提到的哈希连接机制一样。

哈希聚合不需要排序和过大的内存消耗,并且很容易并行执行计划,利用多CPU同步进行,但是有一个缺点就是:这一过程是阻塞的,也就说哈希聚合不会产生任何结果直到完整的输入。

所以在大数据表中采用哈希聚合是一个很好的应用场景。

 

 

我们知道排序是很耗资源的一件事情,但是利用哈希匹配只需要将不同的列值进行提取就可以,所以相比性能而言,无疑哈希匹配算法在这里是略胜一筹的算法。

 

 

1.3. 所有的最优计划的选择都是基于现有统计信息来评估

而上面关于这两列内容分布类型SQL Server是怎样知道的?这就是SQL Server的强大的统计信息在支撑了。

SQL Server中并不是固定的语句就会形成特定的计划,并且生成的特定计划也不是总是最优的,这和数据库现有数据表中的内容分布、数据量、数据类型等诸多因素有关,而记录这些详细信息的就是统计信息。

所有的最优计划的选择都是基于现有统计信息来评估,如果我们的统计信息未及时更新,那么所评估出来最优的执行计划将不是最好的,有时候反而是最烂的。 

 

 

1.4. 参考资料

 

SQL Server调优系列基础篇(常用运算符总结——三种物理连接方式剖析) - 指尖流淌 - 博客园.html

 

作者:: 绰号:老哇的爪子claw of Eagle 偶像破坏者Iconoclast image-smasher

捕鸟"Bird Catcher 王中之王King of Kings 虔诚者Pious 宗教信仰捍卫者 Defender of the Faith. 卡拉卡拉红斗篷 Caracalla red cloak

简称: Emir Attilax Akbar 埃米尔 阿提拉克斯 阿克巴

全名:Emir Attilax Akbar bin Mahmud bin  attila bin Solomon Al Rapanui 

埃米尔 阿提拉克斯 阿克巴  马哈茂德  阿提拉 所罗门  阿尔 拉帕努伊   

常用名艾提拉(艾龙)   EMAIL:1466519819@qq.com

转载请注明来源:attilax的专栏   http://www.cnblogs.com/attilax/

--Atiend

 

 

 

转载于:https://www.cnblogs.com/attilax/p/6142980.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/402567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[java理论篇]--java的其他常用API

1、java的正则表达式:常用方法:String matches(匹配) ;String split(切割);String replaceAll(替换);利用正则表达式获取字符创的核心代码:String str“ds…

pojo类无法注入service解决示例

From: https://blog.csdn.net/danielzhou888/article/details/83351913 本示例解决springboot中service无法注入普通jopo的问题。 不啰嗦,直接上代码。 如果该示例帮您解决了问题,请助推哦。 pojo类: package com.scmd.controller;import…

图测试题部分总结.ing

一个无向连通图的生成树是含有该连通图的全部顶点的&#xff08;极小连通子图&#xff09; 在有向图G的拓扑序列中&#xff0c;若顶点Vi在顶点Vj之前&#xff0c;则下列情形不可能出现的是&#xff08;D&#xff09;A&#xff0e;G中有弧<Vi&#xff0c;Vj> B&#xff0e…

mybatis动态sql中的where标签的使用

From: https://blog.csdn.net/wobuaizhi/article/details/81874664 在使用mybatis的动态sql时&#xff0c;有时候遇到根据条件判断添加where后面的筛选条件。 会出现多余的“and”或者“or”&#xff0c;如下&#xff1a; <select id"findBlog" result…

电脑公司 Ghost XP SP3 国庆特别版 v2011.10

电脑公司 Ghost XP SP3 国庆特别版 v2011.10 文件名称:DNGS_GhostXpSp3_v2011.10.iso文件大小:686.59MB &#xff08;719,945,728字节&#xff09;系统格式:NTFSCRC32:DDEBC170MD5:FA264E6241154EE7F80EFED3CFF1C6A2SHA1:FFEB1C13854AA954D9EE384153815FAF52E0747B电脑城系统 …

Linux C 预处理详解

1.预处理程序 按照ANSI标准的定义&#xff0c;预处理程序应该处理以下指令&#xff1a; #if #ifdef #ifndef #else #elif #endif #define #undef #line #error #pragma #include 显然&#xff0c;上述所有的12个预处理指令都以符号#开始&#xff0c;每条预处理指令必须独占一行…

Spring Boot 中使用 @Transactional 注解配置事务管理

From: https://blog.csdn.net/nextyu/article/details/78669997 事务管理是应用系统开发中必不可少的一部分。Spring 为事务管理提供了丰富的功能支持。Spring 事务管理分为编程式和声明式的两种方式。编程式事务指的是通过编码方式实现事务&#xff1b;声明式事务基于 AOP,将…

TCP中间件_Delphi_client

1、界面 1.1、formMain.pas 1.1.1、 object frmMain: TfrmMainLeft 191Top 103Width 542Height 466Caption frmMainColor clBtnFaceFont.Charset DEFAULT_CHARSETFont.Color clWindowTextFont.Height -11Font.Name MS Sans SerifFont.Style []OldCreateOrder False…

python为类定义构造函数

用python进行OO编程时&#xff0c; 经常会用到类的构造函数来初始化一些变量。 class FileData:def __init__(self, data, name, type):self.bits base64.encodestring(data)self.name nameself.type type其中self类似c或者c#的this指针。转载于:https://blog.51cto.com/muz…

Linux C 函数练习

学习函数主要学习的就是函数的声明、定义和调用&#xff0c;下面请看两个例子&#xff0c;来帮助我们学习函数&#xff1a; 题目一&#xff1a; 编写一个函数iswithin()&#xff0c;它接受两个参数&#xff0c;一个是字符&#xff0c;另一个是字符串指针。其功能是如果字符在字…

Java、Mysql、MyBatis 中枚举 enum 的使用

From: https://yulaiz.com/java-mysql-enum/ Java 和 MySql 中都有枚举的概念&#xff0c;合理的使用枚举&#xff0c;可以让代码阅读和数据库数据查询更加直观、高效。那么我们怎么使用呢&#xff0c;什么时候使用&#xff0c;两者之间怎么进行数据关联呢&#xff1f;&#x…

ny12 喷水装置(二)

喷水装置&#xff08;二&#xff09; 时间限制&#xff1a;3000 ms | 内存限制&#xff1a;65535 KB难度&#xff1a;4描述有一块草坪&#xff0c;横向长w,纵向长为h,在它的橫向中心线上不同位置处装有n(n<10000)个点状的喷水装置&#xff0c;每个喷水装置i喷水的效果是让…

http请求头大全

转自http://tools.jb51.net/table/http_header HTTP响应头和请求头信息对照表 HTTP请求头提供了关于请求&#xff0c;响应或者其他的发送实体的信息。HTTP的头信息包括通用头、请求头、响应头和实体头四个部分。每个头域由一个域名&#xff0c;冒号&#xff08;:&#xff09;和…

Linux C 指针练习

题目一、 已知数组内容如下 s[] {1,2,3,4,5,6,7,8,9}&#xff0c;输入一个常数 m(1<m<9)&#xff0c;使得该数组内容顺序后移n个位置。如n 3时&#xff0c;数组后移3个位置后的内容为{7,8,9,1,2,3,4,5,6} 代码如下&#xff1a; [cpp] view plaincopy #include <stdi…

Java重载遇到泛型

今天被问到一个有意思的问题&#xff0c;大家都知道重载的概念吧&#xff1a;一个类中定义同名的方法&#xff0c;参数表不同&#xff08;参数类型&#xff0c;或者参数个数不通&#xff09;&#xff1b; 但是&#xff0c;如果是下面这个两个方法呢 public static int fn(List&…

wordpress插件制作视频教程【资料分享】

2019独角兽企业重金招聘Python工程师标准>>> 一共5集&#xff0c;每一集15分钟左右&#xff0c;适合入门用哦~ 资料地址&#xff1a; http://wordpresshy.com/create-plugin 分集介绍&#xff1a; 1 【教学大纲】 1.介绍什么是插件&#xff1b; 2.插件的文件结…

Java中遍历HashMap的5种方式

From: https://blog.csdn.net/w605283073/article/details/80708943 本教程将为你展示Java中HashMap的几种典型遍历方式。 如果你使用Java8&#xff0c;由于该版本JDK支持lambda表达式&#xff0c;可以采用第5种方式来遍历。 如果你想使用泛型&#xff0c;可以参考方法3。如…

字符串按照单词为单位逆序排列

我们前面已经写过一个简单字符串逆序排序的方法&#xff0c;这里再开一个字符串排序问题&#xff1a; 给定一个字符串“I love China”&#xff0c;编写程序完成以单词为单位的逆序&#xff0c;如"China love I",并要求不使用第三方变量保存数据&#xff0c;但可以使…

博主故事:博客提升了我在口腔行业的影响力

自从我上次谈了谈个人开设博客的目的一文后&#xff0c;今天就有一位博友发来了感谢留言&#xff0c;他说他的博客让他在国内做牙齿矫正行业的有了一定影响力&#xff0c;下月被请到上海讲课&#xff0c;也有不少民营机构前来挖他&#xff0c;还被邀请参加中国口腔医学界最盛大…

RabbitMQ入门教程——发布/订阅

什么是发布订阅 发布订阅是一种设计模式定义了一对多的依赖关系&#xff0c;让多个订阅者对象同时监听某一个主题对象。这个主题对象在自身状态变化时&#xff0c;会通知所有的订阅者对象&#xff0c;使他们能够自动更新自己的状态。 为了描述这种模式&#xff0c;我们将会构建…