【CMU 15-445】Lecture 10: Sorting Aggregations Algorithms 学习笔记

Sorting & Aggregations Algorithms

  • Sorting
    • Top-N Heap Sort
    • External Merge Sort
      • 2-WAY External Merge Sort
      • K-WAY External Merge Sort
      • Double Buffering Optimization
  • Aggregations
    • Sorting
    • Hashing

本节课主要介绍的是数据库系统中的排序算法以及聚合算法

Sorting

排序算法分为两种:如果内存能够容纳一个关系的所有tuple,那么可以用任意的标准排序算法在内存中进行排序,如插入排序、快速排序等等;如果内存无法容纳一个关系的所有tuple,则只能使用外排序。

Top-N Heap Sort

如果一个查询包含ORDER BY加上LIMIT关键字的组合,则可以使用Top-N堆排序的做法,如下图所示,推排序的细节就不多讲了。
在这里插入图片描述

External Merge Sort

一种外排序算法是外部归并排序,主要分为以下两个步骤:

  • Divide:将文件中的记录分为若干个归并段,使得每个归并段都能被加载到内存中进行单独排序
  • Conquer:将若干个有序的归并段merge成最终结果

2-WAY External Merge Sort

一个简单的merge做法是二路归并,如下图例子所示,每次merge合并两个归并段,以此类推直到所有归并段合成一个段为止。在二路归并做法中,只需要内存提供三个缓存页(两个用于加载待merge的归并段,一个用于存放merge结果)。我们可以简单的估计该做法的IO复杂度,假设存放tuplepage数量为 N N N,则我们最多需要做 ⌈ l o g 2 N ⌉ \lceil log_2N \rceil log2N次归并,且每次归并需要对每个page进行读写,共计 2 N 2N 2N次IO操作,故总复杂度为 2 N ∗ ( 1 + ⌈ l o g 2 N ⌉ ) 2N*(1+\lceil log_2N \rceil) 2N(1+log2N⌉)(需要加上第一次做内部排序的IO)

在这里插入图片描述

K-WAY External Merge Sort

更进阶的做法是将二路归并扩展至K路归并,因为二路归并中没有充分利用内存缓冲区(只是用了三页缓冲页)。假设内存缓冲页数量为 B B B,可以在排序阶段就充分利用缓冲页进行优化,一次性加载 B B Bpage进行排序,相当于把 B B Bpage合成一个归并段了,这样子在开始归并之前就只有 ⌈ N B ⌉ \lceil \frac{N}{B} \rceil BN个归并段;在归并阶段,最多可以利用 B − 1 B-1 B1个缓存页进行多路归并(需要预留一个缓存页存放归并结果)。于是,最多只需执行 ⌈ l o g B − 1 ⌈ N B ⌉ ⌉ \lceil log_{B-1}\lceil \frac{N}{B} \rceil \rceil logB1BN⌉⌉次归并,每次归并的IO次数仍为 2 N 2N 2N,故总复杂度为 2 N ∗ ( 1 + ⌈ l o g B − 1 ⌈ N B ⌉ ⌉ ) 2N*(1+\lceil log_{B-1}\lceil \frac{N}{B} \rceil \rceil) 2N(1+logB1BN⌉⌉)(需要加上第一次做内部排序的IO)

Double Buffering Optimization

可以使用两个buffer,当其中一个buffer在做排序处理时,将下一步需要处理的数据预加载到另一个buffer中,充分利用CPU与IO资源。

Aggregations

聚合操作一般有两种实现方式:排序以及哈希。

Sorting

在聚合的排序实现方式中,算法首先按照GROUP BY的keytuple进行排序,使用第一节所讲的内排序或外排序。然后按序遍历元组进行聚合(因为此时相同key的元组处于相邻位置)

Hashing

在很多情况下,聚合操作并不要求元组是有序的,可以使用效率更高的哈希实现方法进行替代。哈希实现方式分为两个步骤:

  • Partition:首先使用哈希函数h1将所有tuple按照GROUP BY的key进行分区(若内存中有 B B B个缓存页,则分为 B − 1 B-1 B1个分区)
  • ReHash:对于每一个分区,使用哈希函数h2在内存中建立哈希表,并维护聚合所需信息(如最小值、总和等)

一个简单的例子如下图所示,如果想要求每一个分组的平均值,则在ReHash阶段,需要维护COUNT和SUM以便最后算出平均值。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/228765.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【TB作品】51单片机 实物+仿真-电子拔河游戏_亚博 BST-M51

代码工程。 http://dt4.8tupian.net/2/28880a66b12880.pg3这段代码是用于一个数字拔河游戏的嵌入式系统,采用了基于8051架构的单片机,使用Keil C51编译器。 主要功能包括: 数码管显示:使用了四个数码管(通过P2的控制…

【华为数据之道学习笔记】5-4 数据入湖方式

数据入湖遵循华为信息架构,以逻辑数据实体为粒度入湖,逻辑数据实体在首次入湖时应该考虑信息的完整性。原则上,一个逻辑数据实体的所有属性应该一次性进湖,避免一个逻辑实体多次入湖,增加入湖工作量。 数据入湖的方式…

配置 vim 默认显示行号 行数 :set number

vi ~/.vimrc 最后添加一行 :set number保存退出,再次 vim 打开文件,默认就会显示行号了

Feign-实现Feign最佳实践

目录 一、实现最佳实践的步骤(方式二) 1.1 首先创建一个module,命名为feign-api,然后引入feign的starter依赖 1.2.将order-service中编写的UserClient、User、DefaultFeignConfiguration都复制到feign-api项目 1.3.在order-se…

Kali Linux安装Xrdp远程桌面工具结合内网穿透实现远程访问Kali桌面

文章目录 前言1. Kali 安装Xrdp2. 本地远程Kali桌面3. Kali 安装Cpolar 内网穿透4. 配置公网远程地址5. 公网远程Kali桌面连接6. 固定连接公网地址7. 固定地址连接测试 前言 Kali远程桌面的好处在于,它允许用户从远程位置访问Kali系统,而无需直接物理访…

vulnhub7

靶机地址:https://download.vulnhub.com/hackerkid/Hacker_Kid-v1.0.1.ova 这次的靶机风格比较偏向 OSCP 风格,区别于传统的 CTF 类型的靶机,只需要提权到 root 即可,而且这次打靶确实触碰到很多知识盲区了 提示:本地…

安卓开发学习---kotlin版---笔记(二)

UI学习 UI分类 安卓的UI分为两大类:一类叫做View视图,一类叫做ViewGroup容器 View视图:TextView,Button,ImageView都是常见的视图ViewGroup容器:内部尅承载、放置、添加View视图的容器 布局方式 安卓布局主要有:线…

【Qt图书管理系统】4.系统设计与详细设计

文章目录 核心流程图软件架构设计流程图软件开发类图及功能点 核心流程图 用户登录图书查询图书借阅图书归还账户管理 软件架构设计 流程图 软件开发类图及功能点 Dlg_Login 登录界面 Cell_Main 主窗体 Cell_MyBook 我的书籍 Cell_BookMgr 书籍管理 Cell_RecoredMgr 借阅记录…

FC-13A(用于汽车应用的kHz范围晶体单元,低轮廓贴片)

FC-13A晶体非常适合用在汽车导航系统设计中的应用,是一种具有优异的频率性能和AEC-Q200标准认证的汽车工业级高精度晶体,FC-13A是一款尺寸为3.2 1.5 0.9mm,频率范围32.768KHz耐高温晶振,频率温度系数仅为-0.04ppm/℃,并且其老化…

2023年四川网信人才技能大赛 决赛 实操赛Web ezbbs Writeup

题目是一个BSS论坛,如图 尝试注册发现注册未开放 题目给了jar包以及给了一个提示条件竞争绕过,分析源码: /register、/login接口都在com.my.bbs.controller.rest.BBSUserController 首先cacheUser是BBSUser类型的私有属性,并且reg…

【Java】智慧工地系统:让建筑行业管理更简单

概述 智慧工地管理平台面向房建、能源、交通各类工地的管理者,通过AI视频、物联感知技术对工地场景中的施工机械、建筑材料、施工规范、施工环境监管、完善施工现场项目管控。实现项目管控、特种设备管理、绿色施工、工地巡检等业务功能,沉淀工地监管数…

大一python题库刷题训练,大一python填空题题库

大家好,给大家分享一下大一python题库及答案和分析,很多人还不知道这一点。下面详细解释一下。现在让我们来看看! 这篇文章主要介绍了大一python上机题库及答案,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完…

HiveSql语法优化二 :join算法

Hive拥有多种join算法,包括Common Join,Map Join,Bucket Map Join,Sort Merge Buckt Map Join等,下面对每种join算法做简要说明: Common Join Common Join是Hive中最稳定的join算法,其通过一个M…

python 连接SQL server 请用pymssql连接,千万别用pyodbc

pymssql官方介绍文档 python 使用 pymssql连接 SQL server 代码示例: 安装pymssql包: pip install pymssql代码: import pymssqldef conn_sqlserver_demo():# 连接字符串示例(根据您的配置进行修改)conn Nonetry:co…

python中的随机选择和随机采样

python中的随机选择和随机采样 简单使用python中numpy.random.choice()、random.choice()、random.choices()区别介绍numpy中choice()random中choice()和choices()random.sample() 简单使用 生成随机整数,请使用 random.randint() ,例如范围为[0-10]&am…

常见Appium相关问题及解决方案

问题1:adb检测不到设备 解决: 1.检查手机驱动是否安装(win10系统不需要),去官网下载手机驱动或者电脑下载手机助手来辅助安装手机驱动,安装完成后卸载手机助手(防止接入手机时抢adb端口造成干…

Linux 高级管理,MySQL服务器的构建与维护

实验环境 某公司因业务范围日益扩大,最近订购了一套基于B/S架构的电子商务系统,在正式部署之前,要 求对现有的httpd服务器进行改造,首先需要增加MySQL数据库服务。 需求描述 1. 编译安装MySQL服务器,并添加为mysqld系…

发现隐藏的 Web 应用程序漏洞

随着 Web 2.0 的扩展,近年来社交媒体平台、电子商务网站和电子邮件客户端充斥着互联网空间,Web 应用程序已变得无处不在。 国际知名网络安全专家、东方联盟创始人郭盛华透露:‘应用程序消耗和存储更加敏感和全面的数据,它们成为对…

ES6 面试题 | 16.精选 ES6 面试题

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

vue2自创项目——饭搭子项目总结

文章目录 问题vuex状态管理父子组件数据展示路由跳转用户信息的修改 改进 本篇主要总结出现的问题和一些解决方法 问题 vuex状态管理 在登录功能中,我使用了local storage进行了用户信息的持久化处理,为此,我在vuex里定义了一个方法&#x…