【CMU15-445 Part-12】Query Execution I

Part12-Query Execution I

Processing Models

Processing Model主要指的是明确如何去执行一个查询计划(top 2 bottom or bottom 2 top,operator之间的传递)。

Iterator Model

(volcano model/pipeline model);每个算子实现一个Next( ),父节点会调用子节点的next,然后子节点返回结果(下一个父节点需要处理的tuple);

对一个tuple来说这种模型能让查询计划中尽可能多的使用它,一个operator处理完返回传入下一个继续用该tuple。

Untitled

  1. 遍历子节点next返回的每个tuple,进行projection操作。

Untitled

Untitled

pipeline model的原因是针对一个tuple进行了一系列的操作,并且在对一个tuple处理的时候,其他还可以进行去tuple等操作,更像是流水线。当我们将某些东西放到内存之后,在对下一条数据处理前要尽可能多的对该数据进行处理。

有些算子不适合流水线处理,pipeline breaker (joins,subqueries,order by),在去做下个操作前,这些算子需要从子节点获取更多数据。iterator model再输出控制很简单(limit clauses)

Materialization Model

主要用在内存数据库。

调用Next的时候不想只返回一个tuple而是调用每个operator的时候就返回所有的tuples,不用逐个获取。假设需要limit 10,可以将查询信息向下传递来避免扫描很多tuples。返回的可以是一个单独的列或者一个materialized row

这里不同就是output返回的的all tuples。对OLTP wordload来说很好因为查询可以一次性获得少量或者一个tuple。对OLAP不好 因为数据量很大的时候在算子之间传递的代价就会很高

Untitled

difference? one tuple passing in M model and iterator model?

Vectorized/Bactch Model

调用next的时候传递的是a batch的tuples而非单个tuple,重写next。每次调用Next返回的tuple size 取决于hardware,取决于速度多快,是不是循序IO。设定一个n,如果buffer size 足够一个batch就像上返回一堆tuple。对OLAP友好,因为OLAP主要对表中大部分数据进行长时间的一个扫描处理(数据仓库)

Untitled

Plan Processing Direction

Approach #1 Top-to-Bottom

root开始 pull data from children,tuples

Approach #2 Bottom-to-Top

从叶子结点开始 向上推data,向上传递数据的时候得确保我们所正在处理的数据能够放在CPU cache and registers,对CPU友好但是对人难以解释。

Access Methods

叶子节点发生的事,通过access methods到DBMS表里面查找数据通过next进行传递。

三种基本方式:循序扫描sequential scan,索引扫描index scan以及multi-Index/”Bitmap” Scan

Sequential Scan

对1个table的每个page,取到bufferpool;迭代器遍历tuple,check是否符合。 DBMS一般会维护内部cursor来tracks last page/slot/tuple?

优化:prefectching(双缓冲)、buffer pool Bypass(用一个小buffer来对线程或者查询进行缓存 而不是去污染buffer pool 缓存)、

  • Zone Maps

    提前计算关于page中某列的聚合信息 明确是否需要去访问这些page。即:Min、Max\AVG\SUM\COUNT… DBMS会首先检查zone map然后才会决定会不会访问该page。有些是把zone map存到page里面,所以实际还是访问了page。有些保存在单独的page里面,zone map block、Zone page保存了不同page的zone map,类似于元数据的东西可能放在内存中。维护zone map代价也很高 一般不会用在OLTP中,而是在OLAP,读多写少。

  • Late Materialization

    对列式存储系统来说可以延迟将数据从一个oper 传播到下一个oper,只需要传递offset或者判断条件,具体数据很可能不需要的最后,因为列存最后组成tuple的话得拼接,代价大。下面的例子:filter以join算子不需要传递具体的数据因为对应的a,b列用不到,只需要最后去取c列。

    Untitled

  • Heap clustering/Clustering Index 聚簇索引

    Untitled

Index Scan

索引扫描,DBMS选取一个合适的index来找到查询所需要的tuples。选哪个index取决于:

  • 哪些属性上有index
  • 哪些属性是索引需要的
  • 属性的具体值,是否具有选择性能否查得更快
  • 具体的判断条件
  • unique index / non-unique index

以上是查询优化器要做的事情。

例子:在第一个场景中 要使用dept作为索引 只需要找到两个就可以了。第二个场景是99个人是CS的,就俩人小于30岁,用age作为索引,更有选择性

Untitled

  • Multi-Index Scan
    1. 对于每个匹配的index 计算负荷的record ids
    2. 根据查询的判断条件combine这些sets,and or
    3. Retrieve the records

Bitmap Scan in PG,没饿过bit对应了每个record的位置,进而可以使用位操作and or出结果。

Untitled

Index Scan Page Sorting

如果是非聚簇索引,如果输出结果并不是基于索引的id来进行排序,可能是其他的属性排序并且该属性上没有索引,沿着叶子节点扫描获取所有record id,根据page id排序。

DBMS 通常会先找到所有需要的 tuples,根据它们的 page id 来排序,完毕后再读取 tuples 数据,使得整个过程每个需要访问的 page 只会被访问一次。

Untitled

order by,subquery,join,limit,min,max are all pipeline breakers;

Expression Evaluation

where子句表示为一个表达式树expression tree,该tree上所有节点代表了条件判断中不同类型的表达式,

  • comparisons = < > ≠
  • conjunction:And Disjunction OR
  • Arithmetic Operators + - * /
  • 常量
  • tuple attribute references

Untitled

select * from s where B.value = ? + 1;

Prepared Statement 声明查询模板,占位符运行时填入,类似于调用函数

需要关注execution context

Untitled

优化where 1=1,JIT:just in time compilation。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/89023.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vim缓存-交换文件

Catf1agCTF靶场 web swp 题目链接&#xff1a;http://catf1ag.cn/ 个人博客&#xff1a;https://sword-blogs.com/ 题目考点&#xff1a; vim在编辑文档的过程中如果异常退出&#xff0c;会产生缓存文件 vim 交换文件名 参考文章&#xff1a;vim手册 https://yianwillis.…

React 全栈体系(十六)

第八章 React 扩展 五、Context 1. 代码 /* index.jsx */ import React, { Component } from react import ./index.css//创建Context对象 const MyContext React.createContext() const {Provider,Consumer} MyContext export default class A extends Component {state …

Linux进程概念

文章目录 前言一、操作系统1、概念2、设计OS的目的3、总结 二、进程1、基本概念2、查看进程2.1 使用ps axj命令2.2 通过 /proc 系统文件夹查看 3、通过系统调用获取进程标示符3.1 getpid() 系统调用3.2 getppid() 系统调用 4、通过系统调用fork创建子进程4.1 使用fork创建子进程…

Linux 常用基本命令

1.走近Linux系统 开机登录 开机会启动许多程序。它们在Windows叫做"服务"&#xff08;service&#xff09;&#xff0c;在Linux就叫做"守护进程"&#xff08;daemon&#xff09;。 关机 在linux领域内大多用在服务器上&#xff0c;很少遇到关机的操作。毕竟…

【yolox训练过程中遇到的问题集合】

这里写目录标题 深度学习遇到的一系列bugVScode无法激活conda1.vscode加载web 视图报错2.CUDA out of memory3.voc2007数据集中的txt文件4.object has no attribute ‘cache‘5.KeyError:model6.No module named loguru7.Python AttributeError: module ‘distutils‘ has no a…

微信小程序 工具使用(HBuilderX)

微信小程序 工具使用:HBuilderX 一 HBuilderX 的下载二 工具的配置2.1 工具 --> 设置 --> 运行配置2.1.1 微信开发者工具路径2.1.2 node 运行配置 2.2 插件 工具 --> 插件安装2.2.1 下载插件 三 微信小程序端四 同步运行五 BUG5.1 nodemon在终端无法识别 一 HBuilderX…

没有一技之长,该如何找工作?

很负责任的告诉你&#xff0c;跟你一样有这个困惑的人真的太多了&#xff01; 而且你也会发现&#xff0c;你身边的大多数人也都很迷茫。 家庭、学历一般&#xff0c;没啥特长爱好&#xff0c;更没有拿的出手的技能。 想要告诉你的是&#xff0c;你觉得你自己一无所长&#…

Java 8 CompletableFuture 学习及实践笔记

CompletableFuture 学习及实践笔记 CompletableFuture 是 Java 8 引入的一个强大的异步编程工具&#xff0c;它提供了一种简洁而灵活的方式来处理异步操作和构建复杂的异步流程。 创建 CompletableFuture 使用 CompletableFuture.supplyAsync(Supplier<U> supplier) 方…

全网最全Python系列教程(非常详细)---字符串讲解(学Python入门必收藏)

&#x1f9e1;&#x1f9e1;&#x1f9e1;这篇是关于Python中字符串的讲解&#xff0c;涉及到以下内容&#xff0c;欢迎点赞和收藏&#xff0c;你点赞和收藏是我更新的动力&#x1f9e1;&#x1f9e1;&#x1f9e1; 本文将从以下几个方面展开对字符串的讲解&#xff1a; 1、字…

如何使用docker快速部署MinDoc文档系统

MinDoc是非常优秀的知识分享系统&#xff0c;但是很多刚接触的人会一脸懵逼&#xff0c;而且官方文档写的也并不清晰&#xff0c;所以和大家分享一下快速部署MinDoc的方法。 首先docker环境先自行安装好&#xff0c;这里不再赘述。 拉取docker镜像&#xff1a; docker pull …

【开发篇】九、SpringBoot整合ES(ElasticSearch)

文章目录 1、整合2、简单示例3、一点补充4、增删改查索引与文档 1、整合 整合思路都一样&#xff0c;先起步依赖或普通依赖&#xff0c;再配置&#xff0c;再封装的操作对象。先引入依赖&#xff1a; <dependency> <groupId>org.springframework.boot</grou…

基于Java的电影评论网站设计与实现

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。今天给大家介绍一篇基于Java的电影评论网站…

IntelliJ IDEA - Maven 在控制台Maven编译正常,但是在IDEA中不正常,表现不一致

文章目录 现象原因解决验证 现象 一个Maven项目&#xff0c;当导入到IDEA后&#xff0c;无法在IDEA中正常的编译和下载jar依赖&#xff0c;类似下面的截图。 但是在Windows控制台却可以正常编译&#xff0c;类似下面的截图。 CMD执行&#xff1a;mvn clean install -Dmaven.te…

水库河道生态流量监测系统的主要内容

一、系统背景 我国为保护河流生态环境&#xff0c;推动水资源科学、合理、有序开发和可持续利用&#xff0c;各地水利和环保部门相继出台措施对不满足生态流量下泄要求的水电站责令整改或挂牌督办。近几年几百家水库在各个主要流域建成&#xff0c;由于缺乏对各个水库生态下泄流…

为什么说软文能够扩大中小企业的品牌影响力?

在当今的商业环境中&#xff0c;品牌影响力对于企业的成功至关重要。对于中小企业来说&#xff0c;利用软文来打造品牌影响力是一种成本低且效果更高的方式。为什么说软文能够扩大中小企业的品牌影响力呢&#xff1f;下面就让媒介盒子告诉你。 一、塑造品牌形象 首先&#xff…

走心分享!天津诚筑说Java大数据培训我该如何选择?

随着互联网的发展&#xff0c;IT行业变得越来越炙手可热&#xff0c;其中较为火热的当属大数据和Java了&#xff0c;许多学员都很纠结&#xff0c;Java和大数据我应该如何选择呢?今天小编带大家了解一下Java和大数据之间的区别&#xff01; Java和大数据的关系 Java是一种面…

搭建安信可小安派Windows 开发环境

搭建小安派Windows 开发环境 Ai-Pi-Eyes 系列是安信可开源团队专门为Ai-M61-32S设计的开发板&#xff0c;支持WiFi6、BLE5.3。所搭载的Ai-M61-32S 模组具有丰富的外设接口&#xff0c;具体包括 DVP、MJPEG、Dispaly、AudioCodec、USB2.0、SDU、以太网 (EMAC)、SD/MMC(SDH)、SP…

Mojo:新AI语言中的7个惊人的Python升级

一、说明 AI发展是日新月异的&#xff0c;对于新模型的产生&#xff0c;我们不能不给以关注。Mojo就是一种新发布的编程语言&#xff0c;专为AI开发人员制作&#xff0c;由Modular制作&#xff0c;Modular是一家由Swift的原始创建者Chris Lattner创立的公司。 二、关于MOJO的概…

vue实现移动端悬浮可拖拽按钮

需求&#xff1a; 按钮在页面侧边悬浮显示&#xff1b;点击按钮可展开多个快捷方式按钮&#xff0c;从下向上展开。长按按钮&#xff0c;则允许拖拽来改变按钮位置&#xff0c;按钮为非展开状态&#xff1b;按钮移动结束&#xff0c;手指松开&#xff0c;计算距离左右两侧距离…

uniapp使用scroll-into-view实现锚点定位和滚动监听功能【楼层效果 / 侧边导航联动效果】

大佬网址&#xff1a; https://blog.csdn.net/weixin_47136265/article/details/132303570 效果 代码 <template><view class"main"><scroll-view scroll-y"true" class"left-content"><view class"left-item"…