【数据库】表的连接在执行时的算法解析,嵌套循环连接算法的几种实现,多表连接中表的数量会影响什么

嵌套循环连接

专栏内容

  • 手写数据库toadb
    本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
    本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。

开源贡献

  • toadb开源库

个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.

文章目录

  • 嵌套循环连接
  • 前言
  • 概述
  • 原理介绍
  • 基于元组的嵌套循环连接算法
    • 基于元组的循环迭代器
    • 代价分析
  • 基于块的嵌套循环连接算法
  • 嵌套循环优化
  • 总结
  • 结尾

在这里插入图片描述

前言

随着信息技术的飞速发展,数据已经渗透到各个领域,成为现代社会最重要的资产之一。在这个大数据时代,数据库理论在数据管理、存储和处理中发挥着至关重要的作用。然而,很多读者可能对数据库理论感到困惑,不知道如何选择合适的数据库,如何设计有效的数据库结构,以及如何处理和管理大量的数据。因此,本专栏旨在为读者提供一套全面、深入的数据库理论指南,帮助他们更好地理解和应用数据库技术。

数据库理论是研究如何有效地管理、存储和检索数据的学科。在现代信息化社会中,数据量呈指数级增长,如何高效地处理和管理这些数据成为一个重要的问题。同时,随着云计算、物联网、大数据等新兴技术的不断发展,数据库理论的重要性日益凸显。

因此,本专栏的分享希望可以提高大家对数据库理论的认识和理解,对于感兴趣的朋友带来帮助。

概述

前面几篇博客介绍了查询执行中,最基本的表扫描操作中的一趟算法的应用。

本文继续介绍查询执行中,经常碰到的连接操作,涉及到两张以上表的数据,表越多效率越低,所以在实际应用中,我们要尽量减少连接当中涉及到的表的数量,下面的分享中可以找到答案。

原理介绍

对于连接操作,最通用的算法就是采用嵌套循环方式来实现,它不用区分表的大小,都可以适应。之前我们分享了一趟扫描算法,但对于嵌套循环连接来讲,它不是严格意义上的一趟算法,可以叫它一趟半算法,因为它在扫描的过程中,会重复多次读取其中一张表的数据。

这也是它通用的原因所在,占用空间只需要两个数据块的缓冲区大小。

在实际实现算法时,我们会分为两个形式,一种是基于元组的嵌套循环算法,一种是基于块的嵌套循环算法,下面就让我们看看它们的流程。

基于元组的嵌套循环连接算法

嵌套循环连接最直接的方式,就是对所涉及表的各个元组进行处理,每次从表中得到一个元组,然后遍历另一张的表的元组进行连接,再从第一张表中得到下一条元组,又重新遍历第二张表的所有元组,直到第一张表的元组遍历完。

假定表R(X,Y)与表S(Y,X)进行连接,用伪代码表示如下:

for S中的每条元组 s DOfor R中的每条元组 r DOif r 与 s 连接形成元组 t Thenoutput t;

基于元组的循环迭代器

嵌套循环连接的一个最大优点是它非常适合用于迭代器结构,这样可以避免有很多中间数据,假定关系R和S都是非空的,可以实现嵌套循环连接的三个迭代函数,示意如下:

Open()
{R.Open();S.Open();s = S.GetNext();
}GetNext()
{for(;;){r = R.GetNext();if(r == notFound){/* R是内循环表,已经遍历完 */R.Close();s = S.GetNext();if(s == notFound){/* 外层循环表 S,已经遍历完,整个结束 */return ;}/* 重新从头扫描R表 */R.Open();r = R.GetNex(); }if(r与s 能连接)break;}return r与s的连接;
}Close()
{R.Close();S.Close();
}

代价分析

这一算法需要的磁盘I/O数量,可能最多与两张表的元组行数的乘积,也就是一个双层循环的循环次数。

当连接的表数量多时,每增加一张表,就会多一层循环,可想而知,磁盘I/O数量是惊人的。

基于块的嵌套循环连接算法

对于基于元组的嵌套循环连接算法带来的I/O数量非常大,如果我们尽可能将两表更多的装入缓存当中,虽然它们都不能全部装入缓存,这样在内存中处理时,将它们一次处理多个元组的连接。

假设有缓冲区块M个,R表与S连接时,S表是较小的表,那么可以将S表的数据块加载到M-1个缓冲区块中,将连接属性建立查找表,再读取R表的一个数据块到第M个缓冲区中。

这样从R表的这个数据块上遍历元组,分别与M-1缓中区块中的S表的所有元组进行连接处理,接着再读取R表的下一个数据块,直到R表遍历一次;

然后再更新M-1个缓冲为下一批S表的数据块,重复上面的处理,直到S表遍历完成。

这样可以减少磁盘I/O的次数,每次读更多的数据块,将随机访问转为顺序访顺。

嵌套循环优化

当然,也可以通过连接属性列上的索引,找到对应的表数据块,减少访问的表数据块,当然也需要与基于块的嵌套循环算法结合。

总结

通过本文的分享,让我们对表的连接有了更深的理解,在平常编写SQL时,常听前辈们说起,连接不能超过多少张表,为什么呢?要记住,每多一张表,类似于多了一层嵌套循环,虽然有索引,代价也是相当大的。

结尾

非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!

作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/171826.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[论文阅读]CBAM——代码实现和讲解

CBAM 论文网址:CBAM 论文代码:CBAM 本文提出了一种卷积块注意力模块(CBAM),它是卷积神经网络(CNN)的一种轻量级、高效的注意力模块。该模块沿着通道和空间两个独立维度依次推导注意力图&#x…

每日一题2023.11.26——打印沙漏【PTA】

题目要求: 本题要求你写个程序把给定的符号打印成沙漏的形状。例如给定17个“*”,要求按下列格式打印 ************ *****所谓“沙漏形状”,是指每行输出奇数个符号;各行符号中心对齐;相邻两行符号数差2;…

设计一个算法,将链表中所有结点的链接方向“原地”逆转,即要求仅利用原表的存储空间,换句话说,要求算法的空间复杂度为O(1)

设计一个算法,将链表中所有结点的链接方向“原地”逆转,即要求仅利用原表的存储空间,换句话说,要求算法的空间复杂度为O(1) 代码思路: 这里要求不用额外空间,那么就要考虑链表自身的…

Liunx系统使用超详细(一)

目录 一、Liunx系统的认识 二、Liunx和Windows区别 三、Liunx命令提示符介绍 四、Liunx目录结构 一、Liunx系统的认识 Linux系统是一种开源的、类Unix操作系统内核的实现,它基于Unix的设计原理和思想,并在全球范围内广泛应用。以下是对Linux系统的详…

MVCC多版本并发控制相关面试题整理

多版本并发控制是一种用于支持并发事务的数据库管理系统技术,它允许多个事务同时访问数据库,而不会相互干扰或导致数据不一致。MVCC通过在数据库中维护不同版本的数据来实现这一目标,从而允许每个事务看到一致的数据库快照。 并发导致的问题…

【数据结构】树与二叉树(廿二):树和森林的遍历——后根遍历(递归算法PostOrder、非递归算法NPO)

文章目录 5.1 树的基本概念5.1.1 树的定义5.1.2 森林的定义5.1.3 树的术语 5.2 二叉树5.3 树5.3.1 树的存储结构1. 理论基础2. 典型实例3. Father链接结构4. 儿子链表链接结构5. 左儿子右兄弟链接结构 5.3.2 获取结点的算法5.3.3 树和森林的遍历1. 先根遍历(递归、非…

qt5.15.2及6.0以上版本安装

文章目录 下载在线安装器安装打开软件 下载在线安装器 因为从qt5.15开始不支持离线下载安装了,只能通过在线安装的方式进行安装。 下载在线安装下载器: 这个在线安装下载器网上也都是可以找到。 这里是其放到网盘上的下载地址: 链接&#x…

DL Homework 8

目录 习题5-2 证明宽卷积具有交换性, 即公式(5.13). 习题5-4 对于一个输入为100 100 256的特征映射组, 使用3 3的卷积核, 输出为100 100 256的特征映射组的卷积层, 求其时间和空间复杂度. 如果引入一…

Openwrt linux 启动流程

OpenWRT 启动流程 内核启动过程:【/init/mian.c】 Uboot --> start_kernel() --> rest_init() --> kernel_thread(kernel_init) --> kernel_init_freeable() 初始化过程: Linux Kernel(kernel_init) --> /etc/preinit --> /sbin/in…

2023 年最新百度智能云千帆大模型 Node.Js 本地测试 / 微信机器人详细教程

千帆大模型概述 一站式企业级大模型平台,提供先进的生成式AI生产及应用全流程开发工具链。直接调用ERNIE-Bot 4.0及其他主流大模型,并提供可视化开发工具链,支持数据闭环管理、专属大模型定制、大模型训练调优、插件编排等功能。 千帆大模型…

Python基础:字符串详解(需补充完善)

1. 字符串定义 在Python中,字符串是一种数据类型,用于表示文本数据。字符串是由字符组成的序列,可以包含字母、数字、符号和空格等字符。在Python中,你可以使用单引号()或双引号("&#x…

阅读笔记——《Removing RLHF Protections in GPT-4 via Fine-Tuning》

【参考文献】Zhan Q, Fang R, Bindu R, et al. Removing RLHF Protections in GPT-4 via Fine-Tuning[J]. arXiv preprint arXiv:2311.05553, 2023.【注】本文仅为作者个人学习笔记,如有冒犯,请联系作者删除。 目录 摘要 一、介绍 二、背景 三、方法…

输出后,我悟了!

大家好,我是木川 今天和前同事吃饭聊天,谈到了输出,今天简单谈下关于输出的重要性 一、为什么要输出 1、不输出容易忘,如果不输出很容易就忘记了,如果再遇见一次,还是需要重新学习,实际上是浪费…

有关HarmonyOS-ArkTS的Http通信请求

一、Http简介 HTTP(Hypertext Transfer Protocol)是一种用于在Web应用程序之间进行通信的协议,通过运输层的TCP协议建立连接、传输数据。Http通信数据以报文的形式进行传输。Http的一次事务包括一个请求和一个响应。 Http通信是基于客户端-服…

【Linux学习笔记】protobuf 基本数据编码

https://zhuanlan.zhihu.com/p/557457644https://zhuanlan.zhihu.com/p/557457644 [新文导读] 从Base64到Protobuf,详解Protobuf的数据编码原理本篇将从Base64再到Base128编码,带你一起从底层来理解Protobuf的数据编码原理。本文结构总体与 Protobuf 官…

软件学院PTA天梯赛初赛选拔赛题解

目录 7-2 生肖确定(模拟) AC代码: 7-3 韩信点兵(模拟) AC代码: 7-4 程序员买包子(模拟) AC代码: 7-5 h0078. 蛇形矩阵变形 AC代码: 7-6 军事体能成绩…

23.11.26日总结

图片与文字顶部对齐&#xff1a; <div class"addDishImgBox"><span class"addDishImgZi">商品图片&#xff1a;</span><img :src"myStorePhoto" class"addDishImg"> </div> .addDishImgBox{display: f…

8.前端--CSS-文本属性【2023.11.26】

CSS Text&#xff08;文本&#xff09;属性可定义文本的外观&#xff0c;比如文本的颜色、对齐文本、修饰文本、文本缩进、行间距等 1.文本颜色 color 属性用于定义文本的颜色。 语法&#xff1a; div { color: red; }属性&#xff1a; 2.文本对齐 text-align 属性用于设置元…

学生党福音!一个能自定义词库的单词软件--单词魔方

大家好 我是Yhen 这一期给大家介绍一款自制的单词软件–单词魔方 文章目录 一.创作缘由二.功能介绍&升级内容三.使用方法四.程序获取 一.创作缘由 为什么会有想法开发这个单词软件呢&#xff1f; 因为平时自己在做阅读&#xff0c;看电影时积累下来了一些单词 当我想要系…

【Linux】Linux项目自动化构建工具 --- make / makefile

&#x1f466;个人主页&#xff1a;Weraphael ✍&#x1f3fb;作者简介&#xff1a;目前正在学习c和Linux还有算法 ✈️专栏&#xff1a;Linux &#x1f40b; 希望大家多多支持&#xff0c;咱一起进步&#xff01;&#x1f601; 如果文章有啥瑕疵&#xff0c;希望大佬指点一二 …