MySQL关联查询如何优化

好久不见,关于这篇文章,我也是想了很久,还是决定写一篇文章,有很多同学问过 mysql 相关的问题,其实关联查询如何优化,首先我们要知道关联查询的原理是什么?

左连接 left join

SELECT 字段列表
FROMA表 
LEFT JOIN B表
ON 关联条件
WHERE 等其他子句

两表关联,以 left 左边的表为主表进行查询,除了返回满足连接条件的行以外,还返回左表中不满足条件的行。
如图所示:A 表是主表(驱动表),B 表是从表(被驱动表),颜色区域即所得结果集,结果集中返回匹配的行(交集),也返回 A 表中不匹配的行,不匹配字段用 NULL 表示。
在这里插入图片描述

右连接 right join

SELECT 字段列表
FROMA表 
RIGHT JOIN B表
ON 关联条件
WHERE 等其他子句

两表关联,以 right 右边的表为主表进行查询,除了返回满足连接条件的行以外,还返回右表中不满足条件的行。
如图所示:B 表是主表(驱动表),A 表是从表(被驱动表),颜色区域即所得结果集,结果集中返回匹配的行(交集),也返回 B 表中不匹配的行,不匹配字段用 NULL 表示。(同 left join,只不过主表位置不同)
在这里插入图片描述

内连接 inner join

SELECT 字段列表
FROM A表 
INNER JOIN B表
ON 关联条件
WHERE 等其他子句;

两表关联,返回符合 where 条件的结果集,即是 A 表 结果集,也是 B 表结果集,内联查询,没有左右主表之分,以哪张表为驱动表,取决于 MySQL service 层的优化器自己决定。
如图所示:
在这里插入图片描述

关联查询原理

前面讲解了连接查询的几种方式,现在谈谈 MySQL 底层是支持这几种连接查询的。
关联查询中涉及到多表的的查询,根据驱动类型分为驱动表和被驱动表,驱动表就是主表,被驱动表就是从表。
那么 MySQL 是如何进行join查询的呢?

1.Simple Nested-Loop Join (简单嵌套循环连接)

是从驱动表 A 中取出一条数据,遍历表 B,将匹配到的数据放到result,以此类推, 如下图所示:
在这里插入图片描述
比如驱动表A有10条,被驱动表B有100条,那么扫描次数是A+A*B, 每一次扫描其实就是从硬盘中读取数据加载到内存中,也就是一次IO,而IO是最大的瓶颈,所以效率低下,开销如下表:

开销统计简单嵌套循环连接
驱动表扫描次数1
被驱动表扫描次数A
读取记录数A+B*A
JOIN比较次数B*A
回表读取记录次数0

当然 MySQL 肯定不会这么粗暴的去进行表的连接,所以就出现了后面的两种对 Nested-Loop Join 优化算法。

2.Block Nested-Loop Join (块嵌套循环连接)

块嵌套循环连接是对上面一种算法的优化,简单嵌套是去驱动表中获取数据去匹配,和磁盘 IO 交互太多了,那么能否以一种批量的方式进行优化呢?mybatis 批量插入批量查询也是这个道理。而这种算法就是借鉴了这样的思想。
不再是逐条获取驱动表的数据,而是一块一块的获取,引入了 join buffer 缓冲区,将驱动表join相关的部分数据列、缓存到join buffer中,然后全表扫描被驱动表,被驱动表的每一条记录一次性和join buffer中的所有驱动表记录进行匹配(内存中操作),将简单嵌套循环中的多次比较合并成一次,降低了被驱动表的访问频率。整体如下图所示:
在这里插入图片描述
需要注意的是:从驱动表中缓存的列不仅仅是关联的的列,select 后面的列也会缓存起来。因此,为了能让 join buffer 缓存更多的数据,我们的 SQL 尽量不要 select *, 而是 select 用到的字段。
开销如下表:

开销统计块嵌套循环连接
驱动表扫描次数1
被驱动表扫描次数A*used_column_size/join_buffer_size+1
读取记录数A+B*(A*used_column_size/join_buffer_size)
JOIN比较次数B*A
回表读取记录次数0

join buffer的大小是可以设置的,默认情况下 join_buffer_size=256k。
join_buffer_size 的最大值在32位操作系统可以申请4G,而在64位操作系统下可以申请大于4G的 Join Buffer 空间(64位Windows除外,其大值会被截断为4GB并发出警告)。

3.Index Nested-Loop Join (索引嵌套循环连接)

索引嵌套循环连接(Index Nested-Loop Join)就是效率最高的,前提条件是被驱动表的关联字段建立了索引。通过驱动表匹配条件直接与被驱动表的索引进行匹配,避免和内存表的每条记录去进行比较,这样极大的减少了对内存表的匹配次数。如下图所示:
在这里插入图片描述
因为索引查询的成本基本一样,为了降低开销,驱动表是小表更加合适。所以我们常说把小表当作主表是有原因的。
开销如下表:

开销统计索引嵌套循环连接
驱动表扫描次数1
被驱动表扫描次数0
读取记录数A+B(match)
JOIN比较次数A*Index(Height)
回表读取记录次数B(match)(if possible)

如果被驱动表加索引,效率是非常高的,但如果索引不是主键索引,所以还得进行一次回表查询。相比,被驱动表的索引是主键索引,效率会更高。

块嵌套循环连接:对于被连接的数据子集较小的情况下,它是个较好的选择。
Hash Join: 是做大数据集连接时的常用方式,优化器使用两个表中较小(相对较小)的表利用 Join Key 在内存中建立散列值,然后扫描较大的表并探测散列值,找出与 Hash 表匹配的行。它能够很好的工作于没有索引的大表和并行查询的环境中,并提供最好的性能。Hash Join 只能应用于等值连接,这是由 Hash 的特点决定的。
在这里插入图片描述

总结:优化建议

前面讲了原理,从原理出发,讲一下优化的建议

  1. 被驱动表的连接字段建立索引,因为建立索引的查询方式是效率最高的。
  2. left join 或者 right join 这种外连接的情况,要保证小表(小结果集)作为驱动表,大表(大结果集)作为被驱动表,这样性能更好。
  3. 在查询字段的话,要避免写出 select * ,而是根据业务需要,需要查询出来的 select 出来就行,因为这些字段也会加入到 join buffer 中,减少额外的内存消耗。
  4. 能够直接多表关联的尽量直接关联,不用子查询,因为子查询的效率更加低。
  5. 在 sql 的查询计划的 extra 中,尽量避免出现 Using join buffer,有这个表示使用了块嵌套循环连接算法,尽量通过索引去解决。
  6. 尽量避免超过 3 张表以上的关联查询。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/756040.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot+定时器

定时器 1.定时器的多种实现1.1 Timer TimerTask)1.2 ScheduledExecutorService 1.定时器的多种实现 JDK自带的Timer TimerTask 优点: 简单易用, 支持延迟执行和周期性执行任务 缺点: 在多线程环境下存在问题, 例如任务执行时间较长, 可能会影响其他任务的执行不适合在需要精…

携程Kar98k/hotelUuidKey算法分析

声明 本文以教学为基准、本文提供的可操作性不得用于任何商业用途和违法违规场景。 本人对任何原因在使用本人中提供的代码和策略时可能对用户自己或他人造成的任何形式的损失和伤害不承担责任。 如有侵权,请联系我进行删除。 这里只是我分析的分析过程,以及一些重要点的记录…

SpringBoot的 ResponseEntity类讲解(具体讲解返回给前端的一些事情)

概述:ResponseEntity是Spring框架中的一个类,用于封装HTTP响应的相关信息,包括状态码、响应头和响应体。它通常用于控制器方法中返回一个包含特定数据的HTTP响应。 ResponseEntity ResponseEntity类的主要特点如下: 可以自定义H…

【ARM】DS中Coretex-M处理器的常用寄存器介绍

【更多软件使用问题请点击亿道电子官方网站查询】 1、 文档目标 了解ArmDS中Coretex-M处理器的常用寄存器的名称及作用。 2、 问题场景 在对Coretex-M处理器进行开发时,了解常用寄存器的名称及作用,可以: 编写正确的程序: 寄存器是程序员用…

前端form表单中提交时二次刷新问题

问题描述&#xff1a;在页面中的<form>里面添加button按钮&#xff0c;点击按钮触发事件后&#xff0c;js、jquery里面添加相应点击事件方法&#xff0c;方法里面控制页面跳转&#xff0c;触发事件后&#xff0c;页面会刷新两次&#xff0c;最后回到原来页面。 原因&…

UE4_AI_行为树_行为树快速入门指南

声明&#xff1a;学习笔记。 在 行为树快速入门指南 中&#xff0c;你将学会如何创建一个敌方AI&#xff0c;该AI看到玩家后会做出反应并展开追逐。当玩家离开视线后&#xff0c;AI将在几秒钟后&#xff08;这可根据你的需求进行调整&#xff09;放弃追逐&#xff0c;并在场景中…

使用 Postman 批量发送请求的最佳实践

背景 最近写了几个接口&#xff1a; 获取 books 的接口获取 likes 的接口获取 collections 的接口 但是我还是不放心&#xff0c;因为这些接口到底稳不稳定呢&#xff1f;上线后有没有隐患呢&#xff1f;所以我想做一个批量发送接口模拟~ 但是想要做到批量发送接口&#xf…

考研数学|《基础660》太难了!哪本习题集更适合打基础?

对于基础阶段的学习者来说&#xff0c;推荐使用汤家凤老师的《1800题》。这本题集包含了大量的数学题目&#xff0c;覆盖了考研数学的各个知识点和难度层次。题目设计全面&#xff0c;有助于系统地复习和巩固数学知识。 《1800题》提供了详细的解题思路和答案解析&#xff0c;…

XSS攻击及防御方式

XSS攻击 XSS&#xff08;Cross Site Scripting&#xff0c;跨站脚本攻击&#xff09;&#xff0c;是指攻击者利用站点的漏洞&#xff0c;在表单提交时&#xff0c;在表单内容中加入一些恶意脚本&#xff0c;当其他正常用户浏览页面&#xff0c;而页面中刚好出现攻击者的恶意脚…

高职(大专)教师结构化面试之复习攻略

一般高校自己组织的面试&#xff0c;结构化分为以下几部分&#xff1a; 1.岗位认知&#xff08;必背&#xff09; 2.职教热点&#xff08;很重要&#xff09; 3.教育教学&#xff08;包括教育教学理论、教育热点、教学相关问题解决&#xff09; 4.人际关系&#xff08;与领…

oops-framework框架 之 启动流程(三)

引擎&#xff1a; CocosCreator 3.8.0 环境&#xff1a; Mac Gitee: oops-game-kit 回顾 上篇博客中我们通过 oops-game-kit 模版构建了基础的项目&#xff0c;另外讲解了下assets目录结构和游戏配置文件的基本使用相关&#xff0c;详情内容可参考&#xff1a; oops-framewo…

Anaconda创建虚拟环境并使用Jupyter notebook应用虚拟环境

①创建Anaconda虚拟环境 一、管理员身份运行Anaconda Prompt 二、输入命令conda create --name your_env_name pythonx.x&#xff0c;your_env_name为自己环境明没&#xff0c;要对应自己的python版本&#xff0c;可以在命令行中输入python就可以进入python运行环境查看版本。…

DevOps工作流程之一:Apipost

随着互联网行业的不断发展&#xff0c;为了提高工作效率&#xff0c;加快软件的交付流程&#xff0c;越来越多企业的选择DevOps工作流程。DevOps旨在通过自动化流程和改善协作&#xff0c;实现软件开发、测试和交付的一体化&#xff0c;从而提高软件交付的质量和速度。而Apipos…

【蓝桥杯练习系统】基础练习(Java)(普通试题数+VIP试题数)

“蓝桥杯”练习系统 (lanqiao.cn) 基础入门 BASIC-01 AB问题 入门 import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner scanner new Scanner(System.in);int A scanner.nextInt();int B scanner.nextInt();System.out.print…

测试面试必备:HTTP请求和响应详解!

一次完整的HTTP请求过程从TCP三次握手建立连接成功后开始&#xff0c;客户端按照指定的格式开始向服务端发送HTTP请求&#xff0c;服务端接收请求后&#xff0c;解析HTTP请求&#xff0c;处理完业务逻辑&#xff0c;最后返回一个HTTP的响应给客户端&#xff0c;HTTP的响应内容同…

wireshark 使用实践

1、打开wireshark软件&#xff0c;选择网卡&#xff0c;开始抓包 2、打开浏览器&#xff0c;访问一个http网站&#xff1a;这里我用 【邵武市博物馆】明弘治十一年&#xff08;1498&#xff09;铜钟_文物资源_福建省文 测试&#xff0c;因为它是http的不是https&#xff0c;方…

【OpenWRT】x86平台安装原版OpenWRT

在当今高度互联的数字化时代&#xff0c;网络设备已经成为我们日常生活和工作中不可或缺的一部分。为了满足不同用户对网络功能的个性化需求&#xff0c;开源社区涌现出了诸多优秀的项目&#xff0c;其中 OpenWrt 便是其中之一。 OpenWrt 是一款专注于为嵌入式设备提供定制化、…

Echarts自适应大小和字体的大屏可视化方案

痛点&#xff1a; 用 Echarts 写图表&#xff0c;屏幕大小改变时&#xff0c;字体不能同步缩放&#xff0c;图表不会自动适应容器 有这个困扰的同学请给颗 star https://github.com/wj100/auto-size-echart 此方案代码量少&#xff0c;使用简单&#xff0c;接管 echarts 配置…

搜维尔科技:矿山安全多人协同仿真演练系统!

搜维尔科技&#xff1a;矿山安全多人协同仿真演练系统&#xff01; 搜维尔科技&#xff1a;矿山安全多人协同仿真演练系统&#xff01;

小型路由器,为什么四个端口的IP在一个网段?

是的&#xff0c;路由器确实在不同网段&#xff0c;不过小型路由器&#xff08;宽带路由器&#xff09;一般都是为家用设计的&#xff0c;思路就是越简单好用越好&#xff0c;逻辑上其实它只有一个WAN口和一个LAN口&#xff0c;WAN口接公网一个地址&#xff0c;LAN口接你电脑一…