半连接转内连接 | OceanBase SQL 查询改写

查询优化器是关系型数据库系统的核心模块,是数据库内核开发的重点和难点,也是衡量整个数据库系统成熟度的“试金石”。为了帮助大家更好地理解 OceanBase 查询优化器,我们撰写了查询改写系列文章,带大家更好地掌握查询改写的精髓,熟悉复杂 SQL 的等价性,写出高效的 SQL。本文将重点和大家介绍半连接转内连接,更多文章欢迎进入【OceanBase SQL 查询改写专题】 查看。

引言

查询分析中经常使用子查询语句,数据库为了提高子查询的执行性能,往往会把子查询语句改写成半连接(子查询提升方法参见本系列第二篇:子查询提升首篇)。

例如,我们需要查询2022-08-01到2022-08-02之间已排片的电影,可以通过IN子查询检查电影是否在排片期内。查询SQL如Q1所示。

-- 影片表
MOVIE(movie_id primary key, movie_name, release_date)
-- 排片表
PLAY(play_id, movie_id, play_time, price, seats)Q1:
SELECT movie_name
FROM   movie
WHERE  movie_id IN (SELECT movie_idFROM   playWHERE  play_time BETWEEN DATE'2022-08-01' AND DATE'2022-08-02');Q2:
SELECT movie_name
FROM   movie LEFT SEMI
JOIN   (SELECT movie_idFROM   playWHERE  play_time BETWEEN date'2022-08-01' AND    date'2022-08-02' )play
ON     movie.movie_id = play.movie_id;

对于查询Q1,OceanBase会做子查询提升改写,改写成等价的查询Q2,使用半连接来计算子查询。对于新的查询,优化器可以选择hash left semi join、hash right semi join、merge left semi join、merge right semi join、nested loop left semi join五种连接算法执行。下图展示了其中一种执行计划。

Query Plan: 
==========================================
|ID|OPERATOR      |NAME |EST. ROWS|COST  |
------------------------------------------
|0 |HASH SEMI JOIN|     |30       |910000|
|1 | TABLE SCAN   |MOVIE|1000000  |460000|
|2 | SUBPLAN SCAN |PLAY |30       |46    |
|3 |  TABLE SCAN  |PLAY |30       |46    |
==========================================

考虑一种业务场景:movie表的数据量达100w,2022-08-01到2022-08-02之间已排片的电影约30部。上面五种连接算法都需要扫描movie表的全部数据,扫描成本比较高。而我们知道movie表的主键为movie_id,如果我们能够先查询出2022-08-01到2022-08-02之间已排片的movie_id,再去movie表查询movie_name,就能够使用movie表的主键索引,执行30次主键索引扫描即可完成查询。

为了能够按照最优计划执行Q1查询,我们需要以play表作为驱动表,并且使用index nested loop join的算法,把movie_id的连接条件转换为movie表的索引扫描条件。计划如下所示。

Query Plan: 
=====================================================
|ID|OPERATOR                   |NAME |EST. ROWS|COST|
-----------------------------------------------------
|0 |NESTED LOOP RIGHT SEMI JOIN|     |30       |91  |
|1 | SUBPLAN SCAN              |PLAY |30       |96  |
|2 |  TABLE SCAN               |PLAY |30       |96  |
|3 | TABLE GET                 |MOVIE|1        |46  |
=====================================================

但我们知道,数据库没有NESTED LOOP RIGHT SEMI JOIN的算法实现,那我们要怎样改写这条SQL,使数据库能够支持这种优化计划呢?为此,OceanBase引入了一个改写规则:半连接转内连接,将满足一定条件的半连接查询转换为内连接查询,优化器就可以针对上述场景生成最优的index nested loop join计划。

半连接转内连接

介绍半连接转内连接规则前,我们先了解下半连接的执行逻辑。还是以Q1为例进行说明,从movie表中读取一行数据,然后从play表内查找指定movie_id的数据,如果存在,则执行数据,否则不输出。从描述中我们可以知道,对于movie表中给定的一行数据,无论play表存在多少条数据与指定的movie_id相同,查询都只输出一行数据。

而内连接对于符合条件的每一条数据都会输出,也就是说,如果半连接直接转内连接,执行结果可能会重复输出多次。为了保证改写不改变查询语义,我们需要对play的movie_id去重,保证movie表的每行数据在play表中只匹配一行数据,改写后的查询如Q3所示。

Q3:
SELECT movie_name
FROM   movie INNER JOIN
JOIN   (SELECT DISTINCT movie_idFROM   playWHERE  play_time BETWEEN date'2022-08-01' AND    date'2022-08-02' )play
ON     movie.movie_id = play.movie_id;

对于新的查询Q3,优化器可以尝试movie hash join play、play hash join movie、movie merge join play、 play merge join movie、movie nested loop join play、play nested loop join movie这六种连接算法执行,比原来多了一种。此时,优化器可以生成之前描述的最优计划。

================================================
|ID|OPERATOR              |NAME |EST. ROWS|COST|
------------------------------------------------
|0 |NESTED-LOOP JOIN      |     |30       |46  |
|1 | SUBPLAN SCAN         |PLAY |30       |46  |
|2 |  MERGE DISTINCT      |     |30       |46  |
|3 |   SORT               |     |30       |46  |
|4 |    TABLE SCAN        |PLAY |30       |46  |
|5 | TABLE GET            |MOVIE|1        |7   |
================================================

注意到改写之后的查询比原来的查询多了一次去重计算,Q3查询并不是在所有场景下都比Q2查询更优,因此,OceanBase的半连接转内连接改写是一种基于代价的改写,即优化器会对比改写前后最优计划的代价,如果代价降低了,才会应用改写,否则不会改写查询。

优化点

上文我们介绍了半连接转内连接主要是增加去重计算来保证语义的正确性,也正因为增加了去重计算,改写之后的查询并不总是比改写之前的查询更优。

我们可以思考一下,是否所有场景都需要加去重计算?答案是否定的,在有些场景下,我们可以把半连接直接转成内连接,例如:play表的movie_id本身就有唯一约束,或者play表只有一行数据满足条件。在这些场景下,我们可以不添加去重计算,这也意味着改写之后的查询总是比改写之前的查询更优,不需要额外比较代价。

改写陷阱

在之前的介绍中,我们没有说明数据类型对改写规则的影响,实际上半连接转内连接对数据类型是有要求的。通过一个例子说明,对于查询Q4,如果需要改写成内连接,改写的SQL如Q5所示。

create table t1(c1 int);
insert into t1 values(0);
create table t2(c1 varchar(20));
insert into t2 values('0.0');
insert into t2 values('0.1');Q4:
SELECT *
FROM   t1
WHERE  c1 IN (SELECT c1FROM   t2); 
Q5:
SELECT t1.c1
FROM   t1INNER JOIN (SELECT DISTINCT c1FROM   t2)t2ON t1.c1 = t2.c1; 

上面的改写正确吗?对于Q4,结果是一行数据:0,对于Q5,结果是两行数据:0, 0。为什么呢?在对t2表的c1列去重时,使用的是varchar(20)类型,'0.0'与'0.1'属于不同的数据,不会发生去重操作,与t1表连接时需要把varchar(20)类型的数据转换成int类型比较,此时'0.0'与'0.1'转换成了0与0,导致执行结果不正确。

为了避免数据类型影响改写的正确性,我们需要在改写时,对数据类型做适当的处理,你可以思考一下怎样是正确的改写查询。

总结

本文主要介绍OceanBase的半连接转内连接改写,以及这个改写的优化点、容易被忽略的错误。OceanBase会把满足一定条件的半连接转换成内连接,使优化器能够尝试更多的计划,生成的查询计划可能更优。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/63541.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

android opencv导入进行编译

1、直接新建module进行导入,选择opencv的sdk 导入module模式,选择下载好的sdk,修改module name为OpenCV490。 有报错直接解决报错,没报错直接运行成功。 2、解决错误,同步成功 一般报错是gradle版本问题较多。我的报…

通过阿里云 Milvus 与 PAI 搭建高效的检索增强对话系统

背景介绍 阿里云向量检索服务Milvus版(简称阿里云Milvus)是一款云上全托管服务,确保了了与开源Milvus的100%兼容性,并支持无缝迁移。在开源版本的基础上增强了可扩展性,能提供大规模 AI 向量数据的相似性检索服务。相…

【批量生成WORD和PDF文件】根据表格内容和模板文件批量创建word文件,一次性生成多个word文档和批量创建PDF文件

如何按照Word模板和表格的数据快速制作5000个word文档 ? 在与客户的合作的中需要创建大量的合同,这些合同的模板大概都是一致的,是不是每次我们都需要填充不一样的数据来完成? 今天用表格数据完成合同模板的填充,批量…

pip使用方法

1. 安装包: pip install :安装指定的 Python 包。 pip install :安装特定版本的 Python 包。 pip install -r requirements.txt:从文件中读取依赖列表并安装所有列出的包。 pip install --pre :允许安装预发布或开发版…

Windows11 安装 Ubuntu-20.04,同时安装配置 zsh shell,配置 git 别名(alias),大大提高开发效率

背景:家里配置了一台 Windows 电脑,有时候需要用到 vscode 开发测试一些代码,在使用过程中发现原生 windows 敲代码不是很友好,于是想到配置 wsl,安装 Ubuntu,并安装配置 zsh shell,同时配置 gi…

什么是渐进式 Web 应用,有哪些特点

渐进式 Web 应用 (Progressive Web Apps, PWAs) 的定义与特点 一、定义 渐进式 Web 应用(Progressive Web App,简称 PWA)是一种结合了传统 Web 技术和现代移动应用特性的新型应用程序形式。PWAs 可以像普通网站一样通过浏览器访问&#xff…

鸿蒙心路旅程:HarmonyOS NEXT 心路旅程:技术、成长与未来

HarmonyOS NEXT 心路旅程:技术、成长与未来 技术的浪潮中,总有一些瞬间让人感到心潮澎湃。作为一名HarmonyOS NEXT开发者,我有幸成为这个时代科技创新的一部分。从最初的接触到深入学习、开发,以及如今规划未来的职业方向&#x…

勤研低代码平台:重塑软件开发协作新生态

在当今数字化浪潮汹涌澎湃的时代,软件开发的效率与质量成为企业竞争的关键因素之一。勤研低代码开发平台以创新性的实际页面 - 功能设计 - 页面设计 - 原型页面切换功能,脱颖而出,为软件开发过程中的团队协作、客户沟通以及项目推进带来了前所…

ChatGPT等大语言模型与水文水资源、水环境领域的深度融合

聚焦GPT等大语言模型与水文水资源领域的深度融合,通过系统化内容与实践案例,讲解如何高效完成时间序列分析、空间数据处理、水文模型优化以及智能科学写作等任务。同时,展示AI在高级机器学习模型开发、资源优化算法编程与模型微调中的最新应用…

node安装,npm安装,vue-cli安装以及element-ui配置项目

node.js Node.js主要用于开发高性能、高并发的网络服务器,特别适合构建HTTP服务器、实时交互应用(如聊天室)和RESTful API服务器等。‌它使用JavaScript语言,基于Chrome V8引擎,提供模块化开发和丰富的npm生态系统&…

easyplayer-pro播放器学习

背调 查询官方文档,EasyPlayer-pro支持ws-flv, http-flv, hls, webrtc(webrtc://xxx)格式,电子放大、水印(动态水印、幽灵水印)、显示上一个视频最后一帧、播放器快照截图、视频录制(WebM格式(音频视频)、MP4格式(视频),FLV格式(…

5G 模组 初始化状态检测

5G 模组 上电检测 5G 模组 上电检测 #终端上电后,待模组正常启动,再进入 控制台。 #vim /etc/profile##新增 until [ -c /dev/ttyUSB1 ] doecho -e "Wait module[5G] up ... "sleep 5 done ##新增The End.

WPF+MVVM案例实战与特效(四十三)- 打造动态炫酷彩虹字控件,让你的界面动起来

文章目录 1、引言1、案例效果2、案例实现1、XAML 布局2、逻辑代码3、动画效果4、控件使用5、运行效果3、案例源代码4、总结1、引言 上一节,我们实现了炫酷的彩虹字控件,现在我们想让彩虹字更加生动吸引人,让每个字体跳动起来,让字体活过来。这里我们通过动画实现,我们把这…

线程知识总结(一)

1、概述 1.1 进程与线程 进程是程序运行时,操作系统进行资源分配的最小单位,包括 CPU、内存空间、磁盘 IO 等。从另一个角度讲,进程是程序在设备(计算机、手机等)上的一次执行活动,或者说是正在运行中的程…

深入QML语法

文章目录 深入了解 QML 文档的结构和语法什么是 QML 文档?导入语句导入语句的格式示例 对象声明基本语法示例更复杂的对象声明 QML 对象类型详解1. Rectangle(矩形)2. Gradient(渐变)3. Text(文本&#xff…

【Python】使用Selenium 操作浏览器 自动化测试 记录

【自动化】Python SeleniumUtil 工具 开启开发者模式 自动安装油猴用户脚本等-CSDN博客文章浏览阅读389次。【自动化】Python SeleniumUtil 工具。https://blog.csdn.net/G971005287W/article/details/144565691?spm1001.2014.3001.5501【学习记录】浏览器指纹相关学习记录&am…

Linux应用软件编程-文件操作(标准io)

在Linux下一切皆文件,比如:.txt,.c,.h,.jpg,目录,键盘,鼠标,显示器、硬盘等等都是文件,即IO。文件操作的统一思想:打开文件,读、写文件…

【Rust自学】4.4. 引用与借用

4.4.0 写在正文之前 这一节的内容其实就相当于C的智能指针移动语义在编译器层面做了一些约束。Rust中引用的写法通过编译器的约束写成了C中最理想、最规范的指针写法。所以学过C的人对这一章肯定会非常熟悉。 喜欢的话别忘了点赞、收藏加关注哦(加关注即可阅读全文…

深入解析 StarRocks 物化视图:全方位的查询改写机制

小编导读: 本文将重点介绍如何利用物化视图进行查询改写。文章将全面介绍物化视图的基本原理、关键特性、应用案例、使用场景、代码细节以及主流大数据产品的物化视图改写能力对比。 物化视图在 StarRocks 中扮演着至关重要的角色,它是进行数据建模和加速…

2. petalinux-build失败

NOTE 解决因为网络原因产生的编译错误分享详细的解决步骤 报错的情况 因为网络原因产生编译错误 现象 找不到适合的包文件(No suitable stageing package found) 不能发现文件(Fetcher failure for URL) 解决方法 采用本地加载本地文件的方式,步骤如下 进入…