mysql cbo优化器_查询优化器介绍 - PolarDB-X 云原生分布式数据库 - 阿里云

PolarDB-X接收到一条SQL后的执行过程大致如下:

语法解析器(Parser)将SQL文本解析成抽象语法树(AST)。

语法树被转化成基于关系代数的逻辑计划。

优化器(Optimizer)对逻辑计划进行优化得到物理计划。

执行器(Executor)执行该计划,得到查询结果并返回给用户。

6217cb39660a5d9a92b554a6fd25fb38.png

本章将会介绍查询优化器的基本原理,包含如下几个方面:

关系代数算子。

查询改写(RBO阶段)。

查询计划枚举(CBO阶段)。

关系代数算子

一条SQL查询在数据库系统中通常被表示为一棵关系代数算子组成的树,有如下场景的算子:

Project:用于描述SQL中的SELECT列,包括函数计算。

FIlter:用于描述SQL中的WHERE条件。

JOIN:用于描述SQL中的JOIN,其对应的物理算子有HashJoin、 BKAJoin、Nested-Loop Join、SortMergeJoin。

Agg:用于描述SQL中的Group By及聚合函数,其对应的物理算子有HashAgg、SortAgg。

Sort:用于描述SQL中的Order By及Limit,其对应的物理算子有TopN、MemSort。

LogicalView:用于描述PolarDB-X下发至RDS MySQL或PolarDB MySQL的SQL,其内部可能包含一个或多个逻辑算子。

Gather:代表从多个数据流汇集数据的操作,通常出现在LogicalView之上(若开启并行执行,则并行优化步骤会将其上拉)。

例如,对于如下查询SQL(修改自TPC-H Query 3):

SELECT l_orderkey,sum(l_extendedprice*(1-l_discount))AS revenue

FROM CUSTOMER,ORDERS,LINEITEM

WHERE c_mktsegment='AUTOMOBILE'

andc_custkey=o_custkey

andl_orderkey=o_orderkey

ando_orderdate

andl_shipdate>'1995-03-13'

GROUP BY l_orderkey;

通过如下EXPLAIN命令看到PolarDB-X的执行计划:

HashAgg(group="l_orderkey",revenue="SUM(*)")

HashJoin(condition="o_custkey = c_custkey",type="inner")

Gather(concurrent=true)

LogicalView(tables="ORDERS_[0-7],LINEITEM_[0-7]",shardCount=8,sql="SELECT `ORDERS`.`o_custkey`, `LINEITEM`.`l_orderkey`, (`LINEITEM`.`l_extendedprice` * (? - `LINEITEM`.`l_discount`)) AS `x` FROM `ORDERS` AS `ORDERS` INNER JOIN `LINEITEM` AS `LINEITEM` ON (((`ORDERS`.`o_orderkey` = `LINEITEM`.`l_orderkey`) AND (`ORDERS`.`o_orderdate` < ?)) AND (`LINEITEM`.`l_shipdate` > ?))")

Gather(concurrent=true)

LogicalView(tables="CUSTOMER_[0-7]",shardCount=8,sql="SELECT `c_custkey` FROM `CUSTOMER` AS `CUSTOMER` WHERE (`c_mktsegment` = ?)")

用树状图表示如下:

6ebc9e18ef9233885c1dbe90e772aef5.png

左边的LogicalView实际包含了ORDERS和LINEITEM两张表的JOIN。EXPLAIN结果中LogicalView的SQL属性也体现了这一点。

查询改写(RBO)

查询改写(SQL Rewrite)阶段输入为逻辑执行计划,输出为逻辑执行计划。这一步主要应用一些启发式规则,是基于规则的优化器(Rule-Based Optimizer,简称RBO),所以也常被称为RBO阶段。

ce8c7b5226b2ac26a31b8560317b757b.png

查询改写这一步的主要有如下功能:

子查询去关联化(Subquery Unnesting)

子查询去关联化是将含有关联项的子查询(关联子查询)表示为SemiJoin或类似的算子,便于后续的各种优化处理,例如下推到MySQL或在PolarDB-X层选择某种算法执行。

在如下例子中IN子查询转化为SemiJoin算子,并最终转化成SemiHashJoin物理算子由PolarDB-X进行执行:

>explainselectidfromt1whereidin(selectidfromt2wheret2.name='hello');

SemiHashJoin(condition="id = id",type="semi")

Gather(concurrent=true)

LogicalView(tables="t1",shardCount=2,sql="SELECT `id` FROM `t1` AS `t1`")

Gather(concurrent=true)

LogicalView(tables="t2_[0-3]",shardCount=4,sql="SELECT `id` FROM `t2` AS `t2` WHERE (`name` = ?)")

算子下推

算子下推是非常关键的一步,PolarDB-X内置了如下算子的下推优化规则:谓词下推或列裁剪:将Filter及Project算子下推至MySQL执行,过滤掉不需要的行和列。

JOIN Clustering:将JOIN按照拆分方式及拆分键相等进行重排和聚簇,方便下一步的JOIN下。

JOIN下推:对于符合条件的JOIN,将其下推至MySQL执行。

Agg下推:将聚合(Agg)拆分为FinalAgg和LocalAgg两个阶段,并将LocalAgg下推至MySQL。

Sort下推:将排序(Sort)拆分为MergeSort和LocalSort两个阶段,并将LocalSort下推至MySQL。

更多关于查询下推的信息,请参见查询改写与下推。

查询计划枚举(CBO)

经过查询改写阶段的逻辑执行计划会被输入到查询计划枚举(Plan Enumerator),输出一个最终的物理执行计划。

查询计划枚举在多个可行的查询计划中,根据预先定义的代价模型,选择出代价最低的一个。与查询改写阶段不同,在查询计划枚举中,规则可能产生更好的执行计划,也可能产生更差的执行计划,我们会根据前后的代价相比较来选择出较优的那个,因此这也被称为基于代价的优化(Cost-based Optimizer,简称CBO)。

其核心组件有以下几个部分:

统计信息(Statistics)

基数估计(Cardinality Estimation)

转化规则(Transform Rules)

代价模型(Cost Model)

计划空间搜索引擎(Plan Space Search Engine)

逻辑上,CBO的过程包括如下几个步骤:

搜索引擎利用转化规则,对输入的逻辑执行计划进行变换,构造出物理执行计划的搜索空间。

之后,利用代价模型对搜索空间中的每一个执行计划进行代价估计,选出代价最低的物理执行计划。

而代价估计的过程离不开基数估计,它利用各个表、列的统计信息,估算出各算子的输入行数、选择率等信息,提供给算子的代价模型,从而估算出查询计划的代价。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/291483.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这周,我们作前端,实现统一的过滤搜索

这周统一了过滤和搜索样式&#xff0c; 作个记录。 还自己写了两个css样式&#xff0c;长见识了。 filter.html {% load staticfiles %}<link rel"stylesheet" href"{% static css/select2.min.css%}" /> <link rel"stylesheet" href&q…

怎么样在线创建索引或者重构索引

重新创建&#xff08;create&#xff09;索引的主要原因是因为新的业务的发展的需要&#xff0c;而重组索引往往是因为索引的偏移膨胀或者是数据删除引起的稀疏状态&#xff0c;也就是有些人说的“碎片”&#xff0c;这个情况下&#xff0c;我们就可以在线重组索引&#xff08;…

unix网络编程之UNIX Domain Socket IPC (sockaddr_un )

socket API原本是为网络通讯设计的&#xff0c;但后来在socket的框架上发展出一种IPC机制&#xff0c;就是UNIX Domain Socket。虽然网络socket也可用于同一台主机的进程间通讯&#xff08;通过loopback地址127.0.0.1&#xff09;&#xff0c;但是UNIX Domain Socket用于IPC更有…

找最大重复次数的数和重复次数(C++ Pair)

Problem A: 第一集 你好&#xff0c;世界冠军 Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 265 Solved: 50[Submit][Status][Web Board]Description “我宣布&#xff0c;第十届国际程序设计竞赛现在开始&#xff01;本次比赛时间为9点到14点……”伴随着大赛主席的宣布…

观察者模式VS发布-订阅模式

前言观察者模式的大名&#xff0c;想必各位看官早已有所耳闻。从我们现实生活来说&#xff0c;微信公众号订阅、医院挂号叫号等都属于它的实际应用。在程序世界中&#xff0c;它是一种用于将代码解耦的设计模式&#xff0c;如果你想掌握并理解这种设计模式&#xff0c;今天就和…

mysql insert replace_mysql 操作总结 INSERT和REPLACE

--他人总结的用于操作数据库的SQL一般分为两种&#xff0c;一种是查询语句&#xff0c;也就是我们所说的SELECT语句&#xff0c;另外一种就是更新语句&#xff0c;也叫做数据操作语句。言外之意&#xff0c;就是对数据进行修改。在标准的SQL中有3个语句&#xff0c;它们是INSER…

C++之‘malloc’ was not declared in this scope和invalid conversion from ‘void*’ to ‘char*’

1、错误一 ‘malloc’ was not declared in this scope 2解决 加上头文件文件<stdlib.h> 3、错误二 invalid conversion from ‘void*’ to ‘char*’ 4、解决 在malloc函数前面加上强转类型(char *)

Python 运算符

Python语言支持以下类型的运算符: 算术运算符比较&#xff08;关系&#xff09;运算符赋值运算符逻辑运算符位运算符成员运算符身份运算符运算符优先级Python算术运算符 以下假设变量a为10&#xff0c;变量b为20&#xff1a; 运算符描述实例加 - 两个对象相加a b 输出结果 30-…

Kubernetes 集群和应用监控方案的设计与实践

目录Kubernetes 监控监控对象Prometheus指标实践节点监控部署 Prometheus部署 Kube State Metrics部署 Grafana应用如何接入 Prometheus 和 Grafana告警Kubernetes 监控当你的应用部署到 Kubenetes 后&#xff0c;你很难看到容器内部发生了什么&#xff0c;一旦容器死掉&#x…

全局照明算法基础——从辐射亮度到渲染方程

全局照明&#xff08;Global Illumination&#xff09;问题上已经有很多著名的算法&#xff0c;如路径追踪&#xff08;Path Tracing&#xff09;&#xff0c;辐照度&#xff08;Radiosity&#xff09;等。绝大部分书籍/教材都直接介绍了做法&#xff0c;在理论方面有所欠缺&am…

mysql 开发规范_专业级的MySQL开发设计规范及SQL编写规范

在团队开发过程中为了项目的稳定&#xff0c;代码的高效&#xff0c;管理的便捷制定内部种开发设计规范是必不可少的&#xff0c;这里分享一份我们定义MySQL开发设计规范包括表设计规范&#xff0c;字段设计规范&#xff0c;SQL编写规范数据库对象命名规范数据库对象命名规范的…

C++之explicit关键字使用总结

1、explicit关键字介绍 C++中的explicit关键字只能用于修饰只有一个参数的类构造函数, 它的作用是表明该构造函数是显示的, 而非隐式的, 关键字是implicit, 意思是隐藏的,类构造函数默认情况下即声明为implicit(隐式). 2、贴代码 #include <iostream> #include <stdi…

系统下载地址

系统下载地址 http://pan.baidu.com/s/1o6hVbPC 其中有xp win7和win8 32位 win7和win8 64位转载于:https://blog.51cto.com/freedom886/1403433

聊一聊DTM子事务屏障功能之SQL Server版

背景 前面写了两篇&#xff08;聊一聊如何用C#轻松完成一个SAGA分布式事务和聊一聊如何用C#轻松完成一个TCC分布式事务&#xff09;如何用 C# 基于 DTM 轻松实现 SAGA 和 TCC 的分布式事务&#xff0c;其中有一个子事务屏障的功能&#xff0c;很好的处理了空补偿、悬挂、重复请…

更为详细的Txtsetup.sif文件解释

更为详细的Txtsetup.sif文件解释;代码页定义, 以免文本安装模式下无法正常显示简体中文 (以下基本都是跟简体中文相关的, 不同语言版本的 Windows, 此处定义也不同)[nls]AnsiCodepage c_936.nls,936OemCodepage c_936.nls,936MacCodepage c_10008.nls,10008UnicodeCasetable…

C++类与const关键字

1、const成员变量 const 成员变量的用法和普通 const 变量的用法相似,只需要在声明时加上 const 关键字 const 成员函数可以使用类中的所有成员变量,但是不能修改它们的值,这种措施主要还是为了保护数据而设置的 2、const 成员函数也称为常成员函数。 常成员函数需要在声明…

Dos中转义符

遇到个问题&#xff1a; java test R<file> 11 22 按理说应该打印 R<file>1122但是&#xff0c;系统报错&#xff0c;写的是系统找不到指定文件。 是"<>"引起的&#xff0c;加上Dos转义符中"^"即可。 java test R^<file^> 11 22 测…

ORA-00257+mysql_ORA-00257错误的解决办法

author&#xff1a; headsen chendate&#xff1a; 2018-04-17 11:12:39notice&#xff1a;个人原创&#xff0c;转载请注明作者和出处&#xff0c;否则依法追击法律责任。1&#xff0c;oracle数据库正常使用中&#xff0c;突然报ora-00257的错误&#xff0c;原因是归档日志满…

可穿戴设备对企业的积极意义

在耐克裁掉该公司的FuelBand运动手环硬件部门后&#xff0c;众多媒体和肇事者即开始唱衰可穿戴设备。在这些唱衰可穿戴的人总&#xff0c;有一些人从来没有用过可穿戴设备&#xff0c;有的甚至都没有见过可穿戴设备&#xff0c;他们只是根据自己的臆想&#xff0c;过往的经验&a…

学习路线

为什么80%的码农都做不了架构师&#xff1f;>>> 一、构想 1.专门制定某领域学习路线。 2.为人们进入某领域而学习提供依据。 转载于:https://my.oschina.net/kun123/blog/838360