mysql中InnoDB的统计数据

大家好。我们知道,mysql中存在许多的统计数据,比如通过SHOW TABLE STATUS 可以看到关于表的统计数据,通过SHOW INDEX可以看到关于索引的统计数据,那么这些统计数据是怎么来的呢?它们是以什么方式收集的呢?今天我们来说说InnoDB 存储引擎的统计数据收集策略。

一、统计数据的存储方式

InnoDB 提供了两种存储统计数据的方式:

永久性统计数据: 这种统计数据存储在磁盘上,服务器重启之后这些统计数据还在。

非永久性统计数据: 这种统计数据存储在内存中,当服务器关闭时这些统计数据就会被清除掉,等到服务器重启之后,在某些场景下会重新收集这些统计数据。

MySQL 通过系统变量innodb_stats_persistent来控制到底采用哪种方式去存储统计数据。在MySQL 5.6.6之前,innodb_stats_persistent 的值默认是OFF ,也就是说 nnoDB 的统计数据默认是存储到内存的,之后的版本中innodb_stats_persistent的值默认是ON ,也就是统计数据默认被存储到磁盘中。

InnoDB 默认是以表为单位来收集和存储统计数据的,所以我们可以把某些表的统计数据存储在磁盘上,把另一些表的统计数据存储在内存中。我们可以在创建和修改表的时候通过指定STATS_PERSISTENT属性来指明该表的统计数据存储方式:

CREATE TABLE 表名 (...) Engine=InnoDB, STATS_PERSISTENT = (1|0);
ALTER TABLE 表名 Engine=InnoDB, STATS_PERSISTENT = (1|0);

当STATS_PERSISTENT=1时,该表的统计数据存储到磁盘上,当 STATS_PERSISTENT=0时,该表的统计数据临时的存储到内存中。如果我们在创建表时未指定STATS_PERSISTENT属性,那默认采用系统变量innodb_stats_persistent 的值作为该属性的值。

二、永久性统计数据

永久性统计数据存放到磁盘上时,实际上是存储到下面这两个表里:
在这里插入图片描述

可以看到,这两个表都位于mysql 系统数据库下边,其中:

innodb_table_stats 存储了关于表的统计数据,每一条记录对应着一个表的统计数据。

innodb_index_stats 存储了关于索引的统计数据,每一条记录对应着一个索引的一个统计项的统计数据。

下面我们看一下这两个表里边都有什么以及表里的数据是如何生成的。

1、innodb_table_stats

在这里插入图片描述
上图就是innodb_table_stats表里存放的数据,下面我们以single_table 表的统计信息为例介绍一下几个重要统计信息项:

n_rows 的值是9446,表明single_table表中大约有9446条记录,注意这个数据是估计值(实际是10000条)。

clustered_index_size 的值是97,表明single_table表的聚簇索引占用97个页面,这个值是也是一个估计值。

sum_of_other_index_sizes 的值是68,表明single_table表的其他索引一共占用68个页面,这个值是也是一个估计值。

1. n_rows统计项的收集

InnoDB 统计一个表中有多少行记录的方式是这样的:按照一定算法选取几个叶子节点页面,计算每个页面中主键值记录数量,然后计算平均一个页面中主键值的记录数量乘以全部叶子节点的数量就算是该表的n_rows值。所以n_rows值是一个估计值,并不是真正的记录数。

可以看出来这个n_rows 值精确与否取决于统计时采样的页面数量,MySQL通过一个名为innodb_stats_persistent_sample_pages的系统变量来控制使用永久性统计数据时计算统计数据时采样的页面数量。该值设置的越大,统计出的n_rows值越精确,但是统计耗时也就最久;该值设置的越小,统计出的n_rows值越不精确,但是统计耗时特别少。该系统变量的默认值是20。

我们也可以单独设置某个表的采样页面的数量,设置方式就是在创建或修改表的时候通过指定STATS_SAMPLE_PAGES属性来指明该表的统计 数据存储方式:

CREATE TABLE 表名 (...) Engine=InnoDB, STATS_SAMPLE_PAGES = 具体的采样页面数量;
ALTER TABLE 表名 Engine=InnoDB, STATS_SAMPLE_PAGES = 具体的采样页面数量;

如果我们在创建表的语句中并没有指定STATS_SAMPLE_PAGES 属性的话,将默认使用系统变量 innodb_stats_persistent_sample_pages的值作为该属性的值。

2. clustered_index_size和sum_of_other_index_sizes统计项的收集

这两个统计项的收集过程如下:

  1. 从数据字典里找到表的各个索引对应的根页面位置。系统表SYS_INDEXES里存储了各个索引对应的根页面信息。

  2. 从根页面的Page Header里找到叶子节点段和非叶子节点段对应的 Segment Header。在每个索引的根页面的Page Header部分都有两个字段:

PAGE_BTR_SEG_LEAF: 表示B+树叶子段的Segment Header信息。

PAGE_BTR_SEG_TOP: 表示B+树非叶子段的Segment Header信息。

下面是Segment Header结构示意图:
在这里插入图片描述

  1. 从叶子节点段和非叶子节点段的Segment Header中找到这两个段对应的INODE Entry结构。 下面是INODE Entry结构示意图:在这里插入图片描述

  2. 从对应的INODE Entry结构中可以找到该段对应所有零散的页面地址以及FREE 、NOT_FULL 、FULL链表的基节点。下面是链表的基节点结构示意图:在这里插入图片描述

  3. 直接统计零散的页面有多少个,然后从FREE 、NOT_FULL 、FULL三个链表的List Length字段中读出该段占用的区的大小,每个区占用64 个页,所以就可以统计出整个段占用的页面。

通过上述5个步骤可以统计出索引的某个段占用的页面数量。分别计算聚簇索引的叶子节点段和非叶子节点段占用的页面数,它们的和就是clustered_index_size的值,按照同样的套路把其余索引占用的页面数都算出来,加起来之后就是sum_of_other_index_sizes的值。

注意:一个段的数据在非常多时(超过32个页面),会以区为单位来申请空间,以区为单位申请空间中有一些页可能并没有使用,但是在统计clustered_index_size和sum_of_other_index_sizes时都把它们算进去了,所以说聚簇索引和其他的索引占用的页面数可能比这两个值要小。

2、innodb_index_stats

在这里插入图片描述
我们依旧以single_table表为例,上图是single_table表在innodb_index_stats中存储的记录信息。下面我们来看一下如何查看这些信息:

  1. 先查看index_name列,这个列说明该记录是哪个索引的统计信息。我们可以看出来,PRIMARY索引(也就是主键)占了3条记录,idx_key_part索引占了6条记录。
  2. 针对index_name列相同的记录, stat_name表示针对该索引的统计项名称, stat_value 展示的是该索引在该统计项上的值,stat_description指的是来描述该统计项的含义的。
    我们来具体看一下一个索引都有哪些统计项:
    n_leaf_pages:表示该索引的叶子节点占用多少页面。
    size:表示该索引共占用多少页面。
    n_diff_pfx NN:表示对应的索引列不重复的值有多少。

这里的NN 可以被替换为01、02、03… 这样的数字。比如对于 idx_key_part 来说:
n_diff_pfx01表示的是统计key_part1这单单一个列不重复的值有多少。
n_diff_pfx02表示的是统计key_part1、key_part2这两个列组合起来不重复的值有多少。
n_diff_pfx03 表示的是统计key_part1、key_part2、key_part3 这三个列组合起来不重复的值有多少。
n_diff_pfx04 表示的是统计key_part1、key_part2、key_part3、id 这四个列组合起来不重复的值有多少。

注意:对于普通的二级索引,并不能保证它的索引列值是唯一的,此时只有在索引列上加上主键值才可以区分两条索引列值都一样的二级索引记录。

  1. 在计算某些索引列中包含多少不重复值时,需要对一些叶子节点页面进行采样,sample_size列就表明了采样的页面数量是多少。

对于有多个列的联合索引来说,采样的页面数量是:innodb_stats_persistent_sample_pages × 索引列的个数。当需要采样的页面数量大于该索引的叶子节点数量的话,就直接采用全表扫描来统计索引列的不重复值数量了。所以不同索引对应的sample_size列的值可能是不同的。

3、定期更新统计数据

随着我们不断的对表进行增删改操作,表中的数据也一直在变化,这时innodb_table_stats和innodb_index_stats表里的统计数据也会跟着变。MySQL提供了两种更新统计数据的方式:

开启innodb_stats_auto_recalc: 系统变量innodb_stats_auto_recalc决定着服务器是否自动重新计算统计数据,它的默认值是ON(开启)。每个表都维护了一个变量,该变量记录着对该表进行增删改的记录条数,如果发生变动的记录数量超过了表大小的10%,并且自动重新计算统计数据的功能是打开的,那么服务器会重新进行一次统计数据的计算,并且更新innodb_table_stats 和 innodb_index_stats 表。不过自动重新计算统计数据 的过程是异步发生的,也就是即使表中变动的记录数超过了10%,自动重新计算统计数据也不会立即发生, 可能会延迟几秒才会进行计算。

InnoDB 默认是以表为单位来收集和存储统计数据的,我们可以单独为某个表设置是否自动重新计算统计数的属性,设置方式就是在创建或修改表的时候通过指定STATS_AUTO_RECALC属性来指明该表的统计数据存储方式:

CREATE TABLE 表名 (...) Engine=InnoDB, STATS_AUTO_RECALC = (1|0);
ALTER TABLE 表名 Engine=InnoDB, STATS_AUTO_RECALC = (1|0);

当STATS_AUTO_RECALC=1时,表明我们想让该表自动重新计算统计数据,当STATS_PERSISTENT=0时,表明不想让该表自动重新计算统计数据。如果我们在创建表时未指定STATS_AUTO_RECALC属性,那默认采用系统 变量innodb_stats_auto_recalc 的值作为该属性的值。

手动调用ANALYZE TABLE语句来更新统计信息: 如果innodb_stats_auto_recalc系统变量的值为OFF,我们也可以手动调用 ANALYZE TABLE语句来重新计算统计数据,ANALYZE TABLE语句会立即重新计算统计数据,也就是这个过程是同步的。

4、 手动更新innodb_table_stats和innodb_index_stats表

其实innodb_table_stats和innodb_index_stats表就相当于一个普通的表一样,我们能对它们做增删改查操作。这也就意味着我们可以手动更新某个表或者索引的统计数据。比如说我们想把single_table 表关于行数的 统计数据更改一下可以这么做:

步骤一:更新innodb_table_stats 表。

UPDATE innodb_table_stats SET n_rows = 1 WHERE table_name = 'single_table

步骤二:让MySQL 查询优化器重新加载我们更改过的数据。

更新完innodb_table_stats只是单纯的修改了一个表的数据,需要运行下边的命令让MySQL查询优化器重新加载我们更改过的数据:

FLUSH TABLE single_table;

三、非永久性统计数据

当我们把系统变量innodb_stats_persistent的值设置为OFF时,创建的表的统计数据默认就都是非永久性的了,或者我们直接在创建表或修改表时设置STATS_PERSISTENT属性的值为0,那么该表的统计数据就是非永久性的了。

与永久性的统计数据不同,非永久性的统计数据采样的页面数量是由innodb_stats_transient_sample_pages控制的,这个系统变量的默认值是8。

最近的MySQL版本都不怎么使用这种基于内存的非永久性统计数据这里我们了解即可。

四、innodb_stats_method的使用

我们知道,索引列不重复的值的数量对于MySQL查询优化器十分重要,因为通过它可以计算出在索引列中平均一个值重复多少行,它的应用场景主要有两个:

1. 单表查询中单点区间太多

SELECT * FROM tbl_name WHERE key IN ('xx1', 'xx2', ..., 'xxn');

当上述sql中IN里的参数数量过多时,采用index dive的方式直接访问 B+树索引去统计每个单点区间对应的记录的数量就太耗费性能了,所以直接依赖统计数据中的平均一个值重复多少行来计算单点区间对应的记录数量。

2. 连接查询时,如果有涉及两个表的等值匹配连接条件,该连接条件对应的被驱动表中的列又拥有索引时,则可以使用ref 访问方法来对被驱动表进行查询

SELECT * FROM t1 JOIN t2 ON t1.column = t2.key WHERE ...;

在真正执行对t2表的查询前,t1.comumn 的值是不确定的,所以也不能通过index dive的方式直接访问B+树索引去统计每个单点区间对应的记录的数量,只能依赖统计数据中的平均一个值重复多少行来计算单点区间对应的记录数量。

下面我们思考一下:在统计索引列不重复的值的数量时,如果索引列中出现NULL值怎么办?例如下面这列:
在这里插入图片描述

此时计算这个col 列中不重复的值的数量就有下边的分歧:

  1. 有的人认为NULL值代表一个未确定的值,在统计索引列不重复的值的数量时,应该把NULL值当作 一个独立的值,所以col列的不重复的值的数量就是:4(分别是1、2、NULL、NULL这四个值)。
  2. 有的人认为其实NULL值在业务上就是代表没有,所有的NULL值代表的意义是一样的,所以col列不重复的值的数量就是:3(分别是1、2、NULL这三个值)。
  3. 有的人认为这NULL 完全没有意义,所以在统计索引列不重复的值的数量时压根儿不能把它们算进来,所以col 列不重复的值的数量就是:2(分别是1、2这两个值)。

MySQL提供了一个名为innodb_stats_method 的系统变量,这个系统变量有三个候选值:

nulls_equal: 认为所有NULL值都是相等的。这个值也是 innodb_stats_method的默认值。如果某个索引列中NULL 值特别多的话,这种统计方式会让优化器认为某个列中平均一个值重复次数特别多,所以倾向于不使用索引进行访问。

nulls_unequal: 认为所有 NULL 值都是不相等的。如果某个索引列中NULL 值特别多的话,这种统计方式会让优化器认为某个列中平均一个值重复次数特别少,所以倾向于使用索引进行访问。

nulls_ignored: 直接把 NULL 值忽略掉。

好了,到这里我们就讲完了,今天主要讲了InnoDB的统计数据是如何产生的,大家有什么想法欢迎留言讨论。也希望大家能给作者点个关注,谢谢大家!最后依旧是请各位老板有钱的捧个人场,没钱的也捧个人场,谢谢各位老板!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/19258.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vscode:如何解决”检测到include错误,请更新includePath“

vscode:如何解决”检测到include错误,请更新includePath“ 前言解决办法1 获取includePath路径2 将includePath路径添加到指定文件3 保存 前言 配置vscode是出现如下错误: 解决办法 1 获取includePath路径 通过cmd打开终端,输入如下指令&a…

【第8章】SpringBoot之单元测试

文章目录 前言一、准备1. 引入库2. 目录结构 二、测试代码1. SpringBoot3ApplicationTests2.测试结果 总结 前言 单元测试是SpringBoot项目的一大利器&#xff0c;在SpringBoot我们可以很轻松地测试我们的接口。 一、准备 1. 引入库 <dependency><groupId>org.s…

Java基于saas模式云MES制造执行系统源码Spring Boot + Hibernate Validation什么是MES系统?

Java基于saas模式云MES制造执行系统源码Spring Boot Hibernate Validation 什么是MES系统&#xff1f; MES制造执行系统&#xff0c;通过互联网技术实现从订单下达到产品完成的整个生产过程进行优化管理。能有效地对生产现场的流程进行智能控制&#xff0c;防错防呆防漏&…

大模型时代的具身智能系列专题(五)

stanford宋舒然团队 宋舒然是斯坦福大学的助理教授。在此之前&#xff0c;他曾是哥伦比亚大学的助理教授&#xff0c;是Columbia Artificial Intelligence and Robotics Lab的负责人。他的研究聚焦于计算机视觉和机器人技术。本科毕业于香港科技大学。 主题相关作品 diffusio…

【FISCO BCOS 3.0】一、新版本搭链介绍

目录 一、区块链种类的变化 二、搭链演示 1.单群组区块链&#xff08;Air版本&#xff09; 2.多群组区块链&#xff08;Pro版本&#xff09; 3.可扩展区块链&#xff08;Max版本&#xff09; FISCO BCOS的发展速度如日中天&#xff0c;对于稳定的2.0版本而言&#xff0c;偶…

058.最后一个单词的长度

题意 给你一个字符串 s&#xff0c;由若干单词组成&#xff0c;单词前后用一些空格字符隔开。返回字符串中 最后一个 单词的长度。 单词 是指仅由字母组成、不包含任何空格字符的最大子字符串。 难度 简单 示例 1&#xff1a; 输入&#xff1a;s "Hello World" 输…

JavaWeb基础(一)-IO操作

Java I/O工作机制&#xff1a; 注&#xff1a;简要笔记&#xff0c;示例代码可能较少&#xff0c;甚至没有。 1、Java 的 I/O 类库的基本架构。 ​ Java 的 I/O 操作类在包 java.io 下&#xff0c;大概有将近80个类&#xff0c;这些类大概可以分为如下四组。 基于字节操作的…

UE5中绘制饼状图

饼状图 使用UE绘制前提完整的创建过程123456678 附录代码.h代码.c代码 使用UE绘制前提 EPIC Game使用的版本是Unreal Engine 5.0.3。 没有使用其他额外的插件&#xff0c;使用的是C和Ui共同绘制。 C编译器使用的是VS2019。 完整的创建过程 1 首先在UE中随意一种项目的白色。…

服务器端请求伪造--SSRF

SSRF 简介 ##SSRF定义 SSRF(Server-Side Request Forgery:服务器端请求伪造)是一种由 攻击者构造形成&#xff0c;由服务端发起请求 的一个安全漏洞。一般情况下&#xff0c;SSRF攻击的目标是从 外网无法访问的内部系统&#xff08;正是因为它是由服务端发起的&#xff0c;所…

一个小技巧轻松提升量化精度!IntactKV:保持关键词元无损的大语言模型量化方法

目录 摘要关键词元&#xff08;Pivot Tokens&#xff09;方法概述实验验证1. 权重量化2. KV Cache 量化3. 权重和激活值量化 参考文献 本文介绍我们针对大语言模型量化的工作 IntactKV&#xff0c;可以作为插件有效提升 GPTQ、AWQ、QuaRot 等现有主流量化方法效果。论文作者来自…

海外社媒账号如何运营安全稳定?

由于设备与网络原因&#xff0c;通常一个海外社媒账号尤其是多账号的稳定性都有一定限制&#xff0c;错误的操作或者网络都可能使得账号被封&#xff0c;前功尽弃。本文将为大家讲解如何通过IP代理来维持账号稳定与安全&#xff0c;助力海外社媒矩阵的搭建。 一、社媒账号关联…

深入理解计算机系统 家庭作业4.52

练习题4.3 p.254 \sim\seq\seq-full.hcl文件内已经说的很清楚了哪些不能更改,哪些是题目要求更改的控制逻辑块. 依据家庭作业4.51的答案,在seq-full.hcl文件内更改对应的HCL描述即可 以下答案注释了#changed的就是更改部分 #/* $begin seq-all-hcl */ ######################…

Redis 中 Set 数据结构详解

用法 Redis 中的 Set 是一个无序&#xff0c;不重复集合&#xff08;里面的元素为字符串&#xff09;&#xff0c;支持常用的集合操作。 常见命令 1. 增 添加一个或多个元素到 set 中 SADD key member [ member ... ] 返回值&#xff1a; 添加成功的元素个数 将一个元素移到…

数据结构(1):线性表

1 线性表的顺序实现 创建的新项目是cpp类型哦&#xff01; 1.1 初始化 1.1.1 静态分配 #define _CRT_SECURE_NO_WARNINGS#include <stdio.h> #define MaxSize 10 //定义顺序表的长度 typedef struct {int data[MaxSize];//用静态的数组存放元素&#xff01;int lengt…

【UE5.1 角色练习】08-物体抬升、抛出技能 - part2

目录 前言 效果 步骤 一、让物体缓慢的飞向手掌 二、向着鼠标方向发射物体 前言 在上一篇&#xff08;【UE5.1 角色练习】08-物体抬升、抛出技能 - part1&#xff09;的基础上继续完成角色将物体吸向手掌&#xff0c;然后通过鼠标点击的方向来发射物体的功能。 效果 步骤…

【Linux 网络编程】网络的基础知识详解!

文章目录 1. 计算机网络背景2. 认识 "协议" 1. 计算机网络背景 网络互联: 多台计算机连接在一起, 完成数据共享; &#x1f34e;局域网&#xff08;LAN----Local Area Network&#xff09;: 计算机数量更多了, 通过交换机和路由器连接。 &#x1f34e; 广域网WAN: 将…

uniapp通过Canvas绘制网格(心电图,坐标纸等可用)

本篇文档是Canvas绘制心电图的第一个部分&#xff0c;想了解详情的可以关注后学习交流。 心电图的最底层需要一个网状底层&#xff0c;来方便进行数据的测量。 一、白底分大、中、小三个区域的网格 1、首先是HTML部分 <!DOCTYPE html> <html lang"en">…

【贪心算法】C++解决回文串、增减字符串匹配、分发饼干、跳跃游戏、加油站问题

1. 前言 贪心算法&#xff08;Greedy Algorithm&#xff09;是一种在每一步选择中都采取当前状态下最优决策的算法。贪心算法通常用来解决最优化问题&#xff0c;其核心思想是通过局部最优解逐步推导出全局最优解。 在贪心算法中&#xff0c;我们并不总是考虑到未来可能发生的…

代理注册湖北武汉投资管理公司流程和条件

我公司代理注册湖北武汉投资管理公司&#xff0c;现在大家都知道全国的投资管理公司已经停批了&#xff0c;很多需要收购的老板都是通过收购现成的投资管理公司经营的&#xff0c;现在我告诉大家一个好消息&#xff0c;我们有渠道办理湖北武汉资产管理公司&#xff0c;详情致电…

521源码-免费源码下载-免费学习网站教程-宝塔面板ssl网站证书到期后弹出无法续期错误提示

宝塔面板如果从老版本升级到8.10后&#xff0c;当点站证书过期续期时会弹出错误&#xff1a; 排查文件是找不到问题出在哪里&#xff0c;导致续期错误。 解决办法&#xff1a;通过摸索&#xff0c;最简单的就是删除站点&#xff0c;注意&#xff1a;只是删除&#xff0c;不是把…