MySQL 索引相关基本概念

文章目录

    • 前言
    • 一. B+ Tree 索引
      • 1. 概念
      • 2. 聚集索引/聚簇索引
      • 3. 辅助索引/二级索引
      • 4. 回表
      • 5. 联合索引/复合索引
      • 6. 覆盖索引
    • 二. 哈希索引
    • 三. 全文索引

前言

InnoDB存储引擎支持以下几种常见索引:B+Tree索引,哈希索引,全文索引

一. B+ Tree 索引

1. 概念

B+Tree 是一种为了快速检索数据的一种数据结构,但数据才是我们真正需要的数据,索引只是辅助数据,用来便于查找我们需要的数据。

2. 聚集索引/聚簇索引

Innodb使用的聚簇索引,将表中主键作为索引从而构建一颗B+Tree,并将整表数据的行记录存放在B+Tree的叶子结点。从而延伸出索引即数据,数据即索引。

聚簇索引是由表中主键构成,所以一张表只有一个聚簇索引。如:

alter table test_table on PRIMARY KEY (id);

聚簇索引的叶子结点为数据页。数据页存放着完整的每行数据

延伸出聚簇索引优势:

  1. 通过聚簇索引即可获取完整的整行记录。
  2. 对于主键排序查询及范围查询,速度是非常快的,性能是非常高效的。

如果未定义主键索引,MySQL会使用唯一索引,没有唯一索引,MySQL会创建一个隐含列RowID作为主键,用这个主键来建立聚簇索引。

3. 辅助索引/二级索引

聚簇索引使用在搜索条件为主键值的时候,因为B+Tree都是按照主键进行排序的。

若以别的列作为搜索条件时,就需延伸出二级索引。如:

create index idx_a on test_table (a);

每建立一个索引,就需要一个B+Tree。

对于二级索引,叶子节点不包含行记录的完整数据,叶子节点包含键值,每个叶子节点的索引行还包含一个书签(Bookmark),书签用来告诉InnoDB如何回查对应索引行的完整数据。InnoDB引擎的二级索引书签就是对应行数据的聚簇索引。

4. 回表

辅助索引不影响数据在聚簇索引的组织结构(聚簇索引的叶子节点存储着完整的数据行),因此表中可以有多个辅助索引。

当返回的列字段不符合辅助索引所包含的索引行时,InnoDB引擎会遍历辅助索引并通过其叶子级的指针,获得聚簇索引(Bookmark)指向的主键,通过聚簇索引来获取对应索引行的完整记录。这个过程称为回表。

根据辅助索引的值查询一条完整的行记录需要使用2颗B+Tree:

  1. 一次辅助索引的B+Tree
  2. 一次聚簇索引的B+Tree

若把所有行用于辅助索引创建,是不是不用回表了?

是的,但太占磁盘空间了,相当于每建立一个辅助索引,需要把表中所有数据拷贝一遍。每次对数据的变化要在所包含数据的索引中进行一次的全部修改,性能消耗非常大。

回表次数越少,性能越高。若回表次数越多,二级索引性能越低,有时候甚至会使用全局扫表,也不会使用二级索引。

对于全局扫表,二级索引+回表操作?

查询优化器通过事先对表中的记录计算一些统计数据,用这个结果根据查询条件来计算回表的记录数,回表记录数越多,越倾向全局扫表,反之倾向二级索引+回表操作。

5. 联合索引/复合索引

前面提及的辅助索引/二级索引,我们只对一个字段进行构建索引。但实际工作中,可以对多个字段进行构建索引,延伸出联合索引的概念。

多个列组合起来创建的索引,称为联合索引/复合索引,如:

create index idx_a_b on test_table (a,b);

在这个index(a,b),包含两个意思:

  1. 把各个记录,按照a的列进行排序
  2. 在a列值相同情况下,进行b列值的排序

6. 覆盖索引

InnoDB存储引擎支持覆盖索引(covering index,别称:索引覆盖)。

即从辅助索引中可以得到查询的记录,而不需要查询聚簇索引中的记录(回表)。

覆盖索引带来的好处就是,若查询指定的几个字段的话,辅助索引不包含完整索引行记录信息,大小要远小于聚簇索引,因此可以减少大量的IO操作。

覆盖索引不是索引类型的一种。

二. 哈希索引

B+Tree 查找次数,取决于B+Tree的高度,在生产环境,B+Tree的高度一般为3,4层,故需3,4次的IO查询。

InnoDB存储引擎内部自己去监控表,如果监控到某个索引经常被使用,那就会认为是个热数据,内部创建一个hash索引,称之为自适应hash索引(Adaptive Hash Index,AHI)。

创建后,下次查询若还用到此索引,InnoDB会通过hash算法推导出记录的地址,直接一次就能查询数据,相对于重复查询B+Tree索引中查询3,4次节点效率显著提高。

InnoDB存储引擎使用的哈希函数采用除法散列方式,其冲突机制采用链表方式。对于自适应哈希索引,仅是数据库层面自行创建使用,我们不能进行干预。

在这里插入图片描述

show engine innodb status

show engine innodb status;-------------------------------------
INSERT BUFFER AND ADAPTIVE HASH INDEX
-------------------------------------
Ibuf: size 1, free list len 0, seg size 2, 0 merges
merged operations:insert 0, delete mark 0, delete 0
discarded operations:insert 0, delete mark 0, delete 0
Hash table size 34679, node heap has 1 buffer(s)
Hash table size 34679, node heap has 0 buffer(s)
Hash table size 34679, node heap has 0 buffer(s)
Hash table size 34679, node heap has 0 buffer(s)
Hash table size 34679, node heap has 1 buffer(s)
Hash table size 34679, node heap has 1 buffer(s)
Hash table size 34679, node heap has 2 buffer(s)
Hash table size 34679, node heap has 5 buffer(s)
0.00 hash searches/s, 0.00 non-hash searches/s

哈希索引只能用来搜索等值,也就是所谓的精确匹配查询。如:

select * from test_table where a = xxx

而对于其他的查找类型,如范围查询,不能使用哈希索引的。

因此在show engine innodb status的结果中,出现了non-hash searches/s的情况。通过hash searches/s;non-hah searches/s可以大概了解到哈希索引使用的效率

开启/关闭自适应哈希索引,默认AHI是开启状态。

  1. 使用my.cnfmy.ini配置文件:

    编辑MySQL的配置文件(通常为my.cnf或my.ini), 在[mysqld][innodb]添加以下行:

    [mysqld]
    innodb_adaptive_hash_index=OFF
    

    [innodb]
    innodb_adaptive_hash_index=OFF
    
  2. 在MySQL客户端:

    -- 关闭
    SET GLOBAL innodb_adaptive_hash_index = OFF;
    -- 开启
    SET GLOBAL innodb_adaptive_hash_index = ON;
    
  3. 在启动MySQL服务时:

    mysqld --innodb_adaptive_hash_index=OFF
    

三. 全文索引

将存储于数据库的整本书/整篇文章中的任意内容信息查找出来,称为全文索引(Full-Text Search),可根据全文中的章,节,段,句等信息,进行各种统计及分析。如ES,Solr等就是全文检索引擎,底层是基于Apache Lucene。

全文索引通常只适用于VARCHAR, CHAR, 和 TEXT类型的列。每张表只能有一个全文检索索引,MySQL的全文搜索支持英文和其他一些语言,但对于中文等非拉丁字母语言的支持有限。在这种情况下,可能需要使用第三方插件(如myisam_ftinnodb_ft)或外部全文搜索引擎(如Elasticsearch)来实现更高级的全文搜索功能。

创建全文索引:

alter table test_table add fulltext(content);

全文搜索

select * from test_table where match(content) against(xx);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/51352.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024巴黎奥运会竟然用AI做这些?

人工智能将成为 2024 年巴黎奥运会的焦点,组织者于四月制定了《奥运会人工智能议程》,这是一个涵盖人工智能对奥运会未来影响的框架。 该议程体现了国际奥委会及其主要合作伙伴的承诺,确保在奥运会上使用人工智能来促进团结、提高可持续性并加…

从零到一使用 Ollama、Dify 和 Docker 构建 Llama 3.1 模型服务

本篇文章聊聊,如何使用 Ollama、Dify 和 Docker 来完成本地 Llama 3.1 模型服务的搭建。 如果你需要将 Ollama 官方不支持的模型运行起来,或者将新版本 llama.cpp 转换的模型运行起来,并且想更轻松的使用 Dify 构建 AI 应用,那么…

网络传输层——UDP与TCP

前言: 1.国际网络体系结构: OSI模型: open system interconnect 理论模型 1977 国际标准化组织 各种不同体系结构的计算机能在世界范围内互联成网。 应用层:要传输的数据信息,如文件传输,电子邮件等…

数据结构:队列(顺序存储和链式存储)

文章目录 1. 队列的概念和结构2. 队列的链式存储实现2.1 初始化2.2 判断队列是否为空2.3 入队列2.4 出队列2.5 取队头数据2.6 取队尾数据2.7 队列有效数据的个数2.8 打印队列数据2.9 销毁2.10 源代码 3. 队列的顺序存储实现(循环队列)3.1 初始化3.2 判断队列是否为空3.3 判断队…

【数据结构之C语言实现动态顺序表】

引 入: 在讲顺序表之前得先了解线性表是什么? 线性表是n个具有相同特性的数据元素的有限序列。线性表是一种在实际中广泛使用的数据结构,常见的线性表:顺序表,链表,栈,队列,字符串…… 线性表…

Meta 发布地表最大、最强大模型 Llama 3.1

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。 最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解…

【iOS】暑期第一周——ZARA app仿写

目录 前言无限轮播图分栏控件和滚动视图自定义cell遇到的问题调整图标大小单元格附件视图设置 总结 前言 暑假学习的第一周任务是对ZARA app进行仿写,充分运用之前学习的Objective-C语言和UI控件。我在编写demo的过程中遇到了一些问题,特写该博客作为学习…

LLM与搜索推荐

重磅推荐专栏: 《大模型AIGC》 《课程大纲》 《知识星球》 本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经…

VScode连接服务器免密登录

1、生成 SSH 密钥对 打开终端并输入以下命令生成 SSH 密钥对: 直接搜索 cmd,然后输入: ssh-keygen -t rsa -b 4096 一直回车就好了 这时公钥存储在/Users/你的用户名/.ssh/id_rsa.pub文件里,私钥存储在/Users/你的用户名/.ss…

简单的数据结构:栈

1.栈的基本概念 1.1栈的定义 栈是一种线性表,只能在一端进行数据的插入或删除,可以用数组或链表来实现,这里以数组为例进行说明 栈顶 :数据出入的那一端,通常用Top表示 栈底 :相对于栈顶的另一端,也是固…

黑马头条vue2.0项目实战(一)——项目初始化

1. 图标素材(iconfont简介) 制作字体图标的工具有很多,推荐使用:iconfont-阿里巴巴矢量图标库。 注册账户 创建项目 可以根据项目自定义 class 前缀 上传图标到项目 生成链接,复制 css 代码,在项目中使用…

【知识梳理】Shell的变量计算

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 Shell中有很多变量的计算,会用到多种运算符。例如这几种: 1. Shell中常见的算术运算符 运算符意义&…

github-page静态网页将字符串写入github库中文本文档

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&订阅!持续更新中,up!up!up!! 问题描述 github-page静态…

Natutre Methods|单细胞+空间转录,值得去复现的开源单细胞分析pipeline

肺癌是全球第二大最常见的癌症,也是癌症相关死亡的主要原因。肿瘤生态系统具有多种免疫细胞类型。尤其是髓系细胞,髓系细胞普遍存在,并且在促进疾病方面发挥着众所周知的作用。该篇通过单细胞和空间转录组学分析了 25 名未经治疗的腺癌和鳞状…

网络模型优化——从参数向量到性能提升的最优化之旅

网络模型优化——从参数向量到性能提升的最优化之旅 网络模型优化的核心作用 组件/步骤描述参数向量网络模型中的可学习部分,决定了模型的输出泛函最优化通过调整参数向量以最小化或最大化某个目标函数的过程目标函数用于评估模型性能的指标,如损失函数…

【初阶数据结构篇】顺序表的实现(赋源码)

文章目录 本篇代码位置顺序表和链表1.线性表2.顺序表2.1 概念与结构2.2分类2.2.1 静态顺序表2.2.2 动态顺序表 2.3 动态顺序表的实现2.3.1动态顺序表的初始化和销毁及打印2.3.2动态顺序表的插入动态顺序表的尾插动态顺序表的头插动态顺序表的在指定位置插入数据 2.3.3动态顺序表…

区块链——hardhat使用

一、引入hardhat yarn add --dev hardhat // 引入验证合约的插件 yarn add --dev nomicfoundation/hardhat-verify 二、创建hardhat项目 yarn hardhat 三、编写我们的合约 四、编译我们的合约 yarn hardhat compile 五、编写脚本部署合约以及验证合约 // 获取hardhat环境对象 c…

Python操作Redis指南

文本主要介绍使用Python中的redis-py库来操作Redis数据库,包括安装必要的包、建立和关闭连接、执行增删改查操作以及处理可能的异常。这些操作将在Python应用程序中与Redis数据库进行有效的交互。 一. 简介和包的安装 Redis是一种开源的内存数据结构存储&#xff…

Jmeter混合压测(2407)

一 压测需求: 电商作为服务端,至少需要满足并发量,QPS:100/s,TPS:20/s。例如场景: 电商交易中,商品图片请求量最多,电商服务端需要满足并发请求查询图片信息。各家可能会并发请求同一家电商商品、订单等内容。 二 压…

代码随想录算法训练营day7 | 454.四数相加II、383.赎金信、15.三数之和、18.四数之和

文章目录 454.四数相加II思路 383.赎金信思路 15.三数之和思路剪枝去重 18.四数之和思路剪枝去重复习:C中的类型转换方法 总结 今天是哈希表专题的第二天 废话不多说,直接上题目 454.四数相加II 建议:本题是 使用map 巧妙解决的问题&#x…