面试题:MySQL 索引

1. 谈一下你对于MySQL索引的理解?(为什么MySQL要选择B+树来存储索引)

MySQL的索引选择B+树作为数据结构来进行存储,使用B+树的本质原因在于可以减少IO次数,提高查询的效率,简单来说就是可以保证在树的高度不变的情况下存储更多的数据:

  1. IO效率的提高:在MySQL数据库中,表的真实数据和索引数据都是存储在磁盘中,进行数据读写时必然涉及到IO问题。IO是硬件层面的问题,我们在做索引设计时需要尽可能提高IO效率。通常来说,提高IO效率主要有两个方面:减少IO次数和减少IO量。

  2. 分块读取数据:数据存储量是不可预估的。当表的数据量非常大时,我们无法一次性将所有数据读取到内存中,因此需要分块读取数据。在分块读取时,我们需要设计合理的块大小。

  3. 数据存储的局部性:数据在磁盘存储时具有时间局部性和空间局部性,内存和磁盘在进行数据交互时并不会逐一读取数据,而是会将相关数据加载到内存中。加载时有一个基本的逻辑单位称为页,页的大小一般是4KB或8KB,具体取决于操作系统。在数据读取时通常会选择页的整数倍读取,例如InnoDB存储引擎每次读取16KB的大小。这与分块读取的设计思想一致,因此块大小通常选择页的整数倍。在MySQL中,默认情况下页的大小是16KB,可以通过参数进行调整,例如InnoDB中的innodb_page_size参数,但一般情况下不调整这个参数。

  4. 数据格式设计:确定块大小后,我们需要设计数据格式。使用索引时通常是根据一个或多个索引列的值读取整行数据或部分字段,例如SELECT * FROM table WHERE id = 10根据id值检索整行记录。因此,数据格式设计为K-V格式,其中K值是索引列的值,V值的设计需要进一步考虑。

  5. 直接存储行记录:通常情况下,当需要从磁盘读取某行记录时,需要知道一些信息才能定位到数据,如文件名、偏移量和数据长度。这些信息可以用于定位任意行记录。如果将这些信息作为索引信息,在读取数据时首先需要打开一个文件,读取这些信息,然后根据这些信息找到对应的数据文件读取具体行数据。如果每次打开文件即一次IO操作,则至少需要2次IO操作才能读取到数据,不符合减少IO次数的原则。因此,最好的方式是在V中直接存储行记录,这样读取数据时可以直接根据K值读取行记录,将数据和索引绑定存储。在MySQL中,InnoDB存储引擎就是这样存储的,数据文件和索引文件都位于后缀名为ibd的文件中。

  6. 选择数据结构:确定数据格式后,我们需要选择合适的数据结构存储数据。支持K-V格式的数据结构有很多,例如哈希表、二叉树、BST、AVL、红黑树等。MySQL最终选择了B+树,下面对比一下各个数据结构的区别:

    • 哈希表:哈希表可以存储数据,但本质上是无序散列表,因此在进行范围查询时需要逐一比较数据,效率较低。此外,哈希表存在哈希碰撞或冲突问题,需要设计性能优良的哈希算法,因此不适用。但在MySQL中,MEMORY存储引擎支持哈希索引,InnoDB存储引擎支持自适应哈希。

    • 二叉树、BST、AVL、红黑树:这些树可以支持K-V格式的数据存储,但它们最多只有两个分支。在进行数据存储时,一个三层的树最多可以存储7个数据,数据量较少。若想存储更多数据,只能增加树的高度,但树的高度增加会导致IO次数增加,影响查询效率。因此需要考虑在保证树高度不变的情况下存储更多数据。因此,B-树应运而生。

    • B-树:B-树在每个数据块中包含三种类型的数据:key值、行记录和指针。读取数据时只需逐层向下检索即可。假设一个数据块大小为16KB,读取48KB数据即可获取所查询的记录。一个三层的B-树最多可以存储4095条记录,数据量依然较少,若想存储更多数据只能增加树的高度,影响查询效率。因此需要优化数据结构。
      在这里插入图片描述

    • B+树:B+树将所有数据都存储在叶子节点,非叶子节点只存储key值和指针。检索数据时可以从根节点向下检索,也可以在叶子节点中进行前后检索。假设一个数据块大小为16KB,key和指针总大小为10字节,一个三层B+树最多可以存储42928704条记录,相较于B-树存储的数据量更大。
      在这里插入图片描述
      因此,MySQL最终选择B+树作为数据结构进行存储。通常情况下,3-4层的B+树足以支持千万级别的数据量存储。

2. 索引有哪些分类?

索引的分类可从不同角度进行区分:

  1. 从数据结构角度:B+树索引、哈希索引、全文索引(FULLTEXT)、R-Tree索引(用于对GIS数据创建SPATIAL索引)。
  2. 从物理存储角度:聚簇索引和非聚簇索引。
  3. 从逻辑角度:主键索引、普通索引、唯一索引、组合索引。

3. 聚簇索引与非聚簇索引

在这里插入图片描述
在MySQL的InnoDB存储引擎中,数据插入时必须与某个索引列绑定存储。如果存在主键,则选择主键;若无主键,则选择唯一键;若无唯一键,系统会生成一个6字节的rowid进行存储。

  • 聚簇索引:与数据绑定存储的索引称为聚簇索引。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/51377.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

E19.【C语言】练习:数组

有序序列合并 描述 输入两个升序排列的序列,将两个序列合并为一个有序序列并输出。 数据范围: 1≤n,m≤1000 , 序列中的值满足 0≤val≤30000 输入描述: 输入包含三行, 第一行包含两个正整数n, m,用空…

大模型的经典面试问题及答案

大语言模型(LLM)在人工智能中变得越来越重要,在各个行业都有应用。随着对大语言模型专业人才需求的增长,本文提供了一套全面的面试问题和答案,涵盖了基本概念、先进技术和实际应用。如果你正在为面试做准备&#xff0c…

ABB机器人EGM功能简单应用

EGM中使用的是Protocol Buffer2的协议,从Egm.proto模板文件中可以了解到,协议版本没有定义默认为proto2,目前最新版本为proto3。PC安装了RobotStudio 6.08后,在如下路径可以找到egm.proto模板文件。 C:\ProgramData\ABB Industri…

ISP-LSC

1. 概述 Lens shading分为两个部分,亮度均匀性(luma shading correction),色彩均匀性(colour shading correction)。 lens 的各位置和中心的透射率不同:luma shading lens 对不同光谱的shift 不…

NOILinux2.0安装

NOI官方已发布NOILinux2.0,可是如何安装使用呢?我来教你。 首先下载VMWare和NOILinux2.0的ios,当然你用什么虚拟机软件都可以。这里我用的是VMware。 NOIlinux2.0的下载链接: NOI Linux 2.0发布,将于9月1日起正式启用…

Cesium 体积云效果

Cesium 体积云效果(局部) 原理:RayMarching光线步进噪声,需要修改源码让cesium支持3D纹理(texImage3D) 源码修改思路:Cesium中使用Sampler3D,3D纹理,实现体渲染 感谢思…

Debian12 安装Docker 用 Docker Compose 部署WordPress

服务器准备: 以root账号登录,如果不是root,后面指令需要加sudo apt update apt install apt-transport-https ca-certificates curl gnupg lsb-release添加GPG密钥,推荐国内源 curl -fsSL https://mirrors.aliyun.com/docker…

【Sklearn-驯化】一文搞懂很难的条件随机场系列算法:hmm、crf以及实践

【Sklearn-驯化】一文搞懂很难的条件随机场系列算法:hmm、crf以及实践 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 免费获取相…

【Python从入门到进阶】61、Pandas中DataFrame对象的操作(二)

接上篇《60、Pandas中DataFrame对象的操作(一)》 上一篇我们讲解了DataFrame对象的简介、基本操作及数据清洗相关的内容。本篇我们来继续讲解DataFrame对象的统计分析、可视化以及数据导出与保存相关内容。 一、DataFrame的统计分析 在数据分析和处理中…

C#与欧姆龙PLC 通信——fins udp协议

前言 欧姆龙PLC在工控领域占有很大的市场份额,在上位机编程领域,实现上位机和欧姆龙PLC的通信也是必备的技能,上位机和PLC可以通过fins udp和fins tcp协议通信,本文介绍的是fins udp协议,该协议具有传输速度快的特点,为了帮助大家学习fins udp协议,我编写了“欧姆龙Fin…

从零开始学习网络安全渗透测试之基础入门篇——(四)反弹SHELL不回显带外正反向连接防火墙出入站文件上传下载

一、反弹SHELL 反弹SHELL(Reverse Shell)是一种网络攻击技术,它允许攻击者在一个被入侵的计算机上执行命令,即使该计算机位于防火墙或NAT(网络地址转换)之后。通常,当攻击者无法直接连接到目标…

基于OPENMV实现一个单目测速测试

1、测试平台:OpenMV4H7Plus开发板​ 使用的相机是 MT9V034 相机对应为752x480黑白图像,为全局快门 2、测速的时候,仅选取最大物体的抓取,这里采用了几个步骤: ①、直接计算灰度的帧差 ②、对帧差进行阈值处理以获取mot…

【代码随想录训练营第42期 Day7打卡 LeetCode 454.四数相加II 383. 赎金信 15. 三数之和 18. 四数之和

目录 一、做题心得 二、题目及题解 454.四数相加II 题目链接 题解 383. 赎金信 题目链接 题解 15. 三数之和 题目链接 题解 18. 四数之和 题目链接 题解 三、小结 一、做题心得 今天是代码随想录训练营打卡的第七天,做的也是同昨天一样的哈希表部分…

CUDA编程之grid和block详解

CUDA 文章目录 CUDAgrid和block基本的理解1维 遍历2维 遍历3维 遍历3维 打印对应的thread grid和block基本的理解 Kernel:Kernel不是CPU,而是在GPU上运行的特殊函数。你可以把Kernel想象成GPU上并行执行的任务。当你从主机(CPU)调…

使用Chainlit接入通义千问快速实现一个多模态的对话应用

开通灵识服务 首先需要到阿里云-模型服务灵积开通账户,获得apiKey 模型服务灵积 https://dashscope.aliyun.com/ 进入控制台 ,在API-KEY管理里,创建一个新的API-KEY,然后保存起来,后面会用到。 模型服务灵积服务所有API文档地址…

KUKA机器人外部自动IO信号经验分享

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

k8s学习--k8s集群部署kubesphere的详细过程

文章目录 kubesphere简介k8s群集部署kubespere环境准备工作一、配置nfs二、配置storageclass三、kubesphere开启服务(devops) kubesphere简介 下面是官方文档描述 KubeSphere 是在 Kubernetes 之上构建的面向云原生应用的分布式操作系统,完全开源,支持多…

【python】最新版抖音js逆向拿到数据,非常详细教程(附完整代码)

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全…

如何压缩pdf文件大小?这5种方法,简单又实用!

如何压缩pdf文件大小?pdf是电脑常用的便携式文档格式,无论是在学术领域的论文发表,还是在商业场景中的合同签署,甚至是个人简历的提交,PDF文件都扮演着重要的角色。 电脑上存储pdf文件会面临一个难题,那就是…

收不到验证码邮件怎么办?快速排查与解决!

收不到验证码邮件有哪些应对策略?验证码邮件被拦截? 经常需要通过邮箱接收验证码邮件来完成各种操作。然而,许多人都会遇到收不到验证码邮件的情况。AokSend将详细介绍如何快速排查和解决收不到验证码邮件的问题。 收不到验证码邮件&#x…