MySQL 普通索引和唯一索引的区别详解

1 概念区分

普通索引和唯一索引

普通索引可重复,唯一索引和主键一样不能重复。 唯一索引可作为数据的一个合法验证手段,例如学生表的身份证号码字段,我们人为规定该字段不得重复,那么就使用唯一索引。(一般设置学号字段为主键)

主键和唯一索引

主键保证数据库里面的每一行都是唯一的,比如身份证,学号等,在表中要求唯一,不重复。唯一索引的作用跟主键的作用一样。 不同的是,在一张表里面只能有一个主键,主键不能为空,唯一索引可以有多个,唯一索引可以有一条记录为空,即保证跟别人不一样就行。 比如学生表,在学校里面一般用学号做主键,身份证则弄成唯一索引;而到了教育局,他们就把身份证号弄成主键,学号换成了唯一索引。 选谁做表的主键,要看实际应用,主键不能为空。

2 案例引入

某居民系统,每人有唯一身份证号。如果系统需要按身份证号查姓名,就会执行类似如下SQL:

select name from CUser where id_card = 'ooxx';

然后你肯定会在id_card字段建索引。但id_card字段较大,不推荐将其做主键。于是现有俩选择:

  • 给id_card字段创建唯一索引
  • 创建一个普通索引

假定业务代码已保证不会写入重复的身份证号,这两个选择逻辑上都正确。但从性能角度考虑,唯一索引还是普通索引呢?

再看如下案例:假设字段 k 上的值都不重复。

InnoDB的索引组织结构:
在这里插入图片描述
接下来分析性能。

3 查询性能

select id from T where k=4

通过B+树从树根开始层序遍历到叶节点,可认为数据页内部是通过二分法搜索。

  • 普通索引,查找到满足条件的第一个记录(4,400)后,需查找下个记录,直到碰到第一个不满足k=4的记录
  • 唯一索引,由于索引具备唯一性,查找到第一个满足条件的记录后,就会停止检索
    看起来性能差距很微小。

InnoDB数据按数据页单位读写。即读一条记录时,并非将该一个记录从磁盘读出,而以页为单位,将其整体读入内存。

因此普通索引,要多做一次“查找和判断下一条记录”的操作,也就一次指针寻找和一次计算。 如果k=4记录恰为该数据页最后一个记录,那么要取下个记录,还得读取下个数据页,操作稍微复杂。 对整型字段,一个数据页可存近千key,因此这种情况概率其实也很低。因此计算平均性能差异时,可认为该操作成本对现在CPU开销忽略不计。

我们知道 MySQL 有 change buffer。

4 更新性能

现在来看往表中插入一个新记录(4,400),InnoDB会做什么?

需要区分该记录要更新的目标页是否在内存:

4.1 在内存

  • 唯一索引
    找到3和5之间位置,判断到没有冲突,插入值,语句执行结束。

  • 普通索引
    找到3和5之间位置,插入值,语句执行结束。

普通索引和唯一索引对更新语句性能影响的差别,只是一个判断,耗费微小CPU时间。

4.2 不在内存

  • 唯一索引
    需将数据页读入内存,判断到没有冲突,插入值,语句执行结束。

  • 普通索引
    将更新记录在change buffer,语句执行结束。

将数据从磁盘读入内存涉及随机IO访问,是数据库里面成本最高操作之一。而change buffer减少随机磁盘访问,所以更新性能提升明显。

5 实践中的索引选择

普通索引和唯一索引究竟如何抉择?这两类索引在查询性能上没差别,主要考虑对更新性能影响。所以,推荐尽量选择普通索引。

如果所有更新后面,都紧跟对该记录的查询,那么该关闭change buffer。 而在其他情况下,change buffer都能提升更新性能。 普通索引和change buffer的配合使用,对于数据量大的表的更新优化还是很明显的。

在使用机械硬盘时,change buffer机制的收效非常显著。 所以,当你有一个类似“历史数据”的库,并且出于成本考虑用机械硬盘时,应该关注这些表里的索引,尽量使用普通索引,把change buffer 开大,确保“历史数据”表的数据写速度。

6 change buffer 和 redo log

WAL 提升性能的核心机制,也是尽量减少随机读写,这两个概念易混淆。 所以,这里我把它们放到了同一个流程里来说明区分。

6.1 插入流程

insert into t(id,k) values(id1,k1),(id2,k2);

假设当前k索引树的状态,查找到位置后,k1所在数据页在内存(InnoDB buffer pool),k2数据页不在内存。

带change buffer的更新流程图,图中两个箭头都是后台操作,不影响更新响应。

在这里插入图片描述

该更新做了如下操作:

  • Page1在内存,直接更新内存
  • Page2不在内存,就在change buffer区,缓存下“往Page2插一行记录”的信息
  • 将前两个动作记入redo log

之后事务完成。执行该更新语句成本很低,只写两处内存,然后写一处磁盘(前两次操作合在一起写了一次磁盘),还是顺序写。

6.2 怎么处理之后的读请求?

select * from t where k in (k1, k2);

读语句紧随更新语句,内存中的数据都还在,此时这俩读操作就与系统表空间和 redo log 无关。所以在图中就没画这俩。

带change buffer的读过程
在这里插入图片描述
读Page1时,直接从内存返回。 WAL之后如果读数据,是不是一定要读盘,是不是一定要从redo log里面把数据更新以后才可以返回?其实不用。 看上图状态,虽然磁盘上还是之前数据,但这里直接从内存返回结果,结果正确。

要读Page2时,需把Page2从磁盘读入内存,然后应用change buffer里面的操作日志,生成一个正确版本并返回结果。 可见直到需读Page2时,该数据页才被读入内存。

所以,要简单对比这俩机制对更新性能影响

  • redo log 主要节省随机写磁盘的IO消耗(转成顺序写)
  • change buffer主要节省随机读磁盘的IO消耗

7 总结

由于唯一索引用不了change buffer的优化机制,因此如果业务可以接受,从性能角度,推荐优先考虑非唯一索引。

7.1 关于到底是否使用唯一索引

主要纠结在“业务可能无法确保”。本文前提是“业务代码已经保证不会写入重复数据”下,讨论性能问题。

如果业务不能保证,或者业务就是要求数据库来做约束,那么没得选,必须创建唯一索引。这种情况下,本文意义在于,如果碰上大量插入数据慢、内存命中率低时,多提供一个排查思路。
然后,在一些“归档库”的场景,可考虑使用唯一索引的。比如,线上数据只需保留半年,然后历史数据保存在归档库。此时,归档数据已是确保没有唯一键冲突。要提高归档效率,可考虑把表的唯一索引改普通索引。

7.2 如果某次写入使用change buffer,之后主机异常重启,是否会丢失change buffer的数据?

不会丢失。 虽然是只更新内存,但在事务提交时,我们把change buffer的操作也记录到redo log,所以崩溃恢复时,change buffer也能找回。

7.3 merge的过程是否会把数据直接写回磁盘?

merge执行流程

  • 从磁盘读入数据页到内存(老版本数据页)
  • 从change buffer找出该数据页的change buffer 记录(可能有多个),依次应用,得到新版数据页
  • 写redo log

该redo log包含数据的变更和change buffer的变更

至此merge过程结束。 这时,数据页和内存中change buffer对应磁盘位置都尚未修改,是脏页,之后各自刷回自己物理数据,就是另外一过程。

问题思考

在构造第一个例子的过程,通过session A的配合,让session B删除数据后又重新插入一遍数据,然后就发现explain结果中,rows字段从10001变成37000多。 而如果没有session A的配合,只是单独执行delete from t 、call idata()、explain这三句话,会看到rows字段其实还是10000左右。这是什么原因呢?

如果没有复现,检查

  • 隔离级别是不是RR(Repeatable Read,可重复读)
  • 创建的表t是不是InnoDB引擎

为什么经过这个操作序列,explain的结果就不对了? delete 语句删掉了所有的数据,然后再通过call idata()插入了10万行数据,看上去是覆盖了原来10万行。 但是,session A开启了事务并没有提交,所以之前插入的10万行数据是不能删除的。这样,之前的数据每行数据都有两个版本,旧版本是delete之前数据,新版本是标记deleted的数据。 这样,索引a上的数据其实有两份。

然后你会说,不对啊,主键上的数据也不能删,那没有使用force index的语句,使用explain命令看到的扫描行数为什么还是100000左右?(潜台词,如果这个也翻倍,也许优化器还会认为选字段a作为索引更合适) 是的,不过这个是主键,主键是直接按照表的行数来估计的。而表的行数,优化器直接用的是show table status的值。 大家的机器如果IO能力比较差的话,做这个验证的时候,可以把innodb_flush_log_at_trx_commit 和 sync_binlog 都设置成0。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/557151.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

win8.1已阻止java_win8系统下打开java程序时出现应用程序已被安全设置阻止的解决方法...

今天和大家分享一下win7系统下打开java程序时出现应用程序已被安全设置阻止问题的解决方法,在使用win7系统的过程中经常不知道如何去解决win7系统下打开java程序时出现应用程序已被安全设置阻止的问题,有什么好的办法去解决win7系统下打开java程序时出现…

MySql常用函数大全

MySql常用函数大全 MySQL数据库中提供了很丰富的函数。MySQL函数包括数学函数、字符串函数、日期和时间函数、条件判断函数、系统信息函数、加密函数、格式化函数等。通过这些函数,可以简化用户的操作。例如,字符串连接函数可以很方便的将多个字符串连接…

LINUX下用YUM安装nginx出现No package nginx available.的问题与解决方案

一、问题描述 运行命令 yum install nginx 之后出现如下图情况。 二、解决过程如下 根据问题描述可以看出,是yum源出了问题,因此我们需要捣鼓以下yum源配置。具体解决过程如下。 1.备份CentOS-Base.repo mv /etc/yum.repos.d/CentOS-Base.repo /et…

php7 cms,PHP7CMS 无条件前台GETSHELL

Version:2018-10-09//最新版中以修复此漏洞这个漏洞很简单,如果作者在写代码的时候考虑到一点点安全方面,其实都可以避免的。[PHP] 纯文本查看 复制代码// php7cms/Core/Controllers/Api/Api.php// 52~61 linepublic function save_form_data() {$rt \P…

php服务器怎么设置cookie,php服务器如何清除浏览器cookie

php服务器清除浏览器cookie的方法:1、设置cookie的过期时间;2、设置cookie的值为空,代码为【setcookie($cookiename, ) setcookie($cookiename, NULL);】。php服务器清除浏览器cookie的方法:一、设置cookie的过期时间//将过期时间…

Java面试——RabbitMQ系列总结

1.RabbitMQ是什么? RabbitMQ是一款开源的,Erlang编写的,基于AMQP(高级消息队列协议)协议的消息中间件。 2.为什么要使用消息队列? 从本质上来说是因为互联网的快速发展,业务不断扩张&#xff0c…

php swoole udp,基于Swoole如何搭建UDP服务?

本节将会讲解如下2个问题:通过Swoole如何搭建UPD服务?对比TCP和UDP有什么不同?01通过Swoole如何搭建UPD服务新建一个文件命名为 udp_server.php,代码如下:在命令行执行如下命令就可以开启TCP服务:php udp_s…

SpringBoot引入本地jar包

1.引入本地jar包并通过maven打包成jar包 第一步&#xff1a;创建lib包&#xff0c;将所需的本地jar包导入 第二步&#xff1a;在pom文件中引导路径 <dependency><groupId>com.penn</groupId><artifactId>excleutil</artifactId><version&g…

php 物联网应用,蜂窝物联网的概念以及应用

所谓蜂窝物联网&#xff0c;就是蜂窝移动通信网物联网相结合的发展产物。如今蜂窝移动通信网络已经发展30多年了&#xff0c;高高的通信铁塔拔地而起&#xff0c;随处可见&#xff0c;比工业时代的烟囱可多多了&#xff0c;象征着辉煌的信息时代。蜂窝物联网建设原则 本期工程要…

python批量图片转pdf,用python 制作图片转pdf工具

最近因为想要看漫画&#xff0c;无奈下载的漫画是jpg的格式&#xff0c;网上的转换器还没一个好用的&#xff0c;于是乎就打算用python自己DIY一下&#xff1a;这里主要用了reportlab。开始打算随便写几行&#xff0c;结果为若干坑纠结了挺久&#xff0c;于是乎就想想干脆把代码…

大学本科 java教材,大学本科自学java之路——IO

大学本科自学java之路——IO大学本科自学java之路——IO我现在大三&#xff0c;大一&#xff0c;大二就是玩&#xff0c;现在大三准备考虑就业了&#xff0c;特写博客便于坚持自己学习一. 字节缓冲流的构造方法&#xff1a;BufferedOutputStream:该类实现缓冲输出流。 通过设置…

关于比较器Comparator排序时间的问题

​ 最近涉及一个需要按照时间排序的问题&#xff0c;由于在数据库层面order by太麻烦&#xff0c;所以就准备在代码层面解决&#xff0c;但是过程中遇到了一个很有意思的问题。 ​ 先介绍一下用的比较器的api&#xff1a; o1大于o2,则返回正数&#xff1b;o1等于o2,则返回0&…

Error running ‘transmission‘: Unable to open debugger port (127.0.0.1:52469): java.net.SocketExcepti

IDEA运行tomcat启动项目时报错。 开始还以为是这里的端口被占用的问题 然而实际上是tomcat的JMX端口的问题&#xff0c;将端口修改一下&#xff0c;就可以完美启动。 修改之后即可启动项目

synchronized 锁升级过程

synchronized 锁升级过程就是其优化的核心&#xff1a;偏向锁 -> 轻量级锁 -> 重量级锁 class Test{private static final Object object new Object(); public void test(){synchronized(object) {// do something } }}每个对象创建时都有各自的对象头&#…

java中数组遍历的三种方式

1.for循环遍历 通常遍历数组都是使用for循环来实现。遍历一维数组很简单&#xff0c;遍历二维数组需要使用双层for循环&#xff0c;通过数组的length属性可获得数组的长度。 2.Arrays工具类中toString静态方法遍历 利用Arrays工具类中的toString静态方法可以将一维数组转化为…

mysql中union 查询

mysql中union 查询 UNION ALL只是简单的将两个结果合并后就返回。这样&#xff0c;如果返回的两个结果集中有重复的数据&#xff0c;那么返回的结果集就会包含重复的数据了。 从效率上说&#xff0c;UNION ALL 要比UNION快很多&#xff0c;所以&#xff0c;如果可以确认合并的…

oracle内存表与临时表,Oracle 临时表之临时表空间组(TTG)

环境&#xff1a;sysORCL> select * from v$version;BANNER----------------------------------------------------------------Oracle Database 10g Enterprise Edition Release 10.2.0.1.0 - ProdPL/SQL Release 10.2.0.1.0 - ProductionCORE 10.2.0.1.0 Producti…

修改TOMCAT的JVM虚拟机内存大小几种方式

修改TOMCAT的JVM虚拟机内存大小几种方式 Tomcat默认可以使用的内存为128MB&#xff0c;在较大型的应用项目中&#xff0c;这点内存是不够的&#xff0c;需要调大。 经常会出现Java.lang.OutOfMemoryError: Java heap space 即JVM Heap溢出的错误。 对此有以下几种方法可以选…

HashMap原理深入理解

hashing(哈希法)的概念 散列法&#xff08;Hashing&#xff09;是一种将字符组成的字符串转换为固定长度&#xff08;一般是更短长度&#xff09;的数值或索引值的方法&#xff0c;称为散列法&#xff0c;也叫哈希法。由于通过更短的哈希值比用原始值进行数据库搜索更快&#…

HashMap的底层原理

一&#xff1a;HashMap的节点&#xff1a;HashMap是一个集合&#xff0c;键值对的集合,源码中每个节点用Node<K,V>表示 static class Node<K,V> implements Map.Entry<K,V> {final int hash;final K key;V value;Node<K,V> next;Node是一个内部类&…