文章目录
- MySQL事务管理
- 0. MySQL的CURD不加控制,出现的问题
- 1. 什么是事务
- 2. 为什么会出现事务
- 3. 事务的版本支持与提交方式
- 3.1 版本支持
- 3.2 提交方式
- 4. 事务的操作
- 4.0 准备工作
- 4.1 事务正常操作
- (1) 创建保存点后, rollback
- (2) 直接rollback
- (3) 正常提交
- 4.2 事务异常验证与产出结论
- (1) 未commit,客户端崩溃,MySQL自动会回滚
- (2) commit了,客户端崩溃,MySQL数据不会在受影响,已经持久化
- (3) 对比试验,begin操作会自动更改提交方式,不会受MySQL是否自动提交影响
- (4) 证明单条SQL与事务的关系
- 5. 事务隔离级别
- 5.1 如何理解隔离性1
- 5.2 隔离级别
- 5.3 查看与设置隔离性
- (1) 查看
- (2) 设置
- 5.4 读未提交(Read Uncommitted)
- 5.5 读提交(Read Committed)
- 5.4 可重复读(Repeatable Read)
- 5.5 串行化(Serializable)
- 5.6 隔离性总结
- 6. 一致性(Consistency)的理解
- 7. 如何理解隔离性2(提高)
- 7.1 数据库并发的场景
- 7.2 读-写
- 7.3 3个前提知识
- (1) 3个记录隐藏列字段
- (2) undo 日志
- 7.4 模拟MVCC
- 7.5 Read View
- 整体过程
- 8. RR 与 RC的本质区别
- 8.1 当前读和快照读在RR级别下的区别
- 8.2 RR 与 RC的本质区别
MySQL事务管理
0. MySQL的CURD不加控制,出现的问题
CURD需要满足下面的属性:
- 买票的过程必须是原子的
- 买票的过程不能互相影响
- 买完票应该要永久有效
- 买前,和买后状态都要是确定的状态,即有票还是没票
1. 什么是事务
在现实生活中使用SQL语句时,不一定一条语句就能够解决问题,我们有时候的操作,是需要一批SQL来共同组合才有意义。比如我向你转账100,是update 我账户的钱 sub 100,update 你账户的钱 add 100,这两条SQL单独拿出来在技术上来看就是两条对列操作的语句,没有什么意义。但是站在上层,即转账和被转账的人来看,两条语句和在一起对他们而言就是转账逻辑,我们把这两条SQL构成的一组DML语句就叫做事务。
事务的本质一定是要站在MySQL上层(即MySQL的使用者)去看待SQL语句。
事务:
事务就是一组DML语句组成,这些语句在逻辑上存在相关性,这一组DML语句要么全部成功,要么全部失败,是一个整体。MySQL提供一种机制,保证我们达到这样的效果。事务还规定不同的客户端看到的数据是不相同的。
正如我们上面所说,一个MySQL 数据库,可不止你一个事务在运行,同一时刻,甚至有大量的请求被包装成事务 ,在向MySQL 服务器发起事务处理请求。而每条事务至少一条SQL ,最多很多SQL ,这样如果大家都访问同样的表数据,在不加保护的情况,就绝对会出现问题。甚至,因为事务由多条SQL 构成,那么,也会存在执行到一半出错或者不想再执行的情况,那么已经执行的怎么办呢?
所以,一个完整的事务,绝对不是简单的sql 集合,还需要满足如下四个属性:
- 原子性:一个事务(transaction)中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。
- 一致性:在事务开始之前和事务结束以后,数据库的完整性没有被破坏。这表示写入的资料必须完全符合所有的预设规则,这包含资料的精确度、串联性以及后续数据库可以自发性地完成预定的工作。
- 隔离性:数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离性可以防止多个事务并发执行时由于交叉执行而导致数据的不一致。事务隔离分为不同级别,包括读未提交(Read uncommitted )、读提交(read committed)、可重复读(repeatable read)和串行化(Serializable)
- 持久性:事务处理结束后,对数据的修改就是永久的,即便系统故障也不会丢失。
上面四个属性,可以简称为ACID。
- 原子性(Atomicity,或称不可分割性)
- 一致性(Consistency)
- 隔离性(Isolation,又称独立性)
- 持久性(Durability)
2. 为什么会出现事务
事务被MySQL 编写者设计出来,本质是为了当应用程序访问数据库的时候,事务能够简化我们的编程模型,不需要我们去考虑各种各样的潜在错误和并发问题。可以想一下当我们使用事务时,要么提交,要么回滚,我们不会去考虑网络异常了,服务器宕机了,同时更改一个数据怎么办对吧?因此事务本质上是为了应用层服务的。而不是伴随着数据库系统天生就有的。
约定:我们后面把MySQL中的一行信息,称为一行记录。
3. 事务的版本支持与提交方式
3.1 版本支持
在 MySQL中只有使用了 Innodb 数据库引擎的数据库或表才支持事务, MyISAM 不支持。
- 查看数据库引擎
mysql> show engines \G
这里只给出了InnoDB和MyISAM
3.2 提交方式
事务的提交方式常见的有两种:自动提交和手动提交
- 查看事务提交方式
mysql> show variables like 'autocommit';
- 用SET来改变MySQL 的自动提交模式:
mysql> set autocommit=0; # SET AUTOCOMMIT=0 禁止自动提交
mysql> set autocommit=1; # SET AUTOCOMMIT=1 开启自动提交
4. 事务的操作
4.0 准备工作
查看mysql的客户端和服务端。我们使用的是mysql的客户端,mysql作为一套网络服务,也可以使用远程连接的方式操作,即一个mysqld可以被多个客户端访问。
云服务器,默认开启3306 mysqld服务
为了便于演示,我们将mysql的默认隔离级别设置成读未提交
mysql> set global transaction isolation level read uncommitted;
需要重启终端,进行查看
mysql> select @@tx_isolation;
创建测试表
mysql> create table if not exists account(-> id int primary key,-> name varchar(50) not null default '',-> blance decimal(10,2) not null default 0.0-> )ENGINE=InnoDB DEFAULT CHARSET=UTF8;
在打开两个客户端去连接mysqld
# 查看有多少人连接mysql
mysql> show processlist;
4.1 事务正常操作
证明事务的开始与回滚
(1) 创建保存点后, rollback
首先确认当前事务的提交方式是自动提交
开启事务
mysql> start transaction; # 开始一个事务begin也可以,推荐begin
为了方便观察,我们在右侧也开启一个事务
向左侧事务添加保存点
mysql> savepoint s1; # 创建一个保存点s1
在右侧观察表,发现没有数据
而后我们在左侧的事务插入数据,在右侧就可以观察到
继续重复上面的动作,创建一个保存点插入数据后都可以在右边的事务中观察到
但此时我们不想去插入王五了,那么我们就可以根据设置的s3保存点向前回滚,将王五这条数据撤销
mysql> rollback to s3;
通过右侧去查看左侧,发现王五这条记录已经没有了
同样我们也可以回滚到s2和s1,我们直接回滚到s1,发现整张表中数据没了
我们不想再操作左侧事务,直接结束提交
mysql> commit;
同样结束提交右侧,最终的结果依然是空的,因为事务提交时的结果就是没有数据。
(2) 直接rollback
在启动这两个事务,如果不设置保存点,直接进行rollback,那就是将从事务开始到目前的所有操作全都回滚掉。
(3) 正常提交
再启动一次这两个事务,并且不回滚,直接commit,就会发现数据最终保存到了数据库中,即便之后rollback,也不起作用。
因此,我们所提到的回滚操作,是在事务运行期间才可以进行回滚,事务一旦结束提交,就无法回滚。
4.2 事务异常验证与产出结论
(1) 未commit,客户端崩溃,MySQL自动会回滚
首先明确我们的提交方式仍然是自动提交
我们开启两侧的事务后,再插入新的数据
直接使用快捷键ctrl \
,营造客户端崩溃的场景
后再观察右侧,发现新插入的数据消失了,实际上就是事务因异常情况从而自动回滚
还是像上面一样,插入开启两侧事务,插入数据
此时直接将左侧客户端关闭,仍然产生回滚现象,数据未插入
(2) commit了,客户端崩溃,MySQL数据不会在受影响,已经持久化
还是在刚才的基础上,我们重新开启两侧事务,commit之后再ctrl \
使客户端崩溃
此时我们发现数据没有丢失,所以commit的作用是将数据持久化到MySQL中
(3) 对比试验,begin操作会自动更改提交方式,不会受MySQL是否自动提交影响
先把事务的提交方式设置为手动提交
插入数据没有commit,客户端直接崩溃,数据还是会丢失
事务提交方式依然是手动,这时在崩溃之前commit,查看发现事务没有丢失
由此可见,mysql的提交方式无论是自动还是手动,并不会影响我们事务的手动提交。
(4) 证明单条SQL与事务的关系
我们这里还是手动提交
示例1:
在begin之后,删除田七的数据,并进行commit,就将这个删除永久执行了
示例2:
我们不在事务中,直接进行存粹的SQL操作,删除id=2的数据后,直接看发现是已经删除的;
但是一旦当我们的客户端异常崩溃,此时在去右侧查看这张表,发现2又回来了
示例3:
将事务提交方式改成自动
此时也是执行单纯的SQL语句,删除id=1的数据,删除后直接崩溃异常。发现数据就是真正的删除了
对比示例2与示例3:
- 两者是在比较单SQL语句在是否开启事务自动提交下的现象
- 自动提交只对单条SQL有用
- 如果不是自动提交的,那么在出现故障时,单SQL就会产生回滚,使该SQL不影响数据库中的内容
- 如果是自动提交的,那么在出现故障时,单SQL就会自动提交,改变数据库中的内容,进行持久化。
因此,我们可以再次验证一下,单SQL如果在自动提交关闭的情况下进行commit,会发生什么情况:
我们发现,同样永久修改了数据库。
由此可以证明每一条SQL语句就是一个事务,只不过以前存在自动提交,我们并不能发现。
结论:
- 只要输入begin或者start transaction,事务便必须要通过commit提交,才会持久化,与是否设置set autocommit 无关。
- 事务可以手动回滚,同时,当操作异常,MySQL会自动回滚
- 对于InnoDB 每一条SQL 语言都默认封装成事务,自动提交。(select有特殊情况,因为MySQL 有MVCC )
- 从上面的例子,我们能看到事务本身的原子性(回滚),持久性(commit)
事务操作注意事项:
- 如果没有设置保存点,也可以回滚,只能回滚到事务的开始。直接使用 rollback(前提是事务还没有提交)
- 如果一个事务被提交了(commit),则不可以回退(rollback)
- 可以选择回退到哪个保存点
- InnoDB 支持事务, MyISAM 不支持事务
- 开始事务可以使用start transaction 或者begin
5. 事务隔离级别
5.1 如何理解隔离性1
感性理解
上面是一个时间轴,假设你在2000年出生,那么你只能看到你出生后的事情,无法看到2000年之前的事情;有一个1900年出生的人他只活了100岁,那么他只能看到从他出生到2000年之间的事情,无法看到2000年之后的事情。也就是说一个人只能看到在他生命周期之间发生的事情,无法看到以外的事情,这就叫做隔离
同样一个事务在执行期间,为了防止受到干扰,于是引入了隔离性的特征,根据影响程度的不同,划分出了隔离级别。
理论推导
- MySQL服务可能会同时被多个客户端进程(线程)访问,访问的方式以事务方式进行
- 一个事务可能由多条SQL构成,也就意味着,任何一个事务,都有执行前,执行中,执行后的阶段。而所谓的原子性,其实就是让用户层,要么看到执行前,要么看到执行后。执行中出现问题,可以随时回滚。所以单个事务,对用户表现出来的特性,就是原子性。
- 但,毕竟所有事务都要有个执行过程,那么在多个事务各自执行多个SQL的时候,就还是有可能会出现互相影响的情况。比如:多个事务同时访问同一张表,甚至同一行数据。
- 就如同你妈妈给你说:你要么别学,要学就学到最好。至于你怎么学,中间有什么困难,你妈妈不关心。那么你的学习,对你妈妈来讲,就是原子的。那么你学习过程中,很容易受别人干扰,此时,就需要将你的学习隔离开,保证你的学习环境是健康的。
- 数据库中,为了保证事务执行过程中尽量不受干扰,就有了一个重要特征:隔离性
- 数据库中,允许事务受不同程度的干扰,就有了一种重要特征:隔离级别
5.2 隔离级别
- 读未提交(Read Uncommitted): 在该隔离级别,所有的事务都可以看到其他事务没有提交的执行结果。(实际生产中不可能使用这种隔离级别的),但是相当于没有任何隔离性,也会有很多并发问题,如脏读,幻读,不可重复读等,我们上面为了做实验方便,用的就是这个隔离性。
- 读提交(Read Committed) :该隔离级别是大多数数据库的默认的隔离级别(不是 MySQL 默认的)。它满足了隔离的简单定义:一个事务只能看到其他的已经提交的事务所做的改变。这种隔离级别会引起不可重复读,即一个事务执行时,如果多次 select, 可能得到不同的结果。
- 可重复读(Repeatable Read): 这是 MySQL 默认的隔离级别,它确保同一个事务,在执行中,多次读取操作数据时,会看到同样的数据行。但是会有幻读问题。
- 串行化(Serializable):这是事务的最高隔离级别,它通过强制事务排序,使之不可能相互冲突,从而解决了幻读的问题。它在每个读的数据行上面加上共享锁,。但是可能会导致超时和锁竞争(这种隔离级别太极端,实际生产基本不使用)
隔离级别如何实现:隔离,基本都是通过锁实现的,不同的隔离级别,锁的使用是不同的。常见有,表锁,行锁,读锁,写锁,间隙锁(GAP),Next-Key锁(GAP+行锁)等。
5.3 查看与设置隔离性
(1) 查看
- 查看全局隔离级别
mysql> select @@global.tx_isolation;
- 查看会话(当前)全局隔级别
mysql> select @@session.tx_isolation;
- 默认同上
mysql> select @@tx_isolation;
说明:
- 方式3和方式2相同,方式3是方式2的缩写形式
- 我们登录一次XShell并且成功连接,就叫做一次会话
- 相比于session,global是session的默认配置
- 当我们登陆mysql后,默认mysql会读取全局配置好的隔离级别,即global的隔离级别,用来初始化本次登陆的会话(session)隔离级别。
- 设置session隔离级别,并不会影响其他会话;设置global隔离级别,后续重新登录时,其他会话会受到影响
(2) 设置
SET [SESSION | GLOBAL] TRANSACTION ISOLATION LEVEL {READ UNCOMMITTED | READ
COMMITTED | REPEATABLE READ | SERIALIZABLE}
说明:
- []内部表示可选项,表示选择session还是global的设置。
- 级别有四种,同样选择其一,即:READ UNCOMMITTED 、 READ COMMITTED 、 REPEATABLE READ 、SERIALIZABLE,分别代表读未提交、读提交、可重复读、串行化
我们想以会话(session)的方式将事务设置成读提交:
mysql> set session transaction isolation level read committed;
验证其他会话的隔离没有改变
注意:一旦修改了global的隔离级别,当前会话必须重新登录,隔离级别才会被修改
5.4 读未提交(Read Uncommitted)
在上面4.1 事务的正常操作中我们使用的就是读未提交,这里正式说明一下。
首先要把事务global隔离级别设置成读未提交,同时保证当前会话的隔离级别是读未提交
后begin开启左右两个事务,此时两个事务在并发运行
我们向左侧事务中插入一些数据,发现右侧立马就能够看到
可是我们是把在begin和commit之间的操作打成包,才叫做一个事务,所以左右两侧的事务都不完整。
由于事务具有原子性,在左侧事务没有结束(即没有commit)时,理论上右侧事务是无法看到左侧未结束的事务,但是我们设置了读未提交,结果就是在左侧事务执行的过程中,右侧事务能够看到左侧事务的一举一动。
同样我们对左侧事务的更新和回滚,右侧事务也能够立马看到。
- 在事务中,一个事务未结束并且正在进行CURD操作,另一个事务能够立马看到此事务的数据,我们把这种现象称为读未提交。
- 就好像多线程中,一个线程对共享资源修改,另一个线程立马能够看到,一定是因为没有加锁。所以对于读未提交这种隔离级别,几乎没有加锁,虽然效率高,但是问题太多,严重不建议采用。
读未提交隔离级别的问题:
脏读,一个事务在执行中,读到另一个执行中事务的更新(或其他操作)但是未commit的数据,这种现象叫做脏读
(dirty read)。
5.5 读提交(Read Committed)
首先要把事务global隔离级别设置成读提交,同时保证当前会话的隔离级别是读提交。
现在我们开启两个事务,使它们并发运行
向左侧事务插入一条数据,此时右侧事务去查看并不能看到
此时我们更新左侧数据,和上面一样右侧事务并不能看到,但是左侧事务自己查看可以看到
一旦我们提交左侧事务,即使右侧事务并未提交,也能看到左侧事务
- 在事务中,一个事务CURD期间,另一个事务不能看到,只有当前事务commit提交结束后才能被看到,我们把这种现象称为读提交
- 上面例子中,一个事务commit结束后,另一个事务在没有commit时就能看到当前结果,在前后用select查询结果时,出现了不同的结果,另一个事务在未提交时还是受到了当前事务的影响
读未提交隔离级别的问题:
不可重复读,此时还在当前事务中,并未commit,那么就造成了,同一个事务内,同样的读取,在不同的时间段(依旧还在事务操作中),读取到了不同的值,这种现象叫做不可重复读(non reapeatable read)
问题: 不可重复读,真的是问题吗?
我们构建下面的场景,在一家公司里老板会根据员工的薪资来发放奖品。
老板把任务交给小张,小张开启一个事务准备查询。现有一名叫做tom的员工告诉老板自己今年贡献要求老板涨薪,老板同意把他的薪资由3200变4500,同时把此任务交给小王,让小王去修改数据库tom的薪资,于是小王也开启了一个事务。小张像上面一样一条一条查询,查询到3000~4000之间时,小王还未修改tom薪资,于是在这个区间内就查询到了tom,因为两个事务在并发运行,此条语句结束后,小王突然修改了tom的薪资,小张去下一个区间查询也找到了tom,整个查询完后把数据交给发奖的人,他们一看发现tom的名字竟然出现了2次,难道tom有两种薪资,要给tom发两个奖品吗?这种情况不合理。
由此可见不可重复读是存在问题的。
5.4 可重复读(Repeatable Read)
首先要把事务global隔离级别设置成可重复读,同时保证当前会话的隔离级别是可重复读
开启两个事务,并发运行。
对左侧的事务插入更新和删除后,commit提交左侧事务;右侧事务没有提交,右侧事务去查看是看不到的
右侧事务无论什么时候进行查找,看到的结果都是一致的,这叫做可重复读
只有右侧事务commit提交结束后,才能看到左侧事务
- 在事务中,一个事务CURD后coomit提交,另一个事务也commit提交后,才能看到结果我们把这种现象称为可重复读
可重复读隔离级别的问题:
幻读,专门针对insert。
多次查看,发现左侧在对应事务中insert的数据,在右侧的事务周期中,也没有什么影响,也符合可重复的特点但是,一般的数据库在可重复读情况的时候,无法屏蔽其他事务insert的数据(为什么?因为隔离性实现是对数据加锁完成的,而insert待插入的数据因为并不存在,那么一般加锁无法屏蔽这类问题),会造成虽然大部分内容是可重复读的,但是insert的数据在可重复读情况被读取出来,导致多次查找时,会多查找出来新的记录,就如同产生了幻觉。这种现象,叫做幻读(phantom read)。很明显,MySQL在RR级别的时候,是解决了幻读问题的(解决的方式是用Next-Key锁(GAP+行锁))解决的。
5.5 串行化(Serializable)
首先要把事务global隔离级别设置成串行化,同时保证当前会话的隔离级别是串行化。
左右两侧开启两个事务,如果两个事务对表的操作都是读操作,那么这两个事务可以并发执行,不会阻塞
如表中有任何一个事务对表进行写操作,那么这个事务会立即被阻塞
直到访问这张表的其他事务都提交后,这个阻塞事务才会被唤醒,才能对表进行修改操作
串行化:对所有操作全部加锁,进行串行化,不会有问题,但是只要串行化,效率很低,几乎完全不会被采用
两个事务同时读取不会串行化,共享锁;一旦一个事务对表进行CURD操作时,此事务会被放入等待队列被阻塞,直到另一个事务提交,如果此事务阻塞时间过长,将会由于锁等待超时退出当前事务。
5.6 隔离性总结
- 其中隔离级别越严格,安全性越高,但数据库的并发性能也就越低,往往需要在两者之间找一个平衡点
- 不可重复读的重点是修改和删除:同样的条件, 你读取过的数据,再次读取出来发现值不一样了幻读的重点在于新增:同样的条件, 第1次和第2次读出来的记录数不一样。
- mysql 默认的隔离级别是可重复读,一般情况下不要修改
- 上面的例子可以看出,事务也有长短事务这样的概念。事务间互相影响,指的是事务在并行执行的时候,即都没有commit的时候,影响会比较大。
6. 一致性(Consistency)的理解
事务执行的结果,必须使数据库从一个一致性状态,变到另一个一致性状态。当数据库只包含事务成功提交的结果时,数据库处于一致性状态。
-
一个事务中所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚到事务开始前的状态,就像这个事务从来没有执行过一样,即一致性需要原子性来保证
-
数据库允许多个并发事务同时对其数据进行读写和修改的能力,不会因为多个事务并发执行时由于交叉执行而导致数据的不一致,即一致性需要隔离性来保证
-
事务处理结束后,对数据的修改就是永久的,即便系统故障也不会丢失,即一致性需要持久性来保证
-
其实一致性和用户的业务逻辑强相关,一般MySQL提供技术支持,但是一致性还是要用户业务逻辑做支撑,也就是,一致性,是由用户决定的。而技术上,通过AID保证C
总结:一致性是数据库最终想要达成的效果,它不仅需要原子性,隔离性,持久性来保证,还需要用户业务逻辑做支撑。
7. 如何理解隔离性2(提高)
上面的学习中我们已经能够很容易理解读未提交和串行化,那么关于读提交(RC)和可重复读(RR)是怎么做到的呢?它们的原理是什么?在RR级别中,多个事务的update,多个事务的insert,多个事务的delete,是否会有加锁现象呢?下面就来深入理解一下这部分内容。
7.1 数据库并发的场景
- 读-读:不存在任何问题,也不需要并发控制
- 读-写:有线程安全问题,可能会造成事务隔离性问题,可能遇到脏读,幻读,不可重复读
- 写-写:有线程安全问题,可能会存在更新丢失问题,比如第一类更新丢失,第二类更新丢失
7.2 读-写
多版本并发控制(MVCC)是一种用来解决读-写冲突的无锁并发控制
1.事务的先后顺序问题如何保证?
MySQL会为事务分配单向增长的事务ID,为每个修改保存一个版本,版本与事务ID关联。因此每个事务都要有自己的事务ID,可以根据事务ID的大小,来决定事务到来的先后顺序
2.mysqld可能会面临多个事务的情况
- 事务会有自己的执行过程,即事务会有自己的生命周期,mysqld要对多个事务进行管理,如何管理?先描述,再组织。
- 所以事务在我们看来,在mysqld中一定是对应一个或一套结构体对象或类对象
- 即事务要有自己的结构体,这些结构体需要被相应的数据结构管理起来
- 那么对事务的操作就变成了对相应数据结构的增删查改
7.3 3个前提知识
理解MVCC 需要知道三个前提知识:
- 3个记录隐藏字段
- undo 日志
- Read View
(1) 3个记录隐藏列字段
DB_TRX_ID
:6 byte,最近修改( 修改/插入)事务ID,记录创建这条记录/最后一次修改该记录的事务IDDB_ROLL_PTR
: 7 byte,回滚指针,指向这条记录的上一个版本(简单理解成,指向历史版本就行,这些数据一般在undo log 中)DB_ROW_ID
: 6 byte,隐含的自增ID(隐藏主键),如果数据表没有主键, InnoDB 会自动以DB_ROW_ID 产生一个聚簇索引- 补充:实际还有一个删除flag隐藏字段, 既记录被更新或删除并不代表真的删除,而是删除flag变了
示例:我们创建一个学生表,向其中插入数据,我们查看表是只有name和age两列
实际上还会添加3个隐藏字段
我们目前并不知道创建该记录的事务ID,隐式主键,我们就默认设置成9,1。第一条记录也没有其他版本,我们设置回滚指针为null。
(2) undo 日志
MySQL 将来是以服务进程的方式,在内存中运行。我们之前所讲的所有机制:索引,事务,隔离性,日志等,都是在内存中完成的,即在MySQL 内部的相关缓冲区中,保存相关数据,完成各种判断操作。然后在合适的时候,将相关数据刷新到磁盘当中的。
所以,我们这里理解undo log,简单理解成,就是MySQL 中的一段内存缓冲区,用来保存日志数据的就行。
7.4 模拟MVCC
现在有一个事务10(仅仅为了好区分),对student表中记录进行修改(update):将name(张三)改成name(李四)
- 事务10,因为要修改,所以要先给该记录加行锁。
- 修改前,先将改行记录拷贝到undo log中,所以,undo log中就有了一行副本数据。(原理就是写时拷贝)
- 所以现在MySQL 中有两行同样的记录。现在修改原始记录中的name,改成 ‘李四’。并且修改原始记录的隐藏字段DB_TRX_ID 为当前事务10 的ID, 我们默认从10 开始,之后递增。而原始记录的回滚指针DB_ROLL_PTR 列,里面写入undo log中副本数据的地址,从而指向副本记录,既表示我的上一个版本就是它。
- 事务10提交,释放锁
备注:此时,最新的记录是’李四‘那条记录
现在又有一个事务11,对student表中记录进行修改(update):将age(28)改成age(38)。
- 事务11,因为也要修改,所以要先给该记录加行锁。(该记录是那条?)
- 修改前,现将改行记录拷贝到undo log中,所以,undo log中就又有了一行副本数据。此时,新的副本,我们采用头插方式,插入undo log。
- 现在修改原始记录中的age,改成 38。并且修改原始记录的隐藏字段DB_TRX_ID 为当前事务11 的ID。而原始记录的回滚指针DB_ROLL_PTR 列,里面写入undo log中副本数据的地址,从而指向副本记录,既表示我的上一个版本就是它。
- 事务11提交,释放锁。
这样,我们就有了一个基于链表记录的历史版本链。所谓的回滚,无非就是用历史数据,覆盖当前数据。
上面的一个一个版本,我们可以称之为一个一个的快照。
上面是以更新(upadte
)主讲的,下面我们就来谈论insert,delete和select
insert和delete
-
delete: 记录被删除并不代表真的删除,而是先将记录拷贝一份放到undo log中,设置删除flag为1,这样回滚操作时falg又变回0,删除的数据就会恢复。
-
insert: 因为insert是插入,也就是之前没有数据,那么insert也就没有历史版本。但是一般为了回滚操作,insert的数据也是要被放入undo log中,如果当前事务commit了,那么这个undolog 的历史insert记录就可以被清空了。
即insert和delete也能形成版本。
select
-
首先,select不会对数据做任何修改,所以,为select维护多版本,没有意义。不过,此时有个问题,就是:
select读取,是读取最新的版本呢?还是读取历史版本?- 当前读:读取最新的记录,就是当前读。增删改,都叫做当前读,select也有可能当前读,比如:select
lock in share mode(共享锁), select for update - 快照读:读取历史版本(一般而言),就叫做快照读
- 当前读:读取最新的记录,就是当前读。增删改,都叫做当前读,select也有可能当前读,比如:select
-
在多个事务同时删改查的时候,都是当前读,是要加锁的。那同时有select过来,如果也要读取最新版(当前读),那么也就需要加锁,这就是串行化。
-
但如果是快照读,读取历史版本的话,是不受加锁限制的。也就是可以并行执行!换言之,提高了效率,即MVCC的意义所在。
隔离级别决定了select查询时应该进行当前读还是快照读。
回到我们开始的问题:为什么要有隔离级别呢?
事务从begin->CURD->commit,是有一个阶段的。也就是事务有执行前,执行中,执行后的阶段。但,不管怎么启动多个事务,总是有先有后的。那么多个事务在执行中,CURD操作是会交织在一起的。那么,为了保证事务的“有先有后”,是不是应该让不同的事务看到它该看到的内容,这就是所谓的隔离性与隔离级别要解决的问题
7.5 Read View
- Read View就是事务进行快照读操作的时候生产的读视图(Read View),在该事务执行的快照读的那一刻,会生成数据库系统当前的一个快照,记录并维护系统当前活跃事务的ID(当每个事务开启时,都会被分配一个ID, 这个ID是递增的,所以最新的事务,ID值越大)
- Read View 在MySQL 源码中,就是一个类,本质是用来进行可见性判断的。 即当我们某个事务执行快照读的时候,对该记录创建一个Read View 读视图,把它比作条件,用来判断当前事务能够看到哪个版本的数据,既可能是当前最新的数据,也有可能是该行记录的undo log 里面的某个版本的数据。
即Read View 是事务可见性的一个类,不是事务创建出来就会有Read View ,而是当这个事务(已经存在),首次进行快照读的时候,mysql形成Read View
下面我们简化Read View结构:
class ReadView {// 省略...
private:/** 高水位:大于等于这个ID的事务均不可见*/trx_id_t m_low_limit_id;/** 低水位:小于这个ID的事务均可见 */trx_id_t m_up_limit_id;/** 创建该 Read View 的事务ID*/trx_id_t m_creator_trx_id;/** 创建视图时的活跃事务id列表*/ids_t m_ids;/** 配合purge,标识该视图不需要小于m_low_limit_no的UNDO LOG,* 如果其他视图也不需要,则可以删除小于m_low_limit_no的UNDO LOG*/trx_id_t m_low_limit_no;/** 标记视图是否被关闭*/bool m_closed;// 省略...
};
成员说明:
- m_ids:一张列表,用来维护Read View生成时刻,系统正活跃的事务ID
- up_limit_id:记录m_ids列表中事务ID最小的ID
- low_limit_id:ReadView生成时刻系统尚未分配的下一个事务ID,也就是目前已出现过的事务ID的最大值+1
- creator_trx_id:创建该ReadView的事务ID
我们在实际读取数据版本链的时候,是能读取到每一个版本对应的事务ID的,即:当前记录的DB_TRX_ID。
我们现在得到了当前快照读的ReadView 和 版本链中的某一个记录的DB_TRX_ID。
问题:当前快照读,应不应该读到当前版本记录呢?
- 事务ID小于up_limit_id的事务,一定是生成Read View时已经提交的事务,因为up_limit_id是生成Read View时刻系统中活跃事务ID中的最小ID,因此事务ID比它小的事务在生成Read View时一定已经提交了。
- 事务ID大于等于low_limit_id的事务,一定是生成Read View时还没有启动的事务,因为low_limit_id是生成Read View时刻,系统尚未分配的下一个事务ID。
- 事务ID位于up_limit_id和low_limit_id之间的事务,在生成Read View时可能正处于活跃状态,也可能已经提交了,这时需要通过判断事务ID是否存在于m_ids中来判断该事务是否已经提交
结论:一个事务在进行读操作时,只应该看到自己或已经提交的事务所作的修改,因此我们可以根据Read View来判断当前事务能否看到另一个事务所作的修改
源码策略如下:
如果查到不应该看到当前版本,接下来就是遍历下一个版本,直到符合条件,即可以看到。上面的readview 是当你进行select的时候,会自动形成。
整体过程
假设当前有条记录:
事务操作:
事务4:修改name(张三) 变成name(李四)
当事务2 对某行数据执行了快照读,数据库为该行数据生成一个Read View 读视图
//事务2的 Read Viewm_ids; // 1,3
up_limit_id; // 1
low_limit_id; // 4 + 1 = 5,原因:ReadView生成时刻,系统尚未分配的下一个事务ID
creator_trx_id // 2
此时版本链是:
只有事务4修改过该行记录,并在事务2执行快照读前,就提交了事务。
我们的事务2在快照读该行记录的时候,就会拿该行记录的DB_TRX_ID 去跟up_limit_id,low_limit_id和活跃事务ID列表(trx_list) 进行比较,判断当前事务2能看到该记录的版本。
//事务2的 Read View
m_ids; // 1,3
up_limit_id; // 1
low_limit_id; // 4 + 1 = 5,原因:ReadView生成时刻,系统尚未分配的下一个事务ID
creator_trx_id // 2//事务4提交的记录对应的事务ID
DB_TRX_ID=4//比较步骤
DB_TRX_ID(4)< up_limit_id(1) ? 不小于,下一步
DB_TRX_ID(4)>= low_limit_id(5) ? 不大于,下一步
m_ids.contains(DB_TRX_ID) ? 不包含,说明,事务4不在当前的活跃事务中。//结论
故,事务4的更改,应该看到。
所以事务2能读到的最新数据记录是事务4所提交的版本,而事务4提交的版本也是全局角度上最新的版本
8. RR 与 RC的本质区别
8.1 当前读和快照读在RR级别下的区别
演示1:
启动两个终端,将事务的隔离级别都改为可重复读。在两个终端各自启动一个事务,在左终端中的事务操作之前,先让右终端中的事务查看一下表中的信息。如下:
左终端中的事务对表中的信息进行修改并提交,针对可重复读的隔离级别,右终端中的事务看不到修改后的数据,即便左侧commit,在右侧的事务只要未停止,那么右终端中的事务就看不到修改后的数据,因为这种读都被称之为快照读。如下:
在右终端中使用select ... lock in share mode
命令进行当前读,可以看到表中的数据确实是被修改了,只是右终端中的事务看不到而已。如下:
演示2:
我们将左右两侧事务begin以后,不让右侧进行快照读,仅仅只是让左侧的事务进行修改数据并提交,提交之后,右侧的事务在进行快照读与当前读,我们发现这两个结果是一样的,都是当前读的数据:
- 上面两次实验的唯一区别在于,右终端中的事务在左终端中的事务修改数据之前是否进行过快照读。
- 事务中快照读的结果是非常依赖该事务首次出现快照读的地方,即某个事务中首次出现快照读,决定该事务后续快照读结果的能力
8.2 RR 与 RC的本质区别
- 正是Read View生成时机的不同,从而造成RC,RR级别下快照读的结果的不同
- 在RR级别下的某个事务的对某条记录的第一次快照读会创建一个快照及Read View, 将当前系统活跃的其他事务记录起来。此后在调用快照读的时候,还是使用的是同一个Read View,所以只要当前事务在其他事务提交更新之前使用过快照读,那么之后的快照读使用的都是同一个Read View,所以对之后的修改不可见;即RR级别下,快照读生成Read View时,Read View会记录此时所有其他活动事务的快照,这些事务的修改对于当前事务都是不可见的。而早于Read View创建的事务所做的修改均是可见
- 而在RC级别下的,事务中,每次快照读都会新生成一个快照和Read View, 这就是我们在RC级别下的事务中可以看到别的事务提交的更新的原因
- 总之在RC隔离级别下,是每个快照读都会生成并获取最新的Read View;而在RR隔离级别下,则是同一个事务中的第一个快照读才会创建Read View, 之后的快照读获取的都是同一个Read View。
- 正是RC每次快照读,都会形成Read View,所以,RC才会有不可重复读问题