参考资料:小林coding
一、事务的特性ACID
- 原子性(Atomicity)
一个事务是一个不可分割的工作单位,事务中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。原子性是通过 undo log(回滚日志) 来保证的。
- 一致性(Consistency)
事务操作前和操作后,数据满足完整性约束,数据库保持一致性状态。
- 隔离性(Isolation)
数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离性可以防止多个事务并发执行时由于交叉执行而导致数据的不一致。多个事务并发执行时,每个事务都看不到其他事务的中间状态。每个事务都应该感觉就像它是唯⼀在数据库上运行的事务⼀样。隔离性是通过 MVCC(多版本并发控制) 或锁机制来保证的。
- 持久性(Durability)
⼀旦事务被提交,其结果将永久保存在数据库中,即使系统发生故障。即使系统发生崩溃,事务的结果也不应该丢失,持久性是通过 redo log (重做日志)来保证的。
二、脏读、不可重复读、幻读
并行事务是指多个事务同时执⾏,这可以提高数据库系统的性能和吞吐量。
1. 脏读:读到其他事务未提交的数据
如果一个事务读到了另一个未提交事务修改过的数据,就意味着发生了「脏读」现象。如果另⼀个事务后来回滚,读取的数据就是无效的。
2. 不可重复读:前后读取的数据不⼀致
在一个事务内多次读取同一个数据,如果出现前后两次读到的数据不一样的情况,就意味着发生了不可重复读现象。在事务执⾏期间其他事务可能修改了数据。
3. 幻读:前后读取的记录数量不⼀致
在一个事务内多次查询某个符合查询条件的记录数量,如果出现前后两次查询到的记录数量不一样的情况,就意味着发生了幻读现象。在事务执⾏期间其他事务可能增加或删除了数据。
脏读、不可重复读、幻读的现象会对事务的一致性产生不同程度的影响。严重性排序如下:
三、事务的隔离级别
SQL 标准提出了四种隔离级别来规避脏读、不可重复读、幻读的现象,隔离级别越高,性能效率就越低,这四个隔离级别如下:
- 读未提交(read uncommitted),指一个事务还没提交时,它做的变更就能被其他事务看到;
- 读提交(read committed),指一个事务提交之后,它做的变更才能被其他事务看到;
- 可重复读(repeatable read),指一个事务执行过程中看到的数据,一直跟这个事务启动时看到的数据是一致的,MySQL InnoDB 引擎的默认隔离级别;
- 串行化(serializable );会对记录加上读写锁,在多个事务对这条记录进行读写操作时,如果发生了读写冲突的时候,后访问的事务必须等前一个事务执行完成,才能继续执行;
隔离水平高低排序如下:
针对不同的隔离级别,并发事务时可能发生的现象也会不同。
- 在「读未提交」隔离级别下,可能发生脏读、不可重复读和幻读现象;
- 在「读提交」隔离级别下,可能发生不可重复读和幻读现象,但是不可能发生脏读现象;
- 在「可重复读」隔离级别下,可能发生幻读现象,但是不可能脏读和不可重复读现象;
- 在「串行化」隔离级别下,脏读、不可重复读和幻读现象都不可能会发生。
MySQL InnoDB 引擎的默认隔离级别虽然是「可重复读」,但是它很⼤程度上可以避免幻读现象。解决的方案有两种:
- 针对快照读(普通 select 语句),是通过 MVCC方式解决了幻读
- 针对当前读:(select ... for update 等语句),是通过 next-key lock(记录锁+间隙锁)方式解决了幻读, 因为当执⾏ select ... for update 语句的时候,会加上 next-key lock,如果有其他事务在 next-key lock 锁范围内插入,那么这个插入语句就会被阻塞,无法成功插入,所以就很好了避免幻读问题。
隔离级别的实现
- 读未提交
可以读到未提交事务修改的数据,直接读取最新的数据;
- 串行化
通过加读写锁的方式来避免并行访问;
- 读提交 和 可重复读
通过 Read View 实现,区别在于创建 Read View 的时机不同,可以把 Read View 理解成一个数据快照。读提交是在每个语句执行前都会重新生成一个 Read View,而可重复读是启动事务时生成一个 Read View,然后整个事务期间都在用这个 Read View。
Read View 在 MVCC 里如何工作的?
Read View 有四个重要的字段:
- m_ids :指的是在创建 Read View 时,当前数据库中「活跃事务」的事务 id 列表,注意是一个列表,“活跃事务”指的就是,启动了但还没提交的事务。
- min_trx_id :指的是在创建 Read View 时,当前数据库中「活跃事务」中事务 id 最小的事务,也就是 m_ids 的最小值。
- max_trx_id :这个并不是 m_ids 的最大值,而是创建 Read View 时当前数据库中应该给下一个事务的 id 值,也就是全局事务中最大的事务 id 值 + 1;
- creator_trx_id :指的是创建该 Read View 的事务的事务 id。
除此之外,聚簇索引记录中还包含两个隐藏列:
- trx_id,当一个事务对某条聚簇索引记录进行改动时,就会把该事务的事务 id 记录在 trx_id 隐藏列里;
- roll_pointer,每次对某条聚簇索引记录进行改动时,都会把旧版本的记录写入到 undo 日志中,然后这个隐藏列是个指针,指向每一个旧版本记录,于是就可以通过它找到修改前的记录。
在创建 Read View 后,我们可以将记录中的 trx_id 划分这三种情况:
⭐⭐⭐一个事务去访问记录的时候,除了自己的更新记录总是可见之外,还有这几种情况:
- 如果记录的 trx_id 值小于 Read View 中的
min_trx_id
值,表示这个版本的记录是在创建 Read View 前已经提交的事务生成的,所以该版本的记录对当前事务可见。 - 如果记录的 trx_id 值大于等于 Read View 中的
max_trx_id
值,表示这个版本的记录是在创建 Read View 后才启动的事务生成的,所以该版本的记录对当前事务不可见。 - 如果记录的 trx_id 值在 Read View 的
min_trx_id
和max_trx_id
之间,需要判断 trx_id 是否在 m_ids 列表中:- 如果记录的 trx_id 在
m_ids
列表中,表示生成该版本记录的活跃事务依然活跃着(还没提交事务),所以该版本的记录对当前事务不可见。 - 如果记录的 trx_id 不在
m_ids
列表中,表示生成该版本记录的活跃事务已经被提交,所以该版本的记录对当前事务可见。
- 如果记录的 trx_id 在
这种通过「版本链」来控制并发事务访问同一个记录时的行为就叫 MVCC(多版本并发控制)。