1. 什么是数据库事务
1.1 事务的应用场景
电商平台中例如常见的下单流程,会同时操作订单表,库存表等,有时候这些操作要在一个事务里面完成。还有金融系统业务的银行转账,需要保证一个账户增加另一个账户减少,这两个动作 一定是成功或者同时失败的。
1.2 事务的定义
维基百科定义:数据库事务(简称:事务)是数据库管理系统执行过程中的一个逻辑单位,由一个有限的数据库操作序列构成。
1.3 哪些存储引擎支持数据库事务
InnoDB
1.4 事务的四大特性
原子性(Automicity)
我们对数据库的一系列操作要么都成功要么都失败,如果其中有哪一步出现就需要回滚。undo log就是实现这一操作,里面记录了数据修改之前的值(逻辑日志),一旦发现异常就可以使用undo log实现回滚
一致性(Consistency)
事务前后的操作都是合法的正确状态,例如转账,转账前和转账后金额保持一致,能量守恒状态。
隔离性 (Isolation)
多个事务操作同一张表或者同一行数据,互不干扰。
持久性 (Durability)
对数据的操作,只要提交成功了,那么结果就是永久的,不会因为系统宕机或者重启数据库导致恢复到原来的状态。其使用redo log来实现,在操作数据时候会写到内存buffer pool在记录到redo log,如果刷新到磁盘异常,重启之后就重新读取redo log的内容,写入磁盘。
原子性,隔离性,持久性,最后都是为了实现一致性。
1.5 并发带来的问题
脏读
现在有两个事务,事务A查询id=1的数据,返回 name为张三。这是事务B开启事务事务,修改id = 1的name为李四,这时候事务A中再次读取id =1的数据,得到name =李四,然而事务B并未提交事务,这时候若是B事务回滚,那么A事务得到的就是脏数据。
2. 不可重复读
同样是两个事务,事务A查询到id=1的数据,返回name为张三
,这是事务B对id =1的数据进行修改,name改成李四,然后提交事务,这时候事务A再次读id= 1的数据,此时的name也变为李四。这种在一个事务多次读取同一数据,由于其他事务修改数据造成前后不一致的问题叫做不可重复读
3. 幻读
事务A对age>18的数据进行查找,只发现了一条,这时候事务B插入了一条年龄等于30的数据,事务A里面又执行了一次范围查询,结果发现多处一条数据。这种在一个事务里面多次执行查询操作,由于其他事务插入数据造成的前后数据不一致的问题,被叫做幻读取
不可重复读的和幻读很容易混淆,不可重复读侧重于修改,幻读侧重于新增或删除。解决不可重复读的问题只需锁住满足条件的行,解决幻读需要锁表
1.6 隔离级别及解决的问题
2. 并发事务解决方案
脏读、不可重复读和幻读都是数据库读一致性问题,需要由数据库提供一定的事务隔离机制来解决。
2.1 LBCC (Lock Based Concurrency Control)
基于锁的并发控制,在读取数据的时候对数据进行锁定,不允许其他事务修改。
2.2 MVCC (Multi Version Concurrency Control)
多版本并发控制,在修改数据的时候,给它建立一个快照,后面的事务来的时候就读取这个快照。
InnoDB为每行记录除了提供ROWID外还提供了两个隐藏字段:
DB_TRX_ID,6个字节:插入或更新行的事务ID,事务编号是自动递增的(我们把它理解为创建版本号,在数据新增或者修改为新数据的时候,记录当前事务 ID)
DB_ROLL_PTR,7字节:每次对某条聚簇索引记录进行改动时,都会把旧的版本写入到undo日志中,然后这个隐藏列就相当于一个指针,可以通过它来找到该记录修改前的信息(我们把它理解为删除版本号,数据被删除或记录为旧数据的时候,记录当前事务 ID
undo log:每次对记录进行更新后,都会将旧值放在一个undo日志中,随着更新次数增多,所有版本都会被roll_point属性连接成一个链表,我们称之为版本链,版本链的头结点就是当前记录的新值。另外,每个版本中还包含生成该版本时事务id
ReadView:出现在RC和RR隔离级别下,RC下,每次读取都会生成ReadView,RR只会读取一次,它用于记录当前事务版本,活跃在系统读写的事务等
下面我们通过一个示例来了解MVCC
首先第一个事务初始化数据
begin
insert into test values('1', '张三')
insert into test values('2', '李四')
commit
复制代码
创建版本是当前事务id,删除版本为空
idname创建版本删除版本1张三1undefined
2李四1undefined
第二个事务,执行第1次查询,读取到两条原始数据,这个时候事务 ID 是 2:
begin;
select * from test (1);
复制代码
第三个事务,插入数据
begin;
insert into test values('3', '王五');
commit;
复制代码
此时的数据,多了一条王五,它的创建版本号是当前事务编号,3:
idname创建版本删除版本1张三1undefined
2李四1undefined
3王五3undefined
第二个事务执行第二次查询
begin;
select * from test (2);
复制代码
MVCC 的查找规则:只能查找创建时间小于等于当前事务 ID 的数据,和删除时间大于当前事务 ID 的行(或未删除)。
也就是不能查到在我的事务开始之后插入的数据,王五的创建 ID 大于 2,所以还是只能查到两条数据。
第四个事务删除数据,删除id =2的李四这条数据
begin;
delete from test where id =2;
commit
复制代码
此时的数据,jack的删除版本被记录为当前事务ID,4,其他数据不变
idname创建版本删除版本1张三1undefined
2李四14
3王五3undefined
在第二个事务中,执行第 3 次查询:
begin;
select * from test (3);
复制代码
查找规则:只能查找创建时间小于等于当前事务ID的数据,和删除时间大于当前事务ID的行(或未删除)。也就是,在我事务开始之后删除的数据,所以李四依然可以查出来。所以还是这两条数据。
第五个事务,执行更新操作,这个事务事务 ID 是 5:
begin;
update test set name = '赵六' where ud =1
commit
复制代码
此时的数据,更新数据的时候,旧数据的删除版本被记录为当前事务 ID 5,产生了一条新数据,创建 ID 为当前事务 ID 5:
idname创建版本删除版本1张三15
2李四14
3王五3undefined
1赵六5undefined
第二个事务,执行第 4 次查询:
begin;
select * from test (3);
复制代码
因为更新后的数据赵六创建版本大于2,代表是在事务之后增加的,查不出来。而旧数据李四的删除版本大于2,代表是在事务之后删除的,可以查出来。
通过以上演示我们能看到,通过版本号的控制,无论其他事务是插入、修改、删除,第一个事务查询到的数据都没有变化。