事务是一组操作的集合,它会把所有的操作作为一个整体一起向系统提交或撤销操作请求,即这些操作要么同时成功,要么同时失败。
事务的特性(ACID)
原子性(Atomicity):事务是不可分割的最小操作单元,要么全部成功,要么全部失败。
一致性(Consistency):事务完成时,必须使所有的数据都保持一致状态。
隔离性(Isolation):数据库系统提供的隔离机制,保证事务在不受外部并发操作影响的独立环境下运行。
持久性(Durability):事务一旦提交或回滚,它对数据库中的数据的改变就是永久的。
并发事务带来的问题
脏读
一个事务读到另外一个事务还没有提交的数据,称为脏读。
譬如上图,事务A准备查询并更新了id=1的数据,此时事务A还没有提交时,就有事务B来查询该id=1的数据且成功查到,这叫脏读。
不可重复读
一个事务先后读取同一条记录,但两次读取的数据不同,称之为不可重复读。
譬如上图,一个事务A先是查询了id=1的数据得到值为x的结果,接着去进行事务的其他操作,此时事务B对id=1的数据进行修改,值变为y。之后事务A再去查询该id=1的数据,发现值为y。事务A前后读取同一条记录,但值不相同,这叫不可重复读。
幻读
在解决了不可重复读的基础上,即一个事务内先后查询同一条数据的结果应该一致的基础上,一个事务按照条件查询数据时,没有对应的数据行,但是在插入数据时,又发现这行数据已经存在,好像出现了”幻影”。
譬如上图,事务A一开始先查询数据库中id=1的数据,发现不存在。此时事务B刚好往数据库中添加了id=1的数据。此时事务A再往数据库里试图添加id=1的数据,会报错说该行数据已存在。于是事务A再次查询id=1的数据,但是依旧发现不存在
注意,这里事务A进行查询时又查不到事务B添加的数据是因为幻读是建立在解决了不可重复读的基础上,所以一个事务内先后查询同一条数据的结果一致,它第一次查询时读不到id=1的数据,那么第二次查询时也会读不到id=1的数据。
解决方案
对事务进行不同级别的隔离,可以解决不同的问题。
注意:事务隔离级别越高,数据越安全,但是性能越低,所以其实一般基本都不考虑串行化,因为这样就失去了并发事务的意义。
隔离级别 | 脏读 | 不可重复读 | 幻读 |
---|---|---|---|
Read uncommitted 未提交读 | × | × | × |
Read committed 读已提交 | √ | × | × |
Repeatable Read(默认) 可重复读 | √ | √ | × |
Serializable 串行化 | √ | √ | √ |
undo log和redo log的区别
mysql内部存储结构
在InnoDB内部,存在两个结构。
- 缓冲池(buffer pool):主内存中的一个区域,里面可以缓存磁盘上经常操作的真实数据,在执行增删改查操作时,先操作缓冲池中的数据(若缓冲池没有数据,则从磁盘加载并缓存),以一定频率刷新到磁盘,从而减少磁盘IO,加快处理速度。
- 数据页(page):是InnoDB 存储引擎磁盘管理的最小单元,每个页的大小默认为 16KB。页中存储的是行数据。
缓冲池同步数据失败
缓冲池中的数据会以一定频率刷新到磁盘,在未刷新之前,这些文件都叫做”脏页“。那么可能引发一个问题,就是服务器宕机导致缓冲池和磁盘同步数据失败,内存中的脏页消失,导致数据丢失,违背了事务的持久化特性,为此引出redo log的概念。
redo log(重做日志)
重做日志,记录的是事务提交时数据页的物理修改,是用来实现事务的持久性。
该日志文件由两部分组成:重做日志缓冲(redo log buffer)以及重做日志文件(redo log file)
前者是在内存中,后者在磁盘中。当事务提交之后会把所有修改信息都存到该日志文件中, 用于在刷新脏页到磁盘,发生错误时, 进行数据恢复使用。
以上的机制称为WAL,全称是Write-Ahead Logging, 预写日志系统。指的是 MySQL 的写操作并不是立刻更新到磁盘上,而是先记录在日志上,然后在合适的时间再更新到磁盘上。
注意,redo log每隔一段时间会被清理,而且在磁盘中是有两份来循环写的。
注意点1
以上的机制听起来还是很奇怪,譬如redolog buffer和buffer pool都是存储在内存中的,而且都是等事务提交后再把数据同步到磁盘,那么服务器宕机了,redolog buffer中的数据不还是会消失吗?
注意点2
为什么不采用舍弃redo log,直接buffer pool中一有数据更改就同步到磁盘的做法呢?当然是因为无效的操作会比较多,而且同步数据到磁盘时,都是随机IO,因为不能保证增删改的操作数的量是差不多的。这个需要取决于业务。
而redo log同步数据到磁盘时,因为日志文件是追加的方式写的,所以是顺序IO,性能会提升很多。
undo log(回滚日志)
- 回滚日志,用于记录数据被修改前的信息 ,
- 作用包含两个 : 提供回滚 和 MVCC(多版本并发控制) 。
- undo log和redo log记录物理日志不一样,它是逻辑日志,可以认为当delete一条记录时,undo log中会记录一条对应的insert记录,反之亦然(注意binlog也是逻辑日志)
- undo log可以实现事务的一致性和原子性
相关面试题和回答
并发事务带来哪些问题?
候选人:
我们在项目开发中,多个事务并发进行是经常发生的,并发也是必然的,有可能导致一些问题
第一是脏读, 当一个事务正在访问数据并且对数据进行了修改,而这种修改还没有提交到数据库中,这时另外一个事务也访问了这个数据,因为这个数据是还没有提交的数据,那么另外一个事务读到的这个数据是“脏数据”,依据“脏数据”所做的操作可能是不正确的。
第二是不可重复读:比如在一个事务内多次读同一数据。在这个事务还没有结束时,另一个事务也访问该数据。那么,在第一个事务中的两次读数据之间,由于第二个事务的修改导致第一个事务两次读取的数据可能不太一样。这就发生了在一个事务内两次读到的数据是不一样的情况,因此称为不可重复读。
第三是幻读(Phantom read):幻读与不可重复读类似。它发生在一个事务(T1)读取了几行数据,接着另一个并发事务(T2)插入了一些数据时。在随后的查询中,第一个事务(T1)就会发现多了一些原本不存在的记录,就好像发生了幻觉一样,所以称为幻读。
怎么解决这些问题呢?MySQL的默认隔离级别是?
候选人:解决方案是对事务进行隔离
MySQL支持四种隔离级别,分别有:
第一个是,未提交读(read uncommitted)它解决不了刚才提出的所有问题,一般项目中也不用这个。第二个是读已提交(read committed)它能解决脏读的问题的,但是解决不了不可重复读和幻读。第三个是可重复读(repeatable read)它能解决脏读和不可重复读,但是解决不了幻读,这个也是mysql默认的隔离级别。第四个是串行化(serializable)它可以解决刚才提出来的所有问题,但是由于让是事务串行执行的,性能比较低。所以,我们一般使用的都是mysql默认的隔离级别:可重复读
undo log和redo log的区别
候选人:好的,其中redo log日志记录的是数据页的物理变化,服务宕机可用来同步数据,而undo log 不同,它主要记录的是逻辑日志,当事务回滚时,通过逆操作恢复原来的数据,比如我们删除一条数据的时候,就会在undo log日志文件中新增一条delete语句,如果发生回滚就执行逆操作;
redo log保证了事务的持久性,undo log保证了事务的原子性和一致性