CMU 15-445 -- Logging Schemes - 17

CMU 15-445 -- Logging Schemes - 17

  • 引言
  • Index
  • Failure Classification
    • Transaction Failures
    • System Failures
    • Storage Media Failures
  • Buffer Pool Policies
  • Shadow Paging: No-Steal + Force
  • Write-Ahead Log (WAL): Steal + No-Force
  • Logging Schemes
  • Checkpoints
  • 小结


引言

本系列为 CMU 15-445 Fall 2022 Database Systems 数据库系统 [卡内基梅隆] 课程重点知识点摘录,附加个人拙见,同样借助CMU 15-445课程内容来完成MIT 6.830 lab内容。


数据库在运行时可能遭遇各种故障,这时可能同时有许多正在运行的事务,如果这些事务执行到一半时故障发生了,就可能导致数据库中的数据出现不一致的现象:

在这里插入图片描述
这时就需要故障恢复机制来保证数据库的原子性、一致性、持久性。故障恢复机制包含两部分:

  • 在事务执行过程中采取的行动来确保在出现故障时能够恢复 (本节课)
  • 在故障发生后的恢复机制,确保原子性、一致性和持久性 (下节课)

Index

  • Failure Classification
  • Buffer Pool Policies
  • Shadow Paging
  • Write-Ahead Log
  • Logging Schemes
  • Checkpoints

Failure Classification

世上并不存在能够容忍任何故障的容错机制,即便做了异地多活,一次小行星撞地球也能将你的系统一举歼灭,因此在讨论故障恢复之前,我们必须先为故障分类,明确需要容忍的故障类型。

一般故障类型可以分为 3 种:

  1. 事务故障 (Transaction Failures)
  2. 系统故障 (System Failures)
  3. 存储介质故障 (Storage Media Failures)

Transaction Failures

事务故障可以分为两种:

  1. 逻辑错误 (Logical Errors):由于一些内部约束,如数据一致性约束,导致事务无法正常完成
  2. 内部错误 (Internal State Errors):由于数据库内部调度、并发控制,如死锁,导致事务无法正常提交

System Failures

系统故障可以分为两种:

  1. 软件故障 (Software Failure):如 DBMS 本身的实现问题 (NPE, Divide-by-zero)
  2. 硬件故障 (Hardware Failure):DBMS 所在的宿主机发生崩溃,如断电。且一般假设非易失性的存储数据在宿主机崩溃后不会丢失

Storage Media Failures

如果存储介质发生故障,通常这样的故障就是无法修复的,如发生撞击导致磁盘部分或全部受损。所有数据库都无法从这种故障中恢复,这时候数据库只能从归档的备份记录中恢复数据。


Buffer Pool Policies

修改数据时,DBMS 需要先把对应的数据页从持久化存储中读到内存中,然后在内存中根据写请求修改数据,最后将修改后的数据写回到持久化存储。在整个过程中,DBMS 需要保证两点:

  1. DBMS 告知用户事务已经提交成功前,相应的数据必须已经持久化
  2. 如果事务中止,任何数据修改都不应该持久化

如果真的遇上事务故障或者系统故障,DBMS 有两种基本思路来恢复数据一致性,向用户提供上述两方面保证:

  • Undo:将中止或未完成的事务中已经执行的操作回退
  • Redo:将提交的事务执行的操作重做

DBMS 如何支持 undo/redo 取决于它如何管理 buffer pool。我们可以从两个角度来分析 buffer pool 的管理策略:Steal Policy 和 Force Policy。以下图为例:

在这里插入图片描述
如上图所示,有 2 个并发事务 T1 和 T2,T1 要修改 A 数据,T2 要修改 B 数据,A、B 数据都位于同一块数据页上。在 T2 事务提交时,T1 事务尚未结束,这时 T1 已经修改了 A 数据,此时 DBMS 会允许被修改但未提交的 A 数据进入持久化存储吗?

  • Steal Policy:DBMS 是否允许一个未提交事务修改持久化存储中的数据?

Steal Policy 有两种可能:允许 (Steal) 和不允许 (No-Steal)。如果选择允许,若 T1 事务回滚,则需要把已经持久化的数据读进来,回滚数据,再存回去,但在不发生回滚时 DBMS 的 I/O 较低;如果选择不允许,若 T1 事务回滚,DBMS 不需要做任何额外的操作,但在不发生回滚时 DBMS 的 I/O 较高。因此这里存在数据恢复时间与 DBMS 处理效率的取舍。

在 T2 事务提交时,是否需要将他的数据改动持久化?

  • Force Policy:DBMS 是否强制要求一个提交完毕事务的所有数据改动都反映在持久化存储中?

Force Policy 有两种可能:强制 (Force) 和非强制 (No-Force)。如果选择强制,每次事务提交都必须将数据落盘,数据一致性可以得到完美保障,但 I/O 效率较低;如果选择非强制,DBMS 则可以延迟批量地将数据落盘,数据一致性可能存在问题,但 I/O 效率较高。

因此我们有 4 种实现组合:

StealNo-Steal
ForceSteal + ForceNo-Steal + Force
No-ForceSteal + No-ForceNo-Steal + No-Force

在实践中使用的主要是 No-Steal + Force 和 Steal + No-Force。


Shadow Paging: No-Steal + Force

最容易实现的一种策略组合就是 No-Steal + Force:

  • 事务中止后,无需回滚数据,因为该事务修改的数据不会被别的事务捎带落盘
  • 事务提交后,无需重做数据,因为该事务修改的数据必然会被落盘持久化

当然,这种策略组合无法处理"写入的数据量超过 buffer pool 大小"的情况。

在这里插入图片描述

shadow paging 是 No-Steal + Force 策略的典型代表,它会维护两份数据库数据:

  1. Master:包含所有已经提交事务的数据
  2. Shadow:在 Master 之上增加未提交事务的数据变动

正在执行的事务都只将修改的数据写到 shadow copy 中,当事务提交时,再原子地把 shadow copy 修改成新的 master。当然,为了提高效率,DBMS 不会复制整个数据库,只需要复制有变动的部分即可,即 copy-on-write。通常,实现 shadow paging 需要将数据页组织成树状结构,如下图所示:
在这里插入图片描述
左边是内存中的数据结构,由一个根节点指向对应的 page table,其中 page table 对应着磁盘中的相应的数据页。在写事务执行时,会生成一个 shadow page table,并复制需要修改的数据页,在其上完成相应操作。在提交写事务时,DBMS 将 DB Root 的指针指向 shadow page table,并将对应的数据页全部落盘,如下图所示:

在这里插入图片描述
在事务提交前,任何被修改的数据都不会被持久化到数据库;在事务提交后,所有被修改的数据都会被持久化到数据库。在 shadow paging 下回滚、恢复数据都很容易:

  • Undo/Rollback:删除 shadow pages (table),啥都不用做
  • Redo:不需要 redo,因为每次写事务都会将数据落盘

shadow paging 很简单,但它的缺陷也很明显:

  • 复制整个 page table 代价较大,尽管可以通过以下措施来降低这种代价:
    • 需要使用类似 B+ 树的数据结构来组织 page table
    • 无需复制整个树状架构,只需要复制到达有变动的叶子节点的路径即可
  • 事务提交的代价较大
    • 需要将所有发生更新的 data page、page table 以及根节点都落盘
    • 容易产生磁盘碎片,使得原先距离近的数据渐行渐远
    • 需要做垃圾收集
    • 只支持一个写事务或一批写事务一次性持久化

在 2010 年之前,SQLite 采用的就是类似 shadow paging 的策略,当写事务需要修改某页数据时,DBMS 会先将原始数据页保存到一个独立的 journal 文件中,然后再将对应的修改持久化到磁盘中。当 SQLite 重启后,如果发现磁盘中存在 journal 文件,则之间将对应的数据页覆盖到磁盘中即可。


Write-Ahead Log (WAL): Steal + No-Force

通过刚才对 shadow paging 的讨论,我们可以发现导致其效率问题的主要原因是:DBMS 在实现 shadow paging 时需要将许多不连续的数据页写到磁盘中,随机写对磁盘来说并不友好,如果能将这种随机写入转化为顺序写入,那么效率自然能够提升。于是 WAL 来了。

WAL 指的是 DBMS 除了维持正常的数据文件外,额外地维护一个日志文件,上面记录着所有事务对 DBMS 数据的完整修改记录,这些记录能够帮助数据库在恢复数据时执行 undo/redo。使用 WAL 时,DBMS 必须先将操作日志持久化到独立的日志文件中,然后才修改其真正的数据页。通常实现 WAL 采用的 buffer pool policy 为 Steal + No-Force,下面我们将详细地介绍 WAL Protocol。

WAL Protocol

  1. DBMS 先将事务的操作记录放在内存中 (backed by buffer pool)
  2. 在将 data page 落盘前,所有的日志记录必须先落盘
  3. 在操作日志落盘后,事务就被认为已经提交成功

事务开始时,需要写入一条 <BEGIN> 记录到日志中;事务结束时,需要写入一条 <COMMIT> 记录到日志中;在事务执行过程中,每条日志记录着数据修改的完整信息,如:

  • Transaction Id (事务 id)
  • Object Id (数据记录 id)
  • Before Value (修改前的值),用于 undo 操作
  • After Value (修改后的值),用于 redo 操作

WAL Group Commit

每次事务提交时,DBMS 都必须将日志记录落盘,由于落盘的操纵对于内存操作来说用时较长,因此可以利用 group commit 来批量刷盘从而均摊落盘成本

在这里插入图片描述
通过以上的分析,我们可以发现,不同的 buffer pool policies 之间存在着运行时效率与数据恢复效率间的权衡:
在这里插入图片描述

  • 运行时效率:No-Steal + Force < Steal + No-Force
  • 数据恢复效率:No-Steal + Force > Steal + No-Force

大部分数据库更看重运行时效率,因此几乎所有 DBMS 使用 No-Force + Steal 的 buffer pool policy。


Logging Schemes

在记录操作信息时,通常有两种方案:physical logging 和 logical logging。前者指的是记录物理数据的变化,类似 git diff 做的事情;后者指的是记录逻辑操作内容,如 UPDATE、DELETE 和 INSERT 语句等等。

logical logging 的特点总结如下:

  • 相比 physical logging,记录的内容精简
  • 恢复时很难确定故障时正在执行的语句已经修改了哪部分数据
  • 恢复时需要回放所有事务,这个过程可能很漫长

还有一种混合策略,称为 physiological logging,这种方案不会像 physical logging 一样记录 xx page xx 偏移量上的数据发生 xx 改动,而是记录 xx page 上的 id 为 xx 的数据发生 xx 改动,前者需要关心 data page 在磁盘上的布局,后者则无需关心,举例如下:
在这里插入图片描述

physiological logging 也是当下最流行的方案。


Checkpoints

如果我们放任 WAL 增长,它可以随着新的操作执行而无限增长。如此这般,在故障恢复时,DBMS 需要读取更多的日志,执行更多的恢复和回滚操作。为了避免这种情况出现,DBMS 需要周期性地记录 checkpoint,即将所有日志记录和数据页都持久化到存储设备中,然后在日志中写入一条 < CHECKPOINT > 记录,举例如下:
在这里插入图片描述
当 DBMS 发生崩溃时,所有在最新的 checkpoint 之前提交的事务可以直接忽略,如 T1。T2 和 T3 在 checkpoint 前尚未 commit。其中,T2 需要 redo,因为它在 checkpoint 之后,crash 之前提交了,即已经告诉用户事务提交成功;T3 需要 undo,因为它在 crash 之前尚未 commit,即尚未告诉用户事务提交成功。

实现 checkpoints 有需要要考虑的问题:

  1. 在于要保证 checkpoint 的正确性,我们需要暂停所有事务
  2. 故障恢复时,扫描数据找到未提交的事务可能需要较长的时间
  3. 如何决定 DBMS 执行 checkpoint 的周期,太频繁将导致运行时性能下降;等太久将使得 checkpoint 的内容更多,更耗时,同时数据恢复也要消耗更长的时间

小结

WAL 几乎永远是最佳选择。

本节对应教材PDF

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/12601.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA配置远程docker解释器及无编码提示/关联不到python依赖问题

文章目录 1. 修改docker默认配置以支持远程连接2. 配置docker远程解释器3 .IDE配置project SDK4. 本地代码与Linux目录映射5.运行配置 1. 修改docker默认配置以支持远程连接 vim /lib/systemd/system/docker.service,修改docker启动参数 #ExecStart/usr/bin/dockerd -H fd://…

c++学习(c++11)[24]

c11 列表初始化 #include"iostream" using namepace std;int main() {int x1 1;int x2 { 2 };int x3 { 2 };vector<int> v1 {1,2,3,4,5,6};vector<int> v1 {1,2,3,4,5,6};list<int> lt1 {1,2,3,4,5,6};list<int> lt1 {1,2,3,4,5,6};au…

Python(四十九)获取列表指定元素的索引

❤️ 专栏简介&#xff1a;本专栏记录了我个人从零开始学习Python编程的过程。在这个专栏中&#xff0c;我将分享我在学习Python的过程中的学习笔记、学习路线以及各个知识点。 ☀️ 专栏适用人群 &#xff1a;本专栏适用于希望学习Python编程的初学者和有一定编程基础的人。无…

汇编调用C语言定义的全局变量

在threadx移植中&#xff0c;系统的systick通过了宏定义的方式定义&#xff0c;很难对接库函数的时钟频率&#xff0c;不太利于进行维护 所以在C文件中自己定义了一个systick_Div的变量&#xff0c;通过宏定义方式设定systick的时钟频率 在汇编下要加载这个systick分频系数 …

UDS诊断协议

UDS本质上是一系列服务的集合&#xff0c;包含6大类&#xff0c;共26种。每种服务都有独立的ID&#xff0c;即SID。 请求 SID(1Byte) 参数 SID(1Byte) Sub-function(1Byte) 参数 SID DID(2Bytes) 响应 肯定响应 SID0x40(1Byte) Sub-function(根据请求是否存在) 参数…

Windows数据类型LPSTR学习

Windows在C语言的基础之上又定义了一些Windows下的数据类型&#xff1b;下面学习一下LPSTR&#xff1b; LPSTR和LPWSTR是Win32和VC所使用的一种字符串数据类型。LPSTR被定义成是一个指向以NULL(‘\0’)结尾的32位ANSI字符数组指针&#xff0c;而LPWSTR是一个指向以NULL结尾的64…

2023年基准Kubernetes报告:6个K8s可靠性失误

云计算日益成为组织构建应用程序和服务的首选目的地。尽管一年来经济不确定性的头条新闻主要集中在通货膨胀增长和银行动荡方面&#xff0c;但大多数组织预计今年的云使用和支出将与计划的相同&#xff08;45%&#xff09;&#xff0c;或高于计划的&#xff08;45%&#xff09;…

大数据Flink(五十三):Flink流处理特性、发展历史以及Flink的优势

文章目录 Flink流处理特性、发展历史以及Flink的优势 一、Flink流处理特性 二、发展历史

opencv-28 自适应阈值处理-cv2.adaptiveThreshold()

什么是自适应阈值处理? 对于色彩均衡的图像&#xff0c;直接使用一个阈值就能完成对图像的阈值化处理。但是&#xff0c;有时图像的色彩是不均衡的&#xff0c;此时如果只使用一个阈值&#xff0c;就无法得到清晰有效的阈值分割结果图像。 有一种改进的阈值处理技术&#xff…

五、控制流(2)

本章概要 returnbreak 和 continue臭名昭著的 gotoswitchswitch 字符串 return 在 Java 中有几个关键字代表无条件分支&#xff0c;这意味无需任何测试即可发生。这些关键字包括 return&#xff0c;break&#xff0c;continue 和跳转到带标签语句的方法&#xff0c;类似于其…

不管如何吐槽,购买iPhone的用户依然义无反顾,苹果继续增长

市调机构IDC公布的二季度数据显示&#xff0c;苹果成为前五名之中除华为之外第二家取得增长的手机品牌&#xff0c;而其他国产手机品牌的出货量都在下滑&#xff0c;显示出国内的消费者仍然在热烈追捧iPhone。 二季度苹果在国内市场的手机出货量同比增长6%&#xff0c;虽然增速…

Android Studio下载及安装和Gradle的配置

文章目录 下载安装修改Sdk的位置创建项目修改Gradle的位置查看AS版本工具栏--View项工具栏--Build下的功能说明Build Variants视图说明下载模拟器&#xff08;avd&#xff09;/安卓虚拟设备屏幕熄灭功能关闭虚拟设备功能删除自己开发的应用软件将开发的应用运行到虚拟设备上。 …

从分片传输到并行传输之大文件传输加速技术

随着大文件的传输需求越来越多&#xff0c;传输过程中也会遇到很多困难&#xff0c;比如传输速度慢、文件安全性低等。为了克服这些困难&#xff0c;探讨各种大文件传输加速技术。其中&#xff0c;分片传输和并行传输是两种比较常见的技术&#xff0c;下面将对它们进行详细说明…

Java版知识付费源码 Spring Cloud+Spring Boot+Mybatis+uniapp+前后端分离实现知识付费平台

提供职业教育、企业培训、知识付费系统搭建服务。系统功能包含&#xff1a;录播课、直播课、题库、营销、公司组织架构、员工入职培训等。 提供私有化部署&#xff0c;免费售后&#xff0c;专业技术指导&#xff0c;支持PC、APP、H5、小程序多终端同步&#xff0c;支持二次开发…

【Java】Java多线程编程基础

文章目录 1. 进程与线程1.1 进程与线程的基本认识1.1.1 进程&#xff08;Process&#xff09;1.1.2 线程&#xff08;Thread&#xff09; 1.2 为什么会有线程1.2.1 以看视频为例 2. 多线程实现2.1 Thread类实现多线程2.2 Runnable接口实现多线程2.3 Callable接口实现多线程2.3 …

CTF线下赛AWD知识点【持续完善ing】

文章目录 CTF线下赛AWD知识点AWD规则前期准备SSH登录口令登录密钥登录 改密码SSH密码修改mysql密码修改 备份数据备份目录备份数据库 查找后门 自动提交flag防御思路基础查杀寻找最近20分钟修改过的文件寻找行数最短的文件关键字查杀查找命令执行函数 文件监控杀不死马0x01.杀进…

Grafana - TDEngine搭建数据监测报警系统

TDengine 与开源数据可视化系统 Grafana 快速集成搭建数据监测报警系统 一、介绍二、前置条件三、Grafana 安装及配置3.1 下载3.2 安装3.2.1 windows安装 - 图形界面3.2.2 linux安装 - 安装脚本 四、Grafana的TDEngine配置及使用4.1 登录4.2 安装 Grafana Plugin 并配置数据源4…

学习笔记|大模型优质Prompt开发与应用课(二)|第一节:大模型应用密码—Prompt的一千种打开方式

文章目录 第一节:大模型应用密码—Prompt的一千种打开方式01你可能听过一个小故事1910华盛顿纺织厂罢工事件 02 小问题:哪些场景会被提效类目一︰减少重复性工作的成本&#xff08;降本)例如∶做策划初稿、写JD、润色文案prompt生成结果prompt生成结果prompt生成结果promptprom…

NodeJs后端项目使用docker打包部署

docker安装看之前的文章 默认已经安装好docker并且配置没有问题 拉取项目 https://gitee.com/coder-msc/docker-node 本地跑一个看看 pnpm install pnpm start 本地访问 http://localhost:1301/getname?name%E5%93%88%E5%88%A9%E6%B3%A2%E7%89%B9项目整个上传服务器 查看…

简化Java单元测试数据

用EasyModeling简化Java单元测试 EasyModeling 是我在2021年圣诞假期期间开发的一个 Java 注解处理器&#xff0c;采用 Apache-2.0 开源协议。它可以帮助 Java 单元测试的编写者快速构造用于测试的数据模型实例&#xff0c;简化 Java 项目在单元测试中准备测试数据的工作&…