存储引擎 boltdb 的设计奥秘?

605034f8c1e5c58b0fae3af0531a80f9.gif

作者 | 奇伢

来源 | 奇伢云存储

39bde4c98cb586c847cc61ab7e2f4869.png

etcd 的存储

5196a0ac9aec9bcdddf9ff2adaf6e8c1.png

etcd v3 是使用的持久化存储来存储它的 kv 数据,etcd  存储的是非常核心的元数据信息,所以最重要的是稳定。使用的是 boltdb 。下面说道说道这个 boltdb 。

96e9468032491015a73e7f88041a6dd5.png

boltdb 是什么?

646300035154cc5e6fadf2cfc585a7f5.png

boltdb 是一个非常出名的存储引擎,纯 Go 语言实现的 KV 存储引擎。

boltdb 项目非常值得学习,封装的 API 简单,内部实现很精巧。整个项目去掉注释,测试代码啥的,就几千行代码。Github 地址为 https://github.com/boltdb/bolt 。但 boltdb 项目已经由原作者封版了,不再迭代更新。

etcd 自己 fork 了一个 boltdb 分支出来,上面做了一些自己的小优化。

boltdb 启发于 Howard Chu's LMDB[1] 项目,感兴趣的也可以去看下。

特点:

  1. 整个数据库就一个 db 文件,贼简单;

  2. 基于 B+ 树的索引,读效率高效且稳定;

  3. 读事务可多个并发,写事务只能串行;

缺点:

  1. 事务的实现贼简单,但是写的开销太大;

  2. boltdb 写事务不能并发,只能靠批量操作来缓解性能问题;

下面我们从外到内一步步探索下 boltdb 的实现。

e8718fd317d298ea0910ef9b53c5a0dc.png

boltdb 看起来是什么样子?

f0947829af0c562277e692b6ed6c6a9a.png

整个 db 就一个单文件,只不过这个文件内容是有格式的。先用 hexdump 看一眼:

6434c7248df2f92a3737372048bc12b5.png

仔细的童鞋会发现,这个数据间隔有点意思?

0000    // 0   偏移
1000    // 4k  偏移
2000    // 8k  偏移
3000    // 12k 偏移
4000    // 16k 偏移
5000    // 16k 偏移

每个偏移都是 4k 的间隔,里面还有一些看不懂的二进制数据。以前奇伢说过,越往底层都会有一个存储单元的概念,因为要合并一些边际开销,比如,文件系统大多以 4k 为单位进行管理,page cache 也以 4k 为单位管理。再看硬件,也是如此,磁盘的最小处理单位是扇区( 512字节 ),ssd 的读写是以 4k 为单位管理的。

boltdb 作为一个存储引擎,自然要统筹管理空间的使用,自然也有这么一个概念。boltdb 以 4k 定长为存储单元划分空间,这一个个 4k 叫做 page,boltdb 在上面建立更抽象的概念。

来看看 boltdb 怎么管理空间的吧。

e50b2caa4c3e0df985647a5a8e3744eb.png

怎么管理空间?

7054c00d2f81a6882ef5412e63afdd87.png

上面提到是以 4k 为粒度来管理空间的,每个 4k 叫做 page 。

 1   page 页

为了方便管理,page 自然也是会有格式的,每个 page 都会有 header ,header 后面是 data 数据。

// header 结构体
type page struct {id       pgid       // page 编号flags    uint16      // 标明 page 的属性count    uint16      // 标明 page 上有多少个元素overflow uint32       // 标明后面是不是还有连续的页跟着ptr      uintptr      // 这就是个用来定界的
}

示意图:

19e8c8b6bcb73d257c6f13bcf33ef36e.png

从物理层面来说

boltdb 的 db 文件来说就是由这样一个个 page 组成的。举个例子,如果是一个 32K 的文件,那么就由 8 个 page 组成,每个 page 都有自己的唯一编号( pgid ),从 0 到 7 。

从逻辑层面来说

boltdb 把这一个个 page 组成了一个树形结构,它们之间通过 page id 关联起来。我们再往下思考:

  • 第一个点:树自然会有个源头,比如从那个 page 开始索引,还有一些最关键的元数据( meta 数据 );

  • 第二个点:既然是一颗树,那么自然有中间节点、叶子节点;

  • 第三个点:既然是空间管理,那么自然要知道哪些是存储了用户数据 page ,哪些是空闲的 page ;

上面提到的三个点都指向一个结论:page 的用途是不一样的。也就是说,虽然大家都是 page,但是身份不一样。有的是叶子节点,有的是中间节点,有的是 meta 节点,有的是 free 节点。这个由 page.flag 来标识。

const (branchPageFlag   = 0x01leafPageFlag     = 0x02metaPageFlag     = 0x04freelistPageFlag = 0x10
)

下面分开聊聊这几种 page 页。

 2   meta page

元数据的 page ,这可太重要了。对于 boltdb 来说,meta 的 page 位置是固定的,就在 page 0,page 1 这两个位置( 也就是前两个 4k 页 )的位置。一切索引从此开始,简单看下里面的数据含义:

d57d8117450ad2ac0f587d4dcb78dd41.png

  • Root :指明树根的位置;

  • Freelist :指明空闲列表的位置;

  • Txn :事务编号(写事务的时候,事务号会递增);

有童鞋可能会疑惑了,为什么会有两个 meta 页?

这是一个非常重要的设计,在 boltdb 里有一个非常重要的设计:没有覆盖写,也就是不会原地更新数据。这个是 boltdb 实现 ACID 事务的秘密。

以前也提过,覆盖写是数据损坏的根源之一。因为写数据的时候可能会出现任何异常,比如写部分成功,部分失败 这种就不符合事务的 ACID 原则。

但由于 meta 是 boltdb 一切的源头,所以它必须是固定位置( 不然就找不到它 )。但为什么会有 paid 0,1 两个位置呢?

诀窍就在于:通过轮转写来解决覆盖写的问题。 每次 meta 的更新都不会直接更新最新的位置,而是写上上次的位置。

0e1e20854fc2bb658fd949e18570e68b.png

// 计算 page id 的位置p.id = pgid(m.txid % 2)

举个例子:

  • 事务 0 写 page 0 ;

  • 事务 1 写 page 1 ;

  • 事务 2 写 page 0 ;

  • 事务 3 写 page 1 ;

 3   branch page

branch 的 page 就是做了树的叶子节点,这个没啥讲的,里面就是存储的 branch 的节点。本质也是 key/value,key 是用户的 key,只不过 value 是 page 的索引而已。看一下结构体:

c35d22bc449a338a8a6cc9716c0af512.png

 4   leaf page

叶子节点里面主要存储的是用户的数据,这个没啥讲的,一堆 key/value ,key 是用户的 key,value 是用户的数据。

ec4ac84f1b817a26a22069fac2a70c96.png

 5   freelist page

所谓 freelist page 也就是说 page 里面存储的是一个个 pgid ,这些个 pgid 都是空闲可用的 page 的 id 。当写事务需要空闲的 page 存储数据的时候,就可以从这个里面捞一个来用。

0183157cc750d8c3a9b3e55888c9614f.png


864a61c2dc8812e1f6e11df4bcda8e66.png

怎么索引数据的?

5854f3b93afdc7dff7edde32bd188bab.png

现在我们知道了存储的管理单元是 page,每个都由 header + data 组成,page 的类型则决定了 data 里面装什么数据。最主要是四种 page :

  1. meta 的数据;

  2. 中间节点的数据(主要是索引数据);

  3. 叶子节点,存储的是 key/value 数据( 有意思的是这里的 key/value 也是有讲究的,既可能是用户的 key/value 数据,也可能是 bucket 的结构数据 );

  4. freelist 的数据,里面存储的是一个个 pgid ;

那现在我们看 boltdb 是怎么来组织 page,索引这些数据。

 1   B+ 树 ?

都说 boltdb 用的是 B+ 树的形式,说的也是对的,但是 boltdb 的 B+ 树有些变异,几点差异如下:

  1. 节点的分支个数不是固定值;

  2. 叶子节点不相互感知,它们之间不存在相互的指向引用;

  3. 并不保证所有的叶子节点在同一层;

划重点:boltdb 它用的是一个不一样的 B+ 树。 除了上面的,索引查找和数据组织形式都是 B+ 树的样子。

在 boltdb 里面有几个封装的概念:

  1. Bucket :这是一个 boltdb 封装的一个抽象概念,但本质上呢它就是个命名空间,就是一些 key/value 的集合,不同的 Bucket 可以有同名的 key/value ;

  2. node :B+ 树节点的抽象封装,可以说 page 是磁盘物理的概念,node 则是逻辑上的抽象了;

在 boltdb 中,Bucket 是可以嵌套的,这一点也带来了很大的灵活性,同样也是代码略微难懂的地方。其实 boltdb 天生就有一个 Bucket ,这个是自动生成的,由 meta 指向,不是用户创建的,后续创建的 Bucket 都是这个 Bucket 的 subbucket 。

c9278888d1d58e52df60c529a7106cb4.png


ba77d7474da1d4113387ac1ac4475332.png

怎么实现的事务?

7754381821d647e3f3cd8061dde7dbc0.png

划重点:boltdb 实现事务的方式非常简单,就是绝对不覆盖更新数据。 其中 meta 是通过两个互为备份的 page 页轮转写实现的,数据页又是怎么实现的呢?

秘密就是:每次都写新的地方,最后更改路径引用。我们来看一下它是怎么做的?看一下演绎的过程:

 1   现状一棵树

假如当前如下,有个 key/value 键值对( "hello", "world" )存储在一个叶子 page 上。

23cb4511d61700da21b8cb1722577e23.png

 2   更新前先找位置

现在用户要更新这个 key="hello" 的值,更新 value 为 "qiya" ,那么很自然的,开启一个写事务,事务号递增+1,boltdb 需要通过 B+ 树的搜索算法定位到叶子节点。

3cb7f0bda4ae6e30d241a04e1a125c54.png

 3   定位到后,读改写

定位到 node 节点之后,怎么修改呢?这个节点里面可不止这一对 key/value,里面还有很多 key/value 。

做法很简单,读改写!也就是先把这个 node 对应的 page 读到内存,把所有的 key/value 加载出来,然后把 key="hello" 的值更新到 value="new_world" ,并且写到新的 page 里。

那问题来了,叶子节点更新了,那指向这个叶子节点的 branch 节点要不要更新呢 ?

自然是要的。那 branch 节点更新了,那 branch 的 branch 节点要不要更新呢?自然是要的。所以这一层层往上推,最终要更新到 meta page 的,也就是树根。

d631531f5939d93a49cae0ec5dacd271.png

 4   最后切换树根,被新 page 替换的最终会被释放

最终这些被替换的 page 就会被纳入到 freelist 里面,完全没有事务引用的话就会被释放。


62c8718a8f9e8cc51cc3e0d63c242a40.png


 5   小结一下

上面就是写事务的方式,总结一下:

  1. 通过 key 查询到位于 B+ 树的那个 page ;

  2. 把这个 page 读出来,构建 node 节点,更新 node 的内容;

  3. 把 node 的内容写到空闲的的 page ,并且一层层往上;

  4. 最终更新 meta 索引内容;

这里我先提一点个人的思考,很多人提到 boltdb 这是一种 cow ( copy-on-write )的方式,但其实我更偏向于把这个理解成 row 的方式。你觉得呢?

003ae2f1efa5387873aa58ca18e7ff70.png

总结

6861192a518dbf816332d3135f310811.png

  1. etcd 使用 boltdb 来做存储引擎,读性能还行,写性能很一般,但是它稳

  2. boltdb 的物理存储单元是 page ,一般为 4k 一个;

  3. page 有不同的类型,里面的内容根据类型不一样而不同;

  4. boltdb 使用 row 的方式(个人理解),保证无覆盖写,等到 commit 的时候,最终修改引用,从而切换整个 db 的路径。这样的方式几乎是 0 成本实现的 ACID 事务;

  5. meta 的 page 有两个,它们通过轮转写来实现的不覆盖写,从而保证了数据更新的安全;

  6. B+ 树相比 LSM Tree 天然就有随机读的性能优势,它的树高度稳定,boltdb 通过 mmap 把文件映射到内存,这样简化了代码,读的缓存交给了操作系统的 page cache ;

  7. boltdb 写性能可能很差,因为只要改了一点点东西,都会导致这个节点到 root 节点整条链路的更新,写放大挺严重的,所以它只能靠 batch 操作来安慰自己;

参考资料

[1]

LMDB Github 地址: https://github.com/LMDB

fec06f69ff9ba2c3cb7d4d3158b80bf3.gif

1a11147055370974e5307dee17b9c0dd.png

往期推荐

云计算到底是谁发明的?

从Docker的信号机制看容器的优雅停止

Redis会遇到的坑,你踩过几个?

低代码平台会带动企业的组织变革吗?

15cf47ccc21f6c4f500ca363dff1ce9d.gif

点分享

233477cae3c714ec95965374e2810ec7.gif

点收藏

cdc7b96727a5cf7b63fca3f817b289c0.gif

点点赞

e8dffd10318eebde77f098aab136b23a.gif

点在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513000.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

提升你的职场竞争力——“低代码开发师”来了!

简介: 最近,钉钉发布了低代码开发师能力图谱,引发业界的广泛关注 。现在低代码开发师(初级)认证已经启动。 最近,钉钉发布了低代码开发师能力图谱,引发业界的广泛关注 。 所谓的低代码开发其实…

mapreduce复制连接的代码_我的 Hive 为什么跑不起来/跑得慢?看看是不是少了这几行代码?...

《饮食男女》开头说:“人生不能像做菜,把所有的料都准备好了才下锅。”但做大数据挖掘不一样,MapReduce 不同于人生,一定要把准备工作做好了,才能顺利运行后面的步骤。如果你的 HiveQL 代码没毛病,却一运行…

数字化转型的路上,手握一张地图,但路还得自己走

简介: 本文作者来自于中国人寿保险股份有限公司研发中心,对企业数字化转型、云原生实践有比较资深的经验。以下内容整理自作者对最新出版的《阿里云云原生架构实践》的读后感。 作者|肖晟 ​ 本文作者来自于中国人寿保险股份有限公司研发中…

tp 数据库查询排序_怎么进行数据库分库分表?

一,数据切分关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库、优化索引,做很多操作时性能仍下降严重。此时就要考虑对…

流利说统一可观察性平台实践

简介: 流利说利用日志服务SLS构建统一可观察性平台最佳实践 在线教育行业现状 随着 90 年代互联网的引入,在线教育产品也依托于互联网诞生。随着互联网技术的发展,在线教育产品也开 始了出现新的模式。在线教育从最初单纯的文字形式&#xf…

“CSDN 2021年度IT技术影响力之星评选”正式开启报名!

2021年,数字化转型正磅礴兴起,大批传统企业正在拥抱数字化,云计算、大数据、AI、5G应用能力正在变成企业的核心竞争力;核心技术正在崛起,在操作系统、数据库,依靠开源的力量,众多开发者背后的行…

java log4j logback jcl_Java 日志二三事

前言Java 拥有功能和性能都非常强大的日志库,但另一方面,Java 日志库依赖看起来丰富的让人眼花缭乱。相信大家或多或少都有这样的疑问,Log4j,SLF4J,Logback,Log4j2 这些日志框架我该如何选择?它…

一文了解EPaxos核心协议流程

简介: EPaxos(Egalitarian Paxos)作为工业界备受瞩目的下一代分布式一致性算法,具有广阔的应用前景。但纵观业内,至今仍未出现一个EPaxos的工程实现,甚至都没看到一篇能把EPaxos讲得通俗一点的文章。EPaxos…

低代码发展系列专访之五:低代码的最大价值点是“技术平民化”吗?

话题:低代码专访编辑 | LLBin前言:2019年开始,低代码爆火。有人认为它是第四代编程语言,有人认为它是开发模式的颠覆,也有人认为是企业管理模式的变革……有很多声音,社区讨论很热烈。CSDN随后展开低代码平…

梦幻跨服购买需要登录服务器未响应,梦幻西游8月4日定期维护公告:跨服购买限制放宽...

核心提示:法宝”系统新增“多套法宝切换”功能。亲爱的玩家朋友:为保证服务器的运行稳定和服务质量,《梦幻西游2》所有服务器将于2015年8月4日上午8:00停机,进行每周例行的维护工作。预计维护时间为上午8:00~9:45。如果…

深度技术揭秘 | 大促狂欢背后,如何有效评估并规划数据库计算资源?

简介: 经过“双11”、“618”这类互联网促销活动的验证,越来越多的互联网公司采用不定期营销活动来刺激消费,达到提升营收能力的目标。然而,在每一次业务狂欢的背后,如何科学地为促销活动准备相应的计算资源就变成了困…

学画画软件app推荐_今日推荐:拍照摄影APP之稀缺软件篇

你也许热衷拍摄或喜欢摄影,那么日常的拍摄主要的工具离不开手机,好的拍照摄影APP当然也必不可少。一个好的拍照软件更加重要,有时候市面上常用的拍照软件不能满足你特殊的拍摄手法,经常需要重新编辑或修改才能达到效果&#xff0c…

干货|一文读懂阿里云数据库Autoscaling是如何工作的

简介: 阿里云数据库实现了其特有的Autosaling能力,该能力由数据库内核、管控及DAS(数据库自治服务)团队共同构建,内核及管控团队提供了数据库Autoscaling的基础能力,DAS则负责性能数据的监测、Scaling决策算…

jq动态渲染后获取不到元素高度_浏览器的渲染机制

面试肯定会问到这个吧~So:再一次的屡屡浏览器的渲染机制~在渲染一开始会先从网络层获取请求文档(HTML、XML)的内容,然后再进行以下基本流程3.1 解析HTML 》 DOM树从HTML文本解析到HTML语法树,再解析到文档对象树&#…

数字时代的抉择,金蝶 EBC 的破局

今年 10 月,Gartner 发布了企业在 2021 年需要关注的重要战略科技趋势,其中“可组装的企业”一词引起热议。Gartner 认为原本为了提高效率而建立的静态业务流程很脆弱,在疫情的冲击下容易变得支离破碎,因此企业应具有不断重组与改…

自己动手从0开始实现一个分布式RPC框架

简介: 如果一个程序员能清楚的了解RPC框架所具备的要素,掌握RPC框架中涉及的服务注册发现、负载均衡、序列化协议、RPC通信协议、Socket通信、异步调用、熔断降级等技术,可以全方位的提升基本素质。虽然也有相关源码,但是只看源码…

deb 中标麒麟_「图」百度网盘Linux版放出deb包客户端:新增支持Ubuntu 18.04 LTS

6月中旬发布的百度网盘Linux版本中,首先适配了中标麒麟桌面操作系统软件(兆芯版)V7.0。而今天Ubuntu官方推特最新微博表示,继发布Linux rpm包客户端之后,官方今天又推出了deb包客户端,新增支持Ubuntu 18.04 LTS。目前百度网盘已经…

KubeVela 成为 CNCF 沙箱项目,让云端应用交付更加简单

简介: KubeVela 就是这样一个面向用户的上层平台项目。对于业务开发者来说,KubeVela 简单、易用,它可以让开发者以极低的心智负担和上手成本在 Kubernetes 上定义与部署应用... 但更重要的是,对于平台团队来说,KubeVel…

携程梁建章:要让元宇宙技术成为真宇宙探索、旅游的灵感来源

“我们要把旅游做的更有交互性,更有沉浸感,更有趣,远远抛开元宇宙。” 携程集团联合创始人,董事局主席梁建章在12月9日于澳门伦敦人举办的全球合作伙伴峰会上,发表了对热门话题“元宇宙”的看法并表示,激发…

shell两个时间字符串插值_Shell 脚本速成

0x00 前言这段时间快速把 Micropoor 的内网课程看完了一遍,里面出现了很多 Shell 脚本。Shell 脚本有什么好处?无需安装其他软件适合任务自动化,擅长系统管理任务通过 Shell 编程,大大提高渗透效率。0x01 第一个 shell 脚本功能&a…