RocksDB是如何实现存算分离的

核心参考文献: Dong, S., P, S. S., Pan, S., Ananthabhotla, A., Ekambaram, D., Sharma, A., Dayal, S., Parikh, N. V., Jin, Y., Kim, A., Patil, S., Zhuang, J., Dunster, S., Mahajan, A., Chelluri, A., Datye, C., Santana, L. V., Garg, N., & Gawde, O. (2023). Disaggregating RocksDB: A Production Experience. Proceedings of the ACM on Management of Data, 1(2), 1–24. https://doi.org/10.1145/3589772

动机

为什么RocksDB要做存算分离?

单机的磁盘(存储能力)和CPU(计算能力)的配比常常不均衡,有时计算能力会有富裕,有时存储能力会有富裕。而且每个服务都需要预留一些存储空间。积少成多就会导致存储空间或计算能力的浪费。如果能把磁盘放在一个池子里,就能减少要预留的空间(100个服务,各预留1TB,vs 100个服务,总共预留10TB),避免空间浪费

为什么基于RocksDB改造而不是从头开发?

  1. 即使是在存算分离的场景,大部分用例也是受限于存储空间,而非IO吞吐量,RocksDB在存储时需要多占用的空间较少
  2. 方便用户迁移,几乎没有学习成本
  3. 维护一个引擎比维护两个引擎的工作量更小
  4. LSM tree很适合拉远存储(disaggregated storage)。

什么时候不要用存算分离?

  1. 对时延和吞吐量有极高要求的场景(笔者注:通过合理的设计,充分利用本地缓存,事实上存算分离的架构可以满足极致时延和极高吞吐量场景的需求)
  2. 要求简单可靠的场景。例如OBS的元信息管理就很难再使用一套存算分离的元信息存储系统。

挑战和对策

挑战1:如何在存算分离的条件下提供令人满意的性能?

对策1.1 优化IO时延

  • 如果第一个IO请求在一定时间内没有返回,就立即发出第二个(相同的)IO请求
  • hedged quorum full block wirtes

对策1.2 缓存元信息

  • 缓存目录结构到本地。列出目录结构是高频操作,并且目录结构只能由一个进程修改,因此可以对目录结构进行缓存。

对策1.3 在本地磁盘缓存脏的block(secondary cache),效果如图

在这里插入图片描述

对策1.4 RocksDB IO调优

  • 增大compaction read size 到4MB或8MB,增大compaction write buffer到64MB或更大
  • 从拉远存储中预读取更多的数据(可以基于历史情况预测要预读的数据大小)

对策1.5 同时发出多个IO请求以降低MultiGet时延

挑战2:如何以较低的开销支持多副本?

  • SST数据文件需要同时具备高可靠(高持久性)和低开销,使用Facebook Tectonic文件系统提供的 [12,8] encoding ,即可仅使用1.5倍的空间和写入贷款,同时能够达到SLA要求
  • WAL和其他日志文件需要支持低时延的写入。使用5路副本。

挑战3:存在多副本时,如何确保只有一个进程能修改(写)同一份数据?

对zookeeper或etcd,paxos或raft有一定了解的读者能发现,这一问题是经典的分布式共识问题。要达成共识的对象是当前哪个进程能够修改数据。
RocksDB使用了IO Fencing技术来实现。该技术类似于一种基于单调递增时间戳的分布式锁。

其他修改

允许远程IO操作和本地IO操作使用不同的时延,从而降低远程操作超时的可能性

区分哪些远程操作的错误可以重试,避免出错后rocksdb立即进入只读状态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/659068.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

乐鑫与 Elektor 杂志合作推出特刊,聚焦 AIoT 创新

在新一年的起始之际,我们很荣幸地与 Elektor 合作推出由乐鑫领衔编辑的杂志特刊。欢迎点此阅读电子版本。 Elektor 杂志作为国际电子工程和科技创新的重要平台,自 20 世纪 60 年代起,就引领着电子制造的发展潮流。如今,它已经发展…

【Docker】了解Docker Desktop桌面应用程序,TA是如何管理和运行Docker容器(1)

欢迎来到《小5讲堂》,大家好,我是全栈小5。 这是《Docker容器》序列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对…

Leetcode—2396. 严格回文的数字【中等】

2024每日刷题(一零六) Leetcode—2396. 严格回文的数字 算法思想 实现代码 class Solution { public:bool isStrictlyPalindromic(int n) {return false;} };运行结果 之后我会持续更新,如果喜欢我的文章,请记得一键三连哦&…

【linux】文本处理命令-grep、awk、sed使用(1)

作用: grep数据查找定位awk数据切片sed数据修改 类比SQL: grepselect *from tableawkselect field from tablesedupdate table set fieldnew where fieldold 一、grep 1.1 grep* Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟g…

基于simulink的模糊PID控制器建模与仿真,并对比PID控制器

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1PID控制器原理 4.2 模糊PID控制器原理 5.完整工程文件 1.课题概述 在simulink,分别建模实现一个模糊PID控制器和一个PID控制器,然后将PID控制器的控制输出和模糊PID的控制输出…

【vue2】路由之 Vue Router

文章目录 一、安装二、基础使用1、简单的示例2、动态路由2.1 定义动态路径参数2.2 获取动态路径的参数2.3 捕获所有路由 3、嵌套路由4、编程式的导航4.1 router.push4.2 router.replace4.3 router.go(n) 5、命名路由6、重定向 三、进阶1、导航守卫1.1 全局前置守卫1.2 全局后置…

模板笔记 ST表 区间选数k

本题链接:用户登录 题目: 样例: 输入 5 3 1 1 2 2 3 1 2 3 3 1 5 输出 4 6 思路: . 根据题意,给出数组,以及多个区间,问这些区间中,最小值之和 和 最大值之和,…

A ConvNet for the 2020s

前言 论文名称:A ConvNet for the 2020s  发表时间:CVPR2022  code链接: 代码  作者及组织: Zhuang Liu,Hanzi Mao来自Meta和UC Berkeley。 一句话总结:仿照swin-T思想,重新设计ResNet结构&a…

spark-cannot resolve overloaded method

使用split方法,出现错误:cannot resolve overloaded method 解决方法:那个regex应该是自动生成,所以split括号中输入空引号即可。 入门学习人的愚笨,也要继续坚持,加油!

解决npm安装phantomjs失败

失败信息 Progress: resolved 102, reused 102, downloaded 0, added 0, done .pnpm/phantomjs2.1.7/node_modules/phantomjs: Running install script, failed in 21.3s .../node_modules/phantomjs install$ node install.js │ PhantomJS not found on PATH │ Downloading…

消息中间件之RocketMQ源码分析(三)

RocketMQ中的Consumer启动流程 RocketMQ客户端中有两个独立的消费者实现类分别为DefaultMQPullConsumer和DefaultMQPushConsumer, DefaultMQPullConsumer DefaultMQPullConsumer,该消费者使用时需要用户主动从Broker中Pull消息和消费消息,提交消费位点…

vue-router 实现页面路由

vue-router介绍 vue 的官方路由组件 功能包括 嵌套路由映射动态路由选择模块化、基于组件的路由配置路由参数、查询、通配符HTML5 的 history 模式 和 hash 模式 vue-router使用 结合 tabs 组件,实现页面路由 安装 vant-ui 实现底部导航栏 Tabbar-CSDN博客 重点…

图的学习

图的基本概念和术语 图的定义:图是由顶点的有穷非空集合和顶点之间的边的集合组成的,G表示,V是图G中顶点的集合,E是图G中边的集合 无向图:任意两点的边都是无向边组成的图(无向边:&#xff08…

R高级绘图 | P1 | 带边缘分布散点图 | 代码注释 + 结果解读

新系列 —— R高级绘图,准备整理所有曾经绘制过的图图和未来需要的图图们的代码!预计这个系列会囊括所有常见图形,只提供高级绘图代码,基础绘图主要在 R语言绘图 系列中进行介绍,这个系列咱们主打:需要XX图…

【Web前端实操21】商城官网_白色导航

今日份实现白色导航栏部分,也就是第三部分,效果如图中划线所示: 本次实现代码如之前的全局样式不再赘述,如有需要可以去我博客的Web前端实操19或者20自行查看。 本次主要更新mi.css和index.htm。 实现导航栏所需要的CSS样…

2015年苏州大学837复试机试C/C++

2015年苏州大学复试机试 第一题 题目 有36块砖&#xff0c;现在有36个人&#xff0c;男人能搬4块&#xff0c;女人能搬3块&#xff0c;小孩子两人搬一块&#xff0c;求一次搬完这些砖要男人&#xff0c;女人&#xff0c;小孩多少人&#xff1f; 代码 #include <iostrea…

仰暮计划|“那时候在生产队下面,集体干活,吃大锅饭,由队里分粮食,吃不饱饭是常事,队里分的粮食就那么点,想要吃饱真的太难了”

希望未来的中国越来越好&#xff0c;大家的生活也越来越好 老人是1955年在河南省洛阳市洛宁县的一个小山村里出生的&#xff0c;前半辈子为了生活&#xff0c;为了孩子而打拼&#xff0c;虽然经历了不少的苦难&#xff0c;但后半辈子也算是苦尽甘来&#xff0c;生活美满。现在就…

《Is dataset condensation a silver bullet for healthcare data sharing?》

一篇数据浓缩在医疗数据集应用中的论文。 其实就是在医疗数据集上使用了data condensation的方法&#xff0c;这里使用了DM的方式&#xff0c;并且新增了浓缩时候使用不同的网络。 1. 方法 数据浓缩DC的目的是&#xff1a; E x ∼ P D [ L ( φ θ O ( x ) , y ) ] ≃ E x ∼…

【Vue3+Vite】Vue3视图渲染技术 快速学习 第二期

文章目录 一、模版语法1.1 插值表达式和文本渲染1.1.1 插值表达式 语法1.1.2 文本渲染 语法 1.2 Attribute属性渲染1.3 事件的绑定 二、响应式基础2.1 响应式需求案例2.2 响应式实现关键字ref2.3 响应式实现关键字reactive2.4 扩展响应式关键字toRefs 和 toRef 三、条件和列表渲…

考研高数(共轭根式)

1.定义 共轭根式&#xff1a;是指两个不等于零的根式A、B&#xff0c;若它们的积AB不含根式&#xff0c;则称A、B互为共轭根式。 共轭根式的一个显著特点是通过相乘能把根号去掉&#xff0c;这是很有帮助的 2.常用的共轭根式 3.例题 1&#xff09;求极限 2&#xff09;证明…