数据整理的Compact流程 (二)|OceanBase数据转储合并技术解读(二)

上篇文章《数据整理的Compact流程 (一)|OceanBase数据转储合并技术解读(二)》中,有讲解到,在OceanBase数据库中,当MemTable写满时,将其下刷到Mini SSTable的过程包含两个步骤:第一步,是将原本可写的MemTable冻结转换为只读的Frozen MemTable;第二步,是将这个已冻结的只读Frozen MemTable持久化存储到磁盘上,形成Mini SSTable。今天,我们将详细探讨这一后续步骤,也就是“转储”的具体执行流程。

整个转储过程可以分为三个阶段:准备阶段、执行阶段以及收尾阶段。

准备阶段

准备阶段主要包括选择这次转储需要处理的Frozen MemTable、拆分此次转储任务的并行度等。

首先是选取Frozen MemTable。我们知道,写到MemTable上的每条数据都会先持久化到写前日志以防止宕机丢失,而由于写前日志追加写的性质,每条数据会拥有一个递增的日志序号,我们这里称其为log_scn。基于此,我们可以通过log_scn的范围来标识一个MemTable或者SSTable。

以下图为例,一共有4个Frozen MemTable,分别包含了log_scn在(0, 100],(100,500],(500,1500]和(1500,2000]的数据。其中(0,500]的两个Frozen MemTable已经合成了一个Mini SSTable,但因为某些原因暂时没有回收。由于(0,500]的两个Frozen MemTable已经持久化到SSTable,我们认为其对应的日志可以回收,因此会存在一个checkpoint_scn的日志序号,用来表示log_scn小于该值的数据都已经持久化到SStable了。

那么此时如果新的转储任务到了准备阶段,将通过checkpoint_scn把Frozen MemTable分为两部分,其中大于checkpoint_scn的Frozen MemTable被选取为此次转储所需要处理的MemTable。

当选取了Frozen MemTable后,我们会通过第一个Frozen MemTable来划分并行度以及并行区间。具体来说,首先以Frozen MemTable的数据量估计值与一个参数值的比值来得到并行度。我们希望每个子任务处理一个MemTable中约128MB的数据,因此这个参数值默认是128MB(对于想要自定义的用户来说,可以通过修改表属性TABLET_SIZE来更改)。然后我们根据并行度,将Frozen MemTable内的rowkey大致均分成几个区间。以下图为例,当并行度为4时,理想情况下Frozen MemTable会被分成4份,每份包含1/4 rowkey范围的数据。

执行阶段

执行阶段主要包括迭代行、整合行以及输出行等步骤。

这里我们以一个简化的示例来展开介绍。我们假设数据行是(rowkey, c1, c2, c3)的四列结构,当前转储需要处理以下两个Frozen MemTable,其中从上到下是按照从旧到新的顺序摆放。在MemTable中,每个rowkey都包含一个或多个节点,每个节点代表了对该rowkey对应数据行的一次操作(insert/delete/update)。

首先我们会为每个MemTable生成一个迭代器,每个迭代器将按照rowkey顺序依次迭代,每次将从n个迭代器中得到n行。在下面的例子中,两个迭代器会分别从两个Frozen MemTable中迭代出两行,其中iter1迭代时从最早的行insert开始,将rowkey_A的两行数据整合(fuse)成了一个新的完整行;而iter2则迭代出了一个部分行(只包含rowkey_A以及更新列c3的值)。

当得到n个迭代器吐出的n行后,我们会对结果进行rowkey的比较,从中得出rowkey最小的行。在上面的例子里,我们会得到具有相同rowkey_A的两行。接着我们会将比较后得到的多个具有相同rowkey的行进行整合(fuse),形成一个或多个数据行。下面的例子中,两个最小rowkey的行被整合成了一行,时间上更新的update c3操作被整合到了输出行中。

当我们得到一个最终的输出行后,首先会将其追加写入微块的缓冲区,当缓冲区达到微块大小后,将进行压缩,压缩后的微块数据将追加写入宏块缓冲区,直到宏块缓冲区写满后触发写盘的操作。这里为了简化,我们没有介绍宏块/微块的一些索引结构。

注:迭代行的过程我们省略了事务提交与否、多版本行的与事务相关的复杂概念,感兴趣的同学可以阅读一篇与此相关的博文来进一步了解。

收尾阶段

收尾阶段主要包括生成Mini SSTable、更新table_store以及回收MemTable。

以下图为例,两个Frozen MemTable经过迭代、整合、输出后得到了两个宏块,并且两个宏块在block file上处于并不连续的位置。我们将基于这两个宏块生成一个Mini SSTable结构,通过SSTable的元数据,我们能够定位到其包含宏块的物理位置(注:实现上OceanBase为微块构造了B树形式的索引结构,SSTable的元数据中只需要记录树根就可以方便地进行微块的定位)。接着由于table_store(这里我们可以理解为一个分区的LSM-Tree结构)的MemTable/SSTable组成发生了变化,我们会新生成一个table_store,其中包含新的Mini SSTable以及旧的Major SSTable。最后我们回收数据已被持久化到SSTable的Frozen MemTable。

这篇博客的内容大多基于ob_tablet_merge_task.cpp源码,欢迎大家前往阅读与学习,也欢迎在评论区讨论任何想法和问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/17229.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu移动硬盘重命名

因为在ubuntu上移动硬盘的名字是中文的,所以想要改成英文的。 我的方法: 将移动硬盘插到windows上,直接右键重命名。再插到ubuntu上名字就改变了。 别人的方法: ubuntu下如何修改U盘名字-腾讯云开发者社区-腾讯云 在自带的软件…

盘点10大灵动惊艳小演员❗谁是你的心头好?

盘点国内影视那些惊艳观众的小演员们无疑为影视作品注入了新的活力。以下是10个备受赞誉的小演员: 1.韩昊霖:凭借在《我和我的祖国》和《庆余年》中的出色表现 韩昊霖的演技赢得了观众和业界的广泛认可 他能够准确地把握角色的情感和细节,展…

雷达基数据绘制成雷达图

x波段雷达基数据绘制成雷达图 1.雷达基数据格式Z_RADR_I_ZR001_20240521020002_O_DOR_YLD2-D_CAP_FMT.bin.bz2 2.基数据读取 python f StandardData(i) # 新版本标准数据radarTime f.scantime # 获取雷达时次date_str radarTime.strftime(%Y-%m-%d %H:%M:%S)date_str d…

832. 翻转图像 - 力扣

1. 题目 给定一个 n x n 的二进制矩阵 image ,先 水平 翻转图像,然后 反转 图像并返回 结果 。 水平翻转图片就是将图片的每一行都进行翻转,即逆序。 例如,水平翻转 [1,1,0] 的结果是 [0,1,1]。 反转图片的意思是图片中的 0 全部被…

一.ffmpeg 将内存中的H264跟PCM 数据流合成多媒体文件

在有一些嵌入式平台中,H264数据流一般来自芯片内部的硬编码器, AAC音频数据则是通过采集PCM进行软编码,但是如何对它实时进行封装多媒体文件 ,参考ffmpeg example,花了一些时间终于实现了该功能。 流程图如下&#xf…

【Pandas】深入解析`pd.read_pickle()`函数

【Pandas】深入解析pd.read_pickle()函数 🌈 欢迎莅临我的个人主页👈这里是我深耕Python编程、机器学习和自然语言处理(NLP)领域,并乐于分享知识与经验的小天地!🎇 🎓 博主简介&…

Ora-32004错误处理

问题现象 处理方法 观察alert会发现报错的参数在加载spfile的阶段 按照mos的方法对其reset 重新启动无报错 观察日志无报错

ora-00392 ora-00312错误处理

检查当前日志组状态 对日志组进行clear操作 重新开库无报错

java的变量关系~使用和扩展

一、变量的概述 1、什么是变量 白话:变量就是一个装东西的盒子。 通俗:变量是用于存放数据的容器。我们通过变量名 获取数据,甚至数据可以修改。 2、变量在内存中的存储 本质:变量是程序在内存中申请的一块用来存放数据的空间,类似我们酒店的房间&a…

C++ (week5):Linux系统编程3:线程

文章目录 三、线程1.线程的基本概念①线程相关概念②我的理解 2.线程的基本操作 (API)(1)获取线程的标识:pthread_self(2)创建线程:pthread_create()(3)终止线程①pthread_exit():当前线程终止,子线程主动退出②pthread_cancel()&…

OrangePi AIpro(8T) 基本介绍和资料汇总

OrangePi AIpro 基本介绍和资料汇总 1 介绍1.1 香橙派(Orange Pi) 公司概述1.2 OrangePi AIpro(8T) 介绍概述硬件规格参数引脚图产品详细图芯片优缺点优点 2 资料汇总2.1 官方资料概述资料下载 参考 1 介绍 1.1 香橙派(Orange Pi) 公司概述 香橙派(Orange Pi&…

惊喜:我一晚上赚了10万!深扒挖瑞幸1.8亿起死回生的商业真相

■ ■ ■ ■ 瑞幸咖啡 2020年1月,浑水报告发出后,瑞幸股价一路颠簸,最终退市停牌。 然而,19个月后,在粉单市场股价再次增长781.16% 暴雷后的19个月,瑞幸经历了怎样的起死回生? 2020年4月2日…

【RuoYi】如何启动RuoYi项目

一、前言 最近,在做一个管理系统的项目,接触到了RuoYi这个前后端分离的框架,自己是第一次接触这个框架,所以刚开始有点好奇,在用该框架写了一些代码后。发现RuoYi这个框架做的真的好,它包含了权限管理和一些…

【稳定检索】2024年电子技术、传感器与信号处理国际会议(ETSS 2024)

2024年电子技术、传感器与信号处理国际会议 2024 International Conference on Electronic Technology, Sensors, and Signal Processing 【1】会议简介 2024年电子技术、传感器与信号处理国际会议,作为业内领先的学术交流平台,将汇聚全球顶尖的电子技术…

99%的人都不知道,微信才是真正的学习神器

微信,作为一款全球最受欢迎的社交应用之一,除了聊天、朋友圈、小程序等功能外,还有许多隐藏的学习功能,今天小编就给大家分享10个微信隐藏的学习功能,助您轻松成为学霸。 1、微信笔记 用过代办清单软件的朋友都知道&…

如何调用通义千问大模型API

目录 登录阿里云 大模型服务平台百炼 登录控制台 QWen Long QWen 通义千问开源系列 大语言模型 OpenAI接口兼容 登录阿里云 阿里云-计算,为了无法计算的价值 大模型服务平台百炼 降价信息: 登录控制台 右上角取得API key 创建Key QWen Long qw…

Linux网络编程:传输层协议|UDP

知识引入: 端口号: 当应用层获得一个传输过来的报文时,这时数据包需要知道,自己应该送往哪一个应用层的服务,这时就引入了“端口号”,通过区分同一台主机不同应用程序的端口号,来保证数据传输…

【VTKExamples::Utilities】第九期 FrameRate

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 公众号:VTK忠粉 前言 本文分享VTK样例FrameRate,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^)ノ~YO 1. FrameRate 该样例介绍 如…

【Mongo】索引结构

结论 Mongo3.2版本开始,索引的结构默认是B树。 起因 面试的时候,面试官问为什么Mongo DB底层使用B树而不是B树? 面试完赶紧恶补,结果发现面试官好像给我埋了个坑。。。 MongoDB官方描述: 翻译一下就是&#xff1…

JVM 内存布局深度解析,你所不知道的一面

作为Java开发者,想要写出高质量的代码,理解JVM的内存结构是必修课。本文将为您深度解析 Java 虚拟机(JVM)中的内存布局及其细节分析,让你在内存管理的道路上行稳致远。希望通过本文能让你彻底理解其中的奥秘。 一、内存布局概览 在我们深入具…