背景
最近在使用flink的过程中,由于要存储的状态很大,所以使用到了rockdb作为flink的后端存储,本文就来简单看下rockdb的架构设计
Rockdb设计
Rockdb采用了LSM的结构,它和hbase很像,不过严格的说,基于LSM结构的存储都差不多,我们简单看一下它的架构图
写操作
1.写记录会先写入到WAL日志文件中,由于是顺序写,速度不会慢,然后再把记录写入内存中的memtable中,如果memtable达到阈值,就把这个memtable变成一个不可变的Immutable-memtable,此外会再创建出来一个新的memtable用于接收用户写入
2.Immutable-memtable内存表的数量达到上限后,会把他们的数据刷新到SSTable磁盘文件中,只保存固定数量的Immutable-memtable内存表
3.定期把低Level的sst文件合并成高Level的sst文件,其目的是为了清理已经被删除的记录,由于sstable文件是只Append,所以删除操作只有在文件合并的时候才会实际发生,此外,减少sst文件的个数,也有助于读取操作的性能
读操作
1.读首先读取memtable内存表,如果没有,从索引(布隆过滤器索引BloomFilterIndex或者数据索引DataIndex)中查找到记录所在的sstable文件的块位置,注意,索引(布隆过滤器索引BloomFilterIndex或者数据索引DataIndex)的数据最好是常驻内存的,也就是对于flink来说,state.backend.rocksdb.memory.high-prio-pool-ratio的配置值不要设置为0
2.获取到记录所在的sstable的对应数据块后,优先从内存中的BlockCache查找数据块,如果找到,查询结束,否则,继续下一步
3.读取sstable文件中的指定数据块的数据,返回记录后把对应的数据块放到BlockCache中,以便下次查找