作者:叶提
Faster实现主要分为三部分:
Epoch Protection框架,实现并发系统下全局修改,延迟同步到所有线程,简化并发设计。faster线程在大多时候不需要同步,完全独立执行。
支持高并发的无锁hash 索引,是实现高吞吐的关键。
Hybrid Log,使用逻辑地址将内存和二级存储统一起来,数据超出内存大小后可flush到硬盘,使其能够支持超出内存大小的数据量。
Faster的限制包括:只支持点查,不支持range query;基本只适合update-intensive的场景;不写wal(影响update性能),恢复后部分数据丢失。
Instrduction
faster支持三种接口,read和两类update: blind update和read-modify-writes(RMWs)。RMWs指在原来的value上原子更新,支持记录的部分更新(比如只更新value的一个字段)。faster是一个point-operation系统,在内存中可实现亿级别的吞吐,尤其在支持超过内存限制的数据量下依然能保持如此高的性能。可见在设计和实现上的确做了比较大的努力和创新的。
首先为支持可扩展的线程模型,faster扩展了标准的epoch-based同步机制,通过trigger action促进全局changes延迟同步到所有线程,这个epoch框架帮助faster简化了并发设计。
然后介绍了无锁、高并发和cache友好的hash索引的设计,与纯内存allocator结合使用时,就是一个内存的kv系统,性能和扩展性高于其它热门的纯内存结构。
最后介绍了HybridLog。log-structuring技术可以支持超出内存限制的大数据量的存储,通过写wal支持failure recovery,基于read-copy-update的策略,记录的更新都是追加写的方式写入log中。但是这样的方式限制了吞吐和扩展能力,in-place更新是性能的关键。因此,faster提出了HybridLog:内存与append-only log的方式结合,热数据支持in-place更新,冷数据read-copy-update,先copy到热数据区域再in-place更新。
faster遵循大多数case可以fast的原则,在以下三个方面做了精细的设计:
1.实现无锁高并发的哈希索引对于记录提供快速的point访问。
2.选择合适的时机做耗时的操作,像hash索引扩容、checkpoint和淘汰等。
3.大多数时候可以做in-place更新。
faster在内存负载下的性能是远超出于其它纯内存系统的,而且是在支持数据量超出内存限制和支持热点数据集变化的情况下。
Epoch Protection Framework
Epoch不是新概念,已被Silo、Masstree和Bw-Tree用于资源回收。faster将其扩展,成为更通用的框架,主要用于memory-safe garbage collection、hash索引表扩容、log-structured allocator的circular buffer的维护和page flushing、page边界维护和checkpoint。
Epoch Basics
系统维护一个sharded原子计数变量E,叫做当前的epoch,每个线程都可以增加它的值。每个线程T都有一个本地的E,用Et表示。线程周期地刷新本地的epoch值,每个线程的epoch值都保存在sharded epoch table中。如果所有线程的本地epoch都比epoch c大,则认为c是安全的。faster额外维护了一个全局的Es,用于记录最大的安全的epoch。对于任意线程T,都满足Es
Trigger Actions
使用trigger action使这个框架具备当一个epoch变为安全时执行任意全局action的能力。当前的epoch从c增加为c+1时,线程额外关联一个action,该action在epoch c变为safe时触发。
Using
对于线程T支持4种操作:
Acquire: 为T保留一个entry,将Et设置为E
Refresh: 更新Et到E
BumpEpoch(action): 更新c到c+1,
Release: 将T的entry从epoch table中移除
使用trigger action的epoch在并行系统中可以简化延迟同步。一个典型的例子:当共享变量status变为active时,需要调用函数active-now。线程更新自己的status到active,并将active-now作为trigger action,并不是所有线程可以立马看到status改变,但是可以保证当线程refresh它的epoch时可以看到。因此只有当所有线程都看到status变为active才会调用active-now。
THE FASTER HASH INDEX
faster高性能hash index的特点有concurrent、latch-free、scalable和resizable。与普通的hash table实现不一样,不保存key值,保存记录set的物理或者逻辑地址,纯内存下是物理地址,混合存储下是逻辑地址。
索引组织
该设计假设64位系统cache line大小为64bytes。索引有2^k个hash bucket,每个bucket的size为cache line的大小:64bytes。一个bucket包含8个entry和一个指向下一个bucket的指针。8字节entry的设计可以使用64位原子的操作。
64位的机器上,物理地址通常小于64位,intel机器使用48位的指针。因此它这里只用48位来存储地址,剩余15位叫做tag,用于hash,一位叫做tentative bit,用于insert过程中的两阶段算法。
索引操作
hash index建立在一个保证的基础之上:每个(offset, tag)对应唯一一个entry。address指向记录的set,这点跟普通hash table很不一样,hash index中不保存key,而是指向记录的set,将冲突放到value中解决。
支持以下操作:
finding and deleting an entry: 根据key值直接定位到bucket中的entry,先根据offet定位到对应bucket,再遍历找到匹配tag的entry。删除entry使用CAS原子操作用0替代掉匹配的entry。0表示是空的entry,可以使用。
inserting: tag不存在时,insert到一个新的entry。图3(a)展示了通常的操作方式,遍历bucket中的entries找到空的entry,使用CAS将新的tag insert,但是存在两个线程并发将相同的tag写入的问题。如图3(a)所示,T1从左到右遍历entry找到第5个entry并写入g5,与此同时,T2将g3删除,然后从左到右遍历entry找到第三个entry并写入g5。
这个问题的本质原因是线程独立地选择entry并且直接修改它。可以使用lock bucket的方式来解决,但是太重了。faster使用无锁的两阶段的方式来解决,借助于tentative位,线程找到空的enty写入新的记录并设置tentative位,一个被设置了tentative位的entry对于读写是不可见的,然后再重新扫描bucket检查是否存在相同的tag,如果存在则返回重试,否则重置tentative位完成insert操作。图3(b)展示了这个操作。
In-memory, Log-Structured and HybridLog
论文先讲了纯memory实现和纯log-structered的实现,最后将两者结合起来形成最终的HybridLog。
记录的格式为图2所示由8个字节的header、key和value组成,key和value可以是定长也可以是变长的,header分为16位的meta和48位的地址,用少量的位保存一些log-structured allocator所需要的信息,地址用于维护记录链表。
In-memory
纯memory的实现中,记录只保存在memory中,使用底层分配器像jemalloc分配内存,hash index中保存物理地址,支持read、update and insert和delete操作:
reads:根据key定位到hash index的entry,遍历记录list找到key值对应的记录。
updates and inserts:支持blind update和RMW update,使用in-place更新的方式。在epoch protection下,线程可以安全的in-place更新记录。如果entry不存在,按照上述hash index的两阶段方式写入,如果list中找不到此记录,使用CAS操作原子地将新记录写入到list的尾部。
deletes:使用CAS操作将记录从list中移除,当entry删除时,将entry设为0,标识entry是空闲可用的。删除记录后,内存不能立马释放,因为可能有并发的update存在,faster使用epoch protection解决,每个线程维护一个thread-local的空闲,当epoch变为safe后可以将其释放。
Log-Structured
纯log-structered的实现中,使用逻辑地址将内存和磁盘统一起来,用追加log的方式将记录写入。可以支持大数据量存储,论文第7章测试了性能不超过2000w的ops,也不可随着线程数scale。实现上使用两个offset分别维护内存的最小逻辑地址和下一个空闲地址的offset,称为head offset和 tail offset。内存分配总是从tail offset处分配,head offset与tail offset之间的空间是内存的容量,这里叫做Circular Buffer,是定长pages组成的array,与物理page对应。
为实现无锁的方式将记录flush到磁盘上,引入了两个状态数组,flush-status记录当前flush磁盘的page,closed-status决定是否page可以被淘汰。要淘汰的page必须要保证已经完全flush到磁盘了。当tail offset增大时,使用epoch机制的trigger action触发异步io请求将page flush到磁盘,epoch安全后调用,确保所有线程在这个page上的写都完成了,设置flush-status。
随着tail offset的增长,头部page需要从内存中淘汰,需要先确保page没有线程在访问,传统数据库一般使用latch pin住这个page,faster为了实现高性能,还是借助于epoch管理淘汰。
Blind update就是简单的将新的记录append到log的尾部。delete记录通过header中标志位识别,资源回收时会识别。Read和RMW操作与内存中相似,只是update是追加写一条新记录,逻辑地址跟纯内存中的物理地址处理也不同,如果地址大于head offset,则数据在内存中,否则提交异步的读请求到磁盘。
HybridLog
log-structured可以处理超出内存大小的数据量,但是append-only的特征会带来一些代价:每次update都需要原子更新tail offset,拷贝数据,原子更新hash index中的逻辑地址。而且update-intensive的负载下,很快会到io瓶颈。在这种负载下,in-place更新有以下优点:
1.频繁访问的记录可放在更高层级的cache中
2.不同hash桶的key值访问路径不会有冲突
3.large value的部分更新可以避免复制整个记录
4.大多数更新不需要修改hash index
HybridLog将Log分为了三个部分:stable 磁盘部分、read-only和mutable部分。统一为一套逻辑地址,read-only和mutable都在内存中,其中只有mutable部分可以原地更新,保存hot data,read-only部分的数据更新操作需要先将其copy一份到mutable中,再在mutable中原地更新。
随着tail offset的增长,mutable头部的数据转换为read-only,read-only头部的数据刷到磁盘中。可以看出比较适合更新集中的应用场景。相比log-structured,增加了read-only offset,原理和head、tail offset类似,read-only offset将可以in-place更新的mutable部分和immutable部分分开。
HybridLog内存部分可以看作是一个缓存,性能基本取决于它的效率。数据库缓存和操作系统下的内存管理通常有fifo、clock、lru和lru的变种等,这些算法(除fifo外)都需要细粒度的统计信息才能很好的工作,faster没有这些overhead,比较类似Second-Chance的FIFO。
faster数据分布取决于访问模式,一段时间后热点数据逐渐集中在内存中。mutable和read-only region的内存划分是尤其重要的。mutable部分较大可以使内存性能更好,in-place更新更多,但是可能会使得mutable的部分数据也面临淘汰的问题。较大的immutable region会导致过多昂贵的append-only update,copy到mutable使得log较快增长。论文提到实验得出,9:1的比例对于mutable和immutable的划分可以有比较好的性能。
Recovery
faster将update性能放在首位,写wal会影响update性能,所以不写wal,进程failure后内存中的数据就丢了。
不过它可以恢复到consistent状态,比如任意两个更新请求r1和r2,是被一个线程顺序提交的,恢复后可能的状态:1. none 2. only r1 3. r1 and r2。也就是不会出现只有r2而没有r1的情况。
测试
论文对比了高性能的内存结构Masstree和Inter TBB hash map,以及两个热门的kv store RocksDb和Redis。
单线程下,uniform分布和zipf分布数据。faster表现最好TBB其次rocksdb表现最差。
256线程下,uniform分布达到1.1亿,TBB也接近这个数值,zipf下faster可以将热点数据集中在mutable区域,性能达到1.6亿,与其它系统拉出了明显差距。
扩展能力测试,faster在单cpu和多cpu下的scale能力都很好,masstree也不错但是性能差很多。TBB单cpu的scale能力很好,但是多cpu下比较差。详细的测试内容,大家可以自行查看论文。
原文链接
本文为云栖社区原创内容,未经允许不得转载。