前言
跳跃表(skiplist)是一种有序数据结构,它通过在每一个节点中维持多个指向其他节点的指针,从而达到快速访问节点的目的。
跳跃表支持平均O(logN),最坏O(N),复杂度的节点查找,还可以通过顺序性来批量处理节点。比如:取某个范围内的节点数据。在大部分情况下,跳跃表的效率可以和平衡树进行媲美,并且跳跃表的实现比平衡树简单。
Redis使用跳跃表的使用不像链表和字典等数据结构被广泛应用。只有两个地方用到了跳跃表,一个是实现有序集合键,另外一个是在集群节点中用作内部数据结构。
跳跃表查找时从level的最高层开始进行查找的。
一. 跳跃表的实现
Redis跳跃表由server.h/zskilplistNode和server.h/zskiplist两个结构定义,其中zskilplistNode结构用于表示跳跃表节点,而zskiplist结构用于保存跳跃表节点相关信息,比如节点数量,以及指向表头节点和表尾节点的指针等。
上图是一个跳跃表的示例,位于图片最左边的是zskiplist结构,该结构包含一下属性:
- header: 指向跳跃表的表头节点
- tail: 指向跳跃表的表尾节点
- level: 记录目前跳跃表内,层数最大的那个节点的层数(表头节点不计算在内)
- length: 记录跳跃表的长度,跳跃表目前包含的节点数量(表头节点不计算在内)。
位于zskiplist结构右方的是四个zskiplistNode结构,该结构包含一下属性:
- 层(level): 节点中使用L1,L2,L3等字样标记节点的各个层,L1表示第一层,L2表示第二次以此类推。每一层都带有两个属性: 前进指针和跨度。前进指针用于访问位于表尾方向的其他节点,而跨度则记录了前进指针指向节点和当前节点的距离。在上图中,带有数字的箭头代表前进指针,而那个数字就是跨度。当程序从表头向表尾遍历时,访问会沿着层的前进指针进行。
- 后退指针(backward)指针: 节点中的BW字样标记节点的后退指针,它指向位于当前节点的前一个节点。后退指针在程序从表尾向表头遍历时使用。
- 分值(score): 上图各个节点中的1.0,2.0和3.0是节点所保存的分值。在跳跃表中,节点按各自所保存的分支从小到大排列。
- 成员对象(ele): 各个节点中的o1,o2和o3是节点所保存的成员对象。
注意:表头节点和其他节点的构造一样,表头节点也有后退指针,分值和成员对象。不过表头节点的这些属性不会被用到,所以图中省略了这些部分,只显示了表头节点的各个层。
1.1. 跳跃表节点
跳跃表节点的实现由server.h/zskiplistNode结构定义:
/* ZSETs use a specialized version of Skiplists */
typedef struct zskiplistNode {//成员对象sds ele;//分值double score;//后退指针struct zskiplistNode *backward;//层struct zskiplistLevel {//前进指针struct zskiplistNode *forward;//跨度unsigned long span;} level[];
} zskiplistNode;
- 层(level)
跳跃表节点的level数组可以包含多个元素,每一个元素都包含一个指向其他节点的指针,程序可以通过这些层来加快访问其他节点的速度。一般来说,层的数量越多,访问其他节点的速度越快。因为每一层都会都可能会指向其他节点(成员)。
每次创建一个新的跳跃表节点的时候,程序都更具幂次定律(power law,越大的数出现的概率越小),随机生成一个介于1和32之间的值作为level数组的大小。这个大小就是层的"高度"。
- 前进指针
每一层都有一个指向表尾方向的前进指针(level[i].forward属性),用于从表头向表尾方法访问节点。表尾节点的前置指针指向NULL。
跳跃表查找是从最高层向下层查找的,当level[i].span为1,说明下一个节点是顺序的节点,当遍历到NULL时,说明遍历结束,下面虚线就是遍历方向。
- 跨度
层的跨度(level[i].span属性)用于记录两个节点之间的距离。
- 两个节点间的跨度越大,说明它们相距越远。
- 指向NULL的所有前进指针的跨度为0,因为他们没有连接任何节点。
跨度实际上是用来计算排位(rank)的:在查找某个节点的过程中,将沿途访问过的所有层的跨度累计起来,等到的结果就是目标节点在跳跃表中的排位。
举个例子:在上图中要查找分值为3,成员对象为o3的节点时,沿途经过的层: 查找过程只经过一个层,并且层的跨度为3,所以目标节点在跳跃表中的排位为3。
- 后退指针
节点的后退指针(backward属性)用于从表尾向表头方向访问节点:跟可以一次跳过多个节点的前进指针不同,因为每一个节点只有一个后退指针,所以每次只能后退至前一个节点。
在跳跃表结构中,通过tail指针获取表尾节点,在通过节点的backward指针向前遍历,直到backward指针为NULL。
- 分值和成员
节点的分值(score属性)是一个double类型的浮点数,跳跃表所有节点都按照分值从小到大排序。
节点的成员(ele属性)是sds类型,是redis自己定义的动态字符串。
在同一个跳跃表中,各个节点保存的成员对象必须唯一,但是多节点保存的分值可以相同,分值相同的节点按照成员对象(ele)在字典序中的大小来进行排序。成员对象字典序较小的节点会排在前面(靠近表头的方向),而成员对象在字典序中较大的节点会排在后面(靠近表尾方向)。
1.2 跳跃表
仅靠多个跳跃表节点就可以组成一个跳跃表。但通过使用一个zskiplist结构来持有这些节点,程序可以更加方便地对整个跳跃表进行处理。比如:快熟访问跳跃表表头节点和表尾节点,或者获得跳跃表节点数量等信息。
typedef struct zskiplist {//表头节点/表尾节点struct zskiplistNode *header, *tail;//表中节点个数unsigned long length;//表中层数最大节点的层数int level;
} zskiplist;
header和tail指针已经指向跳跃表的表头和表尾,通过这两个指针获得跳跃表的表头和表尾节点时间复杂度为O(1)
通过length属性来记录节点数量。程序可以在O(1)时间复杂度内返回跳跃表的长度。
level则可以在O(1)时间复杂度内获得跳跃表层数最高节点的层数量,注意,不包括表头节点。