数据结构的美之百家争鸣-redis-dict篇

redis-6.2.4

首先定义字典的数据结构

跟hashpMap里面类似,一般是由数组和链表组成。

dictht

typedef struct dictht {//entry类型的数组,保存指向entry的指针dictEntry **table;//哈希表的大小unsigned long size;//哈希表掩码,总等于size-1,二进制运算 12%8 ->1100&111=100=4unsigned long sizemask;//enrty的个数unsigned long used;
} dictht;

dict

typedef struct dict {//dict类型,里面由不同的hash函数dictType *type;//私有数据void *privdata;//两个哈希表,一个是当前数据,一个备胎,留着rehash用的dictht ht[2];//rehash的进度,-1表示未进行long rehashidx; /* rehashing not in progress if rehashidx == -1 *///rehash是否暂停int16_t pauserehash; /* If >0 rehashing is paused (<0 indicates coding error) */
} dict;

dictEntry

typedef struct dictEntry {void *key;//键//制定了不同类型的值union {void *val;uint64_t u64;int64_t s64;double d;} v;//值//指向下一个节点struct dictEntry *next;
} dictEntry;

链表的初始化逻辑

dict *dictCreate(dictType *type,void *privDataPtr)
{//给dict分配一个空间dict *d = zmalloc(sizeof(*d));
​_dictInit(d,type,privDataPtr);return d;
}

具体的初始化

int _dictInit(dict *d, dictType *type,void *privDataPtr)
{//这里保存的是两个hash表//一个指向但钱的数据_dictReset(&d->ht[0]);//另一个一般为空,用于rehash的时候使用_dictReset(&d->ht[1]);d->type = type;d->privdata = privDataPtr;//rehash的进度,这里-1表示未进行d->rehashidx = -1;//rehash是否暂停,1是暂停,0是继续d->pauserehash = 0;return DICT_OK;
}

rehash

int dictResize(dict *d)
{unsigned long minimal;
​if (!dict_can_resize || dictIsRehashing(d)) return DICT_ERR;//如果使用的还超过呢,就不先扩容了minimal = d->ht[0].used;//DICT_HT_INITIAL_SIZE值为4if (minimal < DICT_HT_INITIAL_SIZE)minimal = DICT_HT_INITIAL_SIZE;//不然就扩容,return dictExpand(d, minimal);
}

dictExpandIfNeeded

static int _dictExpandIfNeeded(dict *ht);

_dictExpandIfNeeded

static int _dictExpandIfNeeded(dict *d)
{//如果正在hash过程当中,就返回DICT_OKif (dictIsRehashing(d)) return DICT_OK;
​//hash表要是空的就返回初始化大小4if (d->ht[0].size == 0) return dictExpand(d, DICT_HT_INITIAL_SIZE);
​//如果负载因子达到1以上了并且再满足下面两个条件之一if (d->ht[0].used >= d->ht[0].size &&//当前没有进行bgrewrite等操作,也就是可以扩容//或者比例超过5 dict_force_resize_ratio了,那他也会扩容dictExpand(dict_can_resize ||d->ht[0].used/d->ht[0].size > dict_force_resize_ratio) &&dictTypeExpandAllowed(d)){//孔融大小used+1,底层对扩容大小坐判断,最终是找一个大于等于userd+1的2的n次幂。有点类似操作系统连续内存管理的伙伴算法return dictExpand(d, d->ht[0].used + 1);}return DICT_OK;
}

dictTypeExpandAllowed

过考虑当前的装载因子和可能的内存需求,来决定是否允许字典扩容,以优化其性能和内存使用。

expandAllowed函数的返回值随后被作为dictTypeExpandAllowed函数的返回值返回。这个返回值决定了是否允许字典进行扩展。如果expandAllowed返回1,表示允许扩展;如果返回0,则不允许

static int dictTypeExpandAllowed(dict *d) {//返回null指没有特定的扩展条件,1表示可以扩展if (d->type->expandAllowed == NULL) return 1;return d->type->expandAllowed(//这里是用来计算给定数值的下一个幂的值,如输入9结果为16_dictNextPower(d->ht[0].used + 1) * sizeof(dictEntry*),//能计算出扩展之后大致的内存大小//表示当前装在因子(double)d->ht[0].used / d->ht[0].size);
}

dictExpand

int dictExpand(dict *d, unsigned long size) {return _dictExpand(d, size, NULL);
}

_dictExpand

  • d: 指向需要扩展或初始化的dict结构体的指针。

  • size: 请求的哈希表大小。

  • malloc_failed: 一个指向整数的指针,用于指示内存分配是否失败。

int _dictExpand(dict *d, unsigned long size, int* malloc_failed)
{//处理内存分配失败的预备步骤//如果malloc_failed不是NULL,则将其所指向的值初始化为0,表示内存分配尚未失败。if (malloc_failed) *malloc_failed = 0;
​
//如果字典正在进行重新哈希(即正在扩展中)或当前使用的元素数量已经超过了请求的大小,函数将返回DICT_ERR,表示不执行扩展if (dictIsRehashing(d) || d->ht[0].used > size)return DICT_ERR;
//创建一个新的hash表dictht n; /* the new hash table *///确定一下新得扩容大小,这里就是之前介绍得函数。unsigned long realsize = _dictNextPower(size);
​//如果计算出来的hash表大小还和之前一样,那就算了吧,返回错误if (realsize == d->ht[0].size) return DICT_ERR;
​//分配新的大小n.size = realsize;//之前提到过的掩码n.sizemask = realsize-1;if (malloc_failed) {n.table = ztrycalloc(realsize*sizeof(dictEntry*));//判断一下分配的内存空间大小是否成功,如果能分配的话就不为null了*malloc_failed = n.table == NULL;if (*malloc_failed)//分配不成功则返回错误return DICT_ERR;} elsen.table = zcalloc(realsize*sizeof(dictEntry*));
//将n的使用节点指向0n.used = 0;
​//如果原始哈希表 d->ht[0] 中的 table 指针为 NULL,这表示字典尚未进行过初始化,即字典为空。if (d->ht[0].table == NULL) {//将新创建的哈希表 n 赋值给原始哈希表 d->ht[0],以便开始接受键值对。d->ht[0] = n;//函数返回 DICT_OK,表示字典扩容成功。return DICT_OK;}
​/* Prepare a second hash table for incremental rehashing *///将新准备好的n赋值给ht[1]d->ht[1] = n;//改变标识准备扩容d->rehashidx = 0;return DICT_OK;
}

不管是扩容还是收缩,必定会创建新的哈希表,(把创建的哈希表赋值给那个空闲的hash表,再从旧的导入空闲的里面。)导致哈希表的size和sizemask变化,而key的查询与sizemask有关。因此必须对哈希表中的每一个key重新计算索引,插入新的哈希表,这个过程称为rehash。过程是这样的:

  • 计算新hash表的realeSize,值取决于当前要做的是扩容还是收缩:

    • 如果是扩容,则新size为第一个大于等于dict.ht[0].used + 1的2^n

    • 如果是收缩,则新size为第一个大于等于dict.ht[0].used的2^n (不得小于4)

  • 按照新的realeSize申请内存空间,创建dictht,并赋值给dict.ht[1]

  • 设置dict.rehashidx = 0,标示开始rehash

  • 将dict.ht[0]中的每一个dictEntry都rehash到dict.ht[1]

  • 将dict.ht[1]赋值给dict.ht[0],给dict.ht[1]初始化为空哈希表,释放原来的dict.ht[0]的内存

  • 将rehashidx赋值为-1,代表rehash结束

  • 在rehash过程中,新增操作,则直接写入ht[1],查询、修改和删除则会在dict.ht[0]和dict.ht[1]依次查找并执行。这样可以确保ht[0]的数据只减不增,随着rehash最终为空

dictRehash

int dictRehash(dict *d, int n) {int empty_visits = n*10; /* Max number of empty buckets to visit. */if (!dictIsRehashing(d)) return 0;
​while(n-- && d->ht[0].used != 0) {//结束条件为节点不为0dictEntry *de, *nextde;
​/* Note that rehashidx can't overflow as we are sure there are more* elements because ht[0].used != 0 */assert(d->ht[0].size > (unsigned long)d->rehashidx);//检测索引为 rehashidx 的桶是否为空。如果为空,则继续递增 rehashidx 直到找到一个非空桶。while(d->ht[0].table[d->rehashidx] == NULL) {//用rehashid来记录已经完成迁移节点的链表下标d->rehashidx++;if (--empty_visits == 0) return 1;}//原hash位置的桶de = d->ht[0].table[d->rehashidx];/* Move all the keys in this bucket from the old to the new hash HT */while(de) {uint64_t h;nextde = de->next;//通过掩码来确定在新的表结构中的位置,做位运算h = dictHashKey(d, de->key) & d->ht[1].sizemask;de->next = d->ht[1].table[h];d->ht[1].table[h] = de;//调整计数d->ht[0].used--;d->ht[1].used++;de = nextde;}//原位置桶置空,处理下一个桶d->ht[0].table[d->rehashidx] = NULL;d->rehashidx++;}
​//节点移动完成if (d->ht[0].used == 0) {//释放ht[0]zfree(d->ht[0].table);//将ht[1]赋值给ht[0]d->ht[0] = d->ht[1];//把ht清理了回复初始空状态_dictReset(&d->ht[1]);//hash过程结束d->rehashidx = -1;return 0;}//1代表着还没hash完成return 1;
}

为了防止大数据的数据迁移中的rehash时间比较长,所以我们分段进行rehash,并用rehashid来记录已经迁移完成的节点链表下标。并且在做删,改,查的过程当中,数据要么在t1里要么再t0里并且由于数据是迁移的并不会重复,因此需要两边都要查询。

但是新增操作不需要去查询在哪里,只需要在扩容的t1里就好。确保t0数据只剪不增加。

结束之后rehashid赋值为-1.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/751144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

车载测试面试:各大车企面试题汇总

本博主可协助大家成功进军车载测试行业 TBOX 深圳 涉及过T-BOX测试吗Ota升级涉及的台架环境是什么样的&#xff1f;上车实测之前有没有一个仿真环境台架环境都什么零部件T-BOX了解多少Linux和shell有接触吗 单片机uds诊断是在实车上座的吗 uds在实车上插的那口 诊断仪器是哪…

构造-析构-拷贝构造-赋值运算符重载-const成员函数

1. 类的6个默认成员函数 如果一个类中什么成员都没有&#xff0c;简称为空类。 空类中真的什么都没有吗&#xff1f;并不是&#xff0c;任何类在什么时候都不写时&#xff0c;编译器会自动生成以下6个成员函数。 默认成员函数&#xff1a;用户没有显式实现&#xff0c;编译器…

关于static关键字

1、static翻译为”静态” 2、所有static关键字修饰的都是类相关的&#xff0c;类级别的。 3、所有static修饰的&#xff0c;都是采用"类名.”的方式访问。 没有static的方法被称为&#xff1a;实例方法。&#xff08;对象方法&#xff0c;对象级别的方法) 。实例相关的有…

MacBook使用——彻底卸载并删除软件:NTFS for Mac

问题 之前因MacBook读写NTFS格式移动硬盘&#xff0c;我安装并使用了 Paragon NTFS for Mac &#xff0c;试用期结束后将其从【应用程序】中卸载移除了。但之后每次开机启动时&#xff0c;系统还是会弹出【激活】通知&#xff0c;如下图 解决 Step1、在用户目录下的 Library 目…

sparksql的SQL风格编程

我们前面的文章介绍了DSL风格的编程&#xff0c;现在介绍以下两种编程风格之一的sql风格编程。 sql风格编程简介 sql风格编程就是我们可以通过spark.sql来执行sql语句进行查询&#xff0c;这时的DataFrame就像是一张关系型数据表。返回的是DataFrame。 如果我们想用sql风格的…

vue2语法-简略版

内容不全&#xff0c;发现看官方文档效果更好。 介绍 — Vue.js API — Vue.js 二、Vue指令 2.1 内容渲染指令 v-text&#xff0c;v-html 内容渲染指令用来辅助开发者渲染DOM元素的文本内容&#xff0c;常用的内容渲染指令有如下2个&#xff1a; v-text&#xff08;类似in…

项目进展(十一)--重新绘制ADS1285采集板并学习

声明&#xff1a;本人水平有限&#xff0c;博客可能存在部分错误的地方&#xff0c;请广大读者谅解并向本人反馈错误。   由于项目的需要&#xff0c;上周又设计了ADS1285的采集电路板&#xff0c;最近几天焊接了一下&#xff0c;重新进行测试。由于之前对ADC采集不是重点&am…

力扣练习题2

2. 两数相加 给你两个 非空 的链表&#xff0c;表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的&#xff0c;并且每个节点只能存储 一位 数字。 请你将两个数相加&#xff0c;并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外&#xff0c;这两个数…

UDP数据报套接字编程

1.1UDP编程原理 对于UDP协议来说&#xff0c;具有无连接&#xff0c;面向数据报的特征&#xff0c;即每次都是没有建立连接&#xff0c;并且一次发送全部数据报&#xff0c;一次接收全部的数据报。Java中使用UDP协议通信&#xff0c;主要基于DatagramSocket类来发送或接收数据报…

C++:菱形继承与虚继承

看下面这个示例代码 class A{ public: int num10; A(){cout<<"A构造"<<endl;} virtual void fun(){cout<<"A虚函数"<<endl;} };class B:public A{ public: B(){cout<<"B构造"<<endl;} void fun(){cout<…

python--剑指offer--10- I. 斐波那契数列

斐波那契数 &#xff08;通常用 F(n) 表示&#xff09;形成的序列称为 斐波那契数列 。该数列由 0 和 1 开始&#xff0c;后面的每一项数字都是前面两项数字的和。也就是&#xff1a; F(0) 0&#xff0c;F(1) 1 F(n) F(n - 1) F(n - 2)&#xff0c;其中 n > 1 给定 n &…

openssl3.2 - exp - 用openssl命令行来模拟ECC加解密的全流程

文章目录 openssl3.2 - exp - 用openssl命令行来模拟ECC加解密的全流程概述笔记实验环境实验备注END openssl3.2 - exp - 用openssl命令行来模拟ECC加解密的全流程 概述 工程中要用到ECC加解密, 先去查了资料. 在网上能查到一些大佬们写的ECC加解密实现(基于openssl API), 不…

可视化图表:南丁格尔玫瑰图,来自历史上最著名的护士。

Hi&#xff0c;我是贝格前端工场的老司机&#xff0c;本文分享可视化图表设计的南丁格尔玫瑰图设计&#xff0c;欢迎老铁持续关注我们。 一、南丁格尔与玫瑰图 南丁格尔&#xff08;Florence Nightingale&#xff0c;1820年-1910年&#xff09;是一位英国护士和统计学家&…

按位操作符详解

大家好啊&#xff0c;我是情谊&#xff0c;今天我们来讨论一下按位操作符的知识点与应用&#xff0c;按位操作符有时候在解决一些问题的时候可以提供一个很好的解题思路&#xff0c;话不多说&#xff0c;我们直接来看&#xff01; 今天我们主要是从两个方面来讲述一下按位操作…

突破编程_C++_C++11新特性(智能指针shared_ptr与weak_ptr)

1 std::shared_ptr 的概述 std::shared_ptr 是 C11 标准库中引入的一种智能指针&#xff0c;用于表示共享所有权的智能指针。它允许多个 shared_ptr 实例共享同一个对象的所有权&#xff0c;并在最后一个引用该对象的 shared_ptr 被销毁或被重置时自动删除该对象。这种特性使得…

Redis:使用redis-dump导出、导入、还原数据实例

redis的备份和还原&#xff0c;借助了第三方的工具&#xff0c;redis-dump 1、安装必要环境 yum -y install zlib-devel openssl-devel2、安装redis-dump 安装ruby&#xff1a; ruby下载地址&#xff1a;https://www.ruby-lang.org/zh_cn/downloads/ 我下载的是 2.5.0 版本…

2024(最新)前端面試題----歡迎補充

HTML、css相關。 HTML5新特性 1、增强了表单&#xff0c;input新增了一些type&#xff1a;color----定义调色板tel-----定义包含电话号码的输入域email—定义包含email地址的输入域search–定义2、搜索域number–定义包含数值的输入域date----定义选取日、月、年的输入域 3、Vi…

Elasticsearch(11) intervals的使用

elasticsearch version 7.10.1 在Elasticsearch中&#xff0c;intervals查询是用来做复杂的区间表达式匹配的&#xff0c;它可以基于分析过的文本字段执行一系列复杂的关系运算。intervals查询特别适合于那些需要对文本数据进行模式匹配&#xff0c;而不只是单一词汇匹配的情况…

动态规划课堂6-----回文串问题

目录 引言&#xff1a; 例题1&#xff1a;回文子串 例题2&#xff1a;回文串分割IV 例题3&#xff1a;分割回文串II 例题4&#xff1a;最长回文子序列 例题5&#xff1a;让字符串成为回文串的最小插入次数 引言&#xff1a; 回文字符串 是正着读和倒过来读一样的字符串。…

【周赛】第385场周赛

&#x1f525;博客主页&#xff1a; A_SHOWY&#x1f3a5;系列专栏&#xff1a;力扣刷题总结录 数据结构 云计算 数字图像处理 力扣每日一题_ 【1】100212.统计前后缀下标对 100212. 统计前后缀下标对 Ihttps://leetcode.cn/problems/count-prefix-and-suffix-pairs-i/ 熟…