Hash表的扩容(转载)

Hash表(Hash Table)

 

     hash表实际上由size个的桶组成一个桶数组table[0...size-1] 。

当一个对象经过哈希之后。得到一个对应的value , 于是我们把这个对象放到桶table[ value ]中。当一个桶中有多个对象时。我们把桶中的对象组织成为一个链表。

这在冲突处理上称之为拉链法。

 

负载因子(load factor)

 

     如果一个hash表中桶的个数为 size , 存储的元素个数为used .则我们称 used / size 为负载因子loadFactor . 一般的情况下,当loadFactor<=1时,hash表查找的期望复杂度为O(1). 因此。每次往hash表中加入元素时。我们必须保证是在loadFactor <1的情况下,才可以加入。

 

容量扩张(Expand)& 分摊转移

 

      当我们加入一个新元素时。一旦loadFactor大于等于1了,我们不能单纯的往hash表里边加入元素。

由于加入完之后,loadFactor将大于1,这样也就不能保证查找的期望时间复杂度为常数级了。这时。我们应该对桶数组进行一次容量扩张,让size增大 。

这样就能保证加入元素后 used / size 仍然小于等于1 , 从而保证查找的期望时间复杂度为O(1).可是。怎样进行容量扩张呢? C++中的vector的容量扩张是一种好方法。

于是有了例如以下思路 : Hash表中每次发现loadFactor==1时,就开辟一个原来桶数组的两倍空间(称为新桶数组),然后把原来的桶数组中元素所有转移过来到新的桶数组中。注意这里转移是须要元素一个个又一次哈希到新桶中的。原因后面会讲到。

      这样的方法的缺点是,容量扩张是一次完毕的,期间要花非常长时间一次转移hash表中的全部元素。这样在hash表中loadFactor==1时。往里边插入一个元素将会等候非常长的时间。


    redis中的dict.c中的设计思路是用两个hash表来进行进行扩容和转移的工作:当从第一个hash表的loadFactor=1时,假设要往字典里插入一个元素。首先为第二个hash表开辟2倍第一个hash表的容量。同一时候将第一个hash表的一个非空桶中元素所有转移到第二个hash表中。然后把待插入元素存储到第二个hash表里。继续往字典里插入第二个元素,又会将第一个hash表的一个非空桶中元素所有转移到第二个hash表中,然后把元素存储到第二个hash表里……直到第一个hash表为空。

      这样的策略就把第一个hash表全部元素的转移分摊为多次转移,并且每次转移的期望时间复杂度为O(1)。

这样就不会出现某一次往字典中插入元素要等候非常长时间的情况了。

为了更深入的理解这个过程。先看看在dict.h中的两个结构体:

typedef struct dictht {
    dictEntry **table;
    unsigned long size;
    unsigned long sizemask;
    unsigned long used;
} dictht;

typedef struct dict {
    dictType *type;
    void *privdata;
    dictht ht[2];
    int rehashidx; /* rehashing not in progress if rehashidx == -1 */
    int iterators; /* number of iterators currently running */
} dict;

dictht指的就是上面说的桶数组,size用来表示容量,一般为2^n sizemask(一般为2^n-1,二进制表示为n1)用来对哈希值取模 , used表示hash表中存储了多少个元素。

            dict表示字典,由两个桶数组组成。type是一些函数指针(哈希函数及keyvalue的一些处理函数)。



d->rehashidx

 

这个变量的理解非常关键:

d->rehashidx 表明了新元素究竟是存储到桶数组0中。还是桶数组1中,同一时候指明了d->h[0]中究竟是哪一个桶转移到d->h[1]中。

d->rehashidx==-1时,这时新加入的元素应该存储在桶数组0里边。

d->rehashidx!=-1 时,表示应该将桶数组0中的第一个非空桶元素所有转移到桶数组1中来(最好还是称这个过程为桶转移,或者称为rehash)。这个过程必须将非空桶中的元素一个个又一次哈希放到桶数组1中,由于d->h[1]->sizemask已经不同于d->h[0]->sizemask了。

这时新加入的元素应该存储在桶数组1里边,由于此刻的桶数组0loadFactor。而桶数组1loadFactor小于

 

当发现桶数组0中的元素所有都转移到桶数组1中,即桶数组0为空时。释放桶数组0的空间。把桶数组0的指针指向桶数组1。将d->rehashidx赋值为-1 ,这样桶数组1就空了,下次加入元素时。仍然加入到桶数组0中。直到桶数组0的元素个数超过桶的个数,我们又又一次开辟桶数组02倍空间给桶数组,同一时候改动d->rehashidx=0。这样下次加入元素是就加入到桶数组1中去了。

 

值得注意的是。在每次删除、查找、替换操作进行之前,依据d->rehashidx的状态来推断是否须要进行桶转移。这能够加快转移速度。

 

以下是一份精简的伪代码,通过依次插入element[1..n]n个元素到dict来具体描写叙述容量扩张及转移的过程:

//初始化两个hash表
d->h[0].size = 4 ; d->h[1].used = 0 ;  //分配四个空桶
d->h[1].size = 0 ; d->h[1].used = 0 ;  //初始化一个空表
 
for(i = 1 ; i <= n ; ++ i){
      if( d->rehashidx !=-1 ){
                  if(d->h[0]->used != 0){
                            把 d->h[0]中一个非空桶元素转移(又一次hash)到 d->h[1]中  。  
                            // 上一步会使得:
                            
// d->h[0]->used -= 转移的元素个数 
                            
// d->h[1]->used += 转移的元素个数 。
                            把 element[i] 哈希到 d->h[1]中  ;  // d->h[1]->used ++ 
                  }else{
                            //用桶数组1覆盖桶数组0; 赋值前要释放d->h[0]的空间,赋值后重置d->h[1])
                            d->h[0] = d->h[1] ; 
                            d->rehashidx = -1 ; 
                            把element[i]哈希到d->h[0]中;// d->h[0]->used ++ ; 
                 }
      }else if( d->h[0]->used >= d->h[0]->size )
                d->h[1] = new bucket[2*d->h[0]->size ];    
                // d->h[0]->size 等于d->h[0]->size的2倍 
                把element[i]哈希到d->h[1]中 ;  // d->h[1]->used ++ 
                d->rehashidx = 0 ;                             
      }else{
                把element[i]哈希到d->h[0]中;  // d->h[0]->used ++ 
      }
}




字典的迭代器(Iterator

 

分为安全迭代器( safe Iterator )非安全迭代器

安全迭代器可以保证在迭代器未释放之前,字典两个hash表之间不会进行桶转移。



桶转移对迭代器的影响是很大的,如果一个迭代器指向d->h[0]的某个桶中的元素实体。在一次桶转移后,这个实体被rehashd->h[1]中。

而在d->h[1]中根本不知道哪些元素被迭代器放过过,哪些没有被訪问过,这样有可能让迭代器反复訪问或者缺失訪问字典中的一些元素。

所以安全迭代器可以保证不多不少不反复的訪问到全部的元素(当然在迭代过程中。不能涉及插入新元素和删除新元素的操作)。







本文转自mfrbuaa博客园博客,原文链接:http://www.cnblogs.com/mfrbuaa/p/5245064.html,如需转载请自行联系原作者

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/454875.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

写在前面的一些话:《Learning OpenCV》中文版 .

2009-09-17 15:51 7578人阅读 评论(4) 收藏 举报 <!-- /* Font Definitions */ font-face {font-family:Helvetica; panose-1:2 11 5 4 2 2 2 2 2 4; mso-font-charset:0; mso-generic-font-family:swiss; mso-font-format:other; mso-font-pitch:variable; mso-font-sign…

独家 | 一文读懂自然语言处理NLP(附学习资料)

前言 自然语言处理是文本挖掘的研究领域之一&#xff0c;是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言。 对于自然语言处理的发展历程&#xff0c;可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义&#xff0c;基…

python mock测试_使用mock测试python中的函数

对于测试覆盖&#xff0c;我想测试文件signalC中该函数的异常块&#xff1a;class SignalC:def readSignal(self, a):try:with open(os.path.join(self.newSubFolder, "my file" .csv), a) as csvfile:writer csv.writer(csvfile, delimiter,, quotechar|,quotingc…

如何更好阅读源代码 .

写在前面的话&#xff1a;    自从我在linuxaid.com.cn上发表一些文章开始&#xff0c;就不断的有网友发来电子邮件&#xff0c;或者是就其中某些问题进行探讨&#xff0c;或者是查询其他文章的地址&#xff08;往往这些网友看的是其他网站转载的我的文章&#xff09;&#x…

wins系统flask绑定mysql_flask如何连接mssql,网上大多是sqlite和mysql教程?

这个居然也冒出来&#xff0c;刨坟了。我们不喜欢写原生SQL语句&#xff0c;那个写着费劲&#xff0c;日常开发时候&#xff0c;我们怎么CRUD数据库呢&#xff1f;一般使用ORM&#xff0c;对象关系映射(英语&#xff1a;Object Relational Mapping&#xff0c;简称ORM)。主力使…

hdu 6086 -- Rikka with String(AC自动机 + 状压DP)

题目链接 Problem DescriptionAs we know, Rikka is poor at math. Yuta is worrying about this situation, so he gives Rikka some math tasks to practice. There is one of them:Yuta has n 01 strings si, and he wants to know the number of 01 antisymmetric strings …

课堂动手动脑问题

对于随机数&#xff0c;java通过Math.random&#xff08;&#xff09;来实现&#xff0c;比如要得到一个随机数我们可以int a&#xff1b; a&#xff08;int&#xff09;Math.random();但对于随机数&#xff0c;它是从0到1之间的数&#xff0c;所以必须通过int把它转为整数&…

GNU/Linux下有多少是GNU的?

导读&#xff1a;一个葡萄牙的学生写了一篇文章 《How much GNU is there in GNU/Linux?》由酷壳网的陈皓整理编译为《GNU/Linux下有多少是GNU的》。这篇文章主要分布了今年4月份的Ubuntu Natty的Linux分发包。其主要是用代码行来做的分析&#xff0c;用两个饼图对比分析。 内…

便携式三星mysql_JDBC链接mysql - 三星蓝

package chp07;importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.ResultSet;importjava.sql.SQLException;importjava.sql.Statement;public classJDBC_Test {//创建静态全局变量staticConnection conn;staticStatement st;public static voidmain(Stri…

C++ 类、对象、class

一、对象初始化 1.不能在类声明中对数据成员初始化&#xff0c;因为类只是一个抽象类型&#xff0c;不占存储空间&#xff0c;无处容纳数据。 2.若某类的数据成员都是public&#xff0c;则可以像结构体一样初始化&#xff0c;如 Time t{12,21,04}&#xff1b; 若数据成员有priv…

Unity 富文本

参考链接&#xff1a;http://www.ceeger.com/Manual/StyledText.html 首先要说的是不仅仅ugui的text组件支持富文本&#xff0c;Debug.Log也是支持的 Debug.Log("<color#ffff00ff><b>爱生活</b></color> <color#00ffffff><b> 爱海澜&…

Web项目替换jar包中的文件的方法

经常遇到这样的问题&#xff0c;需要修改jar包中的方法。应该如何做&#xff1f; 1、有些很人性化的框架jar包&#xff0c;比如SpringSecurity&#xff0c;可以修改配置文件指定一个新建的类&#xff0c;让类实现Jar包中的对应的接口就好了。 2、大部分的jar包都不会有这么方便…

程序员技术练级攻略

导读&#xff1a;本文是由陈皓和他的一位朋友Mailper合作完成&#xff0c;原名叫《Build Your Programming Technical Skills》&#xff0c;本文分享了Mailper和作者个人的学习经历。每个程序员都希望自己能顺利的升级到高的层次&#xff0c;您不妨按照下面的方法去做。 前言 你…

Linux shell 之 提取文件名和目录名的一些方法

很多时候在使用Linux的shell时&#xff0c;我们都需要对文件名或目录名进行处理&#xff0c;通常的操作是由路径中提取出文件名&#xff0c;从路径中提取出目录名&#xff0c;提取文件后缀名等等。例如&#xff0c;从路径/dir1/dir2/file.txt中提取也文件名file.txt&#xff0c…

bzoj 2752: [HAOI2012]高速公路(road)

Description Y901高速公路是一条重要的交通纽带&#xff0c;政府部门建设初期的投入以及使用期间的养护费用都不低&#xff0c;因此政府在这条高速公路上设立了许多收费站。Y901高速公路是一条由N-1段路以及N个收费站组成的东西向的链&#xff0c;我们按照由西向东的顺序将收费…

搭建DNS主、从服务实验

此次我们的口号是&#xff1a;简单、有趣上手DNS服务博主是一个言出必行de好人&#xff0c;&#xff08;正经脸&#xff09;上次转载了有关DNS的基础介绍&#xff0c;此次我们来通过实验搭建DNS服务器从而更好的了解DNS搭建过程如何开始&#xff0c;且听我细细道来首先我们通常…

GDB中应该知道的几个调试方法

七、八年前写过一篇《用GDB调试程序》&#xff0c;于是&#xff0c;从那以后&#xff0c;很多朋友在MSN上以及给我发邮件询问我关于GDB的问题&#xff0c;一直到今天&#xff0c;还有人在问GDB的相关问题。这么多年来&#xff0c;有一些问题是大家反复在问的&#xff0c;一方面…

长沙java技术_长沙如何提高自身的Java技术

长沙如何提高自身的Java技术&#xff1f;Java自发行二十多年来&#xff0c;一直都是开发者的宠儿&#xff0c;在编程界的位置一直十分稳固。虽然Java人才需求量大&#xff0c;薪资水平高&#xff0c;但想要用Java语言胜任企业工作不容易。比如要成为一名Java架构师&#xff0c;…

strcpy与strcat函数原型

1.strcpy函数原型 char *my_strcpy(char *dest,const char *src) //const使在函数中不能修改*src其原先的值{   char *strDest dest; //保存原始的strDest   assert((dest!NULL)&&(src!NULL)); //检验参数&#xff0c;…

CCF 201312-4 有趣的数

试题编号&#xff1a;201312-4试题名称&#xff1a;有趣的数时间限制&#xff1a;1.0s内存限制&#xff1a;256.0MB问题描述&#xff1a; 问题描述我们把一个数称为有趣的&#xff0c;当且仅当&#xff1a;1. 它的数字只包含0, 1, 2, 3&#xff0c;且这四个数字都出现过至少一次…