HashMap
前言:
本文的hashMap是基于jdk1.7的hashMap.
关于jdk1.8的hashMap在另一篇中,那里将会介绍与1.7的差异与优势
首先基础知识介绍:
1.HashMap的成员变量
int DEFAULT_INITIAL_CAPACITY = 16:默认的初始容量为2 ^ 4
int MAXIMUM_CAPACITY = 1 << 30:最大的容量为 2 ^ 30
float DEFAULT_LOAD_FACTOR = 0.75f:默认的加载因子为 0.75f
Entry< K,V>[] table:Entry类型的数组,HashMap用这个来维护内部的数据结构,它的长度由容量决定
int size:HashMap的大小
int threshold:HashMap的极限容量,扩容临界点(容量和加载因子的乘积),默认为12
2.HashMap的构造函数
public HashMap():构造一个具有默认初始容量 (16) 和默认加载因子 (0.75) 的空 HashMap
public HashMap(int initialCapacity):构造一个带指定初始容量和默认加载因子 (0.75) 的空 HashMap
public HashMap(int initialCapacity, float loadFactor):构造一个带指定初始容量和加载因子的空 HashMap
public HashMap(Map< ? extends K, ? extends V> m):构造一个映射关系与指定 Map 相同的新 HashMap
3.HashMap的数据结构
要知道hashmap是什么,首先要搞清楚它的数据结构,在java编程语言中,最基本的结构就是两种,一个是数组,另外一个是模拟指针(引用),所有的数据结构都可以用这两个基本结构来构造的,hashmap也不例外。Hashmap实际上是一个数组和链表的结合体(在数据结构中,一般称之为“链表散列“),请看下图(纵排表示数组,横排表示数组元素【实际上是一个链表】)。
从图中我们可以看到一个hashmap就是一个数组结构,当新建一个hashmap的时候,就会初始化一个数组。
4.hashMap的put逻辑
首先put有两个入参,我们拟定叫k和v,
提前申明上图中的纵列,我们也叫hash表,也称table,table[index]表示下标为index的bucket(这里的bucket可能是多个entry,比如上图的第一行,有4个)
1).根据k算出hash值(这个hash方法,可以说是整个hashMap的精华所在,后面讲)
2).根据这个hash值,算出index下标(这里算的地方很巧妙,Entry数组的大小规定为2的幂就是为了能够使用这个算法来确定数组的下标,具体实现后面讲)
3).如果找不到该下标对应的entry,就新建一个entry(新建entry涉及到扩容,后面讲)
4),如果找到了该下标,就在对应的多个entry中找对应k的entry,找到就替换这个entry的value,找不到就新建一个entry
注意:hash表的初始化过程,并不是在new HashMap的时候执行的,而是在第一次push的时候执行的
5.hash表的初始化
初始化方法内部会重新计算Entry数组的容量,因为在构造HashMap时传入的初始化大小可能不是2的幂(前面有提到,hashMap的构造函数,忘了快去看…),因此要将这个数转换成2的幂再去根据新的容量新建Entry数组。初始化哈希表时再次重新设置阀值,阀值一般是capacity*loadFactor。
此外,在初始化哈希表时还会去初始化哈希种子(hashSeed),这个hashSeed用于优化哈希函数,默认为0是不使用替代哈希算法,但是也可以自己去设置hashSeed的值,以达到优化效果。
6.entry新建与扩容
新建一个Entry之前会先判断当前集合元素的大小是否超过了阀值,如果超过了阀值并且当前entry所在位置不为空,就调用resize进行扩容。传入的新的容量是原来哈希表的两倍,在resize方法内部会新建一个容量为原先的2倍的Entry数组。然后将旧的哈希表里面的元素全部迁移到新的哈希表,其中可能会进行再哈希,根据initHashSeedAsNeeded方法计算的值来确定是否进行再哈希。完成哈希表的迁移之后,将当前哈希表替换为新的,最后再根据新的哈希表容量来重新计算HashMap的阀值。
很明显,扩容步骤很多,操作很多,所以我们要合理的设置初始容量,尽量要避免这种扩容
7.如何根据hash值,算出index下标
indexFor方法是根据hash码来计算出在数组中对应的下标。我们可以看到在这个方法内部使用了与(&)操作符。与操作是对两个操作数进行位运算,如果对应的两个位都为1,结果才为1,否则为0。与操作经常会用于去除操作数的高位值,例如:01011010 & 00001111 = 00001010。
//返回哈希码对应的数组下标
static int indexFor(int h, int length) {return h & (length-1);
}
已知传入的length是Entry数组的长度,我们知道数组下标是从0开始计算的,所以数组的最大下标为length-1.如果length为2的幂,那么length-1的二进制位后面都为1.这时h&(length-1)的作用就是去掉了h的高位值,只留下h的低位值来作为数组的下标.由此可以看到Entry数组的大小规定为2的幂就是为了能够使用这个算法来确定数组的下标.
8.计算hash
这个先上源码
final int hash(Object k) {int h = hashSeed;if (0 != h && k instanceof String) {return sun.misc.Hashing.stringHash32((String) k);}h ^= k.hashCode();h ^= (h >>> 20) ^ (h >>> 12);return h ^ (h >>> 7) ^ (h >>> 4);}
hash方法的最后两行是真正计算hash值的算法,计算hash码的算法被称为扰动函数,所谓的扰动函数就是把所有东西杂糅到一起,可以看到这里使用了四个向右移位运算.目的就是将h的高位值与低位值混合一下,以此增加低位值的随机性.在上面我们知道定位数组的下标是根据hash码的低位值来确定的.key的hash码是通过hashCode方法来生成的,而一个糟糕的hashCode方法生成的hash码的低位值可能会有很大的重复.为了使得hash码在数组上映射的比较均匀,扰动函数就派上用场了,把高位值的特性糅合进低位值,增加低位值的随机性,从而使散列分布的更加松散,以此提高性能.下图举了个例子帮助理解.
9.hashMap的get逻辑
1).如果key为null,求null键
2).调用hash(key)求得key的hash值,然后调用indexFor(hash)求得hash值对应的table的索引位置,然后遍历索引位置的链表,如果存在key,则把key对应的Entry返回,否则返回null
**注意:**这里经常会有人问:如果两个key的hashcode一样,那么会怎么取.其实只要记住,相同的hashcode的entry会放在同一个位置,这个位置可能会有多个entry形成链表,每个entry存储key,value值,所以再用key找到对应的entry,就能拿到真正要的value了.
其实,在整个get方法中,key是被用了两次,一次是用来计算hash值,为了找到bucket位置(哪一行(每行有多个value)),另外一次是找到某行后,用在寻找具体的某一个entry,从而拿到真正的value.
10.为什么hashMap是线程不安全的
一句话解释:当多线程的情况下,扩容过程可能产生条件竞争(race condition),可能会带来循环链表,导致死循环致使线程挂掉.
慢慢解释:如果两个线程都发现HashMap需要重新调整大小了,它们会同时试着调整大小.在调整大小的过程中,存储在链表中的元素的次序会反过来,因为移动到新的bucket位置的时候,HashMap并不会将元素放在链表的尾部,而是放在头部,这是为了避免尾部遍历(tail traversing).如果条件竞争发生了,就可能存在链表末尾的元素的next指针指向了链表头,循环链表就出现了.按道理,HashMap是不存在循环链表的,当我们调用get()这个链表中不存在的元素的时候,那么就死循环了.
注:hashTable是线程安全的,但它并未使用分段锁,而是锁住整个数组,高并发环境下效率非常的低,会导致大量线程等待.因此并发环境下,建议使用Java.util.concurrent包中的ConcurrentHashMap以保证线程安全.
最后附带成员变量源码的简单解释(可自己参照源码对比,效果更好)
/*** The default initial capacity - MUST be a power of two.* 默认初始容量(16)*/static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16/*** The maximum capacity, used if a higher value is implicitly specified* by either of the constructors with arguments.* MUST be a power of two <= 1<<30.* 默认最大容量*/static final int MAXIMUM_CAPACITY = 1 << 30;/*** The load factor used when none specified in constructor.* 默认加载因子, 指哈希表可以达到多满的尺度*/static final float DEFAULT_LOAD_FACTOR = 0.75f;/*** An empty table instance to share when the table is not inflated.* 空的哈希表*/static final Entry<?,?>[] EMPTY_TABLE = {};/*** The table, resized as necessary. Length MUST Always be a power of two.* 实际使用的哈希表* 其实是一个Entry数组,Entry是HashMap的静态内部类*/transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;/*** The number of key-value mappings contained in this map.* HashMap大小, 即HashMap存储的键值对数量*/transient int size;/*** The next size value at which to resize (capacity * load factor).* 键值对的阈值, 用于判断是否需要扩增哈希表容量* 默认是初始容量*加载因子,也就是16*0.75=12* 当键值对超过阈值,会触发自动扩容机制*/// If table == EMPTY_TABLE then this is the initial capacity at which the// table will be created when inflated.int threshold;/*** The load factor for the hash table.* 加载因子*/final float loadFactor;/*** The number of times this HashMap has been structurally modified* Structural modifications are those that change the number of mappings in* the HashMap or otherwise modify its internal structure (e.g.,* rehash). This field is used to make iterators on Collection-views of* the HashMap fail-fast. (See ConcurrentModificationException).* 修改次数, 用于fail-fast机制*/transient int modCount;/*** The default threshold of map capacity above which alternative hashing is* used for String keys. Alternative hashing reduces the incidence of* collisions due to weak hash code calculation for String keys.* <p/>* This value may be overridden by defining the system property* {@code jdk.map.althashing.threshold}. A property value of {@code 1}* forces alternative hashing to be used at all times whereas* {@code -1} value ensures that alternative hashing is never used.* 使用替代哈希的默认阀值*/static final int ALTERNATIVE_HASHING_THRESHOLD_DEFAULT = Integer.MAX_VALUE;/*** A randomizing value associated with this instance that is applied to* hash code of keys to make hash collisions harder to find. If 0 then* alternative hashing is disabled.* 随机的哈希种子, 有助于减少哈希碰撞的次数*/transient int hashSeed = 0;