put方法的源码和相关的细节已经介绍完了,下面我们进入扩容功能的讲解。
一、为什么需要扩容
这个也比较好理解。假设现在HashMap里的元素已经很多了,但是链化比较严重,即便树化了,查询效率也是O(logN),肯定没有O(1)好,所以需要扩容来降低Hash冲突的概率,提高性能。
二、触发扩容的临界
我们知道,当++size>threshold条件成立时,就会调用resize()方法进行扩容。
ps:不明白的可以去看看第2讲——put方法源码。
三、扩容流程图
我们先看下扩容的流程图,更直观一点:
ps:图片看不清的可以把它下载到本地哦~
总结一下,扩容具体涉及以下三个部分:
如果某桶节点没有形成链表,则直接rehash到其它桶中。
如果桶中的链表已经形成红黑树,将原红黑树节点根据e.hash & oldCap==0条件将原红黑树分为两个红黑树,一部分放在原索引位置,另一部分放在原索引位置+原数组长度位置,且如果最后的结果节点个数小于等于6就转为链表。
如果桶中形成链表,则将链表重新连接:也是根据e.hash & oldCap==0条件将原链表分为两个链表,一部分放在原索引位置,另一部分放在原索引位置+原数组长度位置。
ps:更具体的可以看下面的源码注释
四、源码注释
看之前先看几个重要的参数:
//临界值,当实际大小(容量*负载因子)超过这个值,会进行扩容
int threshold;
//最大长度为2^30
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认容量
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16//默认的负载因子为0.75
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//加载因子,默认为0.75
final float loadFactor;//存储元素的数组,总是2^n
transient Node<K,V>[] table;
源码注释:
final Node<K,V>[] resize() {//原数组Node<K,V>[] oldTab = table;//原数组容量,为0说明是第一次初始化,反之扩容int oldCap = (oldTab == null) ? 0 : oldTab.length;//临界值,当实际大小(容量*负载因子)超过这个值,会进行扩容int oldThr = threshold;//newCap:新数组长度 newThr:新扩容阈值(threshlod)int newCap, newThr = 0;if (oldCap > 0) {//说明需要扩容if (oldCap >= MAXIMUM_CAPACITY) {//容量超过上限,无法再扩容,直接返回threshold = Integer.MAX_VALUE;return oldTab;}//新数组为原来的2倍 newCap = oldCap << 1else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&oldCap >= DEFAULT_INITIAL_CAPACITY)//说明新数组长度小于Interger最大值,且原数组长度大于16//扩容阈值修改为原来的两倍newThr = oldThr << 1; // double threshold}//ps:下面的两个else说明是要初始化数组else if (oldThr > 0) // initial capacity was placed in threshold//说明new HashMap(length)时设置了长度//那么新数组长度就是threshold(这个可以看我文章的第4讲)newCap = oldThr;else { // zero initial threshold signifies using defaults//这是没指定长度,新数组长度为16newCap = DEFAULT_INITIAL_CAPACITY;//扩容阈值为16*0.75=12newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);}if (newThr == 0) {//说明初始化时指定了长度,但小于16(此时需要计算阈值)float ft = (float)newCap * loadFactor;newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?(int)ft : Integer.MAX_VALUE);}//将计算好的新阈值赋给thresholdthreshold = newThr;@SuppressWarnings({"rawtypes","unchecked"})//初始化新Node数组Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];table = newTab;if (oldTab != null) {//ps:这是要进行真正的扩容了for (int j = 0; j < oldCap; ++j) {//遍历老数组Node<K,V> e;if ((e = oldTab[j]) != null) {//ps:当前位置有元素//将当前位置置空oldTab[j] = null;if (e.next == null)//只有一个元素,说明还没链化。//将该元素进行rehashnewTab[e.hash & (newCap - 1)] = e;else if (e instanceof TreeNode)//ps:已经树化。这里就简单概括下//把原tree一分为二,分别放到原数组位置和原数组长度+索引位置//这两部分:如果元素数量小于等于6个就转为链表((TreeNode<K,V>)e).split(this, newTab, j, oldCap);else { // preserve order//ps:链化//也是一份为二,lo:原索引位置,hi:索引位置+原数组长度位置Node<K,V> loHead = null, loTail = null;Node<K,V> hiHead = null, hiTail = null;Node<K,V> next;do {next = e.next;//ps:根据e.hash & oldCap分类if ((e.hash & oldCap) == 0) {if (loTail == null)loHead = e;elseloTail.next = e;loTail = e;}else {
if (hiTail == null)hiHead = e;elsehiTail.next = e;hiTail = e;}} while ((e = next) != null);if (loTail != null) {//原数组位置loTail.next = null;newTab[j] = loHead;}if (hiTail != null) {//原数组长度+索引 位置hiTail.next = null;newTab[j + oldCap] = hiHead;}}}}}return newTab;
}
五、为什么负载因子默认是0.75
我们知道当HashMap容量大于threshlod(阈值)时,会触发扩容操作,而threshlod=负载因子(loadFactory)*容量(capacity)。
loadFactory默认值为0.75(不会轻易修改),也就是当HashMap中元素个数达到容量的3/4时会进行自动扩容,那么为什么是负载因子为什么默认是0.75呢?
这里JDK官方文档中那个也给出了原因,大概意思是:
一般来说,默认负载因子(0.75)在时间和空间成本之间提供了很好的权衡。更高的值减少了空间开销,但增加了查找成本(在HashMap大多数操作中,包括get和put)。
我们可以逆向假设下:假设负载因子为1,也就是达到最大容量时再扩容,那么在HashMap中,最好的情况是这16个元素分别落在16个桶中,否则就必然会发生hash碰撞,而且元素越多,碰撞的几率就越大,查找速度也会越低,显然不合理。
所以负载因子不能太大,不然会导致大量的hash冲突,也不能太小,那样会浪费空间。
题外话:
Stack Overflor有一篇文章通过一个公式计算出负载因子值得最佳选择是在0.693,也就是0.7左右。
那为啥最终选择的是0.75呢?因为threshold=loadFactory*capacity,其中capacity永远是2^n,为了保证它俩乘积是个整数,因为0.75和任何2^n(n>1)乘积都是整数,所以才选择了0.75。
End:希望对大家有所帮助,如果有纰漏或者更好的想法,请您一定不要吝啬你的赐教🙋。