这篇文章我们来讲一下哈希表中较为关键的部分——哈希算法
目录
1.哈希算法的介绍
2.hash算法的使用
2.1 Object.hashCode
2.2 String.hashCode
3.关于哈希表及哈希算法的一些思考
1.哈希算法的介绍
问题:什么是哈希算法?哈希算法有哪些?
答:hash算法是一种将任意长度的数据通过一个算法,变成固定长度数据的过程,这个固定长度的数据就是hash值。hash算法可以将任意大小的数据压缩到固定大小的值。常见的hash算法有MD5、SHA1、SHA256、SHA512、CRC32等。其中,MD5和SHA系列算法是最常用的hash算法。这些算法在计算hash值时,都考虑了原始数据的每一个字节,一旦改动原始数据的任何一个字节,所得到的hash值都会有明显的不同。因此,hash算法被广泛应用于数据完整性校验和加密等方面。
简单来说:hash算法是给任意对象,分配一个编号的过程,其中编号是一个有限范围内的数字(如int范围内)
哈希算法有时也被称为摘要算法、散列算法。
2.hash算法的使用
下面看一下hash算法的使用
2.1 Object.hashCode
常用的哈希算法就是Object.hashCode了,如下图所示:
然后看一下每个对象的hash码:
那么对应到我们hash表的程序中就可以这样使用:
这个就没什么好说的了,很基础的东西,但是能体现出Java的思想。
2.2 String.hashCode
上面介绍了Object.hashCode,但是我们不是经常使用它,而是使用另一个hashCode
为什么呢?下面来看一下例子:
如上图所示,s1和s2是两个不一样的对象,因为我s2用了new关键字。但是这两个String类型的对象中存的值是一样的,如果按照Object的hashCode来理解,这两个对象的哈希码是不一样的,因为对象是不一样的,但是它两的实际结果是一样的。
下面看一下String.hashCode里面的哈希码生成方式:
当然,也可以直接看源码:
这些都没啥好说的。
3.关于哈希表及哈希算法的一些思考
问题1:什么是哈希冲突?怎么解决哈希冲突
答:这个问题回答起来比较多,我会单独出一篇文章来解答
问题2:我们的代码里使用了尾插法,如果改成头插法会怎样呢?
答:jdk里面的Hashtable用的就是头插法,1.8以前的HashMap用的是头插法,1.8以后的HashMap用的是尾插法。其实头插尾插并没有什么区别。但是要注意,在多线程的情况下,头插法会出现一种死循环的问题。
问题3:JDK的HashMap中采用了将对象hashCode高低位相互异或的方式减少冲突,怎么理解这个?
答:这个就涉及到底层的数学运算了,数学性很强,要进行演算的,这里就不多说了,记住这个问题就好了。
问题4:我们的HashTable中表格容量是2的n 次方,很多优化都是基于这个前提,能否不用2的n 次方作为表格容量?
答:可以,但是性能会下降。因为我们的很多计算哈希码的算法的优化都是基于数组长度是2的n次方进行优化的,如果不用2的n次方,那么这些优化就做不了。
问题5:JDK的 HashMap在链表长度过长时会转换成红黑树,对此你怎么看
答:我用电脑看。。。。其实这个操作主要是防患于未然,避免有人用恶意的哈希数据来攻击你的服务器,这些值的哈希码会大量冲突,而一旦冲突了,你的服务器的性能就会降低。这时,将链表转换为红黑树就能避免这种情况。一般情况下,链表的长度不会过程,在前面的实验中也可以看到,20万的数据,长度为6的链表只有2个,没有长度为7的,长度为5的也才十几个。基本上只要出现长度超过8的链表,就可以判定这些数据是恶意攻击的数据了。