文章目录
- 哈希表概述
- 哈希表详解
- 什么是 Hash 冲突
- 哈希冲突的常见解决方法
- HashMap 如何解决 Hash 冲突的
哈希表概述
哈希表(Hash Table)是一种数据结构,用于实现键值对的存储和快速检索。它通过将键映射到数组的索引位置来实现高效的查找操作。哈希表通常由一个数组和一个哈希函数组成,哈希函数用于将键映射到数组索引位置。
下面是哈希表的一些重要特点和详细解释:
- 哈希函数:哈希函数是哈希表的核心,它接受一个键作为输入,并输出该键对应的哈希值。好的哈希函数应该能够将键均匀地映射到数组的不同位置,减少哈希冲突的发生。
- 数组:哈希表的底层数据结构通常是一个数组,每个数组元素称为“桶”或“槽”,用于存储键值对。
- 哈希冲突:当不同的键经过哈希函数映射到相同的数组索引位置时,就会发生哈希冲突。解决哈希冲突是设计哈希表时需要考虑的重要问题。
- 解决哈希冲突的方法:常见的方法包括链地址法(Chaining)和开放定址法(Open Addressing)。链地址法将哈希表中的每个位置设置为一个链表或其他数据结构,用于存储冲突的元素;开放定址法在发生哈希冲突时,通过一定的规则寻找下一个可用的位置来存储冲突的元素。
- 时间复杂度:哈希表具有非常快的平均时间复杂度,对于插入、删除和搜索操作,平均情况下可以达到 O(1) 的时间复杂度。
- 应用:哈希表被广泛应用于编程中,如实现关联数组、缓存、数据库索引等。
总之,哈希表是一种非常重要且高效的数据结构,对于存储大量键值对并需要快速检索的场景下具有很大的优势。设计合适的哈希函数和解决哈希冲突的方法是哈希表设计的关键。
哈希表详解
散列表(Hash table,也叫哈希表)是一种查找算法,与链表、树等算法不同的是,散列表算法
在查找时不需要进行一系列和关键字(关键字是数据元素中某个数据项的值,用以标识一个数据元素)的比较操作。
散列表算法希望能尽量做到不经过任何比较,通过一次存取就能得到所查找的数据元素,因而必须要在数据元素的存储位置和它的关键字(可用 key 表示)之间建立一个确定的对应关系,使每个关键字和散列表中一个唯一的存储位置相对应。因此在查找时,只要根据这个对应关系找到给定关键字在散列表中的位置即可。这种对应关系被称为散列函数(可用 h(key)表示)。
用的构造散列函数的方法有:
(1)直接定址法: 取关键字或关键字的某个线性函数值为散列地址。
即:h(key) = key 或 h(key) = a * key + b,其中 a 和 b 为常数。
(2)数字分析法
(3)平方取值法: 取关键字平方后的中间几位为散列地址。
(4)折叠法:将关键字分割成位数相同的几部分,然后取这几部分的叠加和作为散列地址。
(5)除留余数法:取关键字被某个不大于散列表表长 m 的数 p 除后所得的余数为散列地址,即:h(key) = key MOD p p ≤ m
(6)随机数法:选择一个随机函数,取关键字的随机函数值为它的散列地址,
即:h(key) = random(key)
哈希表和散列表其实是同一个数据结构的不同称呼。哈希表(Hash Table)是一种基于哈希函数实现的数据结构,用于快速存储和检索键值对。而散列表(Hash Table)则是哈希表的另一种称呼,通常也指使用哈希函数将键映射到存储桶的数据结构。因此,哈希表和散列表在计算机科学中通常是可以互换使用的术语。
哈希表是基于数组的一种存储方式.它主要由哈希函数和数组构成。当要存储一个数据的时候,首先用一个函数计算数据的地址,然后再将数据存进指定地址位置的数组里面。这个函数就是哈希函数,而这个数组就是哈希表。
哈希冲突是指哈希函数算出来的地址被别的元素占用了,也就是,这个位置有人了。好的哈希函数会尽量避免哈希冲突。
什么是 Hash 冲突
Key 值不同 但是 hashcode 值相等
== 对于基本类型来说是值比较,对于引用类型来说是比较的是引用;而 equals 默认情况下是引用比较,只是很多类重新了 equals 方法,比如 String、Integer 等把它变成了值比较,所以一般情况下 equals 比较的是值是否相等。
equals 和== 最大的区别是一个是方法,一个是运算符。
==:如果比较的对象是基本数据类型,则比较的是数值是否相等;如果比较的是引用数据类型,则比较的是对象的地址值是否相等。
equals():用来比较方法两个对象的内容是否相等。
注意:equals 方法不能用于基本数据类型的变量,如果没有对 equals 方法进行重写,则比较的是引用类型的变量所指向的对象的地址。
就是不同数据hash算法计算出来的结果可能是相同的,那么不同的数据就会放在同一个下标位置。
哈希冲突是指在使用哈希函数将不同的输入映射到相同的哈希值时发生的现象。哈希函数通常用于将大量的数据映射到有限的地址空间,比如将键映射到哈希表的索引位置。由于输入的数量远远大于哈希表的大小,所以不同的输入可能会被映射到相同的哈希表位置。
当两个不同的键经过哈希函数后得到相同的哈希值时,就会产生哈希冲突。这种情况下,如果没有合适的处理方法,就会导致数据的覆盖或者查找数据时出现错误的结果。
哈希冲突的常见解决方法
- 链地址法(Chaining):将哈希表中的每个位置设置为一个链表或者其他数据结构,当发生哈希冲突时,将冲突的元素存储在同一位置的链表中。这是一种非常常见的方法,简单理解就是把存在hash冲突的key,以单向链表的方式来存储。
将所有关键字为同义词的结点链接在同一个单链表中。若选定的散列表长度为m,则可将散列表定义为一个由m个头指针组成的指针数 组T[0…m-1]。凡是散列地址为i的结点,均插入到以T[i]为头指针的单链表中。T中各分量的初值均应为空指针。 - 开放定址法(Open Addressing):在发生哈希冲突时,通过一定的规则寻找下一个可用的位置来存储冲突的元素,如线性探测、二次探测等。包含线性探测、平方探测等等,就是从发生冲突的那个位置开始,按照一定的次序从hash表中找到一个空闲的位置,然后把发生冲突的元素存入到这个空闲位置中。ThreadLocal就用到了线性探测法来解决hash冲突的。
当冲突发生时,使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找,直到找到给定的关键字,或者碰到一个开放的地址(即该地址单元为空)为止(若要插入,在探查到开放的地址,则可将待插入的新结点存人该地址单元)。查找时探查到开放的 地址则表明表中无待查的关键字,即查找失败。
3.建立公共溢出区, 就是把hash表分为基本表和溢出表两个部分,凡事存在冲突的元素,一律放入到溢出表中
4.再hash法,就是当通过某个hash函数计算的key存在冲突时,再用另外一个hash函数对这个key做hash,一直运算直到不再产生冲突。这种方式会增加计算时间,性能影响较大。
选择合适的解决哈希冲突的方法对于设计高效的哈希表至关重要,不同的方法适合不同的应用场景和需求。
HashMap 如何解决 Hash 冲突的
通过引入单向链表来解决 Hash 冲突。当出现 Hash 冲突时,比较新老 key 值是否相等,
如果相等,新值覆盖旧值。如果不相等,新值会存入新的 Node 结点,指向老节点,形成链式结构,即链表。
当 Hash 冲突发生频繁的时候,会导致链表长度过长,以致检索效率低,所以 JDK1.8 之后引入了红黑树,当链表长度大于 8 时,链表会转换成红黑书,以此提高查询性能。
因为发生 hash 冲突的时候,会在链表上新增节点,但是链表过长的话会影响检索效率,引入红黑树可以提高插入和查询的效率。
HashMap就是通过链式寻址法来解决的,但是链式地址有个问题:当链表过长的时候,会影响查询性能,所以在HashMap里,当链表长度大于8的时候,会转为红黑树,提升查询性能。但是树在添加数据的时候也会有树的分裂合并,所以在树节点小于6的时候,又会转为链表这个 是我对HashMap哈希冲突的理解
首先,我们得知道下HashMap的存储方式,HashMap是k-v的数据结构, 底层是一个entry数组的数据结构, 并且根据key计算出一个hash值,取模entry数组长度-1,得到一个下标位置来存储数据。
简单总结一下 HashMap 是使用了哪些方法来有效解决哈希冲突的
- 使用链地址法(使用散列表)来链接拥有相同 hash 值的数据;
- 使用 2 次扰动函数(hash 函数)来降低哈希冲突的概率,使得数据分布更平均;
- 引入红黑树进一步降低遍历的时间复杂度,使得遍历更快