C++ hashtable

文章目录

      • 1. 基本概念
      • 2. 哈希函数
      • 3. 哈希冲突及解决方法
      • 开放定址法
      • 链地址法
      • 再哈希法
      • 建立公共溢出区
      • 4. 哈希表的操作实现
      • 5. 内存管理及优化
    • 时间复杂度
      • 理想情况(无哈希冲突或冲突极少)
      • 一般情况(考虑哈希冲突及解决方法)
      • 综合来看

以下是关于哈希表(Hashtable)实现原理的详细介绍:

1. 基本概念

哈希表是一种数据结构,它提供了快速的插入、查找和删除操作,其核心思想是通过一个哈希函数(Hash Function)将数据的关键键(Key)映射为一个固定长度的哈希值(Hash Value),然后利用这个哈希值来确定数据在表中的存储位置,也就是索引(Index)。

2. 哈希函数

  • 作用
    哈希函数负责把各种各样的输入键(通常键的数据类型多样,比如整数、字符串等)转化为一个相对固定范围的整数(哈希值)。理想的哈希函数应该具有以下特性:
    • 确定性:对于相同的输入键,每次计算得到的哈希值都应该相同,保证数据能准确存储和查找。
    • 均匀分布性:尽可能使不同的输入键均匀地映射到哈希表的各个存储位置上,避免出现大量数据集中映射到少数几个位置(即哈希冲突)的情况。
    • 高效性:能够快速地计算出哈希值,减少计算时间成本。
  • 示例
    • 对于整数键,简单的取模运算可以作为一种哈希函数,比如 hash(key) = key % table_size,这里 table_size 是哈希表的大小(即存储位置的总数)。
    • 对于字符串键,一种常见的做法是将字符串中每个字符的ASCII码值进行加权求和后再取模,例如:
int hash(const std::string& key){int hash_value = 0;for (size_t i = 0; i < key.length(); ++i) {hash_value += (int)key[i] * (i + 1);}return hash_value % table_size;
}

3. 哈希冲突及解决方法

以下是几种常见的解决哈希冲突的方法:

开放定址法

  • 基本原理
    当通过哈希函数计算得到的存储位置已经被占用(即发生哈希冲突)时,按照某种探测规则在哈希表中寻找下一个空闲的存储位置来存放冲突的数据。

  • 具体方式

    • 线性探测
      • 探测规则:在发生冲突后,依次从冲突位置往后顺序查找空闲的存储位置,也就是以固定的步长(通常为1)逐个探测后续的位置。例如,假设哈希表的大小为10,哈希函数计算出某个键对应的哈希值为3,但位置3已被占用,那么就依次检查位置4、5、6……直到找到空闲位置存放该键值对。
      • 优点:实现简单,易于理解和编码实现,不需要额外的数据结构来辅助解决冲突。
      • 缺点:容易出现数据堆积现象,也就是连续的多个键值对可能因为冲突而聚集在一起,形成较长的“聚集链”,这会导致后续的查找、插入操作效率降低,特别是在哈希表比较满的时候更为明显。例如,若很多键值对经过哈希函数计算后初始哈希值都集中在某个范围,后续采用线性探测时就容易在这一范围附近堆积大量数据。
    • 二次探测
      • 探测规则:在发生冲突后,按照与冲突位置的距离呈二次函数关系的顺序去寻找空闲位置。通常先探测与冲突位置间隔为 (12)、(22)、(3^2) 等的位置,即若初始哈希值为 (h),第一次探测位置为 (h + 1^2),第二次探测位置为 (h + 2^2),以此类推(也可以采用类似 (h - 1^2)、(h - 2^2) 等向前探测的方式)。例如,哈希值为5的位置冲突了,先探测 (5 + 1^2 = 6) 位置,若不行再探测 (5 + 2^2 = 9) 位置等。
      • 优点:相对线性探测而言,在一定程度上能够避免数据过度堆积的问题,使得数据在哈希表中的分布更均匀一些,从而提高查找和插入操作的效率。
      • 缺点:不能完全消除数据堆积的情况,而且计算探测位置的过程相对复杂一点,需要进行更多的计算,增加了一定的时间成本;另外,在哈希表快满时,二次探测的效果也会大打折扣,甚至可能出现无法找到空闲位置的情况(尽管这种情况相对少见)。
    • 双重哈希
      • 探测规则:使用两个不同的哈希函数 (h_1(key)) 和 (h_2(key)),当发生冲突时,通过公式 (h(key) = (h_1(key) + i \times h_2(key)) % table_size)(其中 (i) 为探测次数,从 (0) 开始递增,(table_size) 为哈希表的大小)来确定后续的探测位置。例如,第一个哈希函数计算出初始哈希值为 (3),第二个哈希函数计算出值为 (2),当冲突发生时,第一次探测位置是 ((3 + 0 \times 2) % table_size),第二次探测位置是 ((3 + 1 \times 2) % table_size) 等。
      • 优点:通过两个哈希函数的配合,能更有效地避免数据堆积,使数据在哈希表中的分布更加均匀,在合适的参数选择下,可以获得较好的查找和插入性能。
      • 缺点:需要设计和维护两个哈希函数,增加了代码实现的复杂性和计算开销;并且要合理选择两个哈希函数,否则可能达不到预期的效果,甚至可能出现循环探测找不到空闲位置的问题(不过通过合适的设计可以尽量避免这种情况)。

链地址法

  • 基本原理
    把哈希值相同的数据(键值对)用链表连接起来,形成一个个“桶”。当有新的数据产生哈希冲突时,就将其添加到对应哈希值所在的链表末尾。每个链表可以看作是一个存储具有相同哈希值的键值对的集合。

  • 优点

    • 实现相对简单,易于理解和编码实现,只需要在哈希表的基础上额外维护链表结构即可。
    • 处理冲突的效率较高,对于插入操作,只要找到对应的链表头,然后在链表末尾添加新节点即可;查找操作也是先定位到对应的链表,再在链表中顺序查找目标数据,平均查找时间复杂度取决于链表的长度,在链表长度较短时,性能较好。
    • 不会像开放定址法那样出现数据堆积影响整个哈希表性能的问题,因为每个链表相对独立,即使某个哈希值对应的链表较长,对其他哈希值对应的链表以及整个哈希表的其他操作影响不大。
  • 缺点
    需要额外的内存空间来存储链表节点,如果哈希表中存在大量的哈希冲突,导致某些链表很长,那么除了存储键值对本身的数据内存外,还会消耗较多的链表节点内存,可能在一定程度上影响内存的利用效率;另外,在链表较长时,查找操作的时间复杂度会有所增加,不过可以通过一些优化手段(如将链表转换为更高效的数据结构,像红黑树等,当链表长度超过一定阈值时进行转换)来缓解这个问题。

再哈希法

  • 基本原理
    当发生哈希冲突时,换用另一个哈希函数重新计算哈希值,期望通过新的哈希函数能够得到一个空闲的存储位置。如果新的哈希值仍然冲突,就继续更换哈希函数再次计算,直到找到空闲位置或者达到设定的最大尝试次数等限制条件为止。

  • 优点
    可以根据不同的冲突情况灵活选择不同的哈希函数来优化数据的存储位置,有可能找到更合适的、分布更均匀的存储方式,减少冲突带来的影响。

  • 缺点
    需要准备多个不同的哈希函数,增加了代码的复杂性和维护成本;而且频繁更换哈希函数会带来较高的计算开销,尤其是如果尝试多次都无法有效解决冲突时,会严重影响哈希表操作的整体效率;此外,很难保证换用的哈希函数一定能找到空闲位置,可能陷入不断尝试却始终无法妥善解决冲突的困境。

建立公共溢出区

  • 基本原理
    在哈希表之外,额外开辟一块连续的存储区域作为公共溢出区。当发生哈希冲突时,将冲突的数据统一存放到这个公共溢出区中,可以通过记录指针或者索引等方式来关联原哈希表中的位置和公共溢出区中的存储位置,便于后续查找等操作。

  • 优点
    能够保证哈希表本身的结构相对简单,不会因为解决冲突而使哈希表内部的存储结构变得复杂,便于对哈希表的其他操作(如遍历等)进行管理;而且对于公共溢出区,可以采用更灵活的存储和管理方式,比如根据数据量动态调整其大小等。

  • 缺点
    增加了额外的存储区域,需要更多的内存空间来支持;查找操作相对复杂一些,需要先在哈希表中查找,如果没找到再去公共溢出区查找,增加了一次额外的查找步骤,可能会影响查找的效率,尤其是在公共溢出区数据量较大时更为明显。

不同的哈希冲突解决方法各有优缺点,在实际应用中需要根据具体的使用场景、数据特点以及性能要求等因素综合考虑来选择合适的方法。

4. 哈希表的操作实现

  • 插入操作
    • 首先,通过哈希函数计算要插入数据的键对应的哈希值,确定其在哈希表中的大致存储位置。
    • 如果该位置没有数据(不存在哈希冲突),则直接将数据存储在该位置;如果发生哈希冲突,根据所采用的冲突解决方法(如开放定址法进行探测找空闲位置,或者链地址法添加到对应链表末尾等)来妥善放置数据。
  • 查找操作
    • 同样先利用哈希函数算出要查找数据的键对应的哈希值,定位到对应的存储位置或“桶”。
    • 如果是采用开放定址法解决冲突,按照相应的探测规则查找目标数据;如果是链地址法,就在对应的链表中逐个查找,直到找到目标数据或者遍历完链表确定未找到。
  • 删除操作
    • 先通过哈希函数找到目标数据所在位置,再依据冲突解决方式来进行删除。对于开放定址法,要谨慎处理删除后的空闲位置标记等问题,避免影响后续查找等操作的正确性;对于链地址法,直接从链表中删除相应节点即可。

5. 内存管理及优化

  • 在内存中,哈希表的存储结构根据实现方式有所不同。采用开放定址法时,通常就是一个连续的数组结构来存放数据;采用链地址法时,除了有用于存储数据大致位置的数组(存放指向链表头的指针等),还需要为各个链表分配额外的内存空间用于存储节点。
  • 为了优化哈希表的性能,可以根据实际应用场景合理选择哈希函数、冲突解决方法以及哈希表的大小等参数。例如,根据预估的数据量来调整哈希表大小,避免过于频繁的哈希冲突;定期对哈希表进行重构(比如重新计算哈希值、调整存储位置等)来优化数据分布,提高整体效率。

总之,哈希表通过巧妙地运用哈希函数和解决哈希冲突的机制,实现了高效的数据存储、查找和删除操作,在众多领域如数据库、编译器、缓存系统等都有着广泛的应用。

哈希表的时间复杂度在不同操作以及不同情况下有所差异,以下是对其插入、查找和删除操作时间复杂度的详细分析:

时间复杂度

理想情况(无哈希冲突或冲突极少)

  • 插入操作
    在理想状态下,通过哈希函数能将每个键均匀且唯一地映射到哈希表的不同位置,插入操作只需要计算键对应的哈希值,然后将数据存放到对应的位置即可,这个过程通常可以在常数时间 (O(1)) 内完成。例如,有一个足够大且设计良好的哈希表,插入少量不同的键值对时,几乎不会产生哈希冲突,每次插入都能迅速定位到空闲位置进行存储。
  • 查找操作
    同样,当不存在哈希冲突时,查找一个键对应的键值对,只需根据键计算出哈希值,然后直接访问该哈希值对应的位置就能确定是否找到目标,时间复杂度也是 (O(1))。就好比在一个完美的哈希表中找某个元素,一次定位就能知晓结果。
  • 删除操作
    类似于插入和查找操作,若没有哈希冲突,通过哈希值定位到要删除的数据所在位置后,直接进行删除处理,时间复杂度同样为 (O(1))。

一般情况(考虑哈希冲突及解决方法)

  • 开放定址法
    • 插入操作
      平均情况下,插入操作的时间复杂度接近 (O(1)),不过在最坏情况下,如果哈希表接近满或者哈希函数设计不佳导致大量冲突,插入操作可能需要多次探测空闲位置,时间复杂度会退化为 (O(n)),其中 (n) 是哈希表的大小。例如,采用线性探测且不断有数据集中在少数几个哈希值对应的位置附近,插入新数据时可能要线性遍历很长一段已占用的位置去寻找空闲处。
    • 查找操作
      平均情况下,查找操作的时间复杂度大约是 (O(1)),但在最坏情况下,比如数据聚集严重,查找一个键可能需要遍历哈希表中的大部分位置,时间复杂度会达到 (O(n))。
    • 删除操作
      平均时间复杂度接近 (O(1)),然而在最坏情况下,由于要谨慎处理删除后留下的空闲位置(避免影响后续查找等操作的正确性,可能需要对后续数据进行重新整理等操作),时间复杂度也可能退化为 (O(n))。
  • 链地址法
    • 插入操作
      插入操作首先要通过哈希函数定位到对应的链表,这个过程通常是 (O(1)),然后在链表末尾添加节点,平均时间复杂度取决于链表的平均长度,设链表平均长度为 (k),则插入操作的平均时间复杂度为 (O(1 + k)),在链表较短时,可近似看作 (O(1))。例如,一个哈希表采用链地址法,大部分链表长度较短,插入新键值对时找到对应链表后很快就能添加进去。
    • 查找操作
      先通过哈希函数定位到链表是 (O(1)),然后在链表中查找目标键值对,平均时间复杂度同样取决于链表平均长度 (k),为 (O(1 + k)),若 (k) 较小,可认为接近 (O(1)),但在链表很长时,时间复杂度会升高,最坏情况下如果链表长度达到 (n)(哈希表大小),时间复杂度就是 (O(n))。
    • 删除操作
      先定位到链表是 (O(1)),然后在链表中删除相应节点,平均时间复杂度取决于链表平均长度 (k),为 (O(1 + k)),类似查找操作,在不同链表长度情况下表现不同。

综合来看

哈希表在设计良好(哈希函数合理、冲突解决方法得当、哈希表大小合适等)的情况下,插入、查找和删除操作的平均时间复杂度都能接近 (O(1)),这使得它在很多需要快速查找、插入和删除数据的场景中有着广泛的应用。不过在极端或不良的条件下(比如哈希函数选择不当、数据量远超哈希表承载能力等),时间复杂度可能会恶化,所以在实际应用中要综合考虑各方面因素来优化哈希表的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/65590.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习使用Anaconda打开Jupyter Notebook编码

新手入门深度学习使用Anaconda打开Jupyter Notebook编码 1. 安装Anaconda 第一种是Anaconda官网下载安装包&#xff0c;但是很慢&#xff0c;不太建议 第二种使用国内清华大学镜像源下载 选择适合自己电脑的版本&#xff0c;支持windows&#xff0c;linux系统 下载完之后自行…

GDPU Vue前端框架开发 跨年大礼包

记住&#xff0c;年底陪你跨年的不会仅是方便面跟你的闺蜜&#xff0c;还有孑的笔记。 选择题 1.下列选项用于设置Vue.js页面视图的元素是&#xff08;&#xff09;。 A. Template B. script C. style D. title 2.下列选项中能够定义Vuejs根实例对象的元素是&#xff08;&…

vue 中 ref 详解

一、定义与基本用法 1. 定义 在 Vue.js 中&#xff0c;ref是一个用于在组件中获取 DOM 元素或者子组件实例引用的属性。它提供了一种直接访问元素或组件的方式&#xff0c;使得我们可以在 JavaScript 代码中对它们进行操作。 2. 基本使用 在模板中&#xff0c;可以通过给元…

MacOS 命令行详解使用教程

本章讲述MacOs命令行详解的使用教程&#xff0c;感谢大家观看。 本人博客:如烟花般绚烂却又稍纵即逝的主页 MacOs命令行前言&#xff1a; 在 macOS 上,Terminal&#xff08;终端) 是一个功能强大的工具&#xff0c;它允许用户通过命令行直接与系统交互。本教程将详细介绍 macOS…

【数据结构】线性数据结构——链表

1. 定义 链表是一种线性数据结构&#xff0c;由多个节点&#xff08;Node&#xff09;组成。每个节点存储数据和指向下一个节点的指针。与数组不同&#xff0c;链表的节点不需要在内存中连续存储。 2. 特点 动态存储&#xff1a; 链表的大小不固定&#xff0c;可以动态增加或…

WPF 样式

WPF 有自己的样式设置系统&#xff0c;也自带类似 Winform 的默认样式。默认样式比较一般&#xff0c;我们可以使用下面几种方式自定义好看的 wpf 样式。 1. 本地直接设置 比如更改按钮的背景色和字体颜色&#xff0c; <Grid><StackPanel Orientation"Horizon…

WOFOST作物模型(3):敏感性分析

目录 一、定义参数范围二、采样生成参数样本三、运行不同参数组下的WOFOST四、计算敏感度与可视化1.敏感度2.二阶交互敏感度五、敏感变量对产量的影响结果可视化一、定义参数范围 使用TAGP(Total Above Ground Production),地上总产量 TSUM1,temperature sum from emergence…

小程序笔记

1.小程序全局配置app.json {"pages":["pages/index/index","pages/logs/logs"],"window":{"backgroundTextStyle":"light","navigationBarBackgroundColor": "#fff","navigationBarTit…

Isaac Sim Docker 中使用 Python 脚本

笔记&#xff0c;记录个人尝试过程 主要目的&#xff1a; 1. 直接在代码中运行仿真程序&#xff0c;并对某传感器帧率进行固定化设置&#xff0c;添加噪声等操作。 2. 试多个场景的并行处理&#xff0c;和多用户/账户在远程Docker中的并行使用。 3. 对车辆模型、车辆动力学等…

SickOs1.1

下载安装 名称&#xff1a;SickOs&#xff1a;1.1 发布日期&#xff1a;2015 年 12 月 11 日作者: D4rk系列&#xff1a;SickOs sick0s1.1.7z&#xff08;大小&#xff1a;623 MB&#xff09;下载&#xff08;镜像&#xff09;&#xff1a; https: //download.vulnhub.com/sick…

DP协议:PHY层

引言 DisplayPort物理层规定了上游设备(例如DisplayPort源或分支设备的AV输出端口)和下游设备(例如DisplayPort接收器或分支设备的AV输入端口)之间直接连接的物理属性。 它将数据传输的电气规范从DisplayPort链路层解耦,从而允许链路层具体设计增强的模块化,并且也允许…

Java - 日志体系_Apache Commons Logging(JCL)日志接口库_适配Log4j2 及 源码分析

文章目录 PreApache CommonsApache Commons ProperLogging &#xff08;Apache Commons Logging &#xff09; JCL 集成Log4j2添加 Maven 依赖配置 Log4j2验证集成 源码分析1. Log4j-jcl 的背景2. log4j-jcl 的工作原理2.1 替换默认的 LogFactoryImpl2.2 LogFactoryImpl 的实现…

#C01L11P02. C01.L11.while循环.while循环和for循环的区别

唉&#xff0c;你们善良的王又来给你们发文章了&#xff01;&#xff01;&#xff01; for循环一般应用于循环次数已知的情况&#xff1b; while循环一般应用于循环次数未知的情况&#xff1b; 在一般情况下&#xff0c;这两者是可以相互转化的。 举一个简单较适合用for循环…

HTML——20 自定义属性

<!DOCTYPE html> <html><head><meta charset"UTF-8"><title>自定义属性</title></head><body><a href"https://ai.m.taobao.com" 自定义属性"属性值">淘宝网</a><a href"h…

开发模式选择与最佳实践指南20241230

开发模式选择与最佳实践指南 引言 在现代软件开发中&#xff0c;选择合适的开发模式直接影响项目的开发效率和质量。本文将帮助您&#xff1a; &#x1f3af; 了解三种主流开发模式的优缺点&#x1f4a1; 根据项目特点选择最适合的开发模式&#x1f527; 掌握混合开发模式的…

【JavaWeb后端学习笔记】MySQL的数据控制语言(Data Control Language,DCL)

MySQL DCL 1、管理用户2、控制权限 DCL英文全称是Data Control Language&#xff08;数据控制语言&#xff09;&#xff0c;用来管理数据库用户、控制数据库访问权限。 1、管理用户 管理用户的操作都需要在MySQL自带的 mysql 数据库中进行。 -- 查询用户 -- 需要先切换到MyS…

《特征工程:自动化浪潮下的坚守与变革》

在机器学习的广阔天地中&#xff0c;特征工程一直占据着举足轻重的地位。它宛如一位幕后的工匠&#xff0c;精心雕琢着原始数据&#xff0c;将其转化为能够被机器学习模型高效利用的特征&#xff0c;从而推动模型性能迈向新的高度。然而&#xff0c;随着技术的飞速发展&#xf…

IDEA错题集

一、 报java: java.lang.NoSuchFieldError: Class com.sun.tools.javac.tree.JCTree$JCImport does not have错。 二、一个工程在编译时报某个模块没有指定JDK。 解决方案&#xff1a; 从IDEA的菜单中&#xff0c;依次执行&#xff1a;文件-项目结构-项目设置-项目&#xff…

stm32内部flash在线读写操作

stm32内部flash在线读写操作 &#x1f4cd;相关开源库文章介绍《STM32 利用FlashDB库实现在线扇区数据管理不丢失》 ✨不同系列&#xff0c;内部flash编程有所区别。例如stm32f1是按照页擦除&#xff0c;半字&#xff08;16bit&#xff09;或全字(32bit)数据写入&#xff1b;st…

Acwing 基础算法课 数学知识 筛法求欧拉函数

【G09 筛法求欧拉函数】https://www.bilibili.com/video/BV1VP411p7Bs?vd_source57dbd16b8c7c2ad258cccce5966c5be8 闫总真是把听者当数学系转cs的来讲&#xff0c;菜逼完全听不懂&#xff0c;只能其他地再搜 欧拉函数 φ ( n ) \varphi(n) φ(n)&#xff1a;1~n中与n互质的数…