7.3 哈希表与布隆过滤器(入门)—— C语言实现

文章目录

  • 前言
  • 一、哈希表
    • 1.1 哈希函数
    • 1.2 哈希冲突
  • 二、布隆过滤器
      • 布隆过滤器的工作原理:
      • 存储空间与元素数量的关系:
      • 结论:
  • 三、哈希表的代码演示
    • 3.1 哈希表扩容
  • 四、总结
  • 参考文献


前言

本章内容参考海贼宝藏胡船长的数据结构与算法中的第七章——查找算法,侵权删。

哈希表的优点:

  1. 高效的操作时间:在最佳情况下,哈希表的查找、插入和删除操作的时间复杂度为 O(1)。这是因为哈希表通过哈希函数直接计算出数据应存储在哪个位置,从而快速定位数据。
  2. 直接访问:不需要像在树结构中那样进行多次比较或遍历。

一、哈希表

哈希表利用了数组的特性。当我们给出数组下标的时候,就能返回下标所对应的元素值,时间复杂度是O(1),这个特性也很类似python的字典。说白了就是元素和下标(字典中的键值)完成映射。这个映射关系就叫做哈希函数

1.1 哈希函数

所谓哈希本质上是高维空间到低维空间的一种映射(不一定是一一映射,可能会出现哈希冲突),映射规则就是哈希函数。

哈希函数(也就是映射规则)是根据具体场景去设计的,不是固定的。但有优化的空间:理想情况下,哈希函数应该均匀分布,这意味着每个可能的索引值都有相等的概率被映射到,以减少冲突。
在这里插入图片描述

1.2 哈希冲突

非一一映射

由于哈希表的大小通常远小于可能的键的数量,多个不同的键可能会被哈希到同一个索引值,这就造成了哈希冲突。
在这里插入图片描述在这里插入图片描述怎么处理哈希冲突呢?
在这里插入图片描述1. 开放定址法:在开放地址法中,所有的元素都存储在哈希表数组中。当发生冲突时,使用探测序列(例如线性探测、二次探测或双重哈希等)找到下一个空闲的槽位。
2. 再哈希法(双重哈希):这是开放地址法的一种特殊情况,使用两个哈希函数来减少冲突。这种情况不常用,因为哈希函数比较难去创造。
3. 建立公共溢出区:额外建立缓冲区,把发生冲突的数据放入到缓冲区。缓冲区可能是其他数据结构,例如堆,二叉排序树,红黑树等。把它理解成为另外的用于查找的数据结构。(该缓存区的查找效率可能没有哈希表的查找效率高)。
4. 链式地址法:在这种方法中,哈希表的每个桶或槽位不仅存储单个元素,而是存储一个链表。当多个元素哈希到同一个桶时,它们会被添加到该桶的链表中。查找、插入和删除操作需要遍历链表以找到目标元素。
在这里插入图片描述

补充:每个位置存储链表的效率其实并不高,实际上在实际工程中,每个位置上实现一个红黑树!!!

哈希表没有具体设计规则可言(哈希函数没有标准答案),冲突处理方式也不太同意,他给开发者极大的发挥空间。


二、布隆过滤器

在这里插入图片描述举个使用布隆过滤器的应用场景的例子——搜索引擎的爬虫:
搜索引擎在收录网页信息的时候,为了避免重复爬取,它会把爬取过的地址记录下来。所以爬虫在每次爬取的时候,它都会判断一下,当前爬取的网页是否爬取过。记录地址需要一种数据结构,如果用传统哈希表,那么数以千计的网址使得该记录的存储空间会变得巨大。

布隆过滤器的存储空间实际上与它设计时预期要存储的元素数量有关,但这种关系并不是直接存储每个元素的细节,而是通过一组固定大小的位数组来实现,这些位用于代表集合中元素的可能存在。布隆过滤器提供了一种非常空间效率高的方法来测试一个元素是否属于一个集合,但这种方法允许存在一定的错误率(误判率,或者说概率性),即它能判断该元素大概率出现过,但它判断一个元素没有出现过的概率是1(那就真没出现过)。

布隆过滤器的工作原理:

  1. 位数组:布隆过滤器背后的数据结构是一个大的位数组,通常初始化时所有位都是0。
  2. 多个哈希函数:使用多个独立的哈希函数,每个函数都将元素映射到位数组中的一个位置。
  3. 添加元素:将某个元素添加到布隆过滤器时,该元素被每一个哈希函数映射,相应的位数组中的位被设置为1。
  4. 元素查询:查询一个元素是否存在于集合中时,使用相同的哈希函数对元素进行映射,然后检查所有对应的位是否为1。如果所有位都是1,那么元素可能存在于集合中;如果任何一位是0,则元素绝对不在集合中。

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

存储空间与元素数量的关系:

  • 设计参数:布隆过滤器的大小(即位数组的长度)和使用的哈希函数数量直接影响其性能,包括误判率和查询速度。这些参数通常在创建过滤器时根据预期要处理的元素数量和可接受的误判率来选择。
  • 空间效率:布隆过滤器不存储元素本身,只记录元素可能存在的信息。这使得它比存储实际元素的传统数据结构(如哈希表或集合)更加空间效率。
  • 误判率增加位数组的大小使用更多的哈希函数可以降低误判率,但这会增加空间使用和计算开销。适当选择这些参数是设计布隆过滤器时的一个关键考虑。

结论:

虽然布隆过滤器的存储空间不直接存储每个元素的详细信息,但其设计和效能确实依赖于预期要处理的元素数量和可接受的误判率。布隆过滤器是一种权衡存储空间和准确性的高效方法,特别适用于那些可以容忍一定误报率的应用场景,如网络数据处理、数据库查询优化等。


三、哈希表的代码演示

冲突处理方式选择拉链法
哈希表中存储的数据类型是字符串

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <string.h>typedef struct Node{char *s;struct Node *next;
} Node;typedef struct HashTable{Node *data; //哈希表底层有个数组空间 int cnt, size;
} HashTable;//节点Node初始化方法
Node *getNewNode(const char *s){Node *p = (Node *)malloc(sizeof(Node));p->s = strdup(s);p->next = NULL;return p;
}//初始化哈希表
HashTable *getNewHashTable(int n){HashTable *h = (HashTable *)malloc(sizeof(HashTable));h->data = (Node *)malloc(sizeof(Node) * n);h->size = n;h->cnt = 0;return h;
}//哈希函数:经典的字符串哈希算法
int hash_func(const char *s){int seed = 131, h = 0;for (int i = 0; s[i]; i++){h = h * seed + s[i];}return h & 0x7fffffff; //这里去掉最高位(符号位)强制变成正数
}bool find(HashTable *h, const char *s){int hcode = hash_func(s), ind = hcode % h->size;Node *p = h->data[ind].next;while (p){if (strcmp(p->s, s) == 0) return true;p = p->next;}return false;
}bool insert(HashTable *h, const char *s){int hcode = hash_func(s), ind = hcode % h->size; //哈希值转换成为数组下标//放在链表的头部,效率更高:链表头插法,这里采用虚拟头节点!!!Node *p = getNewNode(s);p->next = h->data[ind].next;h->data[ind].next = p;h->cnt += 1;return true;
}void clearNode(Node *p){if (p == NULL) return;if (p->s)  free(p->s);free(p);return;
}void clearHashTable(HashTable *h){if (h == NULL) return;for (int i = 0; i < h->size; i++){Node *p = h->data[i].next, *q;while (p){q = p->next;clearNode(p);p = q;}}free(h->data);free(h);return;
}void output(HashTable *h){printf("\n\nHash Table(%d / %d) : \n", h->cnt, h->size);for (int i = 0; i < h->size; i++){printf("%d : ", i);Node *p = h->data[i].next;while (p){printf("%s -> ", p->s);p = p->next;}printf("\n");}return;
}int main(){srand(time(0));char s[100];#define MAX_N 2HashTable *h = getNewHashTable(MAX_N);while (~scanf("%s", s)){if (strcmp(s, "end") == 0) break;insert(h, s);}output(h);while (~scanf("%s", s)){printf("find(%s) = %d\n", s, find(h, s));}#undef MAX_Nreturn 0;
}

输出结果:

在这里插入图片描述

3.1 哈希表扩容

扩容操作:初始化一个大小为原来哈希表大小的两倍,再将原来哈希表的数据通通插入到新的哈希表中来。这样就完成了扩容。

思考:这样的扩容操作,会把原来小的数据全插入到大的中,这会不会太慢了???

均摊时间复杂度
最终哈希表大小为n,意味着,之前是 n 2 \frac{n}{2} 2n,之前的之前是 n 4 \frac{n}{4} 4n。一次类推,把这个大的哈希表整个生命周期的时间复杂度加在一起:
n 2 + n 4 + n 8 + . . . . . . ≈ n \frac{n}{2} + \frac{n}{4} + \frac{n}{8} + ... ... \approx n 2n+4n+8n+......n
所以上述算式代表的是一个大小为n的哈希表历史上所有的由于扩容产生的操作加在一起也是n,平摊到每一个元素上也是O(1)的量级
均摊时间复杂度:不要看某一次的操作耗时,其实应该观察该数据结构整个声明周期耗时多少。

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <string.h>#define swap(a, b){ \__typeof(a) __c = a; \a = b, b = __c;  \
}typedef struct Node{char *s;struct Node *next;
} Node;typedef struct HashTable{Node *data; //哈希表底层有个数组空间 int cnt, size;
} HashTable;//节点Node初始化方法
Node *getNewNode(const char *s){Node *p = (Node *)malloc(sizeof(Node));p->s = strdup(s);p->next = NULL;return p;
}//初始化哈希表
HashTable *getNewHashTable(int n){HashTable *h = (HashTable *)malloc(sizeof(HashTable));h->data = (Node *)malloc(sizeof(Node) * n);h->size = n;h->cnt = 0;return h;
}//哈希函数:经典的字符串哈希算法
int hash_func(const char *s){int seed = 131, h = 0;for (int i = 0; s[i]; i++){h = h * seed + s[i];}return h & 0x7fffffff; //这里去掉最高位(符号位)强制变成正数
}bool find(HashTable *h, const char *s){int hcode = hash_func(s), ind = hcode % h->size;Node *p = h->data[ind].next;while (p){if (strcmp(p->s, s) == 0) return true;p = p->next;}return false;
}void swapHashTable(HashTable *h1, HashTable *h2){swap(h1->data, h2->data);swap(h1->cnt, h2->cnt);swap(h1->size, h2->size);return;
}bool insert(HashTable *, const char *);
void clearHashTable(HashTable *);void expand(HashTable *h){printf("expand Hash Table %d -> %d\n", h->size, h->size * 2);HashTable *new_h = getNewHashTable(h->size * 2); //新哈希表的大小是原哈希表的两倍for (int i = 0; i < h->size; i++){Node *p = h->data[i].next;while (p){insert(new_h, p->s);p = p->next;}} //至此,将原来哈希表中所有的元素插入到了新哈希表中swapHashTable(h, new_h);clearHashTable(new_h);return;
}bool insert(HashTable *h, const char *s){if (h->cnt >= h->size * 2){expand(h);}int hcode = hash_func(s), ind = hcode % h->size; //哈希值转换成为数组下标//放在链表的头部,效率更高:链表头插法,这里采用虚拟头节点!!!Node *p = getNewNode(s);p->next = h->data[ind].next;h->data[ind].next = p;h->cnt += 1;return true;
}//实现见上一段代码
void clearNode(Node *p);
void clearHashTable(HashTable *h);
void output(HashTable *h);// 测试代码用上一个例子的

输出结果:
在这里插入图片描述
注意:代码中用swap(h1->data, h2->data)交换两个用malloc函数申请的内存地址,就是将地址交换,而不是将地址里面的数据进行交换!!!


四、总结

  1. 哈希表,哈希冲突及冲突处理
  2. 简单介绍了布隆过滤器

参考文献

  1. 数据结构与算法中的第七章——查找算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/826321.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法课程笔记——集合set

3复杂度不稳定 删一个和删除全部 注意iter是类 遍历是无序的

半导体材料(三)——P-N结和金属-半导体接触

本篇为西安交通大学本科课程《电气材料基础》的笔记。 本篇为这一单元的第三篇笔记&#xff0c;上一篇传送门。 p-n结和金属-半导体接触 p-n结 无偏压开路状态 如图a所示&#xff0c;左边是n型掺杂&#xff0c;右边是p型掺杂&#xff0c;在n区和p区之间形成了一个不连续的…

【MATLAB基础绘图第21棒】绘制比例弦图 (Chord Diagram)

MATLAB绘制比例弦图 Chord Diagram 1 简介1.1 弦图简介1.2 比例弦图简介 2 MATLAB绘制比例弦图2.1 数据准备2.2 基本绘制2.3 添加方向箭头2.4 添加绘图间隙2.5 添加刻度2.6 修改标签2.7 颜色设置2.8 弧块及弦属性设置2.8.1 弧块属性设置2.8.2 弦属性设置 2.9 字体设置 参考 1 简…

【Qt 学习笔记】Qt常用控件 | 显示类控件Label的使用及说明

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;Qt 专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ Qt常用控件 | 显示类控件Label的使用及说明 文章编号&#xff1a;Qt 学…

C++必修:从C语言到C++的过渡(上)

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ &#x1f388;&#x1f388;养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; 所属专栏&#xff1a;C学习 贝蒂的主页&#xff1a;Betty’s blog 1. 什么是C C&#xff08;c plus plus&#xff09;是一种计算机高级程序设计语言&…

设计模式:中介者模式

中介者模式定义 中介者模式&#xff08;Mediator Pattern&#xff09;是一种行为型设计模式&#xff0c;它通过引入一个第三方对象&#xff08;中介者&#xff09;来管理一组对象之间的复杂交互。这些对象通过中介者而不是直接相互通信&#xff0c;从而减少了它们之间的耦合度…

如何查看微信公众号发布文章的主图,如何看微信文章的主图,怎么才能拿到主图

如何查看&#xff0c;微信公众号发布文章的主图&#xff0c;如何看微信文章的主图 起因是这样的&#xff0c;当我看到一篇文章的时候&#xff0c;他的主图很漂亮&#xff0c;但是&#xff0c;正文里没有&#xff0c;而我又想看到&#xff0c;并且使用这张图片&#xff0c;该怎么…

十大排序——6.插入排序

这篇文章我们来介绍一下插入排序 目录 1.介绍 2.代码实现 3.总结与思考 1.介绍 插入排序的要点如下所示&#xff1a; 首先将数组分为两部分[ 0 ... low-1 ]&#xff0c;[ low ... arr.length-1 ]&#xff0c;然后&#xff0c;我们假设左边[ 0 ... low-1 ]是已排好序的部分…

【22.4】【22.5】【22.6】

【题解】2022年第四场寒假集训营题解 【题解】2022年第五场寒假集训营题解 【题解】2022牛客寒假算法基础集训营6 子序列权值乘积 思路&#xff1a;排序然后枚举 i i i 维护前缀中的信息即可。注意有坑&#xff1a;这道题要处理 2 k ( k ≤ 2 1 0 5 ) 2^k(k\leq 2\times…

go的实践

文章目录 用goroutine来替代mq做异步的应用心跳contenx的超时设置定时器break label核心代码 用goroutine来替代mq做异步的应用 方法在创建ai任务接口中用协程的方式异步调用go s.handleResultPolling(ctx, algorithm, taskId, iAiHandle)&#xff0c;来更新ai任务的状态 心跳…

Python如何调用rar命令

通过os模块的system()方法调用了系统的rar.exe命令&#xff0c;这个方法会返回一个变量exit_status。 import os import time source [r‘D:\Work\Python\Demo‘, ‘d:\\work\\linux‘] target_dir ‘D:\\Work\\backup\\‘ target target_dir time.strftime(‘%Y%m%d%H%M%S…

Flutter第十弹 ScrollView滚动组件

目标&#xff1a; 1&#xff09;滚动组件的特性&#xff1f; 2&#xff09;有哪些常用的滚动组件&#xff1f; 一、基础滚动组件 Flutter有许多内置的小部件可以自动滚动&#xff0c;还提供了各种小部件&#xff0c;您可以自定义这些小部件来创建特定的滚动行为。 1.1 Scr…

【单元测试】Junit 4--junit4 内置Rule

1.0 Rules ​ Rules允许非常灵活地添加或重新定义一个测试类中每个测试方法的行为。测试人员可以重复使用或扩展下面提供的Rules之一&#xff0c;或编写自己的Rules。 1.1 TestName ​ TestName Rule使当前的测试名称在测试方法中可用。用于在测试执行过程中获取测试方法名称…

深入理解汇编:平栈、CALL和RET指令详解

​视频学习下载地址&#xff1a;​​https://pan.quark.cn/s/04e6946a803a​​ 汇编语言以其接近硬件的特性和高效的执行速度&#xff0c;在系统编程、性能优化和逆向工程中占有不可或缺的地位。本文将深入探讨汇编语言中的平栈操作以及​​CALL​​​和​​RET​​指令&#…

计算机网络实验实验之VLAN的配置与分析

实验目的 了解什么是带内管理&#xff1b;熟练掌握如何使用telnet方式管理交换机&#xff1b;熟练掌握如何为交换机设置web方式管理&#xff1b;熟练掌握如何进入交换机web管理方式&#xff1b;了解交换机web配置界面&#xff0c;并能进行部分操作。 (6)了解VLAN原理&#xf…

如何理解泛型擦除机制的兼容性

让我们通过一个具体的例子来更好地理解泛型擦除机制的第一个优点&#xff0c;即确保向后兼容性。这个例子将展示在引入泛型之前和之后的代码是如何在同一Java虚拟机上运行的。 场景设置 假设在Java 5引入泛型之前&#xff0c;我们有一个处理字符串列表的Java类库。这个库在Ja…

Linux 使用用户级别的 systemd 服务

目录 使用用户级别的 systemd 服务示例 .service 文件内容然后执行以下命令使服务生效&#xff1a; 使用用户级别的 systemd 服务 可以创建一个用户级别的 systemd 服务来实现开机启动。这种方式更加灵活和规范&#xff0c;适用于需要长期运行的服务或后台任务。 创建一个 .s…

不敢说懂你 - Glide硬核源码剖析

问题 Glide加载流程? Glide整体架构? Glide数据加载的来源? Glide缓存加载的流程? Glide线程切换原理? Glide如何感知Activity? Glide哪种情况会返回应用级的RequestManager? … 带着一些问题去阅读… 使用示例 本篇主要基于glide:4.12.0进行分析。下面是Gli…

● Queryable State实现原理与配置方法

Queryable State 是 Apache Flink 提供的一个特性&#xff0c;它允许外部系统查询 Flink 作业的状态。这是通过将 Flink 的状态暴露为一个可查询接口来实现的&#xff0c;使得外部应用可以直接访问和查询 Flink 中的状态数据&#xff0c;而不需要触发整个 Flink 作业的计算。 …

浏览器原理之浏览器机制

事件机制 一 事件是什么&#xff1f;事件模型&#xff1f; 事件 是浏览器或用户自身发出的某种特定交互的信号。这包括但不限于鼠标点击、按键操作、页面加载、滚动等。 事件模型 主要包括三个阶段&#xff1a; 捕获阶段&#xff1a;事件从文档根节点向下传递到目标节点&am…