【C++】布隆过滤器的概念与特点解析

 

🌈 个人主页:谁在夜里看海.

🔥 个人专栏:《C++系列》《Linux系列》

⛰️ 天高地阔,欲往观之。

目录

00.引入

01.布隆过滤器的概念

特点1:极低的内存消耗

特点2:快速查询

特点3:假阳性误判(禁止删除)

02.布隆过滤器的底层实现


00.引入

上一篇博客介绍了位图这一数据结构,它可以在大量整数中快速查找某一数据是否存在,并且内存占用率很低(例如,查找40亿个整数只需0.5G空间)。博客链接跳转->

那么问题来了,如果我要查找的数据类型是字符串或其他类型,位图还能用吗?

分析:

位图本质上是一种哈希结构,哈希结构在存储元素时是根据元素的哈希值进行存储的,整数在位图中进行存储时,哈希值就是它本身,因此也不会产生哈希冲突;如果字符串想要用位图进行存储的话,需要计算出对应的哈希值,就要通过哈希函数来实现。

但是有一个问题,那就是哈希冲突

最优秀的哈希函数也只能减少产生冲突的可能性,而不能完全避免冲突,那么在位图中,哈希冲突会造成什么后果呢?

例如:字符串“AaAaA”与“BBBBB”通过某哈希函数计算所得的哈希值都是5,事实上,“AaAaA”是存在的元素,而“BBBBB”并不存在,将所有元素存入位图后,bit位5的bool值为1(因为“AaAaA”的哈希值为5)此时就会对“BBBBB”产生误判,即“BBBBB”不存在但是通过位图会判断其存在

当然了,为了应对哈希冲突,我们可以对位图进行扩容(通常是二倍扩容),并更新哈希函数重新计算哈希值来化解冲突,但是这种扩容的方式背离了位图的初衷:高效的内存利用。频繁的扩容必然导致内存的浪费,那么面对字符串的存储问题,该怎么解决呢?下面就要介绍布隆过滤器了。

01.布隆过滤器的概念

哈希冲突的产生原理就是,不同的元素有相同的哈希值,一般来说,一个元素对应一个哈希值,但是布隆(Burton Howard Bloom)告诉你,一个元素可以有多个哈希值:

一个元素经过多个不同哈希函数得到多个哈希值,将这些哈希值都作为该元素的映射,这样就大大减小了哈希冲突的可能性。两个不同的元素要想发生冲突,它们每个哈希值都得相同,并且可以通过增加哈希函数的办法,让这种可能性继续降低。

这是某位大佬总结出来的哈希函数的个数与误判率的关系:

说到底,布隆过滤器还是没办法完全解决哈希冲突的问题,还是会导致误判,但是布隆过滤器的以下特点使其具有重要意义:

特点1:极低的内存消耗

布隆过滤器拥有和位图一样的底层结构,使其使用极少的内存空间就可以支持大量数据的“存在性”查询。

特点2:快速查询

布隆过滤器通过简单的位运算就可以完成元素的“存在性”判断,速度非常之快,这种高效性在实时性要求高的场景(如网络请求过滤、黑名单检测)中尤为有用。

特点3:假阳性误判(禁止删除)

布隆过滤器虽然存在误判,但是可以将误判率控制在一个可以接受的范围内,并且布隆过滤器的误判是假阳性误判,不会存在假阴性误判,解释:

假阳性误判就是,将不存在的元素误判为存在,例如:由于A和B的哈希值全部相同,A存在就会导致B被误判

而假阴性误判就是,将存在的元素误判为不存在,查询某一元素是否存在,就要看它对应的比特位bool值是否都为1,只要该位置的bool值不被修改,就不会造成假阴性误判。元素的插入不会造成修改,但是元素的删除会造成修改。

A与B有一个哈希值7相同,B的删除会使7的bool值置0,这就会导致A被误判为不存在,即假阴性误判,为了避免这种情况发生,布隆过滤器不允许删除元素。

为什么布隆过滤器允许假阳性误判但不允许假阴性误判的产生呢,来看下面这一个场景:

为了方便用户之间的搜索,某应用不允许用户的id重复,现在用布隆过滤器存储着所有用户id的存储情况,用户注册时如果预输入id已存在,则要求更换id(可能预输入id并不存在,但是发生假阳性误判),由于假阴性误判的杜绝,用户的id一定不会相同(已存在的id肯定不会被误判为不存在,而被新用户注册)

02.布隆过滤器的底层实现

布隆过滤器的底层结构与位图相同,只不过前者用多个哈希值表示1个元素,而且后者只用1个哈希值对应1个元素

 // 将which比特位置1void set(size_t which){if (which > _bitCount)return;size_t index = (which >> 5);size_t pos = which % 32;_bit[index] |= (1 << pos); // 将对应bit位改为1}// 将which比特位置0void Set(const K& key){size_t len = X*N;size_t index1 = HashFunc1()(key) % len;size_t index2 = HashFunc2()(key) % len;size_t index3 = HashFunc3()(key) % len;_bs.set(index1);_bs.set(index2);_bs.set(index3);}

哈希函数参考:

struct BKDRHash
{size_t operator()(const string& s){// BKDRsize_t value = 0;for (auto ch : s){value *= 31;value += ch;}return value;}
};
struct APHash
{size_t operator()(const string& s){size_t hash = 0;for (long i = 0; i < s.size(); i++){if ((i & 1) == 0){hash ^= ((hash << 7) ^ s[i] ^ (hash >> 3));}else{hash ^= (~((hash << 11) ^ s[i] ^ (hash >> 5)));}}return hash;}
};
struct DJBHash
{size_t operator()(const string& s){size_t hash = 5381;for (auto ch : s){hash += (hash << 5) + ch;}return hash;}
};

以上就是对布隆过滤器的详细介绍与说明,欢迎指正~

码文不易,还请多多关注支持,这是我持续创作的最大动力!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/59338.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入解析:云计算与虚拟化技术

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 # 深入解析&#xff1a;云计算与虚拟化技术 文章目录 云计算概述定义服务模型部署模型 虚拟化技术定义类型关键技术 云计算与虚…

React Router v6 中用于在导航到指定路由之前使用loader预加载数据

在 React Router v6 中&#xff0c;loader 函数用于在导航到某个路由之前预加载数据。这是非常有用的功能&#xff0c;特别是在需要从服务器获取数据并将其传递给组件的情况下。loader 函数可以帮助你提前获取数据&#xff0c;从而提高用户体验和应用性能。 loader 函数的作用…

Mybatis查询数据库,返回List集合,集合元素也是List。

#有时间需求会要求&#xff1a;查询全校的学生数据&#xff0c;且学生数据按班级划分。那么就需要List<List<user>>类型的数据。 SQL语句 SELECT JSON_ARRAYAGG(JSON_OBJECT(name , name ,BJMC, BJMC ,BJBH,BJBH)) as dev_user FROM dev_user WHERE project_id …

105. UE5 GAS RPG 搭建主菜单

在这一篇&#xff0c;我们将实现对打开游戏显示的主菜单进行搭建&#xff0c;主菜单将显示游戏主角&#xff0c;游戏名称和进入游戏和退出游戏两个按钮。 搭建菜单场景 我们将主菜单设置为一个单独的场景&#xff0c;前面可以显示对应的UI控件&#xff0c;用于玩家操作&#…

cangjie仓颉编程语言学习Note-2.标准库学习

cangjie仓颉编程语言学习Note-2.标准库学习 当前仓颉标准库提供了几乎涵盖常见开发所使用的常见库&#xff0c;这一点很赞&#xff01; 详细模块如下&#xff1a; std: 意指标准库&#xff0c;标准库是指在编程语言中预先定义的一组函数、类、结构体等&#xff0c;旨在提供常…

时间序列预测(十八)——实现配置管理和扩展命令行参数解析器

如图&#xff0c;这是一个main,py文件&#xff0c;在此代码中&#xff0c;最开始定义了许多模型参数&#xff0c;为了使项目更加灵活和可扩展&#xff0c;便于根据不同的需求调整参数和配置&#xff0c;可以根据实际需要扩展参数和配置项。 下面是如何实现配置管理和扩展命令行…

Ubuntu用docker安装AWVS和Nessus(含破解)

Ubuntu安装AWVS(更多搜索&#xff1a;超详细Ubuntu用docker安装AWVS和Nessus) 首先安装docker&#xff0c;通过dockers镜像安装很方便&#xff0c;且很快&#xff1b;Docker及Docker-Compose-安装教程。 1.通过docker search awvs命令查看镜像&#xff1b; docker search awvs…

QT for android 问题总结(QT 5.15.2)

1.配置好的sdk&#xff0c;显示设置失败 Android SDK Command-line Tools run. Android Platform-Tools installed. Command-line Tools (latest) 版本过高导致报错 &#xff0c;下载一个低版本的latest &#xff0c;替换掉之前latest中的文件。即可&#xff0c;latest 路径如…

Jmeter5.X性能测试

Jmeter5.X性能测试 文章目录 Jmeter5.X性能测试一、掌握Http基础协议1.1 浏览器的B/S架构和C/S架构1.2 HyperText Transfer Protocol 超文本传输协议1.3 超文本传输协议Http消息体拆分讲解1.4 HTTP的九种请求方法和响应码介绍1.5 Http请求头/响应头1.6 Http常见请求/响应头cont…

软件测试基础九 (python基础)

python基础 1. 注释 1.1. 注释的作⽤ 使⽤⾃⼰熟悉的语⾔&#xff0c;在程序中对某些代码进⾏标注说明&#xff0c;增强程序的可读性。 1.2. 单⾏注释 以# 开头&#xff0c;# 右边的所有东⻄都被当做说明⽂字&#xff0c;⽽不是真正要执⾏的程序&#xff0c;只起到辅助说明…

使用Kafka构建大规模消息传递系统

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 使用Kafka构建大规模消息传递系统 引言 Kafka 简介 安装 Kafka 创建主题 生产者 消费者 高级特性 分区 持久化 消费者组 消息确认…

AI 大模型重塑软件开发流程的未来

目录 前言1. AI 大模型简介2. AI 大模型在软件开发中的应用场景2.1 代码自动生成2.2 智能调试与错误检测2.3 软件测试的自动化2.4 文档生成与代码注释 3. AI 大模型对软件开发的优势3.1 提高开发效率3.2 提升代码质量与一致性3.3 降低学习成本 4. AI 大模型在软件开发中面临的挑…

docker镜像获取不到的问题处理

总结 国内源的限制&#xff0c;很多镜像pull失败。 我目前使用的感觉最合理的方式就是去云平台厂商买一个香港的云主机。使用弹性模式&#xff0c;就是一小时几毛钱的那种。 然后pull镜像&#xff0c;pull成功后&#xff0c;save到本地&#xff0c;然后用xshell下载下来。因为…

C#-类:声明类、声明类对象

一&#xff1a;类的声明 class 类名 {//特征——成员变量//行为——成员方法//保护特征——成员属性//构造函数和析构函数//索引器//运算符重载//静态成员 }类名&#xff1a;帕斯卡 同一个语句块中的不同类 不能重名 二&#xff1a;声明类对象 2.1 类的声明 ≠ 类对象的声…

求平面连接线段组成的所有最小闭合区间

这个功能确实非常实用&#xff0c;我在过去开发地面分区编辑器时就曾应用过这一算法。最近&#xff0c;在新产品的开发中再次遇到了类似的需求。尽管之前已经实现过&#xff0c;但由于长时间未接触&#xff0c;对算法的具体细节有所遗忘&#xff0c;导致重新编写时耗费了不少时…

【P2-7】ESP8266 WIFI模块在AP模式下实现UDP与电脑/手机网络助手通信——UDP数据透传

前言:完成ESP8266 WIFI模块在AP模式下实现UDP与电脑/手机网络助手通信——实现UDP数据透传 AP模式,通俗来说模块可以发出一个WIFI热点提供给电脑/手机连接。 UDP协议,是传输层协议,UDP没有服务器和客户端的说法。 演示视频: ESP8266 WIFI模块在AP模式下实现UDP与电脑/手机…

金箍棒变化-第15届蓝桥杯国赛Scratch初/中级组真题第1题

[导读]&#xff1a;超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成&#xff0c;后续会不定期解读蓝桥杯真题&#xff0c;这是Scratch蓝桥杯真题解析第193讲。 如果想持续关注Scratch蓝桥真题解读&#xff0c;可以点击《Scratch蓝桥杯历年真题》并订阅合集&#xff0c;…

SpringBoot+Shirp的权限管理

目录 怎么实现动态菜单 1.html页面 2.获取动态菜单 Shiro权限刷新 1. 配置Shiro 2. 创建权限刷新服务 3. 调用权限刷新服务 注意事项 如何更新ShiroFilter初始权限 怎么实现动态菜单 1.html页面 <ul class"nav side-menu"><!--第一重循环&#xf…

hunyuan-DiT模型部署指南

一、介绍 Hunyuan-DiT是由腾讯混元推出的扩散模型&#xff0c;支持中文和英文双语输入&#xff0c;其他开源模型相比&#xff0c;Hunyuan-DiT 在中文到图像生成方面树立了新的水平。 二、部署流程 环境要求&#xff1a; 所需的最小 GPU 内存为 11GB&#xff0c; 建议使用具…

如何彻底删除gitbash中所有的命令记录、以及彻底删除Windows powerShell或者cmd中的所有命令记录

文章目录 1. 文章引言2. 彻底删除gitbash中所有的命令记录3. 彻底删除Windows powerShell或者cmd中的所有命令记录1. 文章引言 有时,我们使用外部电脑从gitbash中下载代码,假设使用history -c命令: 可以清除当前弹框的历史记录,但也无法彻底删除命令记录。打开gitbash后,通…