【高阶数据结构】布隆过滤器(BloomFilter)

1. 概念

1.1 背景引入

背景:在计算机软件中,一个常见的需求就是 在一个集合中查找一个元素是否存在 ,比如:1. Word 等打字软件需要判断用户键入的单词是否在字典中存在 2. 浏览器等网络爬虫程序需要保存一个列表来记录已经遍历过的 url,遇到一个 url 先判断是否已经访问过 3. FBI 系统中需要判断名称是否在嫌疑人名单中。一般来说都会考虑使用哈希表等键值结构进行存储,以此提高查询的效率,但是在海量数据情况下存在存储空间占用过高的情况:

例如:在 Gmail 等大型邮件服务商需要过滤垃圾邮件,但是发送垃圾邮件的地址不断会注册新地址,因此将它们全部存储起来需要大量内存资源,假设有 40亿 个垃圾邮件地址,每个地址使用 4 字节存储,大概需要占用 16G 内存空间,常见的方案汇总如下:

  1. 直接使用哈希表进行存储,缺点:空间存储占用过高 ✖
  2. 使用位图数据结构,缺点:位图只适合存储整型数据,应对字符串无法适用 ✖
  3. 使用布隆过滤器,将位图和哈希映射有效结合 ✔

1.2 布隆过滤器概念

布隆过滤器:是位图 + 哈希的结合,简单来说就是通过多个哈希函数将键映射到位图当中,是一种紧凑的,高效的 概率型数据结构,它可以高效的进行插入、查询等操作,并且能够告诉你某一个元素 一定不存在或者可能存在

例如上图是一个简单的布隆过滤器示意图,hash1函数将"baidu"映射到位图为5的位置,hash2函数将"baidu"映射到位图为2的位置,hash3函数将"baidu"映射到位图为1的位置

2. 布隆过滤器模拟实现

2.1 结构定义

在上节已经介绍过,布隆过滤器本质就是 “哈希 + 位图” 的结合,因此我们想要自定义一个布隆过滤器,就需要准备位图和哈希函数:

  • 位图:此处采用上节模拟实现的自定义位图结构
  • 哈希函数:采用自定义 HashFunc 类型

目录结构:

main.go

// MyBloomFilter 自定义布隆过滤器
type MyBloomFilter struct {bitMap    mybitmap.MyBitMap // 自定义位图hashArray [3]hash.HashFunc  // 自定义哈希函数数组seeds     [3]int            // 随机数种子usedSize  int               // 存储元素个数
}// InitBloomFilter 初始化布隆过滤器函数
func InitBloomFilter() *MyBloomFilter {var bloomFilter MyBloomFilterbloomFilter.bitMap = *mybitmap.InitBitMap()bloomFilter.seeds = [3]int{11, 22, 33}bloomFilter.usedSize = 0for i := 0; i < 3; i++ {bloomFilter.hashArray[i] = *hash.InitHashFunc(100, bloomFilter.seeds[i])}return &bloomFilter
}

hash.go

package hashimport "hash/crc32"// HashFunc 哈希函数类型
type HashFunc struct {capacity int // 容量seed     int // 随机数种子
}// InitHashFunc 初始化哈希函数
func InitHashFunc(capacity, seed int) *HashFunc {return &HashFunc{capacity: capacity,seed:     seed,}
}// Hash 哈希方法: 返回key映射结果
func (hashFunc *HashFunc) Hash(key string) int {v := int(crc32.ChecksumIEEE([]byte(key)))return (hashFunc.capacity * hashFunc.seed % 80) & (v >> 16)
}

bitmap.go

package mybitmap// MyBitMap 自定义位图结构体
type MyBitMap struct {elem     []byte // 字节数组usedSize int    // 存储的元素个数
}// InitBitMap 初始化函数
func InitBitMap() *MyBitMap {var bitMap MyBitMapbitMap.elem = make([]byte, 10)bitMap.usedSize = 0return &bitMap
}// Set 添加元素
func (bitMap *MyBitMap) Set(num int) {if num < 0 {panic("num必须大于等于0!")}// 1. 获取字节数组对应存储下标var elemIndex = num / 8// 2. 获取所在字节的比特位var bitIndex = num % 8// 3. 使用或运算bitMap.elem[elemIndex] |= 1 << bitIndex// 4. 存储元素个数+1bitMap.usedSize++
}// Get 查找某个元素是否存在
func (bitMap *MyBitMap) Get(num int) bool {if num < 0 {panic("num必须大于等于0!")}// 1. 获取字节数组对应存储下标var elemIndex = num / 8// 2. 获取所在字节的比特位var bitIndex = num % 8// 3. 使用与运算return !(bitMap.elem[elemIndex]&(1<<bitIndex) == 0)
}// Reset 重置某个元素
func (bitMap *MyBitMap) Reset(num int) {if num < 0 {panic("num必须大于等于0!")}// 1. 获取字节数组对应存储下标var elemIndex = num / 8// 2. 获取所在字节的比特位var bitIndex = num % 8// 3. 查找元素是否存在if bitMap.Get(num) {bitMap.usedSize--}// 4. 使用 ~运算 + &运算bitMap.elem[elemIndex] &= ^(1 << bitIndex)
}// Reset2 重置某个元素
func (bitMap *MyBitMap) Reset2(num int) {if num < 0 {panic("num必须大于等于0!")}// 1. 获取字节数组对应存储下标var elemIndex = num / 8// 2. 获取所在字节的比特位var bitIndex = num % 8// 3. 查找元素是否存在if bitMap.Get(num) {// 使用异或bitMap.elem[elemIndex] ^= 1 << bitIndexbitMap.usedSize--} else {// nothing to do....}
}// GetUsedSize 获取已经存储元素个数
func (bitMap *MyBitMap) GetUsedSize() int {return bitMap.usedSize
}

💡 提示:如果没有学过位图的数据结构实现,可以参考我的另一篇博客:https://blog.csdn.net/weixin_62533201/article/details/145216138

2.2 插入数据

上图为插入数据到布隆过滤器示意图:我们只需要分别调用三个哈希函数计算各自的位图存储位置,然后保存到位图即可!代码如下:

// Insert 插入值到布隆过滤器当中
func (bloomFilter *MyBloomFilter) Insert(key string) {// 分别计算三个哈希函数计算值for i := 0; i < len(bloomFilter.hashArray); i++ {value := bloomFilter.hashArray[i].Hash(key)// 插入到位图中bloomFilter.bitMap.Set(value)}
}

2.3 查询数据

上图为从布隆过滤器中查询数据示意图:我们依然需要分别调用三个哈希函数计算各自的位图存储位置,分别查询位图目标位置是否为1,如果某一个为 0,则表明这个数据一定不存在;如果全部为 1,则表明这个数据可能存在! 这也是布隆过滤器的缺点:会存在误判的可能!因为存在一种情况,如果其他 key 对应存储位置也恰好是 1、2、5,此时出现了哈希冲突,因此无法保障一个元素一定存在,代码如下:

// MightContain 从布隆过滤器中查询元素
func (bloomFilter *MyBloomFilter) MightContain(key string) bool {// 分别计算三个哈希函数对应值for i := 0; i < len(bloomFilter.hashArray); i++ {value := bloomFilter.hashArray[i].Hash(key)// 判断值是否为0if !bloomFilter.bitMap.Get(value) {return false}}// 全部为1判断为存在(存在误判可能)return true
}

💡 提示:布隆过滤器存在误判的可能!适用于对误判率敏感度不高的场景

2.4 删除数据

如果采用上述结构来实现布隆过滤器,不建议提供删除操作,因为会增加其他元素的误判率!比如存在一种情况"baidu"映射的位置是1、5、7,"tencent"映射的位置是1、3、4,此时删除"baidu"对应的1、5、7,就会导致1处为0,查询"tencent"就会返回不存在!

💡 温馨提示:如果想要让布隆过滤器支持删除操作,可以修改对应数据结构,比如给对应比特位设置 k 个计数器(k为哈希函数的个数),删除一次就将对应k个计数器-1,但是依旧存在以下缺点:

  1. 存在序号回绕问题:计数器的值可能溢出
  2. 依旧无法解决布隆过滤器的误判问题

2.5 完整代码

package mainimport ("bloomfilter/hash""bloomfilter/mybitmap""fmt"
)// MyBloomFilter 自定义布隆过滤器
type MyBloomFilter struct {bitMap    mybitmap.MyBitMap // 自定义位图hashArray [3]hash.HashFunc  // 自定义哈希函数数组seeds     [3]int            // 随机数种子usedSize  int               // 存储元素个数
}// InitBloomFilter 初始化布隆过滤器函数
func InitBloomFilter() *MyBloomFilter {var bloomFilter MyBloomFilterbloomFilter.bitMap = *mybitmap.InitBitMap()bloomFilter.seeds = [3]int{11, 22, 33}bloomFilter.usedSize = 0for i := 0; i < 3; i++ {bloomFilter.hashArray[i] = *hash.InitHashFunc(100, bloomFilter.seeds[i])}return &bloomFilter
}// Insert 插入值到布隆过滤器当中
func (bloomFilter *MyBloomFilter) Insert(key string) {// 分别计算三个哈希函数计算值for i := 0; i < len(bloomFilter.hashArray); i++ {value := bloomFilter.hashArray[i].Hash(key)// 插入到位图中bloomFilter.bitMap.Set(value)}
}// MightContain 从布隆过滤器中查询元素
func (bloomFilter *MyBloomFilter) MightContain(key string) bool {// 分别计算三个哈希函数对应值for i := 0; i < len(bloomFilter.hashArray); i++ {value := bloomFilter.hashArray[i].Hash(key)// 判断值是否为0if !bloomFilter.bitMap.Get(value) {return false}}// 全部为1判断为存在(存在误判可能)return true
}func main() {var bloomFilter = InitBloomFilter()// 插入数据bloomFilter.Insert("DiDi")bloomFilter.Insert("baidu")fmt.Println(bloomFilter.bitMap)// 查询元素fmt.Println(bloomFilter.MightContain("DiDi"))fmt.Println(bloomFilter.MightContain("baidu"))fmt.Println(bloomFilter.MightContain("tencent"))fmt.Println(bloomFilter.MightContain("alibaba"))
}

程序运行结果:

3. 布隆过滤器小结

3.1 优点

  • 布隆过滤器的插入和查询时间复杂度都为O(k),k为哈希函数的个数,效率非常高
  • 布隆过滤器可以存在多个哈希函数,在分布式场景下也可以并行计算提升效率,且相互不干扰
  • 布隆过滤器可以存储字符串等类型,相比位图扩展性更高
  • 布隆过滤器在海量数据场景下,存储空间利用率高
  • 布隆过滤器不存储值本身,适用于一些数据敏感场景

3.2 缺点

  • 布隆过滤器天然存在误判的问题
  • 布隆过滤器无法获取值本身
  • 一般情况下布隆过滤器难以实现删除操作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/893367.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【json_object】mysql中json_object函数过长,显示不全

问题&#xff1a;json只显示部分 解决&#xff1a; SET GLOBAL group_concat_max_len 1000000; -- 设置为1MB&#xff0c;根据需要调整如果当前在navicat上修改&#xff0c;只有效本次连接和后续会话&#xff0c;重新连接还是会恢复默认值1024 在my.ini配置文件中新增或者修…

计算机网络 (52)秘钥分配

一、重要性 在计算机网络中&#xff0c;密钥分配是密钥管理中的一个核心问题。由于密码算法通常是公开的&#xff0c;因此网络的安全性主要依赖于密钥的安全保护。密钥分配的目的是确保密钥在传输过程中不被窃取或篡改&#xff0c;同时确保只有合法的用户才能获得密钥。 二、方…

第35天:安全开发-JavaEE应用原生反序列化重写方法链条分析触发类类加载

时间轴&#xff1a; 序列化与反序列化图解&#xff1a; 演示案例&#xff1a; Java-原生使用-序列化&反序列化 Java-安全问题-重写方法&触发方法 Java-安全问题-可控其他类重写方法 Java-原生使用-序列化&反序列化 1.为什么进行序列化和反序列化&#xff1…

MindAgent:基于大型语言模型的多智能体协作基础设施

2023-09-18 &#xff0c;加州大学洛杉矶分校&#xff08;UCLA&#xff09;、微软研究院、斯坦福大学等机构共同创建的新型基础设施&#xff0c;目的在评估大型语言模型在游戏互动中的规划和协调能力。MindAgent通过CuisineWorld这一新的游戏场景和相关基准&#xff0c;调度多智…

Excel 技巧17 - 如何计算倒计时,并添加该倒计时的数据条(★)

本文讲如何计算倒计时&#xff0c;并添加该倒计时的数据条。 1&#xff0c;如何计算倒计时 这里也要用公式 D3 - TODAY() 显示为下面这个样子的 然后右键该单元格&#xff0c;选 设置单元格格式 然后点 常规 这样就能显示出还书倒计时的日数了。 下拉适用到其他单元格。 2&a…

rocketmq基本架构

简介 Name server 负责broker注册、心跳&#xff0c;路由等功能&#xff0c;类似Kafka的ZKname server节点之间不互相通信&#xff0c;broker需要和所有name server进行通信。扩容name server需要重启broker&#xff0c;不然broker不会和name server建立连接producer和consum…

国产编辑器EverEdit - 大纲视图

1 大纲视图 1.1 应用场景 在编辑较长代码文件时&#xff0c;使用大纲视图可以方便的检视当前文件的变量、函数等信息&#xff0c;方便在不同函数间跳转&#xff0c;对整个文档的全貌了然于胸。   在编辑XML文档时&#xff0c;通过展示XML文件的层次结构、节点布局&#xff0…

Linux中的基本指令(一)

一、Linux中指令的存在意义 Linux中&#xff0c;通过输入指令来让操作系统执行&#xff0c;以此达到控制操作系统的目的&#xff0c;类似于Windows中的双击&#xff0c;右键新建文件&#xff0c;新建文件夹等 1.补&#xff1a;关于屏幕的几个操作指令 ①清屏指令 clear 回…

2025/1/21 学习Vue的第四天

睡觉。 --------------------------------------------------------------------------------------------------------------------------------- 11.Object.defineProperty 1.在我们之前学习JS的时候&#xff0c;普通得定义一个对象与属性。 <!DOCTYPE html> <h…

Go Map 源码分析(一)

Go语言中的map是通过哈希表实现的&#xff0c;其底层结构和实现机制如下&#xff1a; 一、hash 结构 hmap结构体&#xff1a;是map的头部结构&#xff0c;主要字段及含义如下&#xff1a; count&#xff1a;表示当前哈希表中的元素数量&#xff0c;与len()函数相对应。flags…

Linux-C/C++--深入探究文件 I/O (上)(文件的管理、函数返回错误、exit()、_Exit()、_exit())

经过上一章内容的学习&#xff0c;相信各位读者对 Linux 系统应用编程中的基础文件 I/O 操作有了一定的认识和理解了&#xff0c;能够独立完成一些简单地文件 I/O 编程问题&#xff0c;如果你的工作中仅仅只是涉及到一些简单文件读写操作相关的问题&#xff0c;其实上一章的知识…

【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格

音乐流派分类 – 自动化分类不同音乐风格 在本教程中,我们将开发一个深度学习项目,用于自动化地从音频文件中分类不同的音乐流派。我们将使用音频文件的频率域和时间域低级特征来分类这些音频文件。 对于这个项目,我们需要一个具有相似大小和相似频率范围的音频曲目数据集…

Walrus Learn to Earn计划正式启动!探索去中心化存储的无限可能

本期 Learn to Earn 活动将带领开发者和区块链爱好者深入探索 Walrus 的技术核心与实际应用&#xff0c;解锁分布式存储的无限可能。参与者不仅能提升技能&#xff0c;还能通过完成任务赢取丰厚奖励&#xff01;&#x1f30a; 什么是 Walrus&#xff1f; 数据主权如今正成为越…

git 常用命令 git archive

git archive 是 Git 中用于创建一个包含指定提交或分支中所有文件的归档文件&#xff08;如 .tar 或 .zip&#xff09;的命令。这个命令非常适合用于分发项目快照、备份代码库或导出特定版本的文件。 git archive --formatzip --outputproject.zip HEAD …

Excel 技巧15 - 在Excel中抠图头像,换背景色(★★)

本文讲了如何在Excel中抠图头像&#xff0c;换背景色。 1&#xff0c;如何在Excel中抠图头像&#xff0c;换背景色 大家都知道在PS中可以很容易抠图头像&#xff0c;换背景色&#xff0c;其实Excel中也可以抠简单的图&#xff0c;换背景色。 ※所用头像图片为百度搜索&#x…

持续升级《在线写python》小程序的功能,文章页增加一键复制功能,并自动去掉html标签

增加复制按钮后的界面是这样的 代码如下&#xff1a; <template><view><x-header></x-header><view class"" v-if"article_info"><view class"kuai bgf"><view class"ac fs26"><img sr…

FPGA与ASIC:深度解析与职业选择

IC&#xff08;集成电路&#xff09;行业涵盖广泛&#xff0c;涉及数字、模拟等不同研究方向&#xff0c;以及设计、制造、封测等不同产业环节。其中&#xff0c;FPGA&#xff08;现场可编程门阵列&#xff09;和ASIC&#xff08;专用集成电路&#xff09;是两种重要的芯片类型…

【Linux】Linux入门(三)权限

目录 前提权限概念whoami指令 Linux权限管理文件访问者的分类&#xff08;人&#xff09;file指令权限信息权限的表示方法 chmod指令 更改权限chown指令 修改文件&#xff0c;文件夹所属用户和用户组 权限掩码umask&#xff08;权限掩码&#xff09; 粘滞位 前提 请先看下面这…

蓝桥与力扣刷题(73 矩阵置零)

题目&#xff1a;给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,1,1],[1,0,1],[1,1,1]] 输出&#xff1a;[[1,0,1],[0,0,0],[1,0,1]]示例 2&…

Node.js接收文件分片数据并进行合并处理

前言&#xff1a;上一篇文章讲了如何进行文件的分片&#xff1a;Vue3使用多线程处理文件分片任务&#xff0c;那么本篇文章主要看一下后端怎么接收前端上传来的分片并进行合并处理。 目录&#xff1a; 一、文件结构二、主要依赖1. express2. multer3. fs (文件系统模块)4. pat…