【算法】深入理解布隆过滤器

1. 什么是布隆过滤器?

布隆过滤器(Bloom Filter)是一种空间效率极高的概率型数据结构,用于检测某个元素是否在一个集合中。与常见的数据结构如哈希表不同,布隆过滤器无法删除元素,并且会存在一定的误判率,即它可能会错误地判断一个不存在的元素为存在。

尽管如此,布隆过滤器在大规模数据场景中具有巨大的优势,特别是在存储和计算资源有限的情况下,它可以显著减少内存占用,并提供极高效的查询性能。

2. 业务场景

布隆过滤器的典型应用场景包括:

  • 缓存穿透:在分布式缓存系统中,如 Redis,如果大量不存在的数据请求直接打到数据库层,会对数据库造成较大压力。布隆过滤器可以提前过滤掉这些不存在的请求,避免数据库查询。
  • 反垃圾邮件系统:判断某个电子邮件是否曾被标记为垃圾邮件。布隆过滤器可以快速检测某个邮件是否已经处理过。
  • Web 爬虫:判断 URL 是否已经被爬取,避免重复爬取相同的页面。
  • 区块链:在比特币等加密货币中,布隆过滤器用于快速判断某个交易是否相关。

3. 布隆过滤器的原理

布隆过滤器的核心思想是使用多个哈希函数来映射数据到一个位数组中,并通过检查位数组中的对应位来判断某个元素是否可能存在。

3.1 工作流程

  1. 初始化:布隆过滤器开始时是一个长度为 m 的位数组,所有位都被设置为 0。
  2. 插入操作:当插入一个元素时,布隆过滤器会通过 k 个独立的哈希函数对该元素进行哈希运算,得到 k 个哈希值。然后将这些哈希值对应的位数组位置置为 1。
  3. 查询操作:查询时,同样使用 k 个哈希函数对元素进行哈希运算。如果所有哈希函数对应的位数组中的位置都为 1,则说明该元素可能存在;如果有任何一个位置为 0,则说明该元素一定不存在。

3.2 错误率

布隆过滤器并不能 100% 精确地判断元素是否存在,它会存在误判的可能性。即使一个元素没有插入到布隆过滤器中,它也有可能由于哈希冲突而被误认为存在。

错误率取决于:

  • 位数组的长度 m
  • 哈希函数的数量 k
  • 插入元素的数量 n

通过合理选择这些参数,可以将误判率控制在可接受的范围内。

3.3 最佳参数选择

在实际应用中,优化误判率非常重要。哈希函数的数量 k 与位数组的大小 m 有一个最佳值,通常可以通过以下公式计算:

  • 误判率P = \left( 1 - e^{-\frac{kn}{m}} \right)^k
    • P 是误判率
    • k 是哈希函数的数量
    • n 是插入的元素个数
    • m 是位数组的大小
    • e 是自然常数
  • 最佳哈希函数个数k = \frac{m}{n} \cdot \ln(2)
    • k 是哈希函数的数量
    • m 是位数组的大小
    • n 是插入的元素个数
    • ln⁡(2) 是 2 的自然对数

4. 布隆过滤器的 Python 实现

下面我们使用 Python 实现一个简单的布隆过滤器。

import mmh3  # 需要安装 mmh3 库
from bitarray import bitarray  # 需要安装 bitarray 库class BloomFilter:def __init__(self, size, hash_count):self.size = sizeself.hash_count = hash_countself.bit_array = bitarray(size)self.bit_array.setall(0)def add(self, item):for i in range(self.hash_count):digest = mmh3.hash(item, i) % self.sizeself.bit_array[digest] = 1def check(self, item):for i in range(self.hash_count):digest = mmh3.hash(item, i) % self.sizeif self.bit_array[digest] == 0:return Falsereturn True# 初始化布隆过滤器
bf = BloomFilter(size=1000, hash_count=5)# 添加元素
bf.add("hello")
bf.add("world")# 查询元素
print(bf.check("hello"))  # 输出: True
print(bf.check("python"))  # 输出: False

4.1 实现说明

  • bitarray:用于表示布隆过滤器的位数组。我们使用第三方库 bitarray,因为它比 Python 自带的 list 更加节省空间。
  • mmh3:用于计算哈希值的库。mmh3.hash(item, i) 表示对元素进行哈希运算,i 用作种子,生成不同的哈希值。

5. 布隆过滤器的扩展

5.1 可扩展布隆过滤器

当布隆过滤器的容量被填满时,误判率会急剧上升。为了解决这个问题,可以使用可扩展布隆过滤器(Scalable Bloom Filter),它通过动态增加新的布隆过滤器来保证误判率保持在设定值以下。

5.2 布谷鸟过滤器

布谷鸟过滤器是一种与布隆过滤器类似的数据结构,但它支持删除操作,并且通常具有更低的错误率。它通过布谷鸟哈希法在内存中为元素找到更合适的位置。

6. 总结

布隆过滤器是一个极具效率的数据结构,尤其适用于需要快速判断某个元素是否存在于大规模数据集中的场景。虽然它存在误判的缺点,但通过合理设置参数,可以将误判率降至较低范围。同时,布隆过滤器的轻量化和快速性使得它在缓存、爬虫、反垃圾邮件等领域得到了广泛应用。


参考

  1. Bloom Filter in Python

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/55287.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用示波器观测RC一阶电路零输入响应是否激励必须是方波信号

概述 RC一阶电路是一种简单但非常重要的电路,广泛应用于滤波、信号处理和时间常数分析等领域。在研究RC电路的动态特性时,零输入响应(Natural Response)是一项关键内容。本文将详细解析用示波器观测RC一阶电路零输入响应时&#…

如何实现安川MP3300运动控制器与西门子1200系列PLC进行ModbusTCP通讯

在工业自动化中,实现不同品牌、不同型号设备之间的通讯是确保生产流程顺畅、高效运行的关键。本文详细介绍了安川MP3300运动控制器与西门子1200系列PLC进行ModbusTCP通讯的具体方法。 一.软硬件需求 1.一台安川MP3300CPU301,其IP地址是192.…

SpringCloudAlibaba升级手册

目录 1. 版本对照 版本现状 SpringCloud与AlibabaCloud对应版本 Springboot与Elasticsearch版本对应 2. openfeign问题 问题 解决方案 3. Feign请求问题 问题 解决方法 4. Sentinel循环依赖 问题 解决方案 5. bootstrap配置文件不生效 问题 解决方案 6. Nacos的…

Codeforces Round 929 (Div. 3) F. Turtle Mission: Robot and the Earthquake

题目 题解&#xff1a; 按题解思路的代码&#xff1a; #include <bits/stdc.h>using i64 long long;void solve() {int n, m;std::cin >> n >> m;std::vector a(n, std::vector<int>(m));for (int i 0; i < n; i) {for (int j 0; j < m; j) …

STM32—SPI通讯协议

前言 由于I2C开漏外加上拉电阻的电路结构&#xff0c;使得通信线高电平的驱动能力比较弱&#xff0c;这就会号致&#xff0c;通信线由候电平变到高电平的时候&#xff0c;这个上升沿耗时比较长&#xff0c;这会限制I2C的最大通信速度&#xff0c; 所以&#xff0c;I2C的标准模…

uniapp-小程序开发0-1笔记大全

uniapp官网&#xff1a; https://uniapp.dcloud.net.cn/tutorial/syntax-js.html uniapp插件市场&#xff1a; https://ext.dcloud.net.cn/ uviewui类库&#xff1a; https://www.uviewui.com/ 柱状、扇形、仪表盘库&#xff1a; https://www.ucharts.cn/v2/#/ CSS样式&…

经纬恒润荣获2024中国汽车供应链大会创新成果奖

2024年9月24日-26日&#xff0c;2024中国汽车供应链大会暨第三届中国新能源智能网联汽车生态大会在武汉隆重举办。本届大会以“新挑战、新对策、新机遇——推动中国汽车供应链可持续发展”为主题&#xff0c;集聚政府主管领导、行业专家、汽车及零部件企业精英和主流媒体&#…

Ubuntu24.04 安装 NCAR Command Language(NCL)

目录 一般直接在Terminal中使用apt安装命令即可&#xff0c; 出现这样的问题&#xff0c; 如何解决这个问题呢&#xff1f; 一般直接在Terminal中使用apt安装命令即可&#xff0c; sudo apt install ncl-ncarg 但是&#xff0c;由于 Ubuntu 版本较新 Ubuntu 24.04&#xff…

Python OpenCV精讲系列 - 三维重建深入理解(十七)

&#x1f496;&#x1f496;⚡️⚡️专栏&#xff1a;Python OpenCV精讲⚡️⚡️&#x1f496;&#x1f496; 本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计&#xff0c;从基础概念入手&#xff0c;逐步深入到图像处理、特征检测、物体识…

迪杰斯特拉算法的理解

图片转载自&#xff1a;最短路径算法-迪杰斯特拉(Dijkstra)算法 - 程序小哥爱读书的文章 - 知乎 https://zhuanlan.zhihu.com/p/346558578 迪杰斯特拉&#xff0c;一个广度优先算法&#xff0c;采用了贪心策略。 第一步&#xff0c;选取顶点D&#xff0c;更新和D相连的节点C&a…

78天闭门深造1258页SpringCloud学习进阶笔记,再战蚂蚁金服

概述 作为一名程序员应该都知道SpringCloud&#xff0c;不知道就该反思一下了啊[奸笑]。所以就不有板有眼的和官方的介绍一样了&#xff0c;今天就说一下&#xff0c;我理解的SpringCloud是什么&#xff1a;我所理解的Spring Cloud就是微服务系统架构的一站式解决方案&#xf…

Java项目: 基于SpringBoot+mysql+maven+vue林业产品推荐系统(含源码+数据库+毕业论文)

一、项目简介 本项目是一套基于SpringBootmybatismavenvue林业产品推荐系统 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#xff0c;eclipse或者idea 确保可以运行&#xff01; 该系统功能完善、界面美观、操…

算法工程师重生之第二十七天(合并区间 单调递增的数字 监控二叉树 总结)

参考文献 代码随想录 一、合并区间 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中的所有区间 。 示例 1&#xff1a…

Windows git 配置

需要在git-bash的目录下,配置.ssh 的配置文件 要 .ssh 目录下的配置无法使用

【SPIE独立出版】第四届计算机、信息工程与电子材料国际学术会议 (CTIEEM 2024,2024年11月15-17日 )

第四届计算机、信息工程与电子材料国际学术会议 (CTIEEM 2024) The 4th International Conference on Computer Technology, Information Engineering and Electron Materials 会议官网&#xff1a;www.ctieem.org The 4th International Conference on Computer Technology,…

阿里 C++面试,算法题没做出来,,,

我本人是非科班学 C 后端和嵌入式的。在我面试的过程中&#xff0c;竟然得到了阿里​ C 研发工程师的面试机会。因为&#xff0c;阿里主要是用 Java 比较多&#xff0c;C 的岗位比较少​&#xff0c;所以感觉这个机会还是挺难得的。 阿里 C 研发工程师面试考了我一道类似于快速…

Android上的AES加密

基础算法说明 https://www.youtube.com/watch?vlnKPoWZnNNM 虽然这个视频讲的非常详细&#xff0c;但是涉及到具体底层算法&#xff0c;大致流程 1. 将数据转成HEX或者byte array 2.将数据分层一块块等大小的数据 3.将数据和key 进行一次混合&#xff0c;加密之后的输出&…

ClickHouse的原理及使用,

1、前言 一款MPP查询分析型数据库——ClickHouse。它是一个开源的&#xff0c;面向列的分析数据库&#xff0c;由Yandex为OLAP和大数据用例创建。ClickHouse对实时查询处理的支持使其适用于需要亚秒级分析结果的应用程序。ClickHouse的查询语言是SQL的一种方言&#xff0c;它支…

【排序】——1.冒泡排序法(含优化)

冒泡排序 1.原理 左边大于右边交换一趟排下来最大的交换到右边来(接下来所以文章用升序举例) 从左到右&#xff0c;相邻元素进行比较。 每次比较一轮&#xff0c;就会找到序列中最大的一个&#xff08;最小的一个——降序&#xff09;。这个数就会从序列的最右边冒出来。 以…

算法时间、空间复杂度(二)

目录 大O渐进表示法 一、时间复杂度量级的判断 定义&#xff1a; 例一&#xff1a;执行2*N&#xff0b;1次 例二&#xff1a;执行MN次 例三&#xff1a;执行已知次数 例四:存在最好情况和最坏情况 顺序查找 冒泡排序 二分查找 例五&#xff1a;阶乘递归 ​编辑 例…