Bloom Filter算法

一、概念

Bloom Filter的中文翻译叫做布隆过滤器,是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。如文章标题所述,本文只是做简单介绍,属于科普文章。

二、应用场景

在正式介绍Bloom Filter算法之前,先来看看什么时候需要用到Bloom Filter算法。

1. HTTP缓存服务器、Web爬虫等

主要工作是判断一条URL是否在现有的URL集合之中(可以认为这里的数据量级上亿)。

  • 对于HTTP缓存服务器,当本地局域网中的PC发起一条HTTP请求时,缓存服务器会先查看一下这个URL是否已经存在于缓存之中,如果存在的话就没有必要去原始的服务器拉取数据了(为了简单起见,我们假设数据没有发生变化),这样既能节省流量,还能加快访问速度,以提高用户体验。
  • 对于Web爬虫,要判断当前正在处理的网页是否已经处理过了,同样需要当前URL是否存在于已经处理过的URL列表之中。

2. 垃圾邮件过滤

假设邮件服务器通过发送方的邮件域或者IP地址对垃圾邮件进行过滤,那么就需要判断当前的邮件域或者IP地址是否处于黑名单之中。如果邮件服务器的通信邮件数量非常大(也可以认为数据量级上亿),那么也可以使用Bloom Filter算法。

几个专业术语

这里有必要介绍一下False Positive和False Negative的概念(更形象的描述可以阅读第4条参考)。

  • False Positive中文可以理解为“假阳性”,形象的一点说就是“误报”,后面将会说道Bloom Filter存在误报的情况,现实生活中也有误报,比如说去体检的时候,医生告诉你XXX检测是阳性,而实际上是阴性,也就是说误报了,是假阳性,杀毒软件误报也是同样的概念。
  • False Negative,中文可以理解为“假阴性”,形象的一点说是“漏报”。医生告诉你XXX检测为阴性,实际上你是阳性,你是有病的(Sorry, it’s just a joke),那就是漏报了。同样杀毒软件也存在漏报的情况。

 

三、Bloom Filter算法

初始状态下,Bloom Filter是一个m位的位数组,且数组被0所填充。同时,我们需要定义k个不同的hash函数,每一个hash函数都随机的将每一个输入元素映射到位数组中的一个位上。那么对于一个确定的输入,我们会得到k个索引。

插入元素:经过k个hash函数的映射,我们会得到k个索引,我们把位数组中这k个位置全部置1(不管其中的位之前是0还是1)

查询元素:输入元素经过k个hash函数的映射会得到k个索引,如果位数组中这k个索引任意一处是0,那么就说明这个元素不在集合之中;如果元素处于集合之中,那么当插入元素的时候这k个位都是1。但如果这k个索引处的位都是1,被查询的元素就一定在集合之中吗?答案是不一定,也就是说出现了False Positive的情况(但Bloom Filter不会出现False Negative的情况)

在上图中,当插入x、y、z这三个元素之后,再来查询w,会发现w不在集合之中,而如果w经过三个hash函数计算得出的结果所得索引处的位全是1,那么Bloom Filter就会告诉你,w在集合之中,实际上这里是误报,w并不在集合之中。

 

False Positive Rate

Bloom Filter的误报率到底有多大?下面在数学上进行一番推敲。假设HASH函数输出的索引值落在m位的数组上的每一位上都是等可能的。那么,对于一个给定的HASH函数,在进行某一个运算的时候,一个特定的位没有被设置为1的概率是

bloom filter pr1


那么,对于所有的k个HASH函数,都没有把这个位设置为1的概率是

bloom filter pr2


如果我们已经插入了n个元素,那么对于一个给定的位,这个位仍然是0的概率是

bloom filter pr3


那么,如果插入n个元素之后,这个位是1的概率是

bloom filter pr4


如果对一个特定的元素存在误报,那么这个元素的经过HASH函数所得到的k个索引全部都是1,概率也就是

bloom filter pr5


根据常数e的定义,可以近似的表示为:

bloom filter pr6

 

关于误报

有时候误报对实际操作并不会带来太大的影响,比如对于HTTP缓存服务器,如果一条URL被误以为存在与缓存服务器之中,那么当取数据的时候自然会无法取到,最终还是要从原始服务器当中获取,之后再把记录插入缓存服务器,几乎没有什么不可以接受的。
对于安全软件,有着“另可错报,不可误报”的说法,如果你把一个正常软件误判为病毒,对使用者来说不会有什么影响(如果用户相信是病毒,那么就是删除这个文件罢了,如果用户执意要执行,那么后果也只能由用户来承担);如果你把一个病毒漏判了,那么对用户造成的后果是不可设想的……更有甚者,误报在某种程度上能让部分用户觉得你很专业……

参考资料:

1. Bloom Filter 算法简介 (增加 Counting Bloom Filter 内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/385279.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

237. 删除链表中的节点

请编写一个函数,使其可以删除某个链表中给定的(非末尾)节点,你将只被给定要求被删除的节点。 现有一个链表 -- head [4,5,1,9],它可以表示为: 示例 1: 输入: head [4,5,1,9], node 5 输出: [4,1,9] 解释: 给定你链表…

151. 翻转字符串里的单词

输入: " hello world! " 输出: "world! hello" 解释: 输入字符串可以在前面或者后面包含多余的空格,但是反转后的字符不能包括。 示例 3: 输入: "a good example" 输出: "example good a" 解释: 如果两个单…

进程间同步(互斥量、信号量)

进程间同步可以使用互斥量mutex(互斥锁)、信号量和文件锁。 进程间同步使用信号量: int sem_init(sem_t *sem, int pshared, unsigned int value); 用于进程间同步此时第二个参数不能取0了,取非0值用于进程间同步,一…

1059 Prime Factors(25 分)

Given any positive integer N, you are supposed to find all of its prime factors, and write them in the format N p​1​​​k​1​​​​p​2​​​k​2​​​​⋯p​m​​​k​m​​​​. Input Specification: Each input file contains one test case which gives a…

STL源码剖析

1. 当vector的内存用完了,它是如何动态扩展内存的?它是怎么释放内存的?用clear可以释放掉内存吗?是不是线程安全的? vector内存用完了,会以当前size大小重新申请2* size的内存,然后把原来的元素…

C++ 内存管理机制

内存分配方式 简介 在C中,内存分成5个区,他们分别是堆、栈、自由存储区、全局/静态存储区和常量存储区。 栈:在执行函数时,函数内局部变量的存储单元都可以在栈上创建,函数执行结束时这些存储单元自动被释放。栈内存…

哲学家用餐模型

分析: 为了避免死锁,做了如下规定:每个哲学家先拿自己左手边的筷子,然后再去拿右手边的筷子,如果不能同时得到两支筷子,则该哲学家放下手中已有的筷子。这种规定依然会因为振荡而产生死锁,例如…

【C++ Primer | 16】std::move和std::forward、完美转发

右值引用应该是C11引入的一个非常重要的技术,因为它是移动语义(Move semantics)与完美转发(Perfect forwarding)的基石: 移动语义:将内存的所有权从一个对象转移到另外一个对象,高效…

循环引用

1. 测试代码 #include <iostream> #include <memory> using namespace std;class B; class A { public:shared_ptr<B> pb;~A() { cout << "kill A\n";} };class B { public:shared_ptr<A> pa;~B() { cout << "kill B\n&q…

8. 字符串转换整数 (atoi)

请你来实现一个 atoi 函数&#xff0c;使其能将字符串转换成整数。 首先&#xff0c;该函数会根据需要丢弃无用的开头空格字符&#xff0c;直到寻找到第一个非空格的字符为止。 当我们寻找到的第一个非空字符为正或者负号时&#xff0c;则将该符号与之后面尽可能多的连续数字组…

【C++ Primer | 16】容器适配器全特化、偏特化

上面对模板的特化进行了总结。那模板的偏特化呢&#xff1f;所谓的偏特化是指提供另一份模板定义式&#xff0c;而其本身仍为模板&#xff1b;也就是说&#xff0c;针对模板参数更进一步的条件限制所设计出来的一个特化版本。这种偏特化的应用在STL中是随处可见的。比如 1.测试…

select、poll、epoll优缺点

select的缺点&#xff1a; 单个进程能够监视的文件描述符的数量存在最大限制&#xff0c;通常是1024&#xff0c;当然可以更改数量&#xff0c;但由于select采用轮询的方式扫描文件描述符&#xff0c;文件描述符数量越多&#xff0c;性能越差&#xff1b;内核/用户空间内存拷贝…

vector源码剖析

一、vector定义摘要&#xff1a; template <class T, class Alloc alloc> class vector { public:typedef T value_type;typedef value_type* pointer;typedef const value_type* const_pointer;typedef value_type* iterator;typ…

vs2013编译win-32位下的libevent-2.0.21-stable,debug版本

环境&#xff1a;win10&#xff08;64位&#xff09;vs2013 首先需要修改Makefile.nmake中的CFLAGS$(CFLAGS) /Ox /W3 /wd4996 /nologo注释掉&#xff0c;这一行是不带调试信息的。CFLAGS$(CFLAGS) /Od /W3 /wd4996 logo /Zi 替换这一行之后就可以自带调试信息。 打开vs2013的…

Leetcode 219. 存在重复元素 II

解题思路&#xff1a; class Solution { public:bool containsNearbyDuplicate(vector<int>& nums, int k) {unordered_map<int, int> cnt;for(int i0; i<nums.size(); i){if(cnt.find(nums[i]) ! cnt.end()){if(i - cnt[nums[i]] < k) return true;}cn…

Linux程序设计01:开发工具和开发平台

1.SecureCRT 1.1SecureCRT支持SSH*&#xff08;SSH1和SSH2&#xff09;&#xff0c;安装的过程不在赘述 1.2与SecureCRT相关的Linux命令 rz和sz是Linux同windows进行ZModem文件传输的命令行工具。 sz命令利用ZModem协议来从Linux服务器传送文件到本地&#xff0c;一次可以传送一…

fork、vfork、clone

1. 概念 写时复制技术最初产生于Unix系统&#xff0c;用于实现一种傻瓜式的进程创建&#xff1a;当发出fork( )系统调用时&#xff0c;内核原样复制父进程的整个地址空间并把复制的那一份分配给子进程。这种行为是非常耗时的&#xff0c;因为它需要&#xff1a; 为子进程的页…

Linux02进程内存管理

1.进程地址空间 1.1程序的结构与进程的结构 [rootlocalhost demo]# size testtext data bss dec hex filename 1193 492 16 1701 6a5 test 一个可执行程序包含三个部分&#xff1a; 代码段&#xff1a;主要存放指令&#xff0c;操作以及只读的常量数据例…

epoll

开发高性能网络程序时&#xff0c;windows开发者们言必称iocp&#xff0c;linux开发者们则言必称epoll。大家都明白epoll是一种IO多路复用技术&#xff0c;可以非常高效的处理数以百万计的socket句柄&#xff0c;比起以前的select和poll效率高大发了。我们用起epoll来都感觉挺爽…

剑指offer目录

序号题目1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21