java 布隆过滤器_什么是布隆过滤器(Bloom Filter)?

在日常工作中,有一个比较常见的需求,就是需要判断一个元素是否在集合中。

例如以下场景:

  • 给定一个IP黑名单库,检查指定IP是否在黑名单中?

  • 在接收邮件的时候,判断一个邮箱地址是否为垃圾邮件?

  • 在文字处理软件中,检查一个英文单词是否拼写正确?

遇到这种问题,通常直觉会告诉我们,应该使用集合这种数据结构来实现。例如,先将IP黑名单库的所有IP全部存储到一个集合中,然后再拿指定的IP到该集合中检查是否存在,如果存在则说明该IP命中黑名单。

通过一段Java代码,来模拟IP黑名单库的存储和检查。

public class IPBlackList {

public static void main(String[] args) {
Set<String> set = new HashSet<>();
set.add("192.168.1.1");
set.add("192.168.1.2");
set.add("192.168.1.4");
System.out.println(set.contains("192.168.1.1"));
System.out.println(set.contains("192.168.1.2"));
System.out.println(set.contains("192.168.1.3"));
System.out.println(set.contains("192.168.1.4"));
}

}

执行结果:

true
true
false
true

集合的内部,通常是使用散列表来实现。其优点是查询非常高效,缺点是比较耗费存储空间。

一般在数据量比较小的时候,我们会使用集合来进行存储。以空间换时间,在占用空间较小的情况下,同时又能提高查询效率。

但是,当存储的数据量比较大的时候,耗费大量空间将会成为问题。因为这些数据通常会存储到进程内存中,以加快查询效率。而机器的内存通常都是有限的,要尽可能高效的使用。

另一方面,散列表在空间和效率上是需要做平衡的。存储相同数量的元素,如果散列表容量越小,出现冲突的概率就越高,用于解决冲突的时间将会花费更多,从而影响性能。

而布隆过滤器(Bloom Filter)的产生,能够很好的解决这个问题。一方面能够以更少的内存来存储数据,另一方面能够实现非常高效的查询性能。

布隆过滤器(Bloom Filter)

布隆过滤器(Bloom Filter)是一个数据结构,由布隆(Burton Howard Bloom)于1970年提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。

布隆过滤器可以用于高效的检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远优于一般的算法,缺点是有一定的误识别率,而且难以删除(一般不支持,需要额外的实现)。

布隆过滤器之所以高效,因为它是一个概率数据结构,它能确认元素肯定不在集合中,或者元素可能在集合中。之所以说是可能,是因为它有一定的误识别率,使得无法100%确定元素一定在集合中。

基本原理

布隆过滤器的基本工作原理并不复杂,大致如下:

首先,建立一个二进制向量,并将所有位设置为0。

然后,选定K个散列函数,用于对元素进行K次散列,计算向量的位下标。

添加元素

当添加一个元素到集合中时,通过K个散列函数分别作用于元素,生成K个值作为下标,并对向量的相应位设置为1。

检查元素

如果要检查一个元素是否存在集合中,用同样的散列方法,生成K个下标,并检查向量的相应位是否全部是1。如果全为1,则该元素很可能在集合中;否则(只要有1个或以上的位为0),该元素肯定不在集合中。

这就是布隆过滤器的基本思想。

e404a8205252bab39a5bbdf9d0ccfb3f.png

一个简单的例子

假设有一个布隆过滤器,容量是15位,使用2个哈希函数。

797e773337a76e79ddc49eb3ca1c0af5.png

添加一个字符串a,2次哈希得到下标为4和10,将4和10对应的位由0标记为1。

c8c2f209dc1b5a79c798edb0e3211f17.png

然后添加一个字符串b,2次哈希得到下标为11和11,将11对应的位由0标记为1。

c333dff8817c3e715ef0b33a8f8fa3ce.png

再添加一个字符串c,2次哈希得到下标为11和12,将11和12对应的位由0标记为1。

0677b83a73e54a686731c1b965174c95.png

最后,添加一个字符串sam,2次哈希得到下标为0和7,将0和7对应的位由0标记为1。

bbbe5eebe83c84f4935ae819218ef65c.png

上面,我们添加了4个字符串,每个字符串分别进行2次哈希,对应的2个位标记为1,最终被标记为1的共有6位而不是8位。

这说明,不同的元素,哈希后得到的位置是可能出现重叠的。如果元素越多,出现重叠的概率会更高。如果有2个元素出现重叠的位置,我们是无法判断任一元素一定在集合中的。

如果要检查一下元素是否存在集合中,只需要以相同的方法,进行2次哈希,将得到的2个下标在布隆过滤器中的相应位进行查找。如果对应的2位不是全部为1,则该元素肯定不在集合中。如果对应的2位全部为1,则说明该元素可能在集合中,也可能不存在。

例如,检查字符串b是否存在集合中,哈希得到的2个下标都为11。检查发现,11对应的位为1。但是,这并不能说明b一定在集合中。这是因为,字符串c哈希后的下标也包含11,有可能只是字符串c在集合中,而b却不存在,这就是造成了误识别,也称为假阳性。

再检查字符串foo,哈希得到的下标分别为8和13,对应的位都为0。因此,字符串foo肯定不在集合中。

数学原理

布隆过滤器背后的数学原理是:

两个完全随机的数字相冲突的概率很小,因此可以在很小的误识别率条件下,用很少的空间存储大量信息。

解决误识别率的2种方法

白名单

解决误识别率的常见方法,是建立一个较小的白名单,用来存储那些可能被误识别的数据。

以垃圾邮件过滤为例。假设我们有一个垃圾邮件库,用于在接收邮件的时候过滤掉垃圾邮件。

这时可以先将这个垃圾邮件库存储到布隆过滤器中,当接收到邮件的时候,可以先通过布隆过滤器高效的过滤出大部分正常邮件。

而对于少部分命中(可能为)垃圾邮件的,其中有一部分可能为正常邮件。

再创建一个白名单库,当在布隆过滤器中判断可能为垃圾邮件时,通过查询白名单来确认是否为正常邮件。

对于没在白名单中的邮件,默认会被移动到垃圾箱。通过人工识别的方式,当发现垃圾箱中存在正常邮件的时候,将其移入白名单。

回源确认

很多时候,使用布隆过滤器是为了低成本,高效率的拦截掉大量数据不在集合中的场景。

例如:

  • Google Bigtable,Apache HBase以及Apache Cassandra和PostgreSQL 使用Bloom过滤器来减少对不存在的行或列的磁盘查找。避免进行昂贵的磁盘查找,可大大提高数据库查询操作的性能。

  • 在谷歌浏览器用于使用布隆过滤器来识别恶意URL的网页浏览器。首先会针对本地Bloom过滤器检查所有URL,只有在Bloom过滤器返回肯定结果的情况下,才对执行的URL进行全面检查(如果该结果也返回肯定结果,则用户会发出警告)。

  • 拦截掉大量非IP黑名单请求,对于少量可能在黑名单中的IP,再查询一次黑名单库。

这是布隆过滤器非常典型的应用场景,先过滤掉大部分请求,然后只处理少量不明确的请求。

这个方法,和白名单库的区别是,不需要再另外建立一套库来处理,而是使用本来就已经存在的数据和逻辑。

例如Google Bigtable查询数据行本来就是需要查的,只不过使用布隆过滤器拦截掉了大部分不必要的请求。而IP是否为黑名单也是需要查询的,同样是先使用布隆过滤器来拦截掉大部分IP。

而上面垃圾邮件的处理,对于可能为垃圾邮件的情况,不是通过完整的垃圾邮件库再查询一次进行确认,而是用增加白名单来进行判断的方式。因为通常来说,白名单库会更小,便于缓存。

这里所说的回源,实际上是对可能被误识别的请求,最后要回到数据源头或逻辑确认一次。

参考

https://en.wikipedia.org/wiki/Bloom_filter

https://en.wikipedia.org/wiki/Bloom_filter

https://zh.wikipedia.org/zh-cn/布隆过滤器

https://llimllib.github.io/bloomfilter-tutorial

https://www.geeksforgeeks.org/bloom-filter-in-java-with-examples/

《数学之美》


题图:wikipedia.org极客教程:996geek.com个人博客:binarylife.icu

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/370520.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32上使用JSON

一、STM32工程中添加JSON 最近在一网2串项目&#xff0c;串口和网口之间可能需要定义一下简单的通信协议&#xff0c;而通信协议上则需要去定义一下通信的数据格式&#xff0c;上次听剑锋说要用Json来定义&#xff0c;目前查了下资料具体如何去应用还不 会。因为最新的KEIL上支…

Flex 学习

Flex案例一&#xff1a; 1 <html>2 <head>3 <meta http-equiv"Content-Type" content"text/html; charsetutf-8" /> 4 <title>无标题</title>5 <style type"text/css">6 body,h1,h2,h3,h4,…

Cocos2d-X中实现自己定义菜单处理事件

当用户点击再松开后才会响应菜单事件&#xff0c;而在游戏中有些游戏须要玩家点击后就处理事件。如玩坦克大战的时候&#xff0c;玩家是点击一下就发射子弹。并是点击松手后发射子弹&#xff0c;在Cocos2d-X中没有这样的消息。以下就通过自己定义的方式实现当用户点击后就调用处…

java linkedhashset_java之LinkedHashSet

LinkedHashSet是Set集合的一个实现&#xff0c;具有set集合不重复的特点&#xff0c;同时具有可预测的迭代顺序&#xff0c;也就是我们插入的顺序。并且linkedHashSet是一个非线程安全的集合。如果有多个线程同时访问当前linkedhashset集合容器&#xff0c;并且有一个线程对当前…

使用Spring Integration轮询http端点

如果您想用Spring Integration编写一个流程来轮询HTTP端点并从http端点收集一些内容以进行进一步处理&#xff0c;那有点不直观。 Spring Integration提供了几种与HTTP端点集成的方式- Http出站适配器–将消息发送到http端点 Http出站网关–将消息发送到http端点并收集响应作…

python模块离线安装_离线安装db2的python模块ibm_db

1、为什么要离线安装 没网&#xff0c;在银行工作&#xff0c;服务器环境配置&#xff0c;完全离线&#xff08;本来五分钟搞定的事情&#xff0c;非要搞一天。我服&#xff01;&#xff01;&#xff09; 2、安装步骤 视情况而定。 3。一个下载db2的client包&#xff0c;官网下…

Jmeter 场景设计

今天的业务场景是&#xff1a; 1.管理员登录后台---登录成功后添加一个某类型的产品---产品添加成功后&#xff0c;再为该产品添加10个排期。 2.管理员登录后台--登录成功后添加多个不同类型产品---产品全部添加完成后&#xff0c;依次为所有产品添加10个排期。 这是两种不同的…

Android IPC机制(五)用Socket实现跨进程聊天程序

1.Socket简介 Socket也称作“套接字“&#xff0c;是在应用层和传输层之间的一个抽象层&#xff0c;它把TCP/IP层复杂的操作抽象为几个简单的接口供应用层调用以实现进程在网络中通信。它分为流式套接字和数据包套接字&#xff0c;分别对应网络传输控制层的TCP和UDP协议。TCP协…

ArcGIS 网络分析[4] 网络数据集深入浅出之连通性、网络数据集的属性及转弯要素...

前面介绍完了如何创建网络数据集、如何使用网络分析功能&#xff0c;当然还有的读者会迷惑于一些更深层次的问题&#xff0c;比如网络数据集的连通性问题等。 因为不可能面面俱到&#xff0c;我只能挑重点来阐述&#xff0c;我觉得网络数据集的连通性、属性和转弯是初学者中比较…

java获取byte 长度_java获取字节的长度.

我们经常要获取中文,数字,或者英文字符所占字节的长度,下面就列出各种编码格式下所占字节的长度:代码如下:package pack.java.midea.dao;import java.io.UnsupportedEncodingException;/*** 测试;* author zhouhaitao* 2012-5-17*/public class Test {/*** param args* throws …

Batoo JPA –比领先的JPA提供商快15倍

介绍 我早在2000年代就喜欢JPA 1.0。 我甚至在稳定版本发布之前就将其与EJB 3.0一起使用。 我非常喜欢它&#xff0c;因此我为JBoss 3.x实现贡献了一些零碎的部分。 那时我们公司规模还很小。 创建新功能和应用程序比性能更重要&#xff0c;因为我们有很多想法&#xff0c;我…

python软件是哪个国家的品牌_有哪些好用的软件被国人误认为是外国研发的?

国产软件被标榜上了英文&#xff0c;即便不是英文&#xff0c;用拼音写出来&#xff0c;也会有人误认为是国外的软件。因为这样可以显得高大上&#xff0c;为什么我们会有这样的想法&#xff0c;是崇洋媚外吗&#xff0c;并不是&#xff0c;而是之前的国产软件的确有不少让我们…

简单的Session案例 —— 一次性验证码

一次性验证码的主要目的就是为了限制人们利用工具软件来暴力猜测密码&#xff0c;其原理与利用Session防止表单重复提交的原理基本一样&#xff0c;只是将表单标识号变成了验证码的形式&#xff0c;并且要求用户将提示的验证码手工填写进一个表单字段中&#xff0c;而不是通过表…

[BZOJ2064]分裂

[BZOJ2064]分裂 试题描述 背景&#xff1a; 和久必分&#xff0c;分久必和。。。 题目描述&#xff1a; 中国历史上上分分和和次数非常多。。通读中国历史的WJMZBMR表示毫无压力。 同时经常搞OI的他把这个变成了一个数学模型。 假设中国的国土总和是不变的。 每个国家都可以用他…

CSS3选择器

基本选择器 回顾选择器 通配符选择器元素选择器类选择器ID选择器后代选择器新增基本选择器 子元素选择器相邻兄弟选择器通用兄弟选择器群组选择器 子元素选择器 概念&#xff1a;子元素选择器只能选择某元素的子元素 语法&#xff1a;父元素 > 子元素 &#xff08;Fathe…

eclipse java工程目录_转载:Eclipse下的java工程目录

对新手来讲&#xff0c;一个Java工程内部的多个文件夹经常会让大家困惑。更可恶的是莫名其妙的路径问题&#xff0c;在Eclipse编写Java程序中&#xff0c;出现频率最高的错误很可能就是路径问题。这些问题原因其实都是一个&#xff0c;就是关于Java工程内的文件结构理解不清&am…

作为JBoss AS 7模块运行Drools 5.4.0 Final

Drools 5引入了业务逻辑集成平台&#xff0c;该平台为规则&#xff0c;工作流和事件处理提供了统一的集成平台。 它是从头开始设计的&#xff0c;因此每个方面都是一流的公民&#xff0c;毫不妥协。 Drools 5已分为4个主要子项目&#xff1a; Drools Guvnor&#xff08;BRMS …

postgres 支持的线程数_线程池被打满了怎么处理呢,你是否真的了解线程池?

0、前言线程池&#xff0c;顾名思义就是线程的池子&#xff0c;在每次需要取线程去执行任务的时候&#xff0c;没必要每次都创建新线程执行&#xff0c;线程池就是起着维护线程的作用&#xff0c;当有任务的时候就取出一个线程执行&#xff0c;如果任务执行完成则把线程放回到池…

[树形DP]没有上司的舞会

题目链接 思考 首先本题中的关系是一种树形结构&#xff0c;而且符号最优子结构和无后效性&#xff0c;所以可以进行记忆化搜索。 那么首先要在这颗树中选出一个点作为根节点&#xff0c;按照习惯我们将没有父节点的点作为根节点。 接下来要思考的是 状态&#xff1a; dp[i][0…

网页自适应

1.viewport标签 基本语法&#xff1a; <meta name”viewport” content”widthdevice-width,initial-scale1” /> 上面这行代码的意思是&#xff0c;面积的100%&#xff0c;网页宽度默认等于屏幕宽度&#xff08;widthdevice-width&#xff09;, 原始缩放比例&#x…