bloomfilter的java实现,BloomFilter(布隆过滤器)原理及实战详解

什么是 BloomFilter(布隆过滤器)

布隆过滤器(英语:Bloom Filter)是 1970 年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。主要用于判断一个元素是否在一个集合中。通常我们会遇到很多要判断一个元素是否在某个集合中的业务场景,这个时候往往我们都是采用 Hashmap,Set 或者其他集合将数据保存起来,然后进行对比判断,但是如果元素很多的情况,我们如果采用这种方式就会非常浪费空间。这个时候我们就需要 BloomFilter 来帮助我们了。

BloomFilter 原理

BloomFilter 是由一个固定大小的二进制向量或者位图(bitmap)和一系列(通常好几个)映射函数组成的。布隆过滤器的原理是,当一个变量被加入集合时,通过 K 个映射函数将这个变量映射成位图中的 K 个点,把它们置为 1。查询某个变量的时候我们只要看看这些点是不是都是 1 就可以大概率知道集合中有没有它了,如果这些点有任何一个 0,则被查询变量一定不在;如果都是 1,则被查询变量很可能在。注意,这里是可能存在,不一定一定存在!这就是布隆过滤器的基本思想。

如下图所示,字符串 “ziyou” 在经过四个映射函数操作后在位图上有四个点被设置成了 1。当我们需要判断 “ziyou” 字符串是否存在的时候只要在一次对字符串进行映射函数的操作,得到四个 1 就说明 “ziyou” 是可能存在的。

4f8aee220e3d4a1d6882ee0d1667b954.png

为什么说是可能存在,而不是一定存在呢?那是因为映射函数本身就是散列函数,散列函数是会有碰撞的,意思也就是说会存在一个字符串可能是 “ziyou01” 经过相同的四个映射函数运算得到的四个点跟 “ziyou” 是一样的,这种情况下我们就说出现了误算。另外还有可能这四个点位上的 1 是四个不同的变量经过运算后得到的,这也不能证明字符串 “ziyou” 是一定存在的,如下图框出来的 1 也可能是字符串“张三”计算得到,同理其他几个位置的 1 也可以是其他字符串计算得到。

84a7883935ca28750665b9e06a58a36a.png

1.2 特性

所以通过上面的例子我们就可以明确

一个元素如果判断结果为存在的时候元素不一定存在,但是判断结果为不存在的时候则一定不存在。

布隆过滤器可以添加元素,但是不能删除元素。因为删掉元素会导致误判率增加。

02、使用场景

2.1、网页 URL 去重

我们在使用网页爬虫的时候(爬虫需谨慎),往往需要记录哪些 URL 是已经爬取过的,哪些还是没有爬取过,这个时候我们就可以采用 BloomFilter 来对已经爬取过的 URL 进行存储,这样在进行下一次爬取的时候就可以判断出这个 URL 是否爬取过。

2.2、黑白名单存储

工作中经常会有一个特性针对不同的设备或者用户有不同的处理方式,这个时候可能会有白名单或者黑名单存在,所以根据 BloomFilter 过滤器的特性,我们也可以用它来存在这些数据,虽然有一定的误算率,但是在一定程度上还是可以很好的解决这个问题的。

2.3、小结

除了上面说的两种场景,其实还有很多场景,比如热点数据访问,垃圾邮件过滤等等,其实这些场景的统一特性就是要判断某个元素是否在某个集合中,原理都是一样的。

03、代码实践

3.1、自己实现

package com.test.pkg;

import java.util.BitSet;

/**

*

* Function:

* Author:@author ziyou

* Date:2019-10-23 23:21

* Desc:

*/

public class BloomFilterTest {

/**

* 初始化布隆过滤器的 bitmap 大小

*/

private static final int DEFAULT_SIZE = 2 << 24;

/**

* 为了降低错误率,这里选取一些数字作为基准数

*/

private static final int[] seeds = {3, 5, 7, 11, 13, 31, 37, 61};

/**

* 设置 bitmap

*/

private static BitSet bitset = new BitSet(DEFAULT_SIZE);

/**

* 设置 hash 函数数量

*/

private static HashFunction[] functions = new HashFunction[seeds.length];

/**

* 添加数据

*

* @param value 需求加入的值

*/

public static void put(String value) {

if (value != null) {

for (HashFunction f : functions) {

//计算 hash 值并修改 bitmap 中相应位置为 true

bitset.set(f.hash(value), true);

}

}

}

/**

* 判断相应元素是否存在

*

* @param value 需要判断的元素

* @return 结果

*/

public static boolean check(String value) {

if (value == null) {

return false;

}

boolean ret = true;

for (HashFunction f : functions) {

ret = bitset.get(f.hash(value));

//一个 hash 函数返回 false 则跳出循环

if (!ret) {

break;

}

}

return ret;

}

public static void main(String[] args) {

String value = "test";

for (int i = 0; i < seeds.length; i++) {

functions[i] = new HashFunction(DEFAULT_SIZE, seeds[i]);

}

put(value);

System.out.println(check("value"));

}

}

class HashFunction {

private int size;

private int seed;

public HashFunction(int size, int seed) {

this.size = size;

this.seed = seed;

}

public int hash(String value) {

int result = 0;

int len = value.length();

for (int i = 0; i < len; i++) {

result = seed * result + value.charAt(i);

}

int r = (size - 1) & result;

return (size - 1) & result;

}

}

上面我们自己写了一个简单的 BloomFilter ,通过 put 方法录入数据,通过 check 方法判断元素是否存在,基本能实现功能,代码中注释也写的很清楚,但是自己实现必定效率不高,所以下面我们看下业内大佬帮我们已经实现好的 BloomFilter。

2.4、Guava 中的 BloomFilter

package com.test.pkg;

import com.google.common.hash.BloomFilter;

import com.google.common.hash.Funnels;

/**

*

* Function:

* Author:@author ziyou

* Date:2019-10-24 00:17

* Desc:

*/

public class BloomFilterTest02 {

public static void main(String[] args) {

BloomFilter bloomFilter = BloomFilter.create(Funnels.integerFunnel(), 100000, 0.01);

for (int i = 0; i < 100000; i++) {

bloomFilter.put(i);

}

System.out.println(bloomFilter.mightContain(1));

System.out.println(bloomFilter.mightContain(2));

System.out.println(bloomFilter.mightContain(3));

System.out.println(bloomFilter.mightContain(100001));

}

}

Guava 中已经帮我们实现好了 BloomFilter 的代码,我们只需要在使用的地方调用就好。

这里我们简单解释一下构造方法中的后面两个参数,一个是预计包含的数据量,一个是允许的误差值。代码中会根据我们填入的这两个值,自动帮我们计算出数组的大小,以及需要的散列函数个数,如下图。更多详细的内容,读者可以自行去查看源码,我们这里就不介绍了。

610c07a81fe6ba44a8f10ffbe4c9a748.png

1ca0bc7362b7bb9c44ba0d1f401d60e7.png

04、总结

这篇文章给大家介绍了 BloomFilter,一个用来判断元素是否存在与某个集合的高效方法,可以在我们日常的工作中运用起来,结合日常工作的场景,可以进行选择。

原文发于:《Java极客技术》公众号,作者:ziyou

关注公众号:程序新视界,一个让你软实力、硬技术同步提升的平台

除非注明,否则均为程序新视界原创文章,转载必须以链接形式标明本文链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/343795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

六种让路由器与交换机更加安全的方法

传统的网络安全技术侧重于系统入侵检测&#xff0c;反病毒软件或防火墙。内部安全如何&#xff1f;在网络安全构造中&#xff0c;交换机和路由器是非常重要的&#xff0c;在七层网络中每一层都必须是安全的。很多交换机和路由器都有丰富的安全功能&#xff0c;要了解有些什么&a…

spring jaxb_自定义Spring命名空间使JAXB变得更容易

spring jaxb首先&#xff0c;让我大声说一下&#xff1a; Spring不再是XML繁重的了 。 实际上&#xff0c;如今&#xff0c;您可以使用大量注释&#xff0c; Java配置和Spring Boot来编写几乎没有XML或根本没有XML的Spring应用程序。 认真地停止谈论Spring和XML&#xff0c;这已…

什么是8口poe交换机?8口poe交换机有哪些特点?

八口POE交换机&#xff08;POE31008P&#xff09;提供了从一个网络节点利用5类以太网线的电源和数据的传输。81端口快速以太网端口能用于10/100Mps的连接&#xff0c;其中8个端口可以提供工业标准的IEEE802.3af电源。先进的自感知算法只为标准PD终端设备供电&#xff0c;因而不…

如何为您的AWS账户设置多因素身份验证(MFA)

步骤1 &#xff1a; 转到AWS控制台并使用您的用户名密码登录。 第2步 &#xff1a; 转到服务-> IAM 第三步&#xff1a; 单击您的根帐户上的激活MFA 第四步 &#xff1a; 在步骤3中&#xff0c;点击屏幕上的管理MFA按钮。 步骤5&#xff1a; 单击分配MFA设备。选…

电视光端机常见故障问题介绍

一提到电视光端机&#xff0c;可能就会让人想起传输距离远、保密性强、抗干扰能力强、传输性能好、容量大等优点&#xff0c;当然也不会忘记价格高这个特点。但是&#xff0c;我们在使用电视光端机的过程中难免会出现各种各样的故障问题&#xff0c;接下来就由飞畅科技的小编来…

电视光端机应用范围及故障维护问题介绍

随着国内通信网络的发展&#xff0c;发展势头强劲&#xff0c;电视光端机应用的监控范围也越来越广。目前&#xff0c;电视光端机应用最多的方面就是长距离视频和数据的传输。在高速公路、银行、电力、电信等的监控领域都要求对视频信号进行远程的传输&#xff0c;目前主要的解…

php项目部署lnmp,如何在lnmp环境里,部署多个php项目?

我有2个php项目&#xff0c;想放在同一个lnmp环境里如果你说两个项目是通过两个不同的域名来访问的话&#xff0c;直接参考以下conf文件内容第一段&#xff1a;server {listen 80 ;server_name www.host1.cc; #监听的hostnameroot /var/www/www_host1_cc/; #第一个项目…

linux文件系统的管理方法,Linux学习笔记:2.文件系统的管理命令(2)

1.命令touch&#xff1a;功能&#xff1a;若之前对应文件不存在&#xff0c;创建一个新文件&#xff1b;若存在&#xff0c;则修改这个文件的最后修改期限。语法&#xff1a;touch [参数] [文件名]主要参数&#xff1a;-a&#xff1a;只更改存取时间-c&#xff1a;不建立任何文…

光端机2m是什么意思,光端机E1与2M有什么关系?

光端机就是将多个E1信号变成光信号的设备&#xff0c;光端机也叫光传输设备。光端机根据传输E1&#xff08;就是2M&#xff09;口数量的多少&#xff0c;价格也不同。一般最小的光端机可以传输4个E1目前最大的光端机可以传输4032个E1每个E1包括30个电话。那么&#xff0c;光端机…

ida调试linux程序,MAC使用IDA PRO远程调试LINUX程序

1 背景在学习Linux系统上的一些漏洞知识的时候&#xff0c;往往需要进行“实地测试”&#xff0c;但是在Linux系统上进行调试并不太方便&#xff0c;因为LINUX自带的GDB调试工具真的不太人性化&#xff0c;即使有GDBTUI之类的“伪图形界面调试器”&#xff0c;也跟IDA PRO之类的…

RS485数据光端机产品特点及技术参数介绍

485光端机提供RS-232/485/422串口转光纤功能&#xff0c;实现光纤与RS-232/485/422串口的数据双向透明传输。由于光纤传输距离远&#xff08;多模2KM&#xff0c;单模可达20&#xff0c;40&#xff0c;60KM&#xff09;&#xff0c;抗干扰能力强&#xff0c;是连接远程终端单元…

传输设备,光端机的应用及故障分析

光端机是光通信系统中的传输设备&#xff0c;主要是进行光电转换及传输功用。一般用于电信、电力、监控、工业控制、视频传输等功能&#xff0c;在各个行业有着广泛的应用。常说的光端机指的是用于监控系统用来传输视频、数据、以太网、音频等综合信息的光端机。主要分模拟光端…

什么是网络光纤收发器?

网络光纤收发器&#xff0c;将网络中的连接介质换为光纤。光纤的低损耗、高抗电磁干扰性&#xff0c;在使网络传输距离从200米扩展到2公里至几十公里&#xff0c;乃至于上百公里的同时&#xff0c;也使数据通讯质量有了较大的提高。它使服务器、中继器、集线器、终端机与终端机…

关于光纤收发器的一些基本常识介绍

光纤收发器是网络数据传输中必不可缺少的一种设备&#xff0c;那么&#xff0c;什么是光纤收发器呢&#xff0c;光纤收发器都有什么组成的呢&#xff0c;光纤收发器是怎么分类的呢&#xff0c;光纤收发器有哪些特点呢&#xff0c;光纤收发器在数据传播过程中起到什么作用呢&…

工业级光纤收发器产品性能特点介绍

工业级光纤收发器是一种可以延长传输距离的一种工业交换机&#xff0c;它具有便捷、维护简单、抗干扰性能强、性能强大、运行稳定等优点&#xff0c;产品设计符合以太网标准&#xff0c;性能稳定可靠。那么在&#xff0c;数据通信行业中&#xff0c;工业级光纤收发器到底扮演者…

工业级光纤收发器如何正确使用和维护?

工业级光纤收发器在越来越多的场景中运用&#xff0c;如何正确的使用和维护是延长工业级光纤收发器寿命的重要手段。那么&#xff0c;如何正确使用及维护光纤收发器呢&#xff1f;接下来飞畅科技的小编就给大家简单梳理一下&#xff01;一起来看看吧&#xff01; 1、在使用中要…

JavaFX的科幻用户界面第1部分

使用JavaFX创建的Sci-Fi UI成形窗口 虚构的UI可以变成现实吗&#xff1f; 成长于80年代的小时候&#xff0c;我看到了自己的科幻电影&#xff0c;这确实激发了我对图形用户界面&#xff08;GUI&#xff09;的热爱&#xff0c;尤其是试图使科幻UI在现实世界中成为可能的想法。 …

NoSQL数据库程序员应该在2019年学习的5大知识

尽管Java或Web开发人员学习NoSQL数据库不是强制性的&#xff0c;但世界正朝着这个方向发展&#xff0c;Java和Web开发人员都应该熟悉NoSQL数据库。 如果您想知道NoSQL数据库是什么意思&#xff0c;那么这里是快速概述。 NoSQL数据库指的是非SQL&#xff0c;非关系或非SQL的非SQ…

emacs c语言,如何利用Emacs来调试C++程序

俗话说&#xff0c;Emacs是神的编辑器,而Vim是编辑器之神。高手程序员都是用这两样神器进行开发。本人觉得&#xff0c;Emacs之所以厉害&#xff0c;是因为许多在其他编辑器下必须用鼠标点选很多步的操作&#xff0c;在Emacs下都可以通过键盘来完成。大大地节省了你在显示器上找…

spring rmi_Spring集成–使用RMI通道适配器

spring rmi1.引言 本文介绍了如何使用Spring Integration RMI通道适配器通过RMI发送和接收消息。 它由以下部分组成&#xff1a; 实施服务&#xff1a;第一部分着重于创建和公开服务。 实现客户端&#xff1a;显示如何使用MessagingTemplate类调用服务。 抽象SI逻辑&#xf…