基于Guava布隆过滤器的海量字符串高效去重实践

在Java环境中处理海量字符串去重的问题时,布隆过滤器(BloomFilter)是一种非常高效的数据结构,尽管它有一定的误报率。布隆过滤器适用于那些可以接受一定误报率,并且希望节省空间和时间成本的场景。
在这里插入图片描述

布隆过滤器应用

使用Google Guava库来实现基于布隆过滤器的海量字符串去重是一个很好的选择。布隆过滤器是一种空间效率极高的概率型数据结构,它利用位数组表示集合,并使用哈希函数将元素映射到位数组的某些位置。布隆过滤器可以高效地检查一个元素是否可能属于某个集合,但有一定的误报率。

首先,确保你的项目中包含了Guava库。如果你使用Maven,可以在pom.xml文件中添加以下依赖:

<dependency>  <groupId>com.google.guava</groupId>  <artifactId>guava</artifactId>  <version>31.0.1-jre</version> <!-- 使用你需要的版本 -->  
</dependency>

然后,你可以使用下面代码创建布隆过滤器进行字符串去重:

import com.google.common.hash.Funnels;  
import com.google.common.primitives.Ints;  
import com.google.common.util.concurrent.BloomFilter;  import java.nio.charset.StandardCharsets;  
import java.util.ArrayList;  
import java.util.List;  public class BloomFilterDeduplication {  public static void main(String[] args) {  // 预计的字符串数量(根据实际情况进行调整)  long expectedInsertions = 1000000L;  // 可接受的误报率(根据实际情况进行调整)  double fpp = 0.01; // 1%的误报率  // 创建一个布隆过滤器实例  BloomFilter<String> bloomFilter = BloomFilter.create(  Funnels.stringFunnel(StandardCharsets.UTF_8),  expectedInsertions,  fpp  );  // 模拟海量字符串  List<String> strings = new ArrayList<>();  // 假设这里有很多重复的字符串...  strings.add("hello");  strings.add("world");  strings.add("hello"); // 重复字符串  strings.add("guava");  strings.add("bloom");  strings.add("filter");  strings.add("world"); // 重复字符串  // 去重过程  List<String> deduplicatedStrings = new ArrayList<>();  for (String str : strings) {  if (!bloomFilter.mightContain(str)) {  // 如果布隆过滤器中可能不包含该字符串,则将其添加到过滤器和结果列表中  bloomFilter.put(str);  deduplicatedStrings.add(str);  }  }  // 输出结果  System.out.println("Deduplicated strings:");  for (String uniqueStr : deduplicatedStrings) {  System.out.println(uniqueStr);  }  }  
}

在这个示例中,我们首先创建了一个布隆过滤器实例,指定了预计的字符串数量和可接受的误报率。然后,我们模拟了一个包含重复字符串的列表,并使用布隆过滤器进行去重。对于每个字符串,如果布隆过滤器可能不包含它(mightContain返回false),我们就将其添加到过滤器和去重后的字符串列表中。

布隆过滤器原理详解

布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。

布隆过滤器可以告诉我们 “某样东西一定不存在或者可能存在”,也就是说布隆过滤器说这个数不存在则一定不存,布隆过滤器说这个数存在可能不存在(误判,后续会讲)。

布隆过滤器是一种空间效率极高的概率型数据结构,它利用位数组表示集合,并使用哈希函数将元素映射到位数组的某些位置。布隆过滤器并不直接存储数据本身,而是通过位数组中的特定位来表示数据是否存在。

布隆过滤器的数据结构主要由两部分组成:

  • 位数组(Bit Array):布隆过滤器使用一个长度固定的位数组来存储数据。每个位置只占用一个比特(0或1),初始时所有位都设置为0。位数组的长度和哈希函数的数量决定了过滤器的误报率和容量。

  • 哈希函数集合:布隆过滤器使用多个哈希函数,每个函数都会将输入数据映射到位数组的一个不同位置。哈希函数的选择对过滤器的性能有很大影响,理想的哈希函数应该具有良好的散列性,使得不同的输入尽可能均匀地映射到位数组的不同位置。

如下就是一个简单的布隆过滤器示意图,其中k1、k2代表增加的元素,a、b、c即为无偏hash函数,最下层则为二进制数组。
在这里插入图片描述

布隆过滤器的操作主要包括:

  • 添加元素:当向布隆过滤器中添加一个新元素时,会使用所有的哈希函数对该元素进行哈希,并将位数组中对应位置设置为1。注意,同一个位可能会被多个元素哈希到,因此可能会被多次设置为1,但实际上只需要第一次设置。

例如,key = Liziba,无偏hash函数的个数k=3,分别为hash1、hash2、hash3。三个hash函数计算后得到三个数组下标值,并将其值修改为1

  • 查询元素:当需要查询一个元素是否可能存在于布隆过滤器中时,同样会使用所有的哈希函数对该元素进行哈希,并检查位数组中对应位置是否都为1。如果有任何一个位置为0,则可以确定该元素一定不在过滤器中。如果所有位置都为1,则元素可能存在于过滤器中,但存在一定的误报率。

  • 删除元素:布隆过滤器不支持直接删除元素。这是因为删除一个元素需要将位数组中对应位置重置为0,但这样可能会影响到其他也被哈希到该位置的元素。因此,布隆过滤器是一种“添加容易,删除困难”的数据结构。

布隆过滤器的好处

  • 空间效率:布隆过滤器不需要存储实际数据,只需要一个位数组和一些哈希函数,因此空间效率非常高。
  • 查询速度:布隆过滤器的查询操作只需要进行哈希和位操作,因此速度非常快。
  • 添加速度:添加元素到布隆过滤器中同样只需要进行哈希和位操作,速度也很快。
  • 安全性:布隆过滤器不存储实际数据,因此在某些对安全性要求较高的场景中很有用。
    需要注意的是,布隆过滤器有一定的误报率。这是因为不同的元素可能会哈希到相同的位置,导致位数组中对应位置被错误地设置为1。此外,布隆过滤器不支持删除操作,因为删除一个元素可能会影响到其他元素。

布隆过滤器的缺点

  • 误报率:布隆过滤器有一定的误报率,即可能会错误地认为某个不在集合中的元素在集合中。误报率与二进制向量的长度和哈希函数的数量有关,可以通过调整这两个参数来控制误报率。
  • 无法删除元素:由于布隆过滤器的特性,一旦一个元素被添加到过滤器中,就无法从过滤器中删除。这是因为删除元素可能会导致其他元素被误删。

总的来说,布隆过滤器是一种非常适合处理海量数据去重问题的数据结构,尤其是在空间和时间成本都非常敏感的场景下。虽然它有一定的误报率,但在很多应用中,这个缺点是可以接受的。在使用布隆过滤器时,需要根据具体的应用场景和需求来调整参数,以达到最佳的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/651260.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Fastjson代码审计实战

代码审计-漏洞复现 漏洞分析采用的是华夏ERP2.3&#xff0c; 查看pom.xml文件发现fastjson版本1.2.55&#xff0c;该版本存在漏洞&#xff0c;利用DNSlog进行验证。 fastjson涉及反序列化的方法有两种&#xff0c;JSON.parseObject()和JSON.parse()&#xff0c;在代码中直接搜…

MySQL 联合索引

文章目录 1.简介2.最左匹配3.最左匹配原理4.如何建立联合索引?5.覆盖索引参考文献 1.简介 联合索引指建立在多个列上的索引。 MySQL 可以创建联合索引&#xff08;即多列上的索引&#xff09;。一个索引最多可以包含 16 列。 联合索引可以测试包含索引中所有列的查询&#…

关于在Ubuntu20.04(ROS1 noetic)中使用catkin_make编译时发生的与pyhton版本不兼容的问题解决办法

今天在另外一台电脑上操作复现【ROS建模&#xff1a;一起从零手写URDF模型】这个博客时&#xff0c;发生了一些问题&#xff0c;特此记录下来 【ROS建模&#xff1a;一起从零手写URDF模型】链接&#xff1a;https://blog.csdn.net/qq_54900679/article/details/135726348?spm…

JasperReports渲染报表文件时候,读取图片报错:Byte data not found at:xxx.png.\r\n\tat

目录【知识星球】 1.1、错误描述 1.2、解决方案 1.1、错误描述 最近在工作中&#xff0c;使用JasperReports报表比较多一些&#xff0c;有次线上环境里面运行报错&#xff0c;查看报错日志&#xff0c;如下所示&#xff1a; net.sf.jasperreports.engine.JRException: Byte…

Spring Boot 启动错误【Kotlin】

目录 错误详情 错误原因 解决方法一 解决方法二 错误详情 Kotlin:     Module was compiled with an incompatible version of Kotlin.     The binary version of its metadata is 1.7.1, expected version is 1.1.16. 错误原因 编译器或构建工具的版本不匹配所造…

(免费领源码)python#Mysql苏州一日游之可视化分析69216-计算机毕业设计项目选题推荐

摘 要 信息化社会内需要与之针对性的信息获取途径&#xff0c;但是途径的扩展基本上为人们所努力的方向&#xff0c;由于站在的角度存在偏差&#xff0c;人们经常能够获得不同类型信息&#xff0c;这也是技术最为难以攻克的课题。针对旅游服务等问题&#xff0c;对旅游服务进行…

docker 构建应用

docker 应用程序开发手册 开发 docker 镜像 Dockerfile 非常容易定义镜像内容由一系列指令和参数构成的脚本文件每一条指令构建一层一个 Dockerfile 文件包含了构建镜像的一套完整指令指令不区分大小写&#xff0c;但是一般建议都是大写从头到尾按顺序执行指令必须以 FROM 指…

Web3.0投票如何做到公平公正且不泄露个人隐私

在当前的数字时代&#xff0c;社交平台举办投票活动已成为了一种普遍现象。然而&#xff0c;随之而来的是一些隐私和安全方面的顾虑&#xff0c;特别是关于个人信息泄露和电话骚扰的问题。期望建立一个既公平公正又能保护个人隐私的投票系统。Web3.0的出现为实现这一目标提供了…

java web mvc-04-Apache Wicket

拓展阅读 Spring Web MVC-00-重学 mvc mvc-01-Model-View-Controller 概览 web mvc-03-JFinal web mvc-04-Apache Wicket web mvc-05-JSF JavaServer Faces web mvc-06-play framework intro web mvc-07-Vaadin web mvc-08-Grails 开源 The jdbc pool for java.(java …

完美调试android-goldfish(linux kernel) aarch64的方法

环境要求 Mac m1Mac m1 中 虚拟机安装aarch64 ubuntu22.02Mac m1安装OrbStack&#xff0c;并在其中安装 ubuntu20.04&#xff08;x86_64&#xff09; 构建文件系统 在虚拟机 aarch64 ubuntu22.02中构建 安装必要的库 sudo apt-get install libncurses5-dev build-essenti…

【江科大】STM32:MPU6050介绍

文章目录 MPU6050介绍结构图MPU6050参数硬件电路模块内部结构框图数据帧格式寄存器地址 MPU6050介绍 MPU6050是一个6轴姿态传感器&#xff0c;可以测量芯片自身X、Y、Z轴的加速度、角速度参数&#xff0c;通过数据融合&#xff0c;可进一步得到姿态角&#xff0c;常应用于平衡…

STM32CubeMX教程27 SDIO - 读写SD卡

目录 1、准备材料 2、实验目标 3、轮询方式读取SD卡流程 3.0、前提知识 3.1、CubeMX相关配置 3.1.0、工程基本配置 3.1.1、时钟树配置 3.1.2、外设参数配置 3.1.3、外设中断配置 3.2、生成代码 3.2.0、配置Project Manager页面 3.2.1、外设初始化调用流程 3.2.2、外设中断调用流…

现货黄金做日内交易和波段交易有何差异?

在现货黄金投资中&#xff0c;日内交易和波段交易都是投资者常用的手段。但投资者其实搞不懂两者有何区别&#xff0c;有时甚至不清楚自己做的是日内交易还是波段交易&#xff0c;下面我们就来讨论一下这两种交易方法的异同。 两者的区别主要是在持仓的时间上。日内交易顾名思义…

Python中的`__all__`魔法函数使用详解

概要 Python是一门灵活而强大的编程语言&#xff0c;提供了各种机制来控制模块的导入和访问。其中&#xff0c;__all__魔法函数是一种用于限制模块导入的机制&#xff0c;可以明确指定哪些变量、函数或类可以被导入。本文将深入探讨__all__的作用、用法以及示例&#xff0c;以…

C++:类和对象(中)

类的6个默认成员函数 如果一个类中什么成员都没有&#xff0c;简称为空类。 空类中真的什么都没有吗&#xff1f;并不是&#xff0c;任何类在什么都不写时&#xff0c;编译器会自动生成以下6个默认成员函数。默认成员函数&#xff1a;用户没有显式实现&#xff0c;编译器会生成…

ES文档索引、查询、分片、文档评分和分析器技术原理

技术原理 索引文档 索引文档分为单个文档和多个文档。 单个文档 新建单个文档所需要的步骤顺序&#xff1a; 客户端向 Node 1 发送新建、索引或者删除请求。节点使用文档的 _id 确定文档属于分片 0 。请求会被转发到 Node 3&#xff0c;因为分片 0 的主分片目前被分配在 …

【AI绘画】stablediffusion图生图教程!!

**手把手教你入门绘图超强的AI绘画&#xff0c;用户只需要输入一段图片的文字描述&#xff0c;即可生成精美的绘画。给大家带来了全新保姆级教程资料包 &#xff08;文末可获取&#xff09; ** 目录 一、图生图 1.图生图原理 2.图生图三个步骤 ①图生图基本三步法 ②提示…

Leetcode—2859. 计算 K 置位下标对应元素的和【简单】

2023每日刷题&#xff08;九十一&#xff09; Leetcode—2859. 计算 K 置位下标对应元素的和 内置函数__builtin_popcount方法实现代码 class Solution { public:int sumIndicesWithKSetBits(vector<int>& nums, int k) {int n nums.size();int ans 0;for(int i …

mac电脑安卓文件传输工具:Android File Transfer直装版

Android File Transfer&#xff08;AFT&#xff09;是一款用于在Mac操作系统上与Android设备之间传输文件。它允许用户将照片、音乐、视频和其他文件从他们的Android手机或平板电脑传输到Mac电脑&#xff0c;以及将文件从Mac上传到Android设备。 下载地址&#xff1a;https://w…

怎样编写高性能C/C++程序

本文主要讨论高性能编程&#xff0c;而且是那种“极致性能需求”。按照本人的粗浅认识&#xff0c;应该已经覆盖了绝大多数技术要点&#xff0c;但缺点是不够详细&#xff08;篇幅有限&#xff09;。本文共分为4个部分&#xff1a;总体论述、高性能网络编程、高性能数值计算、常…