redis布隆过滤器(Bloom)详细使用教程

文章目录

  • 布隆过滤器
    • 1. 原理
    • 2. 结构和操作
    • 3. 特点和应用场景
    • 4. 缺点和注意事项
  • 应用-redis插件布隆过滤器使用详细过程
    • 安装以及配置
    • springboot项目使用redis布隆过滤器
      • 下面是布隆过滤器的一些基础命令
    • 扩展

布隆过滤器

Bloom 过滤器是一种概率型数据结构,用于快速判断一个元素是否属于一个集合。它以较小的空间占用和高效的查询时间著称。下面将对 Bloom 过滤器进行详细阐述。

1. 原理

Bloom 过滤器基于哈希函数和位数组实现。它的核心思想是使用多个哈希函数将元素映射到位数组中,并将对应的位设置为1。当查询一个元素时,通过对该元素进行相同的哈希计算,检查对应的位是否都为1。如果其中有任何一位为0,则可以确定该元素不在集合中;如果所有位都为1,则该元素可能在集合中,但并不确定,存在一定的概率误判。

2. 结构和操作

  • 位数组(Bit Array):Bloom 过滤器使用一个固定长度的位数组来表示集合,并初始化为全0。每个元素通过多个哈希函数映射到位数组上的多个位置。
  • 哈希函数(Hash Function):Bloom 过滤器使用多个独立的哈希函数,每个哈希函数可以将一个元素映射到位数组的不同位置。常用的哈希函数包括 MurmurHash、FnvHash、SHA 等。
  • 添加元素(Add Element):当向 Bloom 过滤器中添加一个元素时,将该元素经过多个哈希函数的计算得到的位置对应的位设置为1。
  • 查询元素(Query Element):当查询一个元素时,通过多个哈希函数计算出对应的位置,并检查这些位置上的位是否都为1。如果有任何一位为0,则可以确定该元素不在集合中;如果所有位都为1,则该元素可能在集合中。

3. 特点和应用场景

  • 空间效率高:Bloom 过滤器使用位数组表示集合,所需的内存空间相对较小,与集合大小无关。
  • 查询效率高:由于只需计算多个哈希函数并检查位数组上的位,查询时间较短,通常为常数时间复杂度。
  • 概率误判:Bloom 过滤器在判断一个元素不在集合中时,永远是准确的;但在判断一个元素在集合中时,存在一定的概率误判。误判率取决于哈希函数的个数和位数组的大小。
  • 应用场景:Bloom 过滤器适用于需要快速判断元素是否属于一个大规模集合的场景,如网页爬虫中的 URL 去重、缓存穿透的防护、垃圾邮件过滤等。

4. 缺点和注意事项

  • 无法删除元素:Bloom 过滤器的位数组一旦被置为1,就无法撤销。因此,无法从 Bloom 过滤器中删除元素。
  • 哈希函数选择:选择合适的哈希函数和哈希函数的数量非常重要。哈希函数应具有较低的冲突率,并且应该尽量使用独立性较强的哈希函数。
  • 误判率:误判率取决于哈希函数的个数和位数组的大小。通过调整这些参数可以降低误判率,但也会增加空间占用和查询时间。
  • 适用范围:Bloom 过滤器适用于对查询时间和空间占用有较高要求,而对概率误判可以接受的场景。在对精确性要求较高的情况下,Bloom 过滤器可能不适用。

总而言之,Bloom 过滤器是一种高效的概率型数据结构,通过位数组和多个哈希函数实现快速的集合元素判断。它在一些特定的应用场景中具有很大的优势,但需要注意选择合适的哈希函数和参数设置,以及理解概率误判的特性。

应用-redis插件布隆过滤器使用详细过程

安装以及配置

布隆过滤器有很多,我这里用的redis提供的布隆过滤器,这次使用的是用docker安装的redis以及配置布隆过滤器

1. 首先下载布隆过滤器这个插件

wget https://github.com/RedisLabsModules/rebloom/archive/v2.2.6.tar.gz

下载以后解压备用一会等着放到redis中
2.docker安装redis
首先创建文件夹以及配置文件,用于挂在redis启动的后容器中的文件,方便我们在容器外部操作redis的配置
创建文件夹

mkdir data  ##创建文件
touch redis.conf  ## 创建文件

在创建完文件夹以后将我们第一步中下载并解压好的布隆过滤器的文件夹放到我们创建的data文件夹下
在这里插入图片描述
在我们创建的redis.conf文件中添加一行配置loadmodule /data/RedisBloom-2.2.6/redisbloom.so
在这里插入图片描述

随后直接使用dokcer run命令进行启动,如果没有安装redis则进行下载

docker run -p 6379:6379 --name redis -v /root/redis/data:/data -v /root/redis/redis.conf:/etc/redis/redis.conf --restart=always --network host  -d redis:5.0.7 redis-server /etc/redis/redis.conf

这个命令是用于在 Docker 中运行 Redis 容器,并进行一些配置。下面是对每个参数的解释:

  • -p 6379:6379: 将 Docker 容器的端口 6379 映射到主机的端口 6379,以便可以从主机访问 Redis 服务。
  • --name redis: 指定容器的名称为 “redis”。
  • -v /root/redis/data:/data: 将主机的 /root/redis/data 目录挂载到容器的 /data 目录,用于持久化保存 Redis 数据。
  • -v /root/redis/redis.conf:/etc/redis/redis.conf: 将主机的 /root/redis/redis.conf 配置文件挂载到容器的 /etc/redis/redis.conf,使用该配置文件作为 Redis 的配置。
  • --restart=always: 设置容器在退出时自动重新启动。
  • --network host: 使用主机网络模式,容器将共享主机的网络栈。
  • -d: 在后台运行容器。
  • redis:5.0.7: 指定使用的 Redis 镜像及其版本号。
  • redis-server /etc/redis/redis.conf: 在容器中执行的命令,即启动 Redis 服务器,并使用指定的配置文件。

执行上述操作redis容器如果启动没有问题那么我们的布隆过滤器的插件和redis都安装并启动成功了,如果没有启动成功可以通过docker logs 查看一下redis的启动过程中出现什么问题

下面连接redis执行下面的代码查看否布隆过滤器安装成功

bf.add user test

解释一下:bf.add 是安装布隆过滤器后才可以使用的命令,这是添加一个key的命令,user是过滤器的名字,而tese就是我们要去添加的key
在这里插入图片描述
这是添加成功的标识。

springboot项目使用redis布隆过滤器

上面我们把布隆过滤器安装成功了,那么下面介绍一下在项目中如何应用这个过滤器如何通过代码来去和过滤器交互
我这里使用的redis的过滤器所以用到的依赖直接使用的spring-data-redis这个就可以了

        <!--redis的依赖--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency>

引入依赖以后我们配置封装一个用于调用过滤器的工具类

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.data.redis.core.RedisTemplate;
import org.springframework.data.redis.core.script.DefaultRedisScript;
import org.springframework.data.redis.core.script.RedisScript;
import org.springframework.data.redis.serializer.RedisSerializer;
import org.springframework.stereotype.Component;
import org.springframework.transaction.annotation.Transactional;import java.util.Collections;
import java.util.List;
import java.util.stream.Collectors;@Component
public class RedisBloomUtil {@Autowiredprivate RedisTemplate redisTemplate;// 初始化一个布隆过滤器public Boolean tryInitBloomFilter(String key, long expectedInsertions, double falseProbability) {Boolean keyExist = redisTemplate.hasKey(key);if(keyExist) {return false;}RedisScript<Boolean> script = new DefaultRedisScript<>(bloomInitLua(), Boolean.class);RedisSerializer stringSerializer = redisTemplate.getStringSerializer();redisTemplate.execute(script, stringSerializer, stringSerializer, Collections.singletonList(key), falseProbability+"", expectedInsertions+"");return true;}// 添加元素public Boolean addInBloomFilter(String key, Object arg) {RedisScript<Boolean> script = new DefaultRedisScript<>(addInBloomLua(), Boolean.class);return (Boolean) redisTemplate.execute(script, Collections.singletonList(key), arg);}@Transactional// 批量添加元素public Boolean batchAddInBloomFilter(String key, Object... args) {RedisScript<Boolean> script = new DefaultRedisScript<>(batchAddInBloomLua(), Boolean.class);return (Boolean) redisTemplate.execute(script, Collections.singletonList(key), args);}// 查看某个元素是否是存在public Boolean existInBloomFilter(String key, Object arg) {RedisScript<Boolean> script = new DefaultRedisScript<>(existInBloomLua(), Boolean.class);return (Boolean) redisTemplate.execute(script, Collections.singletonList(key), arg);}// 批量查看元素是否存在public List batchExistInBloomFilter(String key, Object... args) {RedisScript<List> script = new DefaultRedisScript(batchExistInBloomLua(), List.class);List<Long> results = (List) redisTemplate.execute(script, Collections.singletonList(key), args);List<Boolean> booleanList = results.stream().map(res -> res == 1 ? true : false).collect(Collectors.toList());return booleanList;}private String bloomInitLua() {return "redis.call('bf.reserve', KEYS[1], ARGV[1], ARGV[2])";}private String addInBloomLua() {return "return redis.call('bf.add', KEYS[1], ARGV[1])";}private String batchAddInBloomLua() {StringBuilder sb = new StringBuilder();sb.append("for index, arg in pairs(ARGV)").append("\r\n");sb.append("do").append("\r\n");sb.append("redis.call('bf.add', KEYS[1], arg)").append("\r\n");sb.append("end").append("\r\n");sb.append("return true");return sb.toString();}private String existInBloomLua() {return "return redis.call('bf.exists', KEYS[1], ARGV[1])";}private String batchExistInBloomLua() {StringBuilder sb = new StringBuilder();sb.append("local results = {}").append("\r\n");sb.append("for index, arg in pairs(ARGV)").append("\r\n");sb.append("do").append("\r\n");sb.append("local exist = redis.call('bf.exists', KEYS[1], arg)").append("\r\n");sb.append("table.insert(results, exist)").append("\r\n");sb.append("end").append("\r\n");sb.append("return results;");return sb.toString();}
}

下面是布隆过滤器的一些基础命令

在 Redis 中,可以使用 RedisBloom 模块来实现布隆过滤器。RedisBloom 是一个开源模块,提供了一系列命令来操作布隆过滤器。下面是 RedisBloom 模块中常用的命令集合:

  1. BF.ADD:向布隆过滤器中添加一个元素。

    BF.ADD <key> <item>
    
  2. BF.EXISTS:检查一个元素是否存在于布隆过滤器中。

    BF.EXISTS <key> <item>
    
  3. BF.MADD:向布隆过滤器中批量添加多个元素。

    BF.MADD <key> <item> [item ...]
    
  4. BF.MEXISTS:批量检查多个元素是否存在于布隆过滤器中。

    BF.MEXISTS <key> <item> [item ...]
    
  5. BF.INFO:获取布隆过滤器的信息,包括容量、误判率等。

    BF.INFO <key>
    
  6. BF.RESERVE:创建一个新的布隆过滤器,并指定容量和误判率。

    BF.RESERVE <key> <error_rate> <capacity>
    
  7. BF.COUNT:统计布隆过滤器中已添加的元素数量。

    BF.COUNT <key>
    
  8. BF.DEBUG:调试命令,用于打印布隆过滤器内部的一些调试信息。

    BF.DEBUG <subcommand> [arguments ...]
    

我上面提供的工具类就是封装的这些命令。

扩展

关于布隆过滤器我们在使用的是注意点,就是在我上面说到的测试一下是否安装成功时使用的添加数据的命令,bf.add 过滤器名称 key,但是我并没有创建那个名字为user的过滤器,是因为这是程序帮我创建了一个叫做user的过滤器,这个过滤器的配置都是一些基础的配置,比如初始容量是100 错误率是0.01也就是百分之一的错误率,这个过滤明显不能满足我们的需要因为过滤器的工作原理就是通过多个哈希函数对key进行计算然后记录下来,那么容量就决定了在计算的过程中发生碰撞的概率大小了,所以我们在使用的时候一定要去手动创建过滤器以确保满足自己的需要。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/666473.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CUDA/TensorRT部署知识点

CUDA相关: 1、CUDA核函数嵌套核函数的用法多吗? 答:这种用法非常少,主要是因为启动一个kernel本身就有一定延迟,会造成执行的不连续性。 2、如下代码里的 grid/block 对应硬件上的 SM 的关系是什么? 答:首先需要理解grid/block是软件层的概念,而SM是硬件层的概念。所…

springboot151基于web的人力资源管理系统的设计与实现

人力资源管理系统的设计与实现 摘 要 传统信息的管理大部分依赖于管理人员的手工登记与管理&#xff0c;然而&#xff0c;随着近些年信息技术的迅猛发展&#xff0c;让许多比较老套的信息管理模式进行了更新迭代&#xff0c;员工信息因为其管理内容繁杂&#xff0c;管理数量繁…

SSH免密切换服务器案例-ssh协议(公钥和私钥)

公钥和私钥理解 公钥提供加密&#xff0c;私钥解密&#xff0c;公钥可以共享&#xff0c;私钥不可以。举例公钥相当于锁头&#xff0c;可以给别人用&#xff0c;钥匙相当于私钥&#xff0c;只能开自己发出去的锁头&#xff0c;也就是私钥和公钥成对&#xff0c;私钥只能解密对…

~小青蛙跳台阶~C语言~刷题

引言 这次&#xff0c;我们要与一只活泼可爱的小青蛙合作&#xff0c;并引导它跳台阶。小青蛙的体力十分充沛&#xff0c;尤其喜欢跳跃&#xff0c;让它作为我们的助手&#xff0c;来看看有几种跳跃指定台阶数的方法。 本文会涉及到函数递归的知识&#xff0c;后续我会更新讲解…

清华系2B模型杀出,性能吊打LLaMA-13B

2 月 1 日&#xff0c;面壁智能与清华大学自然语言处理实验室共同开源了系列端侧语言大模型 MiniCPM&#xff0c;主体语言模型 MiniCPM-2B 仅有 24 亿&#xff08;2.4B&#xff09;的非词嵌入参数量。 在综合性榜单上与 Mistral-7B 相近&#xff0c;在中文、数学、代码能力表现…

基于深度卷积神经网络的图像配准(DeepSlice)

文章目录 一、基于DeepSlice的切片配准1.1、研究现状1.2、网络模型&#xff08;DeepSlice&#xff09;1.3、优化策略1.3.1、开发了一个基准数据集&#xff08;GT&#xff09;1.3.2、构建了阶段二的训练数据集&#xff08;增强训练&#xff09;1.3.3、角度集成 切割索引&#x…

【Linux】统信服务器操作系统V20 1060a-AMD64 Vmware安装

目录 ​编辑 一、概述 1.1 简介 1.2 产品特性 1.3 镜像下载 二、虚拟机安装 一、概述 1.1 简介 官网&#xff1a;统信软件 – 打造操作系统创新生态 统信服务器操作系统V20是统信操作系统&#xff08;UOS&#xff09;产品家族中面向服务器端运行环境的&#xff0c;是一款…

Linux驱动 SPI子系统

1、SPI协议 SPI&#xff08;Serial Peripheral Interface&#xff09;是一种同步串行数据通信协议&#xff0c;通常用于连接微控制器和外部设备&#xff0c;如传感器、存储器、显示器等。SPI协议使用四根线进行通信&#xff0c;包括时钟线&#xff08;SCLK&#xff09;、数据输…

CSS要点总结

一、CSS 快速入门 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>css 快速入门</title><!-- 解读1. 在 head 标签内&#xff0c;出现了 <style type"text/css"></style…

Redis 的持久化机制是什么?各自的优缺点?

Redis 提供两种持久化机制 RDB&#xff08;默认&#xff09; 和 AOF 机制: RDB&#xff1a;是Redis DataBase缩写快照 RDB是Redis默认的持久化方式。按照一定的时间将内存的数据以快照的形式保存到硬盘中&#xff0c;对应产生的数据文件为dump.rdb。通过配置文件中的save参数来…

ChatLaw:基于LLaMA微调的法律大模型

文章目录 动机数据组成模型框架模型评估 北大团队发布首个的中文法律大模型落地产品ChatLaw&#xff0c;为大众提供普惠法律服务。模型支持文件、语音输出&#xff0c;同时支持法律文书写作、法律建议、法律援助推荐。 github地址&#xff1a;https://github.com/PKU-YuanGroup…

备份RK35XX 设备的ubuntu根文件系统的方法

简介 我们使用 RK35XX 提供的SDK包制作了一个完整的 ubuntu 镜像,烧录到设备中,会在设备中安装很多我们需要的软件,运行的一些自己写的脚本和业务程序,当我们有很多台设备时,不可能每台都一个个去安装,此时我们就需要一个工具来备份当前设备的根文件系统,然后再放到 SD…

2023年上-未来几年我要做什么

1月份&#xff0c;离职。 2月份&#xff0c;春节休假回来&#xff0c;中旬去参加了一个月的瑜伽培训&#xff0c;学会了倒立、鹤蝉。。。。 3月份&#xff0c;瑜伽培训结束&#xff0c;开始收拾房子&#xff0c;并调研各类项目。 4月份&#xff0c;参与了朋友的区块链项目 …

Leetcode—203. 移除链表元素【简单】

2024每日刷题&#xff08;一零九&#xff09; Leetcode—203. 移除链表元素 实现代码 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(n…

嵌入式linux移植篇之kernel

Linux的启动过程概述 Linux内核的启动过程是一个复杂而又有序的流程&#xff0c;涉及到硬件初始化、引导加载、内核初始化等多个步骤。以下是Linux内核的典型启动流程&#xff1a; BIOS/UEFI阶段&#xff1a; 电源启动&#xff1a;计算机通电后&#xff0c;BIOS&#xff08;…

#从零开始# 在深度学习环境中,如何用 pycharm配置使用 pipenv 虚拟环境

为Python项目创建虚拟环境 在深度学习环境和一般python环境中安装pipenv基本一致&#xff0c;只需要确认好pipenv指定的python版本即可,安装pipenv前&#xff0c;可以通过python --version来确认安装版本 快捷键&#xff1a;crtl alt S 查看interpreter&#xff0c;查看所有…

聊聊比特币----比特币地址

⽐特币地址是⼀个标识符&#xff08;帐号&#xff09;&#xff0c;包含27-34个字母数字拉丁字符&#xff08;0&#xff0c;O&#xff0c;I除外&#xff09;。地址可以以QR码形式表⽰&#xff0c;是匿名的&#xff0c;不包含关于所有者的信息。 地址⽰例&#xff1a;14qViLJfdG…

【51单片机】开发板和单片机的介绍(2)

前言 大家好吖&#xff0c;欢迎来到 YY 滴单片机系列 &#xff0c;热烈欢迎&#xff01; 本章主要内容面向接触过单片机的老铁 主要内容含&#xff1a; 欢迎订阅 YY滴C专栏&#xff01;更多干货持续更新&#xff01;以下是传送门&#xff01; YY的《C》专栏YY的《C11》专栏YY的…

[Python] 什么是KMeans聚类算法以及scikit-learn中的KMeans使用案例

什么是无监督学习&#xff1f; 无监督学习是机器学习中的一种方法&#xff0c;其主要目的是从无标签的数据集中发现隐藏的模式、结构或者规律。在无监督学习中&#xff0c;算法不依赖于任何先验的标签信息&#xff0c;而是根据数据本身的特征和规律进行学习和推断。无监督学习…

论文分享:利用对象存储进行高性能数据分析

本次分享的是慕尼黑工业大学&#xff08;TUM&#xff09; Dominik Durner&#xff0c;Viktor Leis&#xff0c;和 Thomas Neumann 于 2023 年 7 月发表在 PVLDB&#xff08;Volume 16 No.11) 的论文&#xff1a; Exploiting Cloud Object Storage for High-Performance Analyt…