【C++进阶】哈希的应用 --- 布隆过滤器

在这里插入图片描述

👦个人主页:@Weraphael
✍🏻作者简介:目前学习C++和算法
✈️专栏:C++航路
🐋 希望大家多多支持,咱一起进步!😁
如果文章对你有帮助的话
欢迎 评论💬 点赞👍🏻 收藏 📂 加关注✨


目录

  • 一、问题引入
  • 二、布隆过滤器的概念
  • 三、布隆过滤器的实现
      • 3.1 基本结构
      • 3.2 插入
      • 3.3 查找
      • 3.4 删除
      • 3.5 测试
      • 3.6 优化
  • 四、总结
  • 五、代码

一、问题引入

随着玩王者荣耀的用户越来越多,想要取一个心悦的名字是非常难的。当名字重复的时候,系统非常快的提示“名字已被使用”,那么它是如何做到快速查找名字是否被使用了呢?

在这里插入图片描述

在如此大的数据下,首先可以想到使用位图:

  • 但由于位图的数据必须是size_t的,那么需要先将名字(字符串)映射成整型,然后再存入位图中。然而,我们对位图开空间是根据数据范围的,但字符串的长度是可变的,使用位图来表示长度不固定的数据会带来很大的挑战。比如,开少了可能引发冲突,那么就会导致误判。比如说李白和百里都占同一个比特位并且都标记成1,当有人将修改了百里这一名称,那么其实就是reset操作,那么,李白也同样会被reset,那么就会有第二个人可以取李白这个名字。

  • 并且字符串在计算机中是以字符集编码的方式存储的,一个字符可能由一个或多个字节组成。而位图一般用于表示集合中元素的存在与否,对于字符集编码来说,字符的种类和编码范围非常广泛,使用位图来表示所有可能的字符将需要非常大的存储空间,并且不实际。

这时候就需要我们本文中的主角: 布隆过滤器Bloomfilter

二、布隆过滤器的概念

布隆过滤器是由布隆在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询。可以用来告诉你 “某样东西一定不存在或者可能存在”

布隆过滤器是如何做到的呢?

这里举一个小故事:假设布隆有一天要去线下见网友,前提是他不知道网友的任何特征,那怎么办?只能发一个消息问对方今天的穿搭,而网友说今天带了一个黑色的帽子,然而布隆一眼望去,今天穿戴黑色帽子的人也特别的多,于是再次向网友询问更多的特征来过滤掉更多穿搭相识的人。

于是布隆过滤器就是 使用多个哈希函数,将一个数据映射到位图结构中,也就是 一个数据映射位图的多个位置哈希与位图结合,即布隆过滤器)。只有当映射的比特位全为1,则说明字符串存在。

在这里插入图片描述

三、布隆过滤器的实现

3.1 基本结构

既然需要多个哈希函数,这里我只模板中添加三个哈希函数的模板参数,以及待存储的数据类型,不过布隆过滤器最常见存储的类型是字符串,所以可以给一个缺省值。

在这里插入图片描述

显然,这三个 哈希函数 的选择是十分重要的,我们在这里提供三种较为优秀的哈希函数(字符串哈希算法),分别是 BKDRHashAPHash 以及 DJBHash

在这里插入图片描述

struct BKDRHash
{size_t operator()(const string& str){register size_t hash = 0;for  (auto& ch : str){hash = hash * 131 + (size_t)ch;    }return hash;}
};struct APHash
{size_t operator()(const string& str){size_t hash = 0;for (auto e : str){if (((size_t)e & 1) == 0){hash ^= ((hash << 7) ^ (size_t)e ^ (hash >> 3));}else{hash ^= (~((hash << 11) ^ (size_t)e ^ (hash >> 5)));}}return hash;}
};struct DJBHash
{size_t operator()(const string& str){if (str.empty())return 0;size_t hash = 5381;for (auto e : str){hash += (hash << 5) + (size_t)e;}return hash;}
};template<size_t N, class K = string, class Hashfunc1 = BKDRHash, class Hashfunc2 = APHash, class Hashfunc3 = DJBHash>
class bloomfilter
{
public:private:bitset<N> _bt;
};

3.2 插入

步骤:

  • 通过三个哈希函数计算不同的哈希值

  • 最后再调用bitset中的set在位图中标记即可

在这里插入图片描述

3.3 查找

判断在不在也非常简单,我们可以再次计算出三个哈希值,只要它们对应的二进制位上是1,说明要查找的字符串存在,只要有一个为0,说明要查找的字符串一定不存在。

在这里插入图片描述

这里需要注意的是:布隆过滤器判断不在是准确的,判断 是不准确的

比如,“李白“映射了位置0 1 3,”百里“映射了位置3 5 7,虽然这两个字符串不会相互影响,但原本”妲己“不存在位图中,并且通过调用test发现三个位置都是1,那么就会误判存在。

在这里插入图片描述

因此 布隆过滤器并不是非常可靠,那该怎么办呢?有人想到了使用 布隆过滤器 + 数据库 的方式进行双重验证

如果 布隆过滤器 判断字符串不存在,那么就是真的不存在,因为这是绝对准确的;但如果在布隆过滤器中存在,可以去数据库里搜索,再反馈给用户。

3.4 删除

布隆过滤器支持删除吗?其实一般是不支持的。因为支持删除会存在重大问题,删除一个值会影响其他字符串。

在这里插入图片描述

虽然成功删除了 “李白”,但同时也影响了 “百里”,当要验证“百里”是否存在时,会被判断为不存在,所以布隆过滤器,一般是不支持删除操作的。

3.5 测试

在这里插入图片描述

3.6 优化

如果真的误判存在了那该怎么办呢?有的人想增加哈希函数的个数,那么问题来了,增加多少个合适呢?

还有一个比较合适的方案:扩大布隆过滤器的长度,使数据更分散,来降低误判的概率

那么如何选择合适的布隆过滤器的长度呢?对此有大佬做出了研究:

在这里插入图片描述

我们可以来估算一下,假设用3个哈希函数,即K = 3ln2 的值我们取 0.7,那么 mn 的关系大概是 m = n×k/ln2=4.2n ,也就是过滤器长度应该是插入元素个数的 4 -5倍

在这里插入图片描述

四、总结

优点:

  1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无关

  2. 哈希函数相互之间没有关系,方便硬件并行运算

  3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势

  4. 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势

  5. 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能

  6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算

缺点:

  1. 有误判率,不能准确判断元素是否在集合中(补救方法:再建立一个白名单,存储可能会误判的数据)

  2. 不能获取元素本身

  3. 一般情况下不能从布隆过滤器中删除元素

实际应用场景:

  1. 注册时对于 昵称、用户名、手机号的验证

  2. 减少磁盘 IO 或者网络请求,因为一旦一个值必定不存在的话,我们可以不用进行后续昂贵的查询请求

五、代码

本篇博客相关代码:点击跳转

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/733161.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试准备不充分,被Java守护线程干懵了,面试官主打一个东西没用但你得会

写在开头 面试官&#xff1a;小伙子请聊一聊Java中的精灵线程&#xff1f; 我&#xff1a;什么&#xff1f;精灵线程&#xff1f;啥时候精灵线程&#xff1f; 面试官&#xff1a;精灵线程没听过&#xff1f;那守护线程呢&#xff1f; 我&#xff1a;守护线程知道&#xff0c;就…

计算机软件文档编制规范GB_T 8567-2006

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl 计算机软件文档编制规范概述 计算机软件文档编制规范&#xff08;Specification for computer software documentation&#xff09; 由TC28&#xff08;全国信息技术标准化技…

《HTTPS协议》

文章目录 一、什么是HTTPS协议二、理解关键字三、为什么要加密四、常见的加密方式1.对称加密2.非对称加密 五、如何进行加密&#xff1f;1.只使用对称加密2.只使用非对称加密3.双方都使用非对称加密4.使用对称加密非对称加密5.对称加密非对称加密CA证书认证5.1数据摘要&#xf…

GPT-4-turbo还是大家心中第一!Claude 3竞技场人类投票成绩出炉:仅居第三

Claude 3的竞技场排名终于揭晓了&#xff1a; 在仅仅3天的时间里&#xff0c;20000张投票使得排名的流量达到了前所未有的高度。 最后&#xff0c;Claude 3的"大杯"模型Opus以1233的分数赢得了胜利&#xff0c;成为了第一个能和GPT-4-Turbo匹敌的选手。 "中杯…

QGridLayout网格布局和QVBoxLayout垂直布局有着非常大的差别

QGridLayout网格布局&#xff1a;1.把这块控件划分成一个个的 单元格 2.把你的控件填充进入 单元格 3.这些有关限制大小的函数接口统统失效 setMaximumWidth&#xff08;&#xff09; setMinimumWidth() setPolicySize()图示&#xff1a;我是用的网格布局&#xff0c;左边放QT…

C# WinForm AndtUI第三方库 Table控件使用记录

环境搭建 1.在NuGet中搜索AndtUI并下载至C# .NetFramework WinForm项目。 2.添加Table控件至窗体。 使用方法集合 1.单元格点击事件 获取被点击记录特定列内容 private void dgv_CellClick(object sender, MouseEventArgs args, object record, int rowIndex, int columnIn…

【Python】装饰器函数

专栏文章索引&#xff1a;Python 原文章&#xff1a;装饰器函数基础_装饰函数-CSDN博客 目录 1. 学习装饰器的基础 2.最简单的装饰器 3.闭包函数装饰器 4.装饰器将传入的函数中的值大写 5. 装饰器的好处 6. 多个装饰器的执行顺序 7. 装饰器传递参数 8. 结语 1. 学习装饰…

利用IDEA创建Java项目使用Servlet工具

【文件】-【项目结构】 【模块】-【依赖】-【】-【JAR】 找到Tomcat的安装路径打开【lib】找到【servlet.jar】点击【确定】 勾选上jar,然后【应用】-【确定】 此时新建文件可以发现多了一个Servlet&#xff0c;我们点击会自动创建一个继承好的Servlet类

STL容器之哈希的补充——其他哈希问题

1.其他哈希问题 ​ 减少了空间的消耗&#xff1b; 1.1位图 ​ 位图判断在不在的时间复杂度是O(1)&#xff0c;速度特别快; ​ 使用哈希函数直接定址法&#xff0c;1对1映射&#xff1b; ​ 对于海量的数据判断在不在的问题&#xff0c;使用之前的一些结构已经无法满足&…

基于PSO粒子群算法的三角形采集堆轨道优化matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 假设一个收集轨道&#xff0c;上面有5个采集堆&#xff0c;这5个采集堆分别被看作一个4*20的矩阵&#xff08;下面只有4*10&#xff09;&#xff0c;每个模块&…

opencv编程

opencv编程 引言&#xff1a; ​ 本实验旨在介绍使用OpenCV进行图像处理和视频处理的基本操作。OpenCV&#xff08;Open Source Computer Vision Library&#xff09;是一个开源计算机视觉库&#xff0c;提供了丰富的图像和视频处理功能&#xff0c;既可以进行图像的读取、显示…

187基于matlab的弹道目标跟踪滤波方法

基于matlab的弹道目标跟踪滤波方法&#xff0c;扩展卡尔曼滤波&#xff08;extended Kalman filter, EKF&#xff09;、转换测量卡尔曼滤波&#xff08;conversion measurement Kalman filter, CMKF&#xff09;跟踪滤波&#xff0c;得到距离、方位角、俯仰角误差结果。程序已调…

人工智能|机器学习——DBSCAN聚类算法(密度聚类)

1.算法简介 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法&#xff0c;簇集的划定完全由样本的聚集程度决定。聚集程度不足以构成簇落的那些样本视为噪声点&#xff0c;因此DBSCAN聚类的方式也可以用于异常点的检测。 2.算法原…

《汇编语言》- 读书笔记 - 第17章-实验17 编写包含多个功能子程序的中断例程

《汇编语言》- 读书笔记 - 第17章-实验17 编写包含多个功能子程序的中断例程 逻辑扇区根据逻辑扇区号算出物理编号中断例程&#xff1a;通过逻辑扇区号对软盘进行读写 代码安装 int 7ch 测试程序效果 实现通过逻辑扇区号对软盘进行读写 逻辑扇区 计算公式: 逻辑扇区号 (面号*8…

CSS基础知识

font-family: "Trebuchet MS", Verdana, sans-serif; 字体栈&#xff0c;浏览器会一个一个试过去看下哪个可以用 font-size16px; font-size1em; font-size100%;//相对于16px 字体大小&#xff0c;需要进行单位换算16px1em font-weightnormal;//400font-weight属性…

YoloV5改进策略:Block改进|自研Block,涨点超猛|代码详解|附结构图

涨点效果 参考模型 参考的Block,如下图: 我对Block做了修改,修改后的结构图如下: 代码详解 from timm.models.layers import DropPathfrom torch import Tensor def channel_shuffle(x: Tensor, groups:

用Java Socket手撸了一个HTTP服务器

作为一个 Java 后端&#xff0c;提供 HTTP 服务可以说是基本技能之一了&#xff0c;但是你真的了解 HTTP 协议么&#xff1f;你知道知道如何手撸一个 HTTP 服务器么&#xff1f;Tomcat 的底层是怎么支持 HTTP 服务的呢&#xff1f;大名鼎鼎的 Servlet 又是什么东西呢&#xff0…

可观测性是什么?新手入门指南!

如果您之前对可观测性重要性&#xff0c;益处&#xff0c;以及组成不甚了解&#xff0c;本文是一个合适的指南手册。 什么是可观测性&#xff1f; 可观测性被定义为根据系统产生的输出数据&#xff08;如日志&#xff0c;指标和链路追踪&#xff09;来衡量当前系统运行状态的…

代码理解 pseudo_labeled = outputs.max(1)[1]

import torchls torch.Tensor([[0.2,0.4],[0.3,0.2]]) print(ls.max(1))

STL之deque容器代码详解

1 基础概念 功能&#xff1a; 双端数组&#xff0c;可以对头端进行插入删除操作。 deque与vector区别&#xff1a; vector对于头部的插入删除效率低&#xff0c;数据量越大&#xff0c;效率越低。 deque相对而言&#xff0c;对头部的插入删除速度回比vector快。 vector访问…