【C++高阶(六)】哈希的应用--位图布隆过滤器

💓博主CSDN主页:杭电码农-NEO💓

⏩专栏分类:C++从入门到精通⏪

🚚代码仓库:NEO的学习日记🚚

🌹关注我🫵带你学习C++
  🔝🔝


在这里插入图片描述

哈希的应用

  • 1. 前言
  • 2. 位图的概念以及定义
  • 3. 位图的模拟实现
  • 4. 布隆过滤器的概念以及定义
  • 5. 布隆过滤器模拟实现(一)
  • 6. 布隆过滤器模拟实现(二)
  • 7. 处理海量数据的面试题
  • 8. 总结

1. 前言

哈希最常用的应用是unordered
系列的容器,但是当面对海量数据
如100亿个数据中找有没有100这
个数时,使用无序容器的话内存放不下
所以哈希思想还有别的更重要的应用!

本章重点:

本篇文章着重讲解哈希的应用的
两个容器,一个是位图,一个是布隆
过滤器,并且模拟实现它们.最后会
讲解如何使用这两个容器来解决一
些海量数据的面试题问题


2. 位图的概念以及定义

请先看一道海量数据的面试题:

在这里插入图片描述

如果要使用unordered_set来解决
40亿个整数,一个整数占4四节,
总共大约占16个G的内存空间
并且set容器中不止有整型数据,还有
其他的数据,所以不能用set!

而一个数在或不在可以用1/0来表示
也就是说其实只需要一个比特位就可
以知道一个数在不在其中.
于是位图横空出世!

位图概念:

所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在的

举例说明:

在这里插入图片描述

判断1~22中哪些数据是存在的
只需要用三个整型也就是24个
比特位的空间,同理,40亿个数据
也用不着16G的内存,使用0.5G
内存的位图即可判断一个数在不在!


3. 位图的模拟实现

先来看看库中实现的位图:
在这里插入图片描述

模板参数N代表位图的大小

位图有三个主要的接口函数:

  1. set: 将一个数据放入位图中
  2. reset:将一个数据从位图中删掉
  3. test:检测一个数据在不在位图中

位图本身就是一段连续的空间
所以用char类型数组来充当位图的
基本结构是很符合情况的!

先将位图框架写出来:

template<size_t N>//N是所有数中的最大值
class bit_set
{
public:bit_set(){_bit.resize(N / 8 + 1, 0);}void set(size_t x)//将第x位变成1{}void reset(size_t x)//将第x位由1变0{}bool test(size_t x){}
private:vector<char> _bit;
};

在写set,reset等函数时,要先清除一点,
那就是char类型的数组一个元素有八个
比特位,所以我们需要确定两个位置:
一是此数据在哪一个数组元素中
二是此数据对应此元素的第几个比特位
下面我们画个图来推导一下公式:

在这里插入图片描述

现在已经能准确的找到这个比特位了
那么怎样将这个比特位变成0/1并且
不会影响到其他的比特位呢?下面分享
两个很巧妙的方法,请大家细细品尝:

template<size_t N>//N是所有数中的最大值
class bit_set
{
public:bit_set(){_bit.resize(N / 8 + 1, 0);}void set(size_t x)//将第x位变成1{//x/8->在第几个char//x%8->在这个char的第几个比特位size_t i = x / 8;size_t j = x % 8;_bit[i] |= (1 << j);//将x对应的比特位变成1}void reset(size_t x){size_t i = x / 8;size_t j = x % 8;_bit[i] &= ~(1 << j);//将x对应的比特位变成0}bool test(size_t x){size_t i = x / 8;size_t j = x % 8;return _bit[i] & (1 << j);}
private:vector<char> _bit;
};

关于代码的解释都在注释中,请耐心观看
必要时可以自己画图做做试验


4. 布隆过滤器的概念以及定义

位图有一个缺陷,那就是只能判断整型是否存在
遇见字符串等类型的数据就很难处理了

布隆过滤器的提出:

在这里插入图片描述
布隆过滤器的概念:

布隆过滤器是由布隆在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间

举例说明:

在这里插入图片描述
查找字符"美团"是否存在时,会找到
这三个绿色的位置,看看是否都为1

布隆过滤器的拓展阅读:

布隆过滤器原理


5. 布隆过滤器模拟实现(一)

首先,布隆过滤器的底层也是位图,所以
只需封装一层即可实现一个布隆过滤器!

但实现布隆过滤器的关键有以下几个

  • 一个字符串映射几个位置?
  • 怎样把字符串转换为整数?

一般而言,一个字符串映射的越多,那么
误判率就越低,但是映射过多会导致不同
的字符串映射到相同的位置,所以一般映射
三个位置,并且将字符串转换为整数也就
需要三种不同的方法,我在网上找了一些
字符串转整数的算法,请看下面的代码:

//三个不同的字符串映射成整数的函数
struct HashBKDR
{size_t operator()(const string& key){size_t val = 0;for (auto ch : key){val *= 131;val += ch;}return val;}
};
struct HashAP
{size_t operator()(const string& key){size_t hash = 0;for (size_t i = 0; i < key.size(); i++){if ((i & 1) == 0)hash ^= ((hash << 7) ^ key[i] ^ (hash >> 3));elsehash ^= (~((hash << 11) ^ key[i] ^ (hash >> 5)));}return hash;}
};
struct HashDJB
{size_t operator()(const string& key){size_t hash = 5381;for (auto ch : key)hash += (hash << 5) + ch;return hash;}
};

将这三个仿函数传入类,用于字符串转整型

布隆过滤器的实现:

// N表示准备要映射N个值
template<size_t N,class K = string, class Hash1 = HashBKDR, class Hash2 = HashAP, class Hash3 = HashDJB>
class Bloom_Filter
{
public:void set(const K& key){size_t hash1 = Hash1()(key) % (_ratio * N);_bits->set(hash1);size_t hash2 = Hash2()(key) % (_ratio * N);_bits->set(hash2);size_t hash3 = Hash3()(key) % (_ratio * N);_bits->set(hash3);}bool test(const K& key){size_t hash1 = Hash1()(key) % (_ratio * N);if (!_bits->test(hash1))return false; // 准确的size_t hash2 = Hash2()(key) % (_ratio * N);if (!_bits->test(hash2))return false; // 准确的size_t hash3 = Hash3()(key) % (_ratio * N);if (!_bits->test(hash3))return false;  // 准确的return true; // 可能存在误判}void reset(const K& key)//支持删除操作的话,可能会把其他数据对应的映射值删除{}
private:const static size_t _ratio = 5;//开的空间越大,误判率越小std::bitset<_ratio* N>* _bits = new std::bitset<_ratio * N>;//标准库中的位图是在栈上开辟的静态数组,过大会栈溢出
};

6. 布隆过滤器模拟实现(二)

布隆过滤器的查找是一个很玄幻的过程:

分别计算每个哈希值对应的比特位置存储的是否为零,只要有一个为零,代表该元素一定不在哈希表中,否则可能在哈希表中

因为哈希函数可能存在冲突的原因,如下:

在这里插入图片描述
所以我们得出一个结论:

  • 布隆过滤器说一个元素存在,那它可能存在
  • 布隆过滤器说一个元素不在,那它一定不在

布隆过滤器的删除操作:

如果你理解了上面的内容,你一定能
明白布隆过滤器是不支持删除的,因为
删除一个关键字时可能将其他的关键字
的一部分也给删除了,因为一个bit位
只能存储一个二进制信息!

在这里插入图片描述


7. 处理海量数据的面试题

海量数据的处理,有对位图的应用
也有对布隆过滤器的应用一步一步解析

位图的应用:

  1. 给100亿个整数,设法找到只出现一次的整数?
  2. 给两个文件,分别有100亿个整数,只有1G内存,如何找到两个文件交集?
  3. 位图应用变形:一个文件有100亿个int,1G内存,设法找到出现次数不超过2次的所有整数

布隆过滤器的应用:

  1. 给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法
  2. 如何扩展BloomFilter使得它支持删除元素的操作

这些问题大家可以下来想一想,有什么问题欢迎私信


8. 总结

讲到这里,哈希的所有内容就已经
讲完了,所以无脑哈希无脑哈希,
但实际上要学好哈希还真得费点脑子

海量数据得处理问题在面试时也是
经常问的,希望同学们好好学扎实!


🔎 下期预告:C++11新改动🔍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/183998.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用 Docker 安装和配置 MySQL 数据库简介

目录 一、使用镜像安装 1、查询镜像 2、拉取镜像 3、查看本地镜像 4、启动docker镜像 二、使用Docker Compose安装 1、安装Docker和Docker Compose 2、创建Docker Compose文件&#xff1a; 3、启动MySQL容器 4、验证MySQL容器是否正常运行 5、连接到MySQL容器 6、停止…

java Stream流操作

什么是Stream&#xff1f; java8新增Stream&#xff0c;配合同版出现的Lambda&#xff0c;为集合&#xff08;Collection&#xff09;操作提供了极大的便利。 Stream将要处理的元素集合看作一种流&#xff0c;在流的过程中&#xff0c;借助Stream API对流中的元素进行操作&am…

004:Direct 2D离屏渲染(Qt中实现)

简介&#xff1a; 用QT开发图像显示的小程序&#xff0c;需要一些标注工具&#xff0c;由于用的是opengl渲染&#xff0c;所以就在内存中进行绘制&#xff0c;然后纹理贴图贴出去&#xff0c;发现Qt绘制的效果太差&#xff0c;且速度一般&#xff0c;于是就想着用direct2d来绘制…

python——第十五天

面向对象和面向对象编程 面向对象编程&#xff1a; C语言是一门面向过程的编程语言&#xff01;&#xff01;&#xff01; 面向对象的编程思想 就是分门别类的一种能力 面向对象的概念 类&#xff1a; 对一类事物的统称 对象&#xff1a; 一类事物中的具体案例 面向对象的…

python之pyqt专栏8-信号与槽4

信号重载 在上一篇python之pyqt专栏7-信号与槽3-CSDN博客&#xff0c;我们知道在自定义信号时&#xff0c;可以设定信号参数数据类型。pyqt还支持信号重载。 信号定义 sendText pyqtSignal([int],[str]) 代码意思是定义重载信号sendText&#xff0c;槽函数的参数可以是int数…

【Vulnhub 靶场】【CEREAL: 1】【困难】【20210529】

1、环境介绍 靶场介绍&#xff1a;https://www.vulnhub.com/entry/cereal-1,703/ 靶场下载&#xff1a;https://download.vulnhub.com/cereal/Cereal.ova 靶场难度&#xff1a;困难 发布日期&#xff1a;2021年5月29日 文件大小&#xff1a;1.1 GB 靶场作者&#xff1a;Thomas…

postman打开白屏

现状&#xff1a;postman打开白屏如下图 window环境变量&#xff1a; Win R 快捷键打开 sysdm.cpl 增加环境变量&#xff1a; 变量名&#xff1a;POSTMAN_DISABLE_GPU 值&#xff1a;true 重新打开postman

不用第三方软件实现停止windows10/11更新

第一步&#xff1a;打开regedit 1&#xff1a;键盘按下winR输入regedit 2&#xff1a;按下图顺序选择 3&#xff1a;右击settings新建DWORD【32位】值 输入FlightSettingsMaxPauseDays 然后右击修改值选择十进制输入4000代表可以延迟4000天就是10年多 然后打开设置 一直…

网络运维与网络安全 学习笔记2023.11.29

网络运维与网络安全 学习笔记 第三十天 今日更新太晚啦&#xff01;&#xff01;&#xff01; 主要是今天工作时挨了一天骂&#xff0c;服了&#xff0c;下次记得骂的轻一点&#xff01;&#xff01;&#xff01; &#xff08;要不是为了那点微薄的薪资&#xff0c;谁愿意听你…

文件fd【Linux系统编程】

本文是基础IO的第一个部分&#xff0c;基础IO部分将主要讲解以下内容&#xff1a;文件fd 文件系统 软硬链接 操作系统的内存管理 以及 动静态库。本节重点讲解文件fd&#xff0c;其余内容将在后面的博客更新。 一、共识 文件 内容 属性 文件分为打开了的文件和没打开的文件。…

第二证券:股票几点到几点开盘?

作为股民或许投资者&#xff0c;我们都知道股票是每天都有开盘和收盘时间的。但是&#xff0c;关于股票的开盘时间&#xff0c;很多人并不是很清楚&#xff0c;特别是初学者。在本文中&#xff0c;我们将从多个视点分析股票开盘时间&#xff0c;并为大家供给一些有用的信息。 …

血的教训--kail系统免密centos7的坑【高版本ssh免密低版本ssh的坑】

血的教训–kail系统免密centos7的坑【高版本ssh免密低版本ssh的坑】 最近下载了一个2023版本的kail系统&#xff0c;但是经过几次设置免密后&#xff0c;ssh过去一直让提供密码&#xff0c;所以就仔细的分析了一下&#xff0c;果然还是发现了点猫腻 接上一个博客&#xff0c;大…

CSS新手入门笔记整理:CSS边框样式

边框宽度&#xff1a;boder-width 语法 boder-width:像素值&#xff1b; 边框样式&#xff1a;boder-style 语法 boder-style:取值&#xff1b; 属性值 说明 none 无样式 dashed 虚线 solid 实线 边框颜色&#xff1a;boder-color 语法 boder-color:色值&#xf…

Mysql之子查询(知识点+例题)

Mysql之子查询<知识点例题> 什么是子查询案例分析案例分析子查询的分类单行子查询子查询中的空值问题题目练习题目一题目二题目三题目四题目五补充&#xff1a;聚合函数与GROUP BY的使用关系 CASE表达式&#xff08;子查询中的运用&#xff09;简单CASE表达式搜索CASE表达…

电脑突然死机怎么办?教你几招快速拯救

当今社会&#xff0c;电脑成为我们日常生活和工作不可或缺的一部分。然而&#xff0c;有时电脑可能会突然死机&#xff0c;给我们的操作和数据带来不便。那电脑突然死机怎么办呢&#xff1f;本文将介绍解决电脑突然死机的三种方法&#xff0c;通过详细的步骤指南&#xff0c;帮…

类 —— 继承、多重继承

继承 一个类&#xff0c;继承另一个已有的类。&#xff08;在一个已存在的类的基础上建立一个新的类&#xff0c;并拥有其特性&#xff09; 是一个父类&#xff08;基类&#xff09;派生出子类&#xff08;派生类&#xff09;的过程。 派生类往往是基类的具象化&#xff0c;基…

接口测试之测试原则、测试用例、测试流程......

一、接口的介绍 软件测试中&#xff0c;常说的接口有两种&#xff1a;图形用户接口&#xff08;GUI&#xff0c;人与程序的接口&#xff09;、应用程序编程接口&#xff08;API&#xff09;。 接口&#xff08;API&#xff09;是系统与系统之间&#xff0c;模块与模块之间或者…

异常数据检测 | Python实现oneclassSVM模型异常数据检测

支持向量机(SVM)的异常检测 SVM通常应用于监督式学习,但OneClassSVM[8]算法可用于将异常检测这样的无监督式学习,它学习一个用于异常检测的决策函数其主要功能将新数据分类为与训练集相似的正常值或不相似的异常值。 OneClassSVM OneClassSVM的思想来源于这篇论文[9],SVM使用…

unity UGUI中获取点击位置处的URL链接

需求是&#xff0c;我们在一个text组件中像写网页那样写入链接&#xff0c;然后点击这个链接&#xff0c;就能访问配置的网页啥的。比如&#xff1a; <a href"hello">链接文本</a></summary> 最终的效果如下&#xff1a; 图中&#xff0c;image区…

华为智能手表独立导航,一呼即应轻松畅行

PetalMaps 手表独立导航&#xff0c;一声令下唤醒导航&#xff0c;打造了智慧的语音交互唤醒体验功能。导航时&#xff0c;语音播报、变道震动提醒功能&#xff0c;让您尽情体验腕上导航乐趣&#xff0c;同时又能安全抵达目的地。