mysql开启布隆过滤器_海量数据去重之布隆过滤器

背景

在使⽤word⽂档时,word如何判断某个单词是否拼写正确?

⽹络爬⾍程序,怎么让它不去爬相同的url⻚⾯?

垃圾邮件(短信)过滤算法如何设计?

公安办案时,如何判断某嫌疑⼈是否在⽹逃名单中?

缓存穿透问题如何解决?

先来看一个场景,假如我们的数据库使用的是 mysql,缓存使用 redis。

server

redis

mysql

数据读取步骤是这样的:

先访问 redis ,如果数据存在直接返回;如果不存在则进行步骤 2;

访问 mysql ,如果数据不存在,直接返回;如果存在则进行步骤 3;

将 mysql 中存在的 key 写回 redis;

出现的问题: 如果 redis 和 mysql 中都没有相应的数据,此时又有大量的该数据的请求(伪造数据攻击),最终的压力还是会全部涌向 mysql。这就是所谓的 缓存穿透。

解决方案:

在 redis 端设置 键值对,以避免访问 mysql。当然缺点是如果 过多时会占用过多的内存。我们可以给 key 设置过期时间,比如 exoire key 600ms, 停止攻击后最终由 redis 自动清除这些无用的 key ;

在 server 端设置一个布隆过滤器,将 mysql 中包含的 key 放入布隆过滤器中;布隆过滤器能过滤一定不存在的数据。

布隆过滤器

假设我么你现在提出一个需求:从海量数据中查询某字符串是否存在。

在 c++ 中我们首先想到的应该是使用 STL 中的 set 或者 map。

set 和 map

c++ 标准库(STL)中的 set 和 map 结构都是采⽤红⿊树实现的,它增删改查的时间复杂度是:

o

(

l

o

g

2

n

)

o(log_{2}n)o(log2​n)

对于严格平衡⼆叉搜索树(AVL),100w 条数据组成的红⿊树,只需要⽐较20次就能找到该值;对于10亿条数据只需要⽐较30次就能找到该数据;也就是查找次数跟树的⾼度是⼀致的;

对于红⿊树来说平衡的是⿊节点⾼度,所以研究⽐较次数需要考虑树的⾼度差,最好情况某条树链路全是⿊节点,假设此时⾼度为 h1,最差情况某条树链路全是⿊红节点间隔,那么此时树⾼度为 2*h1;

在红⿊树中每⼀个节点都存储 key 和 val 字段,key 是⽤来做⽐较的字段;红⿊树并没有要求 key 字段唯⼀,在 set 和 map 实现过程中限制了 key 字段唯⼀。

另外 set 和 map 的关键区别是 set 不存储 val 字段;

优点:存储效率⾼,访问速度⾼效;

缺点:对于数据量⼤且查询字符串⽐较⻓且查询字符串相似时将会是噩梦;

unordered_map

c++ 标准库(STL)中的 unordered_map 是采⽤ hashtable 实现的;

构成:数组 + hash 函数;

它是将字符串通过 hash 函数⽣成⼀个整数再映射到数组当中;它增删改查的时间复杂度是 o(1);

hash 函数的作⽤:避免插⼊的时候字符串的⽐较;hash函数计算出来的值通过对数组⻓度的取模能随机分布在数组当中;

hash 函数⼀般返回的是 64 位整数,将多个⼤数映射到⼀个⼩数组中,必然会产⽣冲突;

如何选取 hash 函数?

选取标准:

选取计算速度快;

哈希相似字符串能保持强随机分布性(防碰撞);

murmurhash1,murmurhash2,murmurhash3,siphash( redis6.0 当中使⽤,rust 等⼤多数语⾔选⽤的 hash 算法来实现 hashmap),cityhash 都具备强随机分布性;测试地址如下:https://github.com/aappleby/smhasher

负载因⼦:数组存储元素的个数/数组⻓度;负载因⼦越⼩,冲突越⼩;负载因⼦越⼤,冲突越⼤;

hash冲突解决⽅案

链表法

引⼊链表来处理哈希冲突;也就是将冲突元素⽤链表链接起来;这也是常⽤的处理冲突的⽅式;但是可能出现⼀种极端情况,冲突元素⽐较多,该冲突链表过⻓,这个时候可以将这个链表转换为红⿊树;由原来链表时间复杂度 o(n) 转换为红⿊树时间复杂度 ;那么判断该链表过⻓的依据是多少?可以采⽤超过256(经验值)个节点的时候将链表结构转换为红⿊树结构;

开放寻址法

将所有的元素都存放在哈希表的数组中,不使⽤额外的数据结构;⼀般使⽤线性探查的思路解决;

当插⼊新元素的时,使⽤哈希函数在哈希表中定位元素位置;

检查数组中该槽位索引是否存在元素。如果该槽位为空,则插⼊,否则进行第 3 步;

在第 2 步检测的槽位索引上加⼀定步⻓接着检查第 2 步;

加⼀定步⻓分为以下⼏种:

i+1,i+2,i+3,i+4 ... i+n

i- ,i+ ,i- ,1+ ...

这两种都会导致同类 hash 聚集;也就是近似值它的 hash 值也近似,那么它的数组槽位也靠近,形成 hash 聚集;第⼀种同类聚集冲突在前,第⼆种只是将聚集冲突延后;

另外还可以使⽤双重哈希来解决上⾯出现 hash 聚集现象。

在 .net HashTable 类的 hash 函数 Hk 定义如下:

Hk(key) = [GetHash(key) + k * (1 + (((GetHash(key) >> 5) + 1) %(hashsize – 1)))] % hashsize

在此 (1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1))) 与 hashsize互为素数(两数互为素数表示两者没有共同的质因⼦);执⾏了 hashsize 次探查后,哈希表中的每⼀个位置都有且只有⼀次被访问到,也就是说,对于给定的 key,对哈希表中的同⼀位置不会同时使⽤ Hi 和 Hj。

具体原理:https://www.cnblogs.com/organic/p/6283476.html

同样的 hashtable 中节点存储了 key 和 val,hashtable 并没有要求 key 的⼤⼩顺序,我们同样可以修改代码让插⼊存在的数据变成修改操作;

优点:访问速度更快;不需要进⾏字符串⽐较;

缺点:需要引⼊策略避免冲突,存储效率不⾼;空间换时间;

总结

红⿊树和 hashtable 都不能解决海量数据问题,它们都需要存储具体字符串,如果数据量⼤,提供不了⼏百 G 的内存;所以需要尝试探寻不存储 key 的⽅案,并且拥有 hashtable 的优点(不需要⽐较字符串);

布隆过滤器

布隆过滤器是⼀种概率型数据结构,它的特点是⾼效的插⼊和查询,能明确告知某个字符串⼀定不存在或者可能存在;相⽐传统的查询结构(例如:hash,set,map等数据结构)更加⾼效,占⽤空间更⼩;但是其缺点是它返回的结果是概率性的,也就是说结果存在误差的,虽然这个误差是可控的;同时它不⽀持删除操作;

组成:位图(bit 数组)+ n 个 hash 函数

98c5c54bccbbd46678912e70b426f2ee.png

原理:当⼀个元素加⼊位图时,通过 k 个 hash 函数将这个元素映射到位图的 k 个点,并把它们置为 1;当检索时,再通过 k 个 hash 函数运算检测位图的 k 个点是否都为 1;如果有不为 1 的点,那么认为不存在;如果全部为1,则可能存在(存在误差);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ahhhbjn3-1610794049644)(原理.png)]

在位图中每个槽位只有两种状态(0 或者 1),⼀个槽位被设置为 1 状态,但不明确它被设置了多少次;也就是不知道被多少个 str1 哈希映射以及是被哪个 hash 函数映射过来的;所以不⽀持删除操作;

在实际应⽤过程中,布隆过滤器该如何使⽤?要选择多少个 hash 函数,要分配多少空间的位图,存储多少元素?另外如何控制假阳率(布隆过滤器能明确⼀定不存在,不能明确⼀定存在,那么存在的判断是有误差的,假阳率就是错误判断存在的概率)?

n -- 布隆过滤器中元素的个数,如上图 只有str1和str2 两个元素 那么 n=2

p -- 假阳率,在0-1之间 0.000000

m -- 位图所占空间

k -- hash函数的个数

公式如下:

n = ceil(m / (-k / log(1 - exp(log(p) / k))))

p = pow(1 - exp(-k / (m / n)), k)

m = ceil((n * log(p)) / log(1 / pow(2, log(2))));

k = round((m / n) * log(2));

假定我们选取这四个值为:

n = 4000

p = 0.000000001

m = 172532

k = 30

四个值的关系:

d05e51563acefb8593362ac3765c15e1.png

476cb4b05e9309fb4420304bd148d401.png

a52d8cf93c417c109c772e039aee224a.png

在实际应⽤中,我们确定 n 和 p,通过上⾯的计算算出 m 和 k;也可以在⽹站上选取合适的值:https://hur.st/bloomfilter

已知 k,如何选择 k 个 hash 函数?

// 采⽤⼀个hash函数,给hash传不同的种⼦偏移值

// #define MIX_UINT64(v) ((uint32_t)((v>>32)^(v)))

uint64_t hash1 = MurmurHash2_x64(key, len, Seed);

uint64_t hash2 = MurmurHash2_x64(key, len, MIX_UINT64(hash1));

for (i = 0; i < k; i++) // k 是hash函数的个数

{

Pos[i] = (hash1 + i*hash2) % m; // m 是位图的⼤⼩

}

// 通过这种⽅式来模拟 k 个hash函数 跟我们前⾯开放寻址法 双重hash是⼀样的思路

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/416470.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux 中 svn 服务器搭建 重启

鉴于在搭建时&#xff0c;参考网上很多资料&#xff0c;网上资料在有用的同时&#xff0c;也坑了很多人 本文的目的&#xff0c;也就是想让后继之人在搭建svn服务器时不再犯错&#xff0c;不再被网上漫天的坑爹作品所坑害&#xff0c;故此总结 /******开始*********/ 系统环境&…

mysql master host_mysql异步备份的有关问题,MASTER_HOST可否指定多个

mysql异步备份的问题&#xff0c;MASTER_HOST可否指定多个&#xff1f;mysql数据库提供了一种主从备份的机制&#xff0c;其实就是把主数据库的所有的数据同时写到备份数据库中。实现mysql数据库的热备份。主库#数据库的id这个应该默认是1就不用改动server-id1#日志文件的名称&…

Spring Boot快速入门

安装 安装依赖 maven是一个依赖管理工具&#xff0c;我们利用maven进行构建。创建一个maven项目&#xff0c;在pom.xml里面添加依赖项 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmln…

前端学习(2465):ajax发送请求

原文链接&#xff1a;https://www.cnblogs.com/0x29a/p/11231950.html 1. 创建XMLHttpRequest异步对象 步骤一代码引自&#xff1a;https://www.w3school.com.cn/ajax/ajax_xmlhttprequest_create.asp var xhr; if (window.XMLHttpRequest){// code for IE7, Firefox, Chrome, …

mysql数据库with ur_Python使用MySQL数据库(新)

一&#xff0c;安装mysql如果是windows用户&#xff0c;mysql的安装非常简单&#xff0c;直接下载安装文件&#xff0c;双击安装文件一步一步进行操作即可。Linux 下的安装可能会更加简单&#xff0c;除了下载安装包进行安装外&#xff0c;一般的linux仓库中都会有mysql&#x…

洛谷——P1067 多项式输出

https://www.luogu.org/problem/show?pid1067#sub 题目描述 一元 n 次多项式可用如下的表达式表示&#xff1a; 其中&#xff0c;aixi称为 i 次项&#xff0c;ai 称为 i 次项的系数。给出一个一元多项式各项的次数和系数&#xff0c;请按照如下规定的格式要求输出该多项式&…

前端学习(2467):在前端页面中引入百度地图

走在前端的大道上 插槽&#xff0c;也就是slot&#xff0c;是组件的一块HTML模板&#xff0c;这块模板显示不显示、以及怎样显示由父组件来决定。 实际上&#xff0c;一个slot最核心的两个问题在这里就点出来了&#xff0c;是显示不显示和怎样显示。 由于插槽是一块模板&…

pm961 mysql_Oracle GoldenGate学习之--异构平台同步(Mysql到Oracle)

Oracle GoldenGate学习之--异构平台同步(Mysql到Oracle)如图所示&#xff1a;源端采用Mysql库&#xff0c;目标端采用Oracle库一、OGG安装配置(源端)1、OGG下载https://edelivery.oracle.com/EPD/Download/get_form?egroup_aru_number14841438https://edelivery.oracle.com/EP…

转:在csv中维护变量参数

问题&#xff1a; 1、我的变量表多&#xff0c;通过之前的csv获取的方式&#xff0c;或者用户变量来维护&#xff0c;比较麻烦 2、我想在脚本之外维护我的变量数据&#xff0c;脱离脚本 解决方案&#xff1a; 1、csv的配置如图&#xff0c;队列是变量名称&#xff0c;第二列是变…

前端学习(2471):vue-echarts和echarts的区别:

vue-echarts和echarts的区别&#xff1a; vue-echarts是封装后的vue插件&#xff0c; 基于 ECharts v4.0.1 开发&#xff0c;依赖 Vue.js v2.2.6&#xff0c;功能一样的只是把它封装成vue插件 这样更方便以vue的方式去使用它。echarts就是普通的js库&#xff0c; vue-echarts特…

前端学习(2474):页面布局

request.js <template> <div class"artical-container"><!--卡片--><el-card class"filter-card"><div slot"header" class"clearfix"><!--面包屑导航--><el-breadcrumb separator-class&quo…

linuxsed替换字符串后保存_Numpy运用-文件读写、存储及字符串处理

问题列举&#xff1a;Numpy文件读取Numpy文件存储Numpy字符串操作1、文件读取可以使用genfromtxt读取txt或者csv文件可以使用loadtxt读取txt或者csv文件两个函数功能类似&#xff0c;genfromtxt针对的更多是结构化数据注&#xff1a;delimiter表示的是以&#xff0c;分隔数据&a…

mysql5.1win7_免安装版mysql5.1.57在win7下成功配置

mysql下载回来之后解压到D:/mysql-5.1.57-win32&#xff0c;把D:/mysql-5.1.57-win32/bin加入到系统环境变量Path中。然后需要简单的配置mysql数据库&#xff0c;把my-small.ini改名为my.ini(其他的几个文件也可以直接拿过来修改一下名字)&#xff0c;编辑文件my.ini&#xff0…