Bloom-Filter算法 简介

Bloom-Filter算法 其实可以看作 bit-map 的一种扩展。

它把已存在的元素通过多个hash 函数映射到一个 bit 序列,对于每一个元素根据hash函数的结果把相应的 位置置一(这个bit序列通常很长,但是比起记住所有元素它占用的空间是小的)。

在判断一个元素时候已存在的时候,它会把这个元素的多个hash结果对应到bit序列中查看,如果已经全部置为一,那么说明该元素已经存在。


一个Bloom Filter有以下参数:


m bit数组的宽度(bit数)
n 加入其中的key的数量
k 使用的hash函数的个数
f False Positive的比率
(假阳性)

为了把错误率控制在 f,共有 n 个元素的集合作 bloom filter 其他参数可以由以下公式来定值:

m =nlg(1/f)*lge (其中 lg 表示以2为底的对数)

k = - ln(f) / ln(2)             


另外对于一个元素非常多的集合要进行 Bloom Filter 操作,必须构造一个返回值范围很大的 hash 函数。可以用 md5 算法生成十六进制的hash值,然后转成十进制:

import hashlibm=hashlib.md5()
m.update('123123123123123123')
print int(m.hexdigest(), base=16)

详见:http://blog.csdn.net/hguisu/article/details/7866173

转载于:https://www.cnblogs.com/rav009/p/5131107.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493751.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吴恩达斯坦福大学机器学习 CS229 课程学习笔记(二)

终于要开始正式的学习了。看了第一节课最大的印象是Ng老师的优雅,儒雅,偏英式的发音(突然意识到他从小在伦敦长大)。配着字幕看的视频,但还是希望能锻炼一下自己的听力,也只有在自己看过一遍印象才深刻&…

当自动驾驶汽车撞过来的时候,你希望它如何判断?

来源:网易智能 摘要:据报道,当无人驾驶汽车在繁忙的街道上发生碰撞的时候,它该优先避免让谁受伤呢?它该杀死谁,而不杀死谁呢?麻省理工学院的一项研究表明,你的回答将取决于你来自哪里…

细数黑客攻击的七大战术

不计其数的黑客们游荡在因特网中来欺骗那些容易上当的用户。它们多年使用着重复的攻击手段,毫无创新地利用着我们懒惰、误判和一些犯二的行为。 不过每年,恶意软件研究人员总会遇到一些引人侧目的攻击手段。这些攻击手段在不断拓展恶意攻击的范围。新的攻…

人工智能黑暗面

来源:大数据文摘编译:DonFJ、蒋宝尚机器学习是现在大家都打了鸡血想用或者在用的技术。但是,你以为只有好人能用它吗?Too young too simple!接下来,我将揭秘AI技术黑暗的一面——犯罪份子和人工智能的孽缘。…

认识蚁群算法

好像是看罗胖的罗辑思维,看到过一种说法,越是准入门槛高的,难以取代的行业,所需的工具是越简单的。摄影师需要昂贵的镜头,而画家却只需要简单的纸笔,尽管照片比画逼真得多,但是却无法取代绘画的…

postgresql数据类型转换

PostgreSQL数据类型转换需要使用语法 alter table tbname alter column fieldname type date_type 遇到需要转换为特殊类型如DATE、BOOL需要使用using子句 --转换为date类型 alter table tbname alter column fieldname type date using cast(fieldname as date)--转换为bool类…

薛定谔的猫跳进了生物学界,化学家表示:没有我可能办不到

来源:原理摘要:在生物科学界流传着“物理学家累了就来生物界玩一玩”的调侃。确实,现今学科之间密不可分,生物学的发展对特定物理技术的需求也越大。但是这样化学家却不满意了?1943年,物理学家薛定谔在都柏…

图像配准之特征点匹配的思考

最近赶时髦,看了一些智能优化算法如蚁群算法,还有机器学习的一些东西,就想着怎么把这些先进的东西用在图像配准中。头脑风暴了一下,觉得在已经检测到两幅图像的特征点的基础上,就如何对它们进行匹配似乎有优化的空间。…

软件工程实践小队Scrum Meeting

Scrum Meeting转载于:https://www.cnblogs.com/hjk-buaa/p/3382259.html

指针%p输出的一些认识

还是看源码发现的问题 static int import_lowe_features( char*filename, struct feature** features ) 这个函数的作用是将txt文件中的Lowe的特征点导入到feature结构体中。在这个函数中第二个参数是指向结构体的指针的指针。 f calloc( n, sizeof(struct feature) );//在内存…

全球智慧医疗产业发展现状

来源:无锡情报所摘要:全球智慧医疗市场主要集中在美国、欧洲、日本和中国,而产品生产主要集中在美国、欧洲和日本。 随着大数据、云计算、物联网和人工智能技术快速发展和普及,运用互联网应用平台提升医疗资源的使用效率、提高救治和服务水平…

textbox回车事件中拿不到text的处理办法(wpf)

wpf做一个搜索框&#xff0c;想要在回车时搜索框内的文字。 <TextBox x:Name"SearchBox" Grid.Column"1" Margin"350,35,52,21" Width"122" Height"34" RenderTransformOrigin"0.5,0.5" Text"{Binding K…

2018AI和机器学习界的12个重大收购案

来源&#xff1a;网络大数据据IDC声称&#xff0c;到2018年&#xff0c;全球人工智能(AI)和认知系统支出将达到190亿美元&#xff0c;这比2017年的支出总额增加约54%。并购在不断发生。仅2017年就见证了几起大宗收购&#xff0c;比如雅虎被Verizon收购、苹果收购Shazam等。知名…

PCA对特征点描述子降维

降维在机器学习领域其实是很重要的一部分&#xff0c;因为在高维情形下回出现样本稀疏&#xff0c;计算距离、内积困难&#xff0c;是所有机器学习面临的共同问题&#xff0c;被称为维数灾难&#xff08;Curse of dimensionality&#xff09;&#xff0c;而降维就是解决的一个办…

java快速获取大图片的分辨率(大图片格式JPG,tiff ,eg)

问题描述&#xff1a;怎样快速获取一个20MB图片的分辨率&#xff1f; 程序代码&#xff1a; 1 package test;2 3 import java.awt.Dimension;4 import java.awt.image.BufferedImage;5 import java.io.File;6 import java.io.IOException;7 import java.util.Iterator;8 import…

C语言基础知识整理

一、 关于sizeof和strlen。Sizeof&#xff08;&#xff09;用于计算某类型或者某变量在内存中所占空间。比如整数分为short型&#xff0c;int型&#xff0c;long整型&#xff0c;分别占2,2/4,4个字节&#xff0c;int型具体占用几个字节和编译系统有关。我们输入字符串时通常用c…

【2017-2019】Gartner战略技术趋势一览

来源&#xff1a;学术plus 、装备参考近期&#xff0c;Gartner公布了2019年十大战略技术趋势的预测&#xff0c;值此之际&#xff0c;本文总结回顾并简要分析了2017-2019三年的战略趋势变化。Gartner副总裁兼研究员David Cearley指出&#xff1a;在智能、数字、网格三大领域下的…

[wikioi]多源最短路

http://wikioi.com/problem/1077/ Floyd算法。精华是三层循环&#xff0c;if (dist(i,k) dist(k,j) < dist(i,j)) then dist(i,j) dist(i,k) dist(k,j)。 但循环的顺序必须k放在最外层&#xff0c;否则会错&#xff0c;因为有可能赋值给dist(i,j)的dist(i,k)和dist(k,j)都…

目标检测必看——RCNN是怎样融合了分类与回归,CNN与SVM

人和动物的区别之一是人能使用工具&#xff0c;而在人开始使用磨制石器时人类进入新石器时代。在目标检测领域&#xff0c;也有一个划时代的算法&#xff0c;在它之后目标检测开始进入深度学习的时代——它就是今天的主角&#xff1a;R-CNN。在RCNN之后&#xff0c;出现了更多优…

《自然》杂志:面对“电车难题”,不同国家的人有不同的道德选择

来源&#xff1a;36Kr电车难题原本只是一个思想实验。但是无人车的发展却绕不开这个问题。因为机器在无论如何都会撞死人的情况下必须靠预先植入的道德代码做出判断&#xff1a;该牺牲谁&#xff0c;该保谁。但是一项有全球230万人参与的调查表明&#xff1a;这个问题并不存在普…