java bloomfilter_爬虫技术之——bloom filter(含java代码)

在爬虫系统中,在内存中维护着两个关于URL的队列,ToDo队列和Visited队列,ToDo队列存放的是爬虫从已经爬取的网页中解析出来的即将爬取的URL,但是网页是互联的,很可能解析出来的URL是已经爬取到的,因此需要VIsited队列来存放已经爬取过的URL。当爬虫从ToDo队列中取出一个URL的时候,先和Visited队列中的URL进行对比,确认此URL没有被爬取后就可以下载分析来。否则舍弃此URL,从Todo队列取出下一个URL继续工作。

然后,我们知道爬虫在爬取网页时,网页的量是比较大的,直接将所有的URL直接放入Visited队列是很浪费空间的。因此引入bloom filter!

(关于使用bloomfilter的原因:

visited队列中url过多,消耗内存空间是一方面。还有一个重要的原因,在从todo队列中取出一个新的URL时,必须和 visited中所有URL比较,确保没有处理过。那么如果直接比较的话,是要比较N(visited中所有url个数)次的,而且这个N相当大,效率明 显不够。采用bloom filter,最多只要比较K(我在文章中写的,相互独立的散列函数的个数)次,因为只要一个散列函数的散列值对应的位是0,就可以确定这个URL没有处 理过。

)

我们把bloom filer设置为m个bit,全部初始为0。

对每一个URL,进行K(K

经过上述处理的bloom filter实际上构成了我们所说的Visited队列,当我们从ToDo队列中取出一个新的URL时,同样,进行相同的K次哈希,每进行一次哈希,查看bloom filter中对应位,只要发现某位是0,就可以确定这个URL是没有处理过的,可以继续下载处理。

那么,原理清楚之后,还有几个问题没有解决。

1、bloom filter是有可能发生错误的,因为不处理碰撞,也就是说,有可能把不属于这个集合的元素误认为属于这个集合

错误率的计算:

在n个URL都进行k次散列加入之后,bloomfilter中某位是0的概率

1240de822b4d66c805e95e1ff51cf63b.png

错误率(即一个新的URL恰好k次散列的值对应的位都已经是1的概率)

49bdd1c6dbd8d85fa9c94a83b78eb7b0.png

2、哈希函数个数K的确定

k = ln2· (m/n)时(具体数学分析见http://blog.csdn.net/jiaomeng/article/details/1495500)

3、bloomfilter位数M的确定

我们可以想到,M的大小越大,错误率就会越小,但是数学证明给出了一个下界。即M = log2eN = 1.44N。

附上java代码

8f900a89c6347c561fdf2122f13be562.png

961ddebeb323a10fe0623af514929fc1.png

1 /**屈永泉 布隆过滤器 快速确定哪些网页已经被下载过*/

2

3 package crawler;4

5 import java.util.BitSet;6

7 public classBloomFilter {8 private int defaultSize = 5000 << 10000;9 private int basic = defaultSize - 1;10 private BitSet bits = newBitSet(defaultSize);11

12 private int[] lrandom(String key) { //产生八个随机数并返回

13 int[] randomsum = new int[8];14 for (int i = 0; i < 8; i++)15 randomsum[0] = hashCode(key, i + 1);16 returnrandomsum;17 }18

19 //将一个URL加入

20 public synchronized voidadd(String key) {21 int keyCode[] =lrandom(key);22 for (int i = 0; i < 8; i++)23 bits.set(keyCode[i]); //将指定索引处的位设置为 true

24 }25 }26

27 //判断一个URL是否存在

28 publicboolean exist(String key) {29 int keyCode[] =lrandom(key);30 if (bits.get(keyCode[0])31 && bits.get(keyCode[1]) //返回指定索引处的位值。

32 && bits.get(keyCode[2]) && bits.get(keyCode[3])33 && bits.get(keyCode[4]) && bits.get(keyCode[5])34 && bits.get(keyCode[6]) && bits.get(keyCode[7])) {35 return true;36 }37 return false;38 }39

40

41 private int hashCode(String key, intQ) {42 int h = 0;43 int off = 0;44 char val[] = key.toCharArray(); //将此URl转换为一个新的字符数组

45 int len =key.length();46 for (int i = 0; i < len; i++) {47 h = (30 + Q) * h + val[off++];48 }49 return basic &h;50 }51

52

53 /*public static void main(String[] args) { // TODO Auto-generated method54 long pre = 0;55 long post = 0;56 pre = System.nanoTime();57 BloomFilter f = new BloomFilter(); //初始化58 f.add("http://www.agrilink.cn/"); f.add("http://www.baidu.com/");59 System.out.println(f.exist("http://www.baidu.com/"));60 System.out.println(f.exist("http://www.baidud.com/"));61 post = System.nanoTime();62 System.out.println("Time: " + (post - pre));63

64 }65 */

66

67 }

View Code

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/558556.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java new对象 =null_在Java中将对象分配为null会影响垃圾回收吗?

通常&#xff0c;没有。但就像所有事情一样&#xff1a;这取决于。如今&#xff0c;Java中的GC非常好&#xff0c;所有内容都应该在不再可用后立即清理。这就是在为局部变量留下一个方法之后&#xff0c;以及当不再为字段引用类实例时。如果您知道它将继续引用&#xff0c;则只…

java php js_【javascript/PHP】当一个JavaScripter初次进入PHP的世界,他将看到这样的风景...

本文将从以下11点介绍javascript和PHP在基础语法和基本操作上的异同&#xff1a;1.数据类型的异同2.常量和变量的定义的不同&#xff0c;字符串连接运算符不同3.对象的创建方法的不同4.PHP与JS在变量声明提升和函数声明提升的差异5.var在JS和PHP中使用的差异6.PHP和JS在访问对象…

java so jnienv_JNI初步(五)jni ndk 一个.so文件依赖另一个.so文件的写法

注意&#xff1a;本文是在ndk环境下编写1.写native类声明native方法package com.godv.audiosuc;public class NativePlayers {static{System.loadLibrary("JNI_ANDROID_AUDIOS");System.loadLibrary("JNI_ANDROID_TEST");}//native方法public static nativ…

从零开始学java 框架_从零开始学 Java - 搭建 Spring MVC 框架

如果创建一个 Spring 项目Spring MVC 框架在 Java 的 Web 项目中应该是无人不知的吧&#xff0c;你不会搭建一个 Spring 框架&#xff1f;作为身为一个刚刚学习Java的我都会&#xff0c;如果你不会的话&#xff0c;那可真令人忧伤。1.在 MyEclipse 创建项目后&#xff0c;可以以…

java 系统类型_Java获取操作系统类型

Java获取操作系统完整版系统枚举类&#xff1a;public enum EPlatform {Any("any"),Linux("Linux"),Mac_OS("Mac OS"),Mac_OS_X("Mac OS X"),Windows("Windows"),OS2("OS/2"),Solaris("Solaris"),SunOS…

java的min函数_Java语言实现包含min函数的栈

package stack;import java.util.ArrayList;/*** 实现包含min函数的栈* author DHC* param */public class MinInStack {public static void main(String[] args) {MinInStack newStack new MinInStack();newStack.push(4);newStack.push(6);newStack.push(2);newStack.push(5…

updatepanel失效怎么办_【点滴积累】解决jQuery绑定事件在updatepanel更新后失效的方法...

背景 接到了领导给的一个New Feature&#xff0c;为系统的菜单导航栏进行一些个性化的操作(鼠标移到导航菜单时下方出现子菜单&#xff0c;移到其他的菜单选项时显示该选项的子菜单&#xff0c;隐藏其他子菜单。其次就是当使用鼠标点击一个菜单选项时就把该菜单及其子菜单固定&…

azure mysql on vnet_管理 VNet 终结点 - Azure 门户 - Azure Database for MySQL | Microsoft Docs

您现在访问的是微软AZURE全球版技术文档网站&#xff0c;若需要访问由世纪互联运营的MICROSOFT AZURE中国区技术文档网站&#xff0c;请访问 https://docs.azure.cn.使用 Azure 门户创建和管理 Azure Database for MySQL VNet 服务终结点和 VNet 规则Create and manage Azure D…

java excel api及详细教程_针对Java Excel API及详细教程

时在java开发中会操作excel表格&#xff0c;其实操作起来也特别简单。这里把前期操作步骤说一下&#xff0c;本文会简单的介绍一个开放源码项目&#xff1a;Java Excel Api&#xff0c;使用它大家就可以方便的操作Excel文件了。首先下载好&#xff1a;Java Excel Api&#xff0…

java jmap jc_利用jmap命令查看JVM内存使用详情

介绍打印出某个java进程(使用pid)内存内的&#xff0c;所有‘对象’的情况(如&#xff1a;产生那些对象&#xff0c;及其数量)。它的用途是为了展示java进程的内存映射信息&#xff0c;或者堆内存详情。可以输出所有内存中对象的工具&#xff0c;甚至可以将VM 中的heap&#xf…

雅居乐万豪酒店java_“万豪,我心所属之地” | 上海雅居乐万豪酒店Terence Sun的实习故事...

​我叫孙庭骏&#xff0c;来自台北&#xff0c;目前就读瑞士恺撒里兹酒店管理学院&#xff0c;在来上海之前曾在瑞士苏黎世万豪酒店的餐饮部实习过两次&#xff0c;共一年的时间&#xff0c;所以万豪对我来说并不陌生。万豪一直深深吸引我的莫过于它的核心价值以及非凡待客之道…

java quartz spring_JavaLib-quartz | 基于Spring Boot Quartz开发的定时任务

基于Spring Boot Quartz开发的JavaLib-quartz&#xff0c;目的是帮你快速构建定时任务系统&#xff0c;你可以专心编写你的业务逻辑&#xff0c;而不必关注定时任务具体是如何实现的&#xff0c;他的性能如何&#xff0c;有没有异常以及异常处理&#xff0c;监控等等问题。这些…

java static 加载顺序_一个例子搞清楚Java类加载顺序

当我们new一个GirlFriend时&#xff0c;我们都做了什么&#xff1f;一个例子搞懂Java程序运行顺序public class Girl {Person person new Person("Girl");static{System.out.println("Girl static");}static Person staticPerson new Person("GirlS…

java 轻量数据库_DBTree是一个springboot2 + vue-element-template实现的轻量数据库表结构查看及管理工具...

DBTree简介DBTree是一个WEB版的轻量数据库表结构查看及管理工具&#xff0c;相比phpMyAdmin, DBTree只专注于方便开发查看表结构信息和 注释维护。通过树形展示库表结构&#xff0c;可以对表进行自定义归类&#xff0c;在线更新注释。你还可以使用它来部分替代mybatis generato…

华为java 优招面试题_2017华为优招笔试题

哎&#xff0c;没有接到笔试通知&#xff0c;不知道为啥就错过了。之后见到题目&#xff0c;前两道编程题。其实都见过类似的题目&#xff0c;有点思路&#xff0c;但是直接快速完整实现出来&#xff0c;水平还是达不到。这样的题目&#xff0c;也不算难&#xff0c;三道编程题…

java inject例子_java – 手动实例化@InjectMock带注释的字段

我已经浏览了一些博客,以了解Mockito注释如何工作的基础知识.但是,我怀疑何时可以手动实例化用InjectMocks注释的字段,即InjectMocksA a new A();什么时候依靠MockitoAnnotations.initMocks()功能来做同样的事情&#xff1a;InjectMocksA a;这取决于我们用来运行测试用例的Jun…

java 新建 api 案列_Java利用webservice创建接口案例源码

环境要求&#xff1a;JDK1.7&#xff0c;并配置Java的环境变量BaseDao 接口&#xff1a;/*** 要使得成为一个可供访问的接口&#xff0c;必须添加&#xff1a;WebService* */WebServicepublic interface BaseDao {//添加一个加法的接口WebResult(name"addddddre")pu…

java通用异常_Java常用异常整理

填坑&#xff0c;整理下Java的常用异常。正确使用异常在实际编码中非常重要&#xff0c;但面试中的意义相对较小&#xff0c;因为对异常的理解和应用很难通过几句话或几行代码考查出来&#xff0c;不过我们至少应答出三点&#xff1a;异常类的继承关系、常用异常类、常用异常类…

mysql 读取properties_JDBC中使用Properties读取配置文件有什么用

开发中获得连接的4个参数(驱动、URL、用户名、密码)通常都存在配置文件中&#xff0c;方便后期维护&#xff0c;程序如果需要更换数据库&#xff0c;只需要修改配置文件即可。使用properties文件&#xff0c;Java中有专门用来装载配置文件的类Properties(Java.util.Properties)…

java preferences设置_Java利用Preferences设置个人偏好

Preferences的中文意思即偏好或喜好的意思&#xff0c;也就是说同一个程序在每次运行完后&#xff0c;可以通过Preferences来记录用户的偏好&#xff0c;下次启动时&#xff0c;程序会利用这些信息来了解用户的喜好。而这些信息个人理解应该就是存储在系统的注册表中。下面我们…