用Java版本爬虫-WebMagic

我长期关注和实践各种网页数据爬取技术。今天,我想分享我的经验,特别是使用 WebMagic 框架来爬取淘宝网的数据。WebMagic 是一个灵活、强大的Java爬虫框架,适合于数据挖掘和网页内容分析。

WebMagic 简介

WebMagic 是一个简单而强大的 Java 爬虫框架,它提供了灵活的API来抓取网页数据。它的核心优势在于易用性和可扩展性,使得从网页抓取数据变得轻而易举。这个部分将介绍 WebMagic 的基本架构和工作原理。

// 基础代码示例:初始化一个简单的 WebMagic 爬虫
Spider.create(new YourPageProcessor()).addUrl("http://www.taobao.com").thread(5).run();

核心组件

  • PageProcessor: 页面处理接口,用于解析页面和提取信息。
  • Downloader: 下载网页的组件。
  • Scheduler: 管理待爬取URL队列的组件。
  • Pipeline: 处理PageProcessor提取出的结果。

环境搭建

首先,确保你的开发环境中安装了 JDK 1.8 或更高版本。WebMagic 可以通过 Maven 依赖轻松集成到你的项目中:

几个比较关键的依赖

<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.10.0</version>
</dependency>
<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-extension</artifactId><version>0.10.0</version>
</dependency>
<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-selenium</artifactId><version>0.10.0</version>
</dependency>
<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.17.1</version>
</dependency>

WebMagic 基础使用

始之前,我们先建立一个简单的爬虫来爬取淘宝网的某个商品页面。首先,创建一个实现 PageProcessor 接口的类:

public class TaobaoPageProcessor implements PageProcessor {private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);@Overridepublic void process(Page page) {// 解析页面,获取商品标题page.putField("title", page.getHtml().xpath("//title/text()").toString());
page.putField("name", page.getHtml().xpath("//h3[@class='product-        name']/text()").toString());page.putField("price", page.getHtml().xpath("//span[@class='product-price']/text()").toString());// 添加更多URL到爬取队列page.addTargetRequests(page.getHtml().links().regex("(https://item.taobao.com/item.htm\\?id=[\\w]+)").all());}@Overridepublic Site getSite() {return site;}
}

接下来,设置一个主类来启动爬虫:

public class TaobaoSpider {public static void main(String[] args) {Spider.create(new TaobaoPageProcessor()).addUrl("https://item.taobao.com/item.htm?id=示例商品ID").thread(5).run();}
}

自定义 Downloader

WebMagic 默认使用 HttpClient 进行网页下载。但有时我们需要处理复杂的网页,比如 AJAX 加载的内容。这时,可以使用 Selenium 来实现一个自定义的 Downloader:

public class SeleniumDownloader implements Downloader {@Overridepublic Page download(Request request, Task task) {// 使用 Selenium WebDriver 获取动态内容// ...}@Overridepublic void setThread(int threadNum) {// 实现多线程逻辑}
}

WebMagic 是一个强大的工具,适用于各种网页数据爬取任务。通过本文的介绍,你应该能够开始使用 WebMagic 来爬取所需的数据。记住,爬虫的使用应遵守网站的使用条款和相关法律法规。

队列去重-布隆过滤器

在 WebMagic 中使用布隆过滤器(Bloom Filter)是一种有效的方法来避免重复抓取已经访问过的 URL。布隆过滤器是一种空间效率极高的概率数据结构,用于判断一个元素是否在一个集合中。在爬虫应用中,它通常用来判断一个 URL 是否已经被爬取。

WebMagic 并没有直接集成布隆过滤器,但你可以通过扩展或定制 Scheduler 来实现这一功能。以下是如何在 WebMagic 中使用布隆过滤器的步骤:

1. 引入布隆过滤器依赖

首先,如果你的项目中还没有布隆过滤器的实现,你可以使用如 Google 的 Guava 库。在 Maven 项目中添加以下依赖:

<dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId><version>最新版本</version>
</dependency>
2. 自定义 Scheduler

创建一个自定义的 Scheduler,它使用布隆过滤器来检查 URL 是否已经被抓取。

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Scheduler;
import us.codecraft.webmagic.Task;public class BloomFilterScheduler implements Scheduler {private BloomFilter<CharSequence> bloomFilter;public BloomFilterScheduler() {// 初始化布隆过滤器bloomFilter = BloomFilter.create(Funnels.stringFunnel(), 1000000);}@Overridepublic void push(Request request, Task task) {if (!bloomFilter.mightContain(request.getUrl())) {bloomFilter.put(request.getUrl());// 将新的URL加入队列// ...}}@Overridepublic Request poll(Task task) {// 从队列中获取下一个URL// ...return null;}
}
3. 在爬虫中使用自定义 Scheduler

在你的爬虫中,使用这个自定义的 BloomFilterScheduler 替代默认的 Scheduler。

Spider.create(new YourPageProcessor()).setScheduler(new BloomFilterScheduler()).addUrl("http://www.taobao.com").thread(5).run();

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/217258.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【clickhouse】ck远程访问另一个ck

代码实现 CREATE TABLE tmp.tbsas remote( host, database_name, table_name, user, password );就相当于从ck1直接请求ck2 参考文档 https://github.com/ClickHouse/ClickHouse/issues/15295 https://clickhouse.com/docs/zh/sql-reference/table-functions/remote

FFmpeg之AVFilterPad

AVFilterPad起一个输入和输出接口的作用 结构体 /*** A filter pad used for either input or output.*/ struct AVFilterPad {/*** Pad name. The name is unique among inputs and among outputs, but an* input may have the same name as an output. This may be NULL if …

go context.todo生成默认空的上下文

在 Go 语言的标准库中&#xff0c;context.TODO() 是一个函数&#xff0c;用于返回一个空的 Context 对象。TODO 是 "to do" 的缩写&#xff0c;表示该上下文对象被保留作为将来可能使用的占位符。 Context 是 Go 语言中用于传递请求的上下文环境的一种机制。它可以用…

LeetCode(58)随机链表的复制【链表】【中等】

目录 1.题目2.答案3.提交结果截图 链接&#xff1a; 随机链表的复制 1.题目 给你一个长度为 n 的链表&#xff0c;每个节点包含一个额外增加的随机指针 random &#xff0c;该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节…

kafka常见问题处理

1. 如何防⽌消息丢失 在生产者层面&#xff0c;我们有个ack参数确认机制 设置成-1&#xff0c;也就是副本全部同步了leader才发送ack&#xff0c;这样确保leader和副本挂掉只剩一个还能 保证消息不丢失 消费者&#xff1a; 把⾃动提交改成⼿动提交 2. 如何防⽌重复消费 在…

Node.js中的EventEmitter类介绍

1.EventEmitter类说明 EventEmitter 是 Node.js 中的一个核心模块&#xff0c;它提供了一种实现事件驱动编程的机制。它是一个基于观察者模式的类&#xff0c;用于在应用程序中处理事件和触发事件。 Node.js 所有的异步 I/O 操作在完成时都会发送一个事件到事件队列。 Node.js…

TCP/UDP 的区别及优缺点

1.TCP协议 传输控制协议&#xff08;TCP&#xff0c;Transmission Control Protocol&#xff09;是一种面向连接的、可靠的、基于字节流的传输层通信协议。TCP协议通过建立连接、数据确认&#xff08;编段号和确认号&#xff09;和数据重传等机制&#xff0c;保证了数据的可靠性…

​secrets --- 生成管理密码的安全随机数​

3.6 新版功能. 源代码: Lib/secrets.py secrets 模块用于生成高度加密的随机数&#xff0c;适于管理密码、账户验证、安全凭据及机密数据。 最好用 secrets 替代 random 模块的默认伪随机数生成器&#xff0c;该生成器适用于建模和模拟&#xff0c;不宜用于安全与加密。 参见…

Orange Comet利用Sui Kiosk进行游戏道具和知识产权保护

Orange Comet与AMC合作开发基于《行尸走肉》系列的NFT和游戏&#xff0c;首要关注的问题就是保护AMC的知识产权。利用Sui的Kiosk原语不仅让Orange Comet向AMC保证其资产安全&#xff0c;而且为即将推出的《行尸走肉大陆》游戏打开了无限的可能性。 Kiosk是Sui上的一个原语&…

记录一次chatGPT人机协同实战辅助科研——根据词库自动进行情感分析

有一个Excel中的一列&#xff0c;读取文本判断文本包含积极情感词.txt和消极情感词.txt的个数&#xff0c;分别生成两列统计数据 请将 ‘your_file.xlsx’ 替换为你的Excel文件名&#xff0c;Your Text Column’替换为包含文本的列名。 这个程序首先读取了积极和消极情感词&…

mac 环境下 goframe安装GF开发工具 gf-cli(安装包方式安装)

mac 环境下 goframe安装GF开发工具 gf-cli&#xff08;安装包方式安装&#xff09; 安装包网址 链接: link 终端输入命令进行安装 ./gf_darwin_amd64 但是产生如下报错&#xff0c;无法安装 使用一下命令给安装权限 chmod 0777 gf_darwin_amd64 && ./gf_darwin_a…

SAP ABAP excel文件模板上传下载

一&#xff1a;事物码smw0 二&#xff1a;上传步骤 程序源码&#xff1a; l_filename XX.xls.l_muban z123. *&---下载模板PERFORM frm_get_fullpath CHANGING gv_fullpath gv_path gv_name. *&---路径为空则退出IF gv_fullpath IS INITIAL.MESSAGE 用户取消操作 T…

鸿蒙开发 - ohpm安装第三方库

前端开发难免使用第三方库&#xff0c;鸿蒙亦是如此&#xff0c;在使用 DevEco Studio 开发工具时&#xff0c;如何引入第三方库呢&#xff1f;操作步骤如下&#xff0c;假设你使用的是MacOS&#xff0c;假设你已经创建了了一个项目&#xff1a; 一、配置 HTTP Proxy 在打开了…

实时云渲染技术下的虚拟汽车展厅 为什么越来越受青睐?

虚拟汽车展厅正成为各大车企展示和推广汽车的热门选择。这一趋势背后&#xff0c;反映了汽车行业对数字化转型和消费者需求变化的灵敏应对。 虚拟汽车展厅通常需要大量的3D建模和渲染技术来展示汽车的逼真效果。而点量实时云渲染技术可以通过云端计算来实现实时渲染&#xff0…

​hashlib --- 安全哈希与消息摘要​

源码&#xff1a; Lib/hashlib.py 本模块针对许多不同的安全哈希和消息摘要算法实现了一个通用接口。 包括了 FIPS 安全哈希算法 SHA1, SHA224, SHA256, SHA384, SHA512, (定义见 the FIPS 180-4 standard), SHA-3 系列 (定义见 the FIPS 202 standard) 以及 RSA 的 MD5 算法 (…

http 与 websocket

WebSocket 是 HTML5 规范提出的一种协议&#xff1b;目前除了完犊子的 IE 浏览器&#xff0c;其他浏览器都基本支持。他是一种协议&#xff0c;万变不离其宗&#xff0c;也是基于 TCP 协议的&#xff1b;和 HTTP 协议是并存的两种协议。 WebSocket 连接的过程是&#xff1a; 客…

Lua语言

Lua 是一种轻量级、高效、可嵌入的脚本语言&#xff0c;经常用于嵌入到其他应用程序中作为脚本语言使用。它具有以下特点&#xff1a; 轻量级&#xff1a; Lua 的设计非常精简&#xff0c;只包含必要的功能&#xff0c;因此它的大小和内存占用都很小。 可嵌入性&#xff1a; …

如何通过上下滑动实现亮度和音量调节(ArkUI)

场景说明 在音视频应用中通常可以通过上下滑动来调节屏幕亮度和音量大小&#xff0c;本例即为大家介绍如何实现上述UI效果。 说明&#xff1a; 由于当前亮度和音量调节功能仅对系统应用开发&#xff0c;所以本例仅讲解UI效果的实现。 效果呈现 本例效果如下&#xff1a; 当在…

打破空间限制,畅享真实生活

直播已经成为了当今社会中非常流行的一种娱乐方式&#xff0c;也是人们获取信息和互动的重要渠道之一。而无绿幕直播&#xff0c;则是近年来兴起的一种特殊形式&#xff0c;它打破了以往直播的空间限制&#xff0c;让观众们能够更贴近主播&#xff0c;更真实地感受到直播背后的…

2-rabbitmq-发布订阅、发布订阅高级之Routing(按关键字匹配)、发布订阅高级之Topic(按关键字模糊匹配)、基于rabbitmq实现rpc

1 发布订阅 2 发布订阅高级之Routing(按关键字匹配) 2.1 发布订阅高级之Topic(按关键字模糊匹配) 3 基于rabbitmq实现rpc 1 发布订阅 发布者 import pika credentials pika.PlainCredentials("admin","admin") connection pika.BlockingConnection(pik…