爬虫工作量由小到大的思维转变---<第二十六章 Scrapy通一通中间件的问题>

前言:

准备迈入scrapy-redis或者是scrapyd的领域进行一番吹牛~ 忽然想到,遗漏了中间件这个环节! 讲吧~太广泛了;不讲吧,又觉得有遗漏...所以,本章浅谈中间件;

(有问题,欢迎私信! 我写文告诉你解法)

正文:

当我们谈到 Scrapy 的中间件时,可以将其比作一个特殊的助手,负责在爬虫的不同阶段进行处理和干预。Scrapy 有两种类型的中间件:爬虫中间件和下载中间件。它们可以对请求、响应和爬虫的整个生命周期进行干预,以实现诸如修改请求、处理响应、处理异常等功能。

1. 爬虫中间件(Spider Middleware):


   爬虫中间件负责处理爬虫和 Scrapy 引擎之间的通信。它们可以拦截并处理从引擎到爬虫、从爬虫到引擎进行的请求和响应。爬虫中间件提供了 `process_spider_input()` 和 `process_spider_output()` 方法,允许你处理请求和响应,或修改爬虫的输出结果。
案例:

我们的爬虫需要从一个电影网站上爬取电影的名称和评分。但是,该网站对于非登录用户来说,只显示了电影名称,评分信息需要通过另一个 API 请求获取。为了实现这个功能,我们可以编写一个爬虫中间件,通过拦截爬虫的输出,并发送额外的请求获取电影评分信息,并将其添加到爬虫的输出结果中。

import requests
from scrapy.exceptions import IgnoreRequestclass RatingsMiddleware:def process_spider_output(self, response, result, spider):for item in result:if isinstance(item, dict) and 'movie_name' in item:movie_name = item['movie_name']ratings = self.get_movie_ratings(movie_name)item['ratings'] = ratingsyield itemelse:yield itemdef get_movie_ratings(self, movie_name):# 发送评分请求,获取电影评分信息api_url = f'https://api.example.com/ratings?movie_name={movie_name}'response = requests.get(api_url)if response.status_code == 200:ratings = response.json().get('ratings')return ratingselse:raise IgnoreRequest(f'没抓取到这个电影: {movie_name}')
我们编写了一个自定义的爬虫中间件 RatingsMiddleware。在 process_spider_output() 方法中,我们通过检查爬虫输出的每个项,找到包含电影名称的字典项,并为每部电影发送一个额外的请求来获取评分信息。
在 get_movie_ratings() 方法中,我们使用 requests 发送评分请求,并从返回的响应中提取评分信息。如果请求成功,我们将评分信息添加到爬虫输出的对应电影项中,然后通过 yield 返回结果。如果请求失败,我们使用 raise IgnoreRequest 来忽略该项,并记录失败消息。
通过使用这个中间件,我们可以在爬虫的爬取过程中获取电影评分信息,并将其添加到输出结果中。这样,我们就可以在爬虫完成后拥有完整的电影信息,包括名称和评分。


2. 下载中间件(Downloader Middleware):


   下载中间件在引擎和下载器之间进行干预和处理,管理请求和响应的传递过程。它们可以修改发送给下载器的请求和接收到的响应,还可以在发生异常或其他情况下进行处理。下载中间件提供了 `process_request()` 和 `process_response()` 方法,允许你处理请求和响应,或对其进行修改。

通过编写自定义的中间件,你可以利用这些钩子方法来实现一些自定义的功能,比如请求的动态修改、添加头部信息、处理异常、实现代理、处理重试逻辑等。使用中间件可以将这些功能模块化,提高代码可重用性,简化业务逻辑,以及进行一些全局的请求和响应处理。

Scrapy 提供了一些内置的中间件,如自动处理 Cookies、处理重试逻辑、处理 User-Agent 伪装等。此外,你还可以根据自己的需求编写和配置自定义的中间件,将其添加到 Scrapy 的中间件流程中,以实现更高级和个性化的功能。

案例1(随机请求头中间件):
import random
from scrapy.downloadermiddlewares.useragent import UserAgentMiddlewareclass RandomUserAgentMiddleware(UserAgentMiddleware):def __init__(self, user_agent_list):self.user_agent_list = user_agent_list@classmethoddef from_crawler(cls, crawler):settings = crawler.settingsuser_agent_list = settings.get('USER_AGENT_LIST', [])return cls(user_agent_list)def process_request(self, request, spider):request.headers.setdefault('User-Agent', random.choice(self.user_agent_list))

在这个自定义的中间件 RandomUserAgentMiddleware 中,继承了 Scrapy 的内置 UserAgentMiddleware 类,并重写了 process_request() 方法。在这个方法中,我们使用 random.choice() 函数从给定的 User-Agent 列表中随机选择一个 User-Agent,然后将其设置为请求头的 User-Agent。

要使用这个自定义中间件,需要在 Scrapy 的设置中添加一个名为 USER_AGENT_LIST 的设置项,其中包含了待选择的 User-Agent 列表。在 Scrapy 的设置文件(例如 settings.py)中进行配置:(例如)

USER_AGENT_LIST = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36',# 添加更多的 User-Agent
]DOWNLOADER_MIDDLEWARES = {'your_project_name.RandomUserAgentMiddleware': 400,# 其他下载中间件...
}

案例2:

假设我们的爬虫需要登录到一个受保护的网站,才能获取所需的数据。我们需要模拟登录,并在登录成功后保持会话(使用 Cookie)来进行后续的请求。


为了实现这个功能,我们将结合使用 CookieMiddleware 和 UserAgentMiddleware 来处理请求的 Cookie 和 User-Agent 头部信息。

from scrapy import Request
from scrapy.downloadermiddlewares.cookies import CookiesMiddleware
from scrapy.downloadermiddlewares.useragent import UserAgentMiddlewareclass LoginMiddleware:def __init__(self):self.login_url = 'https://example.com/login'self.username = 'your_username'self.password = 'your_password'self.logged_in = Falsedef process_request(self, request, spider):if not self.logged_in:return self.login(request)return Nonedef login(self, request):# 发送登录请求login_request = Request(url=self.login_url,method='POST',formdata={'username': self.username,'password': self.password})login_request.meta['handle_httpstatus_list'] = [302]  # 处理登录重定向return login_requestclass CustomHeadersMiddleware:def process_request(self, request, spider):# 动态添加自定义请求头信息request.headers['Referer'] = 'https://example.com'return None# 将中间件添加到下载中间件的配置中
DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 800,'your_project_name.LoginMiddleware': 750,  # 自定义登录中间件'your_project_name.CustomHeadersMiddleware': 900  # 自定义请求头中间件
}

在上述代码中,我们定义了 LoginMiddleware 作为自定义的登录中间件,它负责在请求中检查是否需要登录并发送登录请求。如果还未登录,则创建一个登录请求,并将其返回给 Scrapy 引擎,从而触发登录过程。
与此同时,我们还有一个自定义的 CustomHeadersMiddleware,用于动态添加自定义的请求头信息。
将这些中间件添加到 Scrapy 的下载中间件配置中(DOWNLOADER_MIDDLEWARES),并按照优先级顺序进行配置。


总结:

浅谈了 Scrapy 的中间件,用几个案例为例进行了讲解。其实,中间件的最大重要,莫过于"自定义"三个字! 你的爬虫花不花哨,全在这里面了! 特别是涉及逆向登录,渗T等,那不是这里能讲的~ 不过对于爬虫开发来说,一般没什么特别的网站需要破,基本用用scrapy自带的组件都能写好!

......没啥了,其实吧~搞爬虫没啥意思.....额!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/587245.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python使用PyMySql增删改查Mysql数据库

PyMysql简介 PyMysql是Python中用于连接MySQL数据库的一个第三方库,它实现了MySQL客户端/服务器协议,使得Python程序能够与MySQL服务器进行交互。由于Python 2的mysql-python(又称mysqldb)模块在Python 3上支持不够完善&#xff0…

在C#中,typeof关键字

在C#中,typeof关键字被用于获取一个类型的 System.Type 对象。这个功能是非常有用的,尤其是在下面这些场景中: 反射(Reflection): typeof在使用反射时非常关键。通过获取类型的 Type 对象,你可以查询这个类…

nextTick的原理

开发中有这么一个需求&#xff0c;回显的适合&#xff0c;el-tree的检查严格标志属性更新为true。当更新完成后&#xff0c;又要改为false。还原。 <template><div><el-tree:data"data"show-checkbox:check-strictly"checkStrictly"default…

linux安装java8

1、下载java 根据自己系统的位数下载 查看系统位数命令&#xff1a;getconf LONG_BIT 下载地址 https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html 2、解压、移动 将下载的文件上传到linux系统中并解压 tar -zxvf jdk-8u333-linux…

LC 1154. 一年中的第几天

1154. 一年中的第几天 难度 &#xff1a; 简单 题目大意&#xff1a; 给你一个字符串 date &#xff0c;按 YYYY-MM-DD 格式表示一个 现行公元纪年法 日期。返回该日期是当年的第几天。 示例 1&#xff1a; 输入&#xff1a;date "2019-01-09" 输出&#xff…

条件编译处理多端差异

条件编译https://uniapp.dcloud.net.cn/tutorial/platform.html#%E4%B8%BA%E4%BB%80%E4%B9%88%E9%80%89%E6%8B%A9%E6%9D%A1%E4%BB%B6%E7%BC%96%E8%AF%91%E5%A4%84%E7%90%86%E8%B7%A8%E7%AB%AF%E5%85%BC%E5%AE%B9 <template><view class"container"><…

OSPF ROUTER-ID-新版(15)

目录 整体拓扑 操作步骤 1.INT 验证Router-ID选举规则 1.1 查看路由器Router-ID 1.2 配置R1地址 1.3 查看R1接口信息 1.4 查看R1Router-ID 1.5 删除接口IP并查看Router-ID 1.6 手工配置Router-ID 2.基本配置 2.1 配置R1的IP 2.2 配置R2的IP 2.3 配置R3的IP 2.4 配…

基于Unity Editor开发一个技能编辑器可能涉及到的内容

基于Unity Editor开发一个技能编辑器&#xff0c;涉及到的方面较多&#xff0c;涵盖了Unity自身的GUI框架、序列化系统、自定义编辑器、脚本调用与数据存储等。下面是几个关键点和你可能会用到的类以及API&#xff1a; 自定义Inspector&#xff1a; 使用Editor类来重写组件的I…

c++ 简单实用万能异常捕获

多层捕获异常&#xff0c;逐渐严格。并打印出错信息和位置&#xff1a;哪个文件&#xff0c;哪个函数&#xff0c;具体哪一行代码。 #include <stdexcept> // 包含标准异常类的头文件try {int a 2 / 0; }catch (const std::runtime_error& e) {// 捕获 std::runt…

游戏任务系统实现思路

文章目录 一、需求介绍二、数据库设计3、代码部分实现 一、需求介绍 1、首先任务的类型不同&#xff0c;可以分为&#xff1a;日常任务、成长任务、活动任务等等。 2、当达到任务目标时&#xff0c;自动发放任务奖励。 3、任务需要后台可配置&#xff0c;例如&#xff1a;任务…

访问公网视频监控平台,看不到实时视频的问题查处

一、实时监控视频看不到了的问题出现 今天在给客户演示实时视频监控&#xff0c;通过公网平台能够正常查看各个品牌IPC的实时视频&#xff08;在浏览器页面输入“http://公网平台IP地址”&#xff0c;关于IP地址详细介绍&#xff0c;可以看以前文章&#xff09;&#xff0c;如下…

Python集成开发工具

第二章、IDE&#xff08;PyCharm&#xff09; 一、设置py文件模板 设置模版 二、格式化代码设置 三、PyCharm运行python源文件的模式 第一次按照何种模式执行测试用例&#xff0c;后续都会按照这种方式去执行 普通模式&#xff0c;unittest模式&#xff0c;pytest模式介绍 四…

记录DevEco Studio 模拟器启动失败问题

启动模拟器报错 解决步骤 1、“启用或关闭windows功能"勾选"hyper-v”、“windows虚拟机监控程序平台”、“虚拟机平台” 2、打开cpu虚拟化 打开bios&#xff0c;打开Intel Virtualization Technology 这样就可以了 在任务管理器可以看到已开启&#xff0c;编辑器…

牛客网SQL训练4—SQL进阶挑战

文章目录 一、增删改操作1. 插入记录2. 更新记录3. 删除记录 二、表与索引操作1. 表的创建、修改与删除2. 索引的创建、删除 三、聚合分组查询1. 聚合函数2. 分组查询 四、多表查询1. 嵌套子查询2. 合并查询3. 连接查询 五、窗口函数1. 专用窗口函数2. 聚合窗口函数 六、其他常…

Android 配置不同应用ID

在Android中&#xff0c;每个应用都有一个独特的应用ID&#xff0c;用于唯一标识该应用。如果您想配置不同ID的应用&#xff0c;请按照以下步骤操作&#xff1a; 在Android Studio中创建一个新的项目。 在创建项目时&#xff0c;使用不同的应用ID。您可以在app/build.gradle文…

Redis:原理速成+项目实战——Redis的Java客户端

&#x1f468;‍&#x1f393;作者简介&#xff1a;一位大四、研0学生&#xff0c;正在努力准备大四暑假的实习 &#x1f30c;上期文章&#xff1a;Redis&#xff1a;原理速成项目实战——Redis常见命令&#xff08;数据结构、常见命令总结&#xff09; &#x1f4da;订阅专栏&…

数据治理:释放数据价值的关键

随着数字化时代的到来&#xff0c;数据已成为组织和企业最重要的资产之一。然而&#xff0c;数据的快速增长和复杂性也给数据管理带来了巨大的挑战。为了确保数据的质量、安全性和合规性&#xff0c;数据治理已成为组织和企业必须面对的重要问题。数据治理是数据要素市场建设的…

机器学习(一) -- 概述

系列文章目录 机器学习&#xff08;一&#xff09; -- 概述 机器学习&#xff08;二&#xff09; -- 数据预处理 未完待续…… 目录 系列文章目录 前言 一、机器学习定义&#xff08;是什么&#xff09; 二、机器学习的应用&#xff08;能做什么&#xff09; 三、***机器…

C语言共用体成员输出的值与赋值时的不同的原因

共用体成员输出的值与赋值时的不同的原因 在使用C语言的共用体时&#xff0c;如果成员输出的值与之前定义共用体变量的时候所赋值的不同&#xff0c;那么很可能是因为定义共用体变量的时候&#xff0c;为共用体的多个成员赋值造成的。因为共用体虽然允许在同一个内存位置上存储…

Paste在开发过程中的效率提升

1. 引言 在开发过程中&#xff0c;剪贴板管理工具是程序员日常工作中的得力助手。Paste作为一款专为Mac用户设计的剪贴板管理工具&#xff0c;不仅可以提高复制粘贴的效率&#xff0c;还通过一系列强大的功能为开发者带来更多便利。 Paste是一款专为Mac用户设计的剪贴板管理工…