爬虫工作量由小到大的思维转变---<第三十九章 Scrapy-redis 常用的那个RetryMiddleware>

前言:

为什么要讲这个RetryMiddleware呢?因为他很重要~ 至少在你装配代理ip或者一切关于重试的时候需要用到!----最关键的是:大部分的教学视频里面,没有提及这个!!!!

正文:

源代码分析

这个RetryMiddleware是来自:

from scrapy.downloadermiddlewares.retry import RetryMiddleware

我们可以看他的源码:(我已经添加了中文注释)

class RetryMiddleware:EXCEPTIONS_TO_RETRY = (defer.TimeoutError,  # 等待超时错误TimeoutError,  # 执行超时错误DNSLookupError,  # DNS解析错误ConnectionRefusedError,  # 连接被拒绝错误ConnectionDone,  # 连接已关闭错误ConnectError,  # 连接错误ConnectionLost,  # 连接丢失错误TCPTimedOutError,  # TCP超时错误ResponseFailed,  # 响应失败错误IOError,  # IO错误(通常发生在HttpCompression中间件尝试解压缩空响应时)TunnelError,  # 隧道错误)def __init__(self, settings):if not settings.getbool("RETRY_ENABLED"):raise NotConfiguredself.max_retry_times = settings.getint("RETRY_TIMES")self.retry_http_codes = set(int(x) for x in settings.getlist("RETRY_HTTP_CODES"))self.priority_adjust = settings.getint("RETRY_PRIORITY_ADJUST")@classmethoddef from_crawler(cls, crawler):return cls(crawler.settings)def process_response(self, request, response, spider):if request.meta.get("dont_retry", False):return responseif response.status in self.retry_http_codes:reason = response_status_message(response.status)return self._retry(request, reason, spider) or responsereturn responsedef process_exception(self, request, exception, spider):if isinstance(exception, self.EXCEPTIONS_TO_RETRY) and not request.meta.get("dont_retry", False):return self._retry(request, exception, spider)def _retry(self, request, reason, spider):max_retry_times = request.meta.get("max_retry_times", self.max_retry_times)priority_adjust = request.meta.get("priority_adjust", self.priority_adjust)return get_retry_request(request,reason=reason,spider=spider,max_retry_times=max_retry_times,priority_adjust=priority_adjust,)

这段代码是Scrapy框架中scrapy.downloadermiddlewares.retry模块中的RetryMiddleware类。它是重试下载器中间件,用于处理下载请求的重试逻辑。

让我来逐行解释这段代码的注释和功能:

  1. EXCEPTIONS_TO_RETRY是一个元组,包含了需要重试的异常类型。如果发生这些异常而且请求没有设置dont_retry元数据标志,则会进行重试。
  2. __init__方法初始化重试中间件的参数。它从settings中获取配置信息,包括是否启用重试、最大重试次数、重试的HTTP响应状态码和优先级调整。
  3. from_crawler是一个类方法,用于从crawler对象获取设置,创建RetryMiddleware实例并返回。
  4. process_response方法处理响应。如果请求的dont_retry元数据标志为True,直接返回响应。如果响应的状态码在重试的HTTP响应状态码列表中,使用_retry方法进行重试并返回重试请求,否则返回响应本身。
  5. process_exception方法处理异常。如果发生的异常属于EXCEPTIONS_TO_RETRY类型并且请求的dont_retry元数据标志为False,使用_retry方法进行重试。
  6. _retry方法执行实际的重试逻辑。它从请求的元数据中获取最大重试次数和优先级调整,然后使用get_retry_request方法创建一个带有重试参数的新请求,并返回该请求。

修改源代码:

为什么要修改这个源代码?因为,在修改他的时候,你能通过这个已经封装好的重试中间件,做很多自定义的事情!!!

修改后的代码:(这里以:对超过重试次数的ip在redis里面删除为例)

from scrapy.downloadermiddlewares.retry import RetryMiddleware# 确保在 retry_times 用尽后仍然移除失败代理,需要重写 RetryMiddleware
class RedisRetryMiddleware(RetryMiddleware):"""继承并重写RetryMiddleware,添加代理移除逻辑"""def __init__(self, settings):# Redis 实例化逻辑,读取配置self.server = redis.StrictRedis(host=settings.get('REDIS_HOST'),port=settings.get('REDIS_PORT'),db=settings.get('REDIS_DB'))  #获取redis的链接设置self.proxy_key = settings.get('REDIS_PROXY_KEY') #redis的key值super(RedisRetryMiddleware, self).__init__(settings)@classmethoddef from_crawler(cls, crawler):# 读取爬虫配置的 RETRY_TIMESreturn cls(crawler.settings)def _retry(self, request, reason, spider):proxy = request.meta.get('proxy')if proxy:# 代理失败,删除代理self.server.srem(self.proxy_key, proxy)spider.logger.debug(f'Remove Proxy: {proxy}. Reason: {reason}')# 调用超类(爬虫默认)重试方法return super(RedisRetryMiddleware, self)._retry(request, reason, spider)

总结:

from scrapy.downloadermiddlewares.retry import RetryMiddleware是用来导入Scrapy框架内置的RetryMiddleware中间件类。这个中间件类用于处理请求的重试逻辑,当请求失败或遇到特定的异常时,可以根据配置的参数进行自动重试。

在Scrapy-Redis中,你可以根据需要使用RetryMiddleware来实现诸如以下功能:

  1. 增加请求重试次数: 通过修改RETRY_TIMES设置项来增加请求的最大重试次数。
  2. 处理HTTP响应错误: 可以配置RETRY_HTTP_CODES设置项,指定需要重试的HTTP响应状态码。当相应的HTTP响应状态码出现时,中间件会自动发起重试。
  3. 自定义重试机制: 可以通过重写process_responseprocess_exception方法,在特定条件下进行自定义的重试逻辑判断。例如,可以根据响应内容确定是否需要重试,或是自定义异常类型进行处理。
  4. 调整请求优先级: 可以通过RETRY_PRIORITY_ADJUST设置项来调整重试请求的优先级,使其具有比原始请求更高或更低的优先级。
  5. 在分布式爬虫中使用: 在Scrapy-Redis中,可以结合Redis数据库和分布式队列使用RetryMiddleware,实现在集群中共享重试请求和状态。

总而言之,RetryMiddleware是Scrapy框架提供的一个非常实用的中间件,用于处理请求的重试,可以根据需要进行配置和定制。在Scrapy-Redis中,它常常被用来增加爬虫的容错性和稳定性,确保爬取的数据的完整性和准确性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/646812.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Transfomer相关最新研究

文章目录 LogTrans * (有代码)TFT (有代码)InfluTran (有代码)Informer *(有代码)(长时间)ProTranAutoformer ***(有代码)AliformerPyraformer &a…

JRT的无源码发布

之前介绍过JRT最大的特点就是业务脚本化。老javaer就会说你业务代码都在发布环境放着,那怎么代码保密,在发布环境别人随便改了启不是不安全,或者一些代码我就是不想让人看源码呢。 其实JRT的业务脚本化只是特性,不是代表就必须要…

选择排序(堆排序和topK问题)

选择排序 每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完 。 如果我们用扑克牌来举例,那么选择排序就像是提前已经把所有牌都摸完了,而再进行牌…

git commit 描述如何修改

git Commit 描述写错了,如何修改_git提交描述错误怎么修改-CSDN博客 1.git commit --amend 2.按一下 i 键,进入插入模式 3.修改成描述 4.按 esc 键退出,然后按shift:,然后输入 wq 就完成修改了

ROS1工作空间内多个包先后编译顺序、包内编译顺序

在ros工作空间里有packageA和packageB两个包,其中第二个包依赖第一个包。除了packageB的CMakeLists.txt中的find_package要加入第一个包外,还需要修改package.xml,保证catkin_make的编译顺序: packageB的package.xml:…

Java中文乱码浅析及解决方案

Java中文乱码浅析及解决方案 一、GBK和UTF-8编码方式二、idea和eclipse的默认编码方式三、解码和编码方法四、代码实现编码解码 五、额外知识扩展 一、GBK和UTF-8编码方式 如果采用的是UTF-8的编码方式,那么1个英文字母 占 1个字节,1个中文占3个字节如果…

list的介绍及其模拟实现

今天我们了解list,list在python中是列表的意思 ,但是在C中它是一个带头双向循环链表: list的介绍 list是可以在常数范围内在任意位置进行插入和删除的序列式容器,并且该容器可以前后双向迭代。list的底层是双向链表结构&#xf…

springboot项目快速引入knife4j

引入依赖 <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId><version>3.0.3</version> </dependency>knife4j配置文件 basePackage改为自己存放接口的包名 /*** Kn…

【网络安全 | 漏洞挖掘 】Firefox长达21年的 “陈年老bug”,终于被修复了!

Firefox 的工单记录页面显示&#xff0c;一个在 21 年前发现的 bug 终于被修复了。 根据描述&#xff0c;具体错误是表格单元格无法正确处理内容 “溢出” 的情况&#xff0c;不支持 ‘hidden’、‘auto’ 和’scroll’ 属性。 如下图所示&#xff1a; 开发者在评论中指出&a…

如何使用Stable Diffusion的ReActor换脸插件

ReActor插件是从roop插件分叉而来的一个更轻便、安装更简单的换脸插件。操作简单&#xff0c;非常容易上手&#xff0c;下面我们就介绍一下&#xff0c;如何将ReActor作为stable diffusion的插件进行安装和使用。 一&#xff1a;安装ReActor插件 项目地址&#xff1a;https:/…

计算机网络——网络层(1)

计算机网络——网络层(1&#xff09; 小程一言专栏链接: [link](http://t.csdnimg.cn/ZUTXU) 网络层&#xff1a;数据平面网络层概述核心功能协议总结 路由器工作原理路由器的工作步骤总结 网际协议IPv4主要特点不足IPv6主要特点现状 通用转发和SDN通用转发SDN&#xff08;软件…

C++从零开始的打怪升级之路(day21)

这是关于一个普通双非本科大一学生的C的学习记录贴 在此前&#xff0c;我学了一点点C语言还有简单的数据结构&#xff0c;如果有小伙伴想和我一起学习的&#xff0c;可以私信我交流分享学习资料 那么开启正题 今天分享的是关于vector的题目 1.删除有序数组中的重复项 26. …

前端[新手引导动画]效果:intro.js

目录 一、安装 二、配置 三、编写需要引导动画的页面 四、添加引导效果 一、安装 npm i intro.js 二、配置 详细配置可以参考&#xff0c;官网&#xff1a; Intro.js Documentation | Intro.js Docs https://introjs.com/docs 新建一个intro.js的文件&#xff1a; 三、…

扎哇面试准备

1.你是谁&#xff1f; 我是李四&#xff0c;24 届学生&#xff0c;目前就读于西安电子科技大学&#xff0c;硕士学历&#xff0c;就读的专业是软件工程&#xff08;非软件相关专业就不要介绍你的专业了&#xff09;&#xff0c;很荣幸参加贵公司的面试 2.你会啥&#xff1f; …

06.Elasticsearch应用(六)

Elasticsearch应用&#xff08;六&#xff09; 1.什么是分词器 ES文档的数据拆分成一个个有完整含义的关键词&#xff0c;并将关键词与文档对应&#xff0c;这样就可以通过关键词查询文档。要想正确的分词&#xff0c;需要选择合适的分词器 2.ES中的默认分词器 fingerprint…

MySQL的`FOR UPDATE`详解

MySQL的FOR UPDATE详解 欢迎阅读本博客&#xff0c;今天我们将深入探讨MySQL中的FOR UPDATE语句&#xff0c;它用于在事务中锁定选择的数据行&#xff0c;确保在事务结束前其他事务无法修改这些数据。 1. FOR UPDATE基础 FOR UPDATE是用于SELECT语句的一种选项&#xff0c;它…

15- OpenCV:模板匹配(cv::matchTemplate)

目录 1、模板匹配介绍 2、cv::matchTemplate 3、模板匹配的方法&#xff08;算法&#xff09; 4、代码演示 1、模板匹配介绍 模板匹配就是在整个图像区域发现与给定子图像匹配的小块区域。 它可以在一幅图像中寻找与给定模板最相似的部分。 模板匹配的步骤&#xff1a; &a…

C++提高编程——STL:常用算法

本专栏记录C学习过程包括C基础以及数据结构和算法&#xff0c;其中第一部分计划时间一个月&#xff0c;主要跟着黑马视频教程&#xff0c;学习路线如下&#xff0c;不定时更新&#xff0c;欢迎关注。 当前章节处于&#xff1a; ---------第1阶段-C基础入门 ---------第2阶段实战…

Unity中URP下计算额外灯的方向

文章目录 前言一、为什么额外灯的方向&#xff0c;不像主平行灯一样直接获取&#xff1f;1、主平行灯2、额外灯中&#xff0c;包含 点光源、聚光灯 和 平行灯 二、获得模型顶点指向额外灯的单位向量三、Unity中的实现 前言 在上一篇文章中&#xff0c;我们获取了URP下额外灯的…

Springboot 使用Redis中ZSetOperations实现博客访问量功能

Springboot 使用Redis中ZSetOperations实现博客访问量功能 1.在application.yml中Redis配置信息 spring:redis:host: 127.0.0.1port: 6379password: 123456782.在pom.xml中加载依赖 <dependency><groupId>org.springframework.boot</groupId><artifact…