爬虫工作量由小到大的思维转变---<第五十七章 Scrapy 降维挖掘---中间件系列(6)>

前言:

继续上一篇:https://hsnd-91.blog.csdn.net/article/details/136978761

我们继续将探讨Scrapy框架中的三个重要中间件:HTTP压缩中间件、重定向中间件和Cookie中间件。

  1. 首先,HTTP压缩中间件(HttpCompressionMiddleware)能够处理服务器返回的经过压缩的响应内容,并自动进行解压缩,从中获取原始内容。这样的功能对于处理大规模的响应数据非常重要,可以节省带宽并提高爬取效率。
  2. 其次,重定向中间件(RedirectMiddleware)能够处理服务器返回的重定向响应,自动跟随重定向并获取正确的响应。这种中间件对于爬取过程中的网页跳转或链接重定向至关重要,它能够帮助我们轻松地处理这些情况,获取爬取所需的数据。
  3. 最后,Cookie中间件(CookiesMiddleware)具备管理请求和响应中的Cookie的功能。它负责发送包含正确Cookie的请求,并在接收响应时更新Cookie。对于需要在多个请求中保持会话状态或进行用户认证的网站爬取,Cookie中间件发挥着关键作用,帮助我们维护正确的Cookie信息,确保爬虫顺利运行。


        通过深入了解和使用这些中间件,我们能够更好地控制和管理爬虫过程中的请求和响应,提高爬取的成功率和数据的完整性。


正文:

1 HTTP压缩中间件(HttpCompressionMiddleware)

1.1 HTTP压缩的概念与作用

        在网络传输中,数据量较大的响应会占用较多的带宽和传输时间。为了减少传输的数据量,提高网络传输效率,HTTP协议支持使用压缩算法对响应内容进行压缩,减小数据体积。HTTP压缩的作用是通过对响应内容进行压缩,降低响应的大小,从而减少网络传输的数据量,加快数据传输速度。

1.2 HttpCompressionMiddleware的功能与优势

HttpCompressionMiddleware是Scrapy框架中的一个中间件,它提供了对服务器返回的经过压缩的响应内容进行解压缩的功能。它的功能与优势包括:

  • 自动解压缩:HttpCompressionMiddleware会检查服务器返回的响应头中是否包含压缩算法(如Gzip、Deflate),并对压缩的响应内容进行自动解压缩,获取原始内容。
  • 减小数据体积:经过解压缩后的响应内容大小较原始压缩内容更小,可以减少网络传输的数据量,节省带宽资源。
  • 加速响应处理:压缩后的响应内容占用更小的空间,相对于传输大量未压缩的数据,可以更快地进行数据传输和处理。
  • 提高爬取效率:由于数据体积减小,爬虫可以更快地获取响应内容,从而加快爬取速度和提高爬取效率。

1.3 HttpCompressionMiddleware的配置与使用

要使用HttpCompressionMiddleware,需将其添加到Scrapy项目的中间件列表中,按照以下配置步骤进行配置和使用:

  • 步骤1:在项目的settings.py文件中,找到DOWNLOADER_MIDDLEWARES配置项,并添加HttpCompressionMiddleware:
DOWNLOADER_MIDDLEWARES = {'scrapy.contrib.downloadermiddleware.httpcompression.HttpCompressionMiddleware': 590,
}

将HttpCompressionMiddleware添加到middleware字典中,并为其指定数字优先级(数字越小,优先级越高)。

  • 步骤2:保存并关闭settings.py文件。现在,Scrapy将在每个下载请求中自动应用HttpCompressionMiddleware。

1.4 示例:使用HttpCompressionMiddleware处理经过压缩的响应

以下是一个使用HttpCompressionMiddleware处理经过压缩的响应的实例:

首先,创建一个名为compression_example的Scrapy项目:

scrapy startproject compression_example

进入项目目录,并新建一个名为compression_spider.py的Spider文件:

import scrapyclass CompressionSpider(scrapy.Spider):name = 'compression'start_urls = ['http://example.com/']def parse(self, response):self.logger.info(f"Response body size: {len(response.body)}")yield {'content': response.text}

我们创建了一个简单的Spider,用于爬取http://example.com/页面的响应内容。

接下来,运行以下命令启动爬虫:

scrapy crawl compression

当爬虫运行时,HttpCompressionMiddleware将会自动检测请求的响应是否经过压缩。如果服务器返回的响应经过压缩,HttpCompressionMiddleware将解压缩响应内容,并输出解压缩后的内容大小。在日志中,我们可以看到类似以下的输出信息:

INFO:root:Response body size: 1234

通过HttpCompressionMiddleware,我们不需要额外的代码或配置即可自动处理经过压缩的响应,并获取原始内容。这样,我们就可以在爬虫中使用解压缩后的响应,例如提取需要的数据。

ps: 如果服务器返回的响应已经是未经压缩的内容,HttpCompressionMiddleware将不会进行解压缩操作,并直接将响应传递给爬虫进行处理。

这个示例展示了如何使用HttpCompressionMiddleware处理经过压缩的响应。通过使用这个中间件,我们可以轻松地在爬取过程中处理压缩的响应,减小数据体积并提高爬取效率。

!!!记住,要使用HttpCompressionMiddleware,确保已经正确配置了中间件,并且服务器返回的响应确实经过了压缩。这样,你就可以享受到HTTP压缩带来的好处,优化网络传输并提高爬取效率。!!!

2 重定向中间件(RedirectMiddleware)

2.1 重定向的概念与作用

        在网络请求过程中,服务器可能会返回一个重定向响应,指示客户端访问另一个URL。重定向是一种常见的HTTP特性,用于跳转到新的URL,提供更好的用户体验和导航。通过重定向,可以执行页面的自动跳转、URL的规范化、网站的访问控制和错误处理等操作。

2.2 RedirectMiddleware的功能与优势

RedirectMiddleware是Scrapy框架中的一个中间件,它用于处理服务器返回的重定向响应。它的功能与优势包括:

  • 自动重定向:RedirectMiddleware会检查服务器返回的响应是否为重定向响应,如果是,它会自动根据重定向的URL发送新的请求。
  • URL规范化:RedirectMiddleware可以将URL进行规范化处理,确保重定向后的URL符合一致的格式和标准,提升爬虫的稳定性和可维护性。
  • 提高爬虫效率:通过自动处理重定向,RedirectMiddleware可以减少需要手动处理重定向的工作量,加快爬取速度和提高爬取效率。
  • 简化爬虫代码:通过使用RedirectMiddleware,爬虫代码不需要处理具体的重定向逻辑,使代码更加简洁和易读。

2.3 RedirectMiddleware的配置与使用

        要使用RedirectMiddleware,需要将其添加到Scrapy项目的中间件列表中,并根据需要进行配置。以下是配置与使用RedirectMiddleware的步骤:

  • 步骤1:在项目的settings.py文件中,找到DOWNLOADER_MIDDLEWARES配置项,并添加RedirectMiddleware:
DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 100,
}

将RedirectMiddleware添加到中间件字典中,并为其指定数字优先级(数字越小,优先级越高)。

  • 步骤2:保存并关闭settings.py文件。现在,Scrapy将在每个下载请求中自动应用RedirectMiddleware。

2.4 示例:使用RedirectMiddleware处理服务器的重定向响应

下面以一个示例来说明如何使用RedirectMiddleware处理服务器的重定向响应。

  • 首先,我们创建一个名为redirect_example的Scrapy项目:
scrapy startproject redirect_example
  • 接下来,进入项目目录,并新建一个名为redirect_spider.py的Spider文件,添加以下代码:
import scrapyclass RedirectSpider(scrapy.Spider):name = 'redirect'start_urls = ['http://example.com/redirect']def parse(self, response):self.logger.info("Original URL: %s", response.url)yield {'content': response.text}

在上述示例中,我们创建了一个简单的Spider,用于爬取http://example.com/redirect页面的内容。该URL会返回一个重定向响应,跳转到新的URL。

运行以下命令启动爬虫:

scrapy crawl redirect

当爬虫运行时,RedirectMiddleware会自动检测服务器返回的响应是否为重定向响应。如果是,RedirectMiddleware将根据重定向的URL发送新的请求,并在日志中输出原始URL和重定向后的URL信息。

通过上述示例,我们可以看到RedirectMiddleware的处理过程:

  • 发起初始请求到http://example.com/redirect
  • 检测到服务器返回的是一个重定向响应。
  • RedirectMiddleware自动根据重定向的URL发送新的请求。
  • 解析新的响应,并将内容保存。

在日志中,我们可以看到类似以下的输出信息:

INFO:root:Original URL: http://example.com/redirect
INFO:root:Redirecting to http://example.com/new_url

这表示重定向的过程已经成功地被RedirectMiddleware处理了。现在,爬虫将继续处理重定向后的URL,并解析新的响应。


通过以上示例,我们展示了如何使用RedirectMiddleware处理服务器的重定向响应。通过配置和使用RedirectMiddleware,我们可以简化爬虫代码,提高爬取效率,并自动处理重定向,使爬虫更加稳定和可靠。
ps: RedirectMiddleware是Scrapy框架内置的一个中间件,无需额外安装即可使用。它在常规的爬虫开发中发挥着重要的作用,尤其在处理需要跳转的URL时。

3 Cookie中间件(CookiesMiddleware)

3.1 Cookie的概念与作用

        Cookie是一种存储在客户端(通常是浏览器)中的小型文本文件,用于跟踪和存储用户在网站上的信息。当用户访问网站时,服务器可以向客户端发送一个包含Cookie的响应,客户端会将Cookie存储起来,并在后续的请求中将Cookie发送回服务器。Cookie的作用包括:

  1. 会话管理:Cookie可以用于在用户会话之间跟踪状态信息。例如,用户登录后,服务器可以使用Cookie存储用户身份验证令牌,以便在后续请求中验证用户的身份。
  2. 个性化体验:Cookie可以存储用户的首选项和设置,用于提供个性化的网站体验。例如,网站可以记住用户的语言偏好或主题选择。
  3. 购物车功能:当用户在电子商务网站上添加商品到购物车时,Cookie可以用于存储购物车中的商品信息,以便在用户下次访问时保持购物车的状态。
  4. 追踪和分析:通过在Cookie中存储跟踪标识符,网站可以分析用户的行为和访问模式,用于改进产品和优化内容。
  5. 广告定向:许多广告商使用Cookie追踪用户的广告偏好和兴趣,以便提供针对性的广告。

3.2  CookiesMiddleware的功能与优势

CookiesMiddleware是Scrapy框架中的一个中间件,用于处理请求和响应中的Cookie信息。它的主要功能和优势包括:

  1. 管理Cookie:CookiesMiddleware自动管理请求和响应中的Cookie,确保Cookie正确发送到服务器,并在后续请求中自动携带Cookie信息。
  2. 会话维护:CookiesMiddleware可以跟踪和维护会话状态,在连续的请求之间保持会话的一致性。它可以根据服务器的响应更新和添加Cookie,并在发送请求时携带相应的Cookie。
  3. 配置灵活:CookiesMiddleware提供了一些配置选项,例如设置Cookie的存储位置、Expiry时间和域范围等。这使得使用CookiesMiddleware更加灵活和适应不同的需求。
  4. 代码简洁:通过使用CookiesMiddleware,爬虫代码无需手动处理Cookie的提取、存储和发送。中间件会自动处理Cookie的生命周期,减少开发人员的工作量。

3.3. CookiesMiddleware的配置与使用

要使用CookiesMiddleware,需要将其添加到Scrapy项目的中间件列表中,并根据需要进行配置。以下是配置和使用CookiesMiddleware的步骤:

  • 步骤1:在项目的settings.py文件中,找到DOWNLOADER_MIDDLEWARES配置项,并将CookiesMiddleware添加到列表中:
DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
}

将CookiesMiddleware添加到中间件字典中,并为其指定数字优先级(默认为700,可以根据需要调整优先级)。

  • 步骤2:保存并关闭settings.py文件。现在,Scrapy将在每个下载请求中自动应用CookiesMiddleware,并处理请求和响应中的Cookie信息。

3.4 示例:使用CookiesMiddleware管理请求和响应中的Cookie

        演示如何使用CookiesMiddleware在Scrapy项目中管理请求和响应中的Cookie。我们将创建一个爬虫来登录一个虚拟网站并爬取登录后的页面。

  • 首先,我们创建一个新的Scrapy项目:
scrapy startproject cookies_example
  • 接下来,进入项目目录,并创建一个名为login_spider.py的Spider文件,添加以下代码:
import scrapyclass LoginSpider(scrapy.Spider):name = 'login'start_urls = ['http://example.com/login']def parse(self, response):# 获取登录页面的表单数据csrf_token = response.css('input[name="csrf_token"]::attr(value)').get()formdata = {'username': 'your_username','password': 'your_password','csrf_token': csrf_token}# 提交登录请求yield scrapy.FormRequest(url='http://example.com/login', formdata=formdata, callback=self.after_login)def after_login(self, response):# 检查登录是否成功if response.status == 200 and "Welcome" in response.text:self.logger.info("Login successful!")# 在登录后的页面进行进一步爬取# ...else:self.logger.info("Login failed!")

在这个示例中,我们首先发送一个GET请求到登录页面,并从响应中获取到表单的CSRF令牌(隐含的安全性措施)。然后,我们手动构建表单数据,并使用scrapy.FormRequest()发送一个POST请求以完成登录。在登录请求的回调函数after_login()中,我们检查响应状态和内容,判断登录是否成功。


现在,我们需要配置CookiesMiddleware以自动处理请求和响应中的Cookie。打开项目的settings.py文件,添加以下配置项:

DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
}

爬虫将发送登录请求,并自动处理返回的Cookie。在登录成功后,你可以在after_login()函数中进一步爬取您想要的内容。
通过使用CookiesMiddleware,我们能够方便地管理请求和响应中的Cookie,从而简化了爬虫代码。这使得处理会话状态和登录等任务变得更加简单和可靠。

总结

Scrapy框架中三个重要的中间件:HTTP压缩中间件、重定向中间件和Cookie中间件的功能和使用方法。

  1. 首先,HTTP压缩中间件能够处理经过压缩的响应内容,自动解压缩并获取原始内容。这对于处理大规模的响应数据非常重要,可以节省带宽并提高爬取效率。
  2. 其次,重定向中间件能够处理服务器返回的重定向响应,自动跟随重定向并获取正确的响应。这对于处理网页跳转或链接重定向至关重要,帮助我们轻松地获取爬取所需的数据。
  3. 最后,Cookie中间件具备管理请求和响应中的Cookie的功能。它负责发送包含正确Cookie的请求,并在接收响应时更新Cookie。对于需要保持会话状态或进行用户认证的网站爬取,Cookie中间件发挥着关键作用,帮助我们维护正确的Cookie信息,确保爬虫顺利运行。

通过深入了解和使用这些中间件,我们能够更好地控制和管理爬虫过程中的请求和响应,提高爬取的成功率和数据的完整性。使用HTTP压缩中间件可以减小数据体积、加速响应处理和提高爬取效率;重定向中间件可以自动跟随重定向获取正确的响应;Cookie中间件则能够自动处理Cookie信息,方便会话维护和用户认证。

总之,了解并灵活使用这些中间件将使爬虫开发更加高效和可靠。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/770753.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

政安晨:【TensorFlow与Keras实战演绎机器学习】专栏 —— 目录

政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: TensorFlow与Keras实战演绎机器学习 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正! 本篇是作者政安晨的专栏《TensorFlow与Keras…

获取CPLEX求解MIP时添加的cutting planes (C program)

源代码:https://www.ibm.com/support/pages/sample-c-program-retrieve-cuts-added-cplex-during-mip-optimization 通过macOS的终端(terminal)编译: CPX_PATH /Applications/CPLEX_Studio_Community2211/cplex/ CC g ARCH x…

文献阅读笔记(Transformer)

文献阅读笔记(Transformer) 摘要Abstract1、文献阅读1.1 文献题目1.2 文献摘要1.3 研究背景1.4 模型架构1.4.1 Encoder-Decoder1.4.2 注意力机制1.4.3 多头注意力1.4.4 Position-wise Feed-Forward Networks1.4.5 Embeddings and Softmax1.4.6 Positiona…

重构文件上传行为

目标&#xff1a;将 [前端 → 后端] 改成 [前端 → 中间层 → 后端] 第一步&#xff1a;自定义上传行为&#xff08;ElementPlus&#xff09; <template><el-uploadaction""show-file-listv-model:file-list"fileList":on-change"handleCha…

UnoCSS实现背景图片样式加载

UnoCSS是一个好东西&#xff0c;可以把任何style样式通过css去描述。但是默认使用的tailwindcss有一个不完美&#xff0c;就是当使用图片时&#xff0c;背景图片无法通过原子化css直接描述。例如有一个背景图片&#xff0c;则必须为该图片单独出一个css样式&#xff0c;然后再加…

大小端字节序和字节序的判断+有符号整形和无符号整形的取值范围

大小端存在的意义 大小端字节存储方式&#xff08;Big-Endian 和 Little-Endian&#xff09;的存在主要是由于不同计算机体系结构和网络通信标准对数据表示方式的差异所导致的。大小端字节存储方式的存在具有以下意义&#xff1a; 1. 兼容性&#xff1a;不同的计算机系统和网络…

自定义对外开放接口的加解密和签名、验签

背景 公司需要对外开放接口&#xff0c;因此需要进行签名和验签。所以&#xff0c;自定义了一个签名和验签规则。 具体实现 1.定义抽象类 <?phpnamespace App\Library\Signature;abstract class AbstractSecret {/*** 对接ID* var string*/protected $appId ty808732;…

flutter路由跳转

Navigator.of(context).push(); //路由跳转(模块方式) Navigator.of(context).push(MaterialPageRoute(builder: (BuildContext context) {return const Page() ;//Page()指页面}, )) Navigator.pushNamed(context, "/") //路由跳转(路由方式) Navigator.pop(cont…

javaWeb网上订餐管理系统

一、简介 在当今社会&#xff0c;随着互联网的普及&#xff0c;网上订餐已经成为了人们生活中不可或缺的一部分。为了方便用户点餐&#xff0c;同时也方便商家管理订单&#xff0c;我设计了一个基于JavaWeb的网上订餐管理系统。该系统分为前台和后台两部分&#xff0c;前台包括…

ChatGPT助力论文写作:详细步骤解析

前言 在论文写作过程中&#xff0c;尽管人工智能工具如ChatGPT能为我们提供有效的辅助&#xff0c;但我们必须铭记&#xff0c;这些工具并不能完全取代我们的思考与判断能力。本指南将详尽地展示如何利用ChatGPT辅助论文写作的全过程&#xff0c;旨在帮助您更高效地完成学术任…

AI基础知识扫盲

AI基础知识扫盲 AIGCLangchain--LangGraph | 新手入门RAG&#xff08;Retrieval-Augmented Generation&#xff09;检索增强生成fastGPT AIGC AIGC是一种新的人工智能技术&#xff0c;它的全称是Artificial Intelligence Generative Content&#xff0c;即人工智能生成内容。 …

java实现https连接总是要报no cipher suites in common

遇到“no cipher suites in common”这样的错误通常意味着客户端和服务器之间没有共同支持的加密套件&#xff08;Cipher Suite&#xff09;。这个问题可能由多个原因引起&#xff0c;包括但不限于SSL/TLS配置错误、Java安全策略限制、客户端或服务器不支持的加密算法等。解决这…

企业产品网络安全建设日志3月25

文章目录 参与推行域名上线安全卡点背景处置 C系云安全认证准备WAF调试 参与推行域名上线安全卡点 背景 未经安全审核的上线动作&#xff0c;对企业的风险首先面临是外部审核的问题&#xff0c;一个企业有各种情况要接受外部的安全审计&#xff0c;各种受雇三方的机构会对公司…

uniapp的配置文件、入口文件、主组件、页面管理部分

pages.json 配置文件&#xff0c;全局页面路径配置&#xff0c;应用的状态栏、导航条、标题、窗口背景色设置等 main.js 入口文件&#xff0c;主要作用是初始化vue实例、定义全局组件、使用需要的插件如 vuex&#xff0c;注意uniapp无法使用vue-router&#xff0c;路由须在pag…

[NKCTF 2024]web解析

文章目录 my first cms全世界最简单的CTF解法一解法二 my first cms 打开题目在最下面发现是CMS Made Simple&#xff0c;版本为2.2.19 扫一下发现存在后台登陆界面&#xff0c;直接访问 用字典爆破下admin的密码为Admin123 然后直接登录&#xff0c;去漏洞库搜一下其实存在…

Contos7 安装 Maven

Contos7 安装 Maven 前言 ​ Maven是一个用于构建和管理Java项目的强大工具。它提供了一种简单且一致的方式来构建、测试和部署项目&#xff0c;同时管理项目依赖关系。Maven基于项目对象模型&#xff08;Project Object Model&#xff0c;POM&#xff09;&#xff0c;使用XML…

前端理论总结(css3)——link/import区别 // 伪类/伪元素

伪类/伪元素 1&#xff1a; 伪类使用1个冒号&#xff0c;常见的有&#xff1a;:hover&#xff0c;:link&#xff0c;:active&#xff0c;:target&#xff0c;:not()&#xff0c;:focus等 伪元素使用 2 个冒号&#xff0c;常见的有&#xff1a;::before&…

后端常问面经之Java集合

HashMap底层原理 HashMap的数据结构&#xff1a; 底层使用hash表数据结构&#xff0c;即数组和链表或红黑树 当我们往HashMap中put元素时&#xff0c;利用key的hashCode重新hash计算出当前对象的元素在数组中的下标 存储时&#xff0c;如果出现hash值相同的key&#xff0c;此…

恒创科技:服务器反应慢如何解决?

​  通常来说&#xff0c;访问者会在最初的几秒钟内决定是留在您的网站还是离开。如果页面加载时间超过五秒&#xff0c;访问者离开的可能性就会增加 90%。所以&#xff0c;作为站长们&#xff0c;必须减少服务器响应时间&#xff0c;以确保其网站加载速度更快。以下是减少网…

Mac电脑虚拟显示器:BetterDisplay Pro for Mac v2.0.11激活版

BetterDisplay Pro是一款由waydabber开发的Mac平台上的显示器校准软件&#xff0c;可以帮助用户调整显示器的颜色和亮度&#xff0c;以获得更加真实、清晰和舒适的视觉体验。 软件下载&#xff1a;BetterDisplay Pro for Mac v2.0.11激活版 以下是BetterDisplay Pro的主要特点&…