『scrapy爬虫』08. 中间件的使用之引入cookie（详细注释步骤）

中间件介绍

在Scrapy中有两个中间件SpiderMiddleware和DownloaderMiddleware

SpiderMiddleware：

SpiderMiddleware是用于处理从Spider发出的请求和接收的响应的中间件。它负责在请求发送到引擎之前和响应从引擎返回给Spider之后进行预处理和后处理操作。
SpiderMiddleware可以用于修改请求的headers、URL、数据等内容，并且可以在接收到响应后对响应进行处理，例如解析数据、修改响应内容等。

DownloaderMiddleware：

DownloaderMiddleware是用于处理引擎发往下载器的请求以及下载器返回的响应的中间件。它负责在请求发送到下载器之前和下载器返回响应到引擎之后进行预处理和后处理操作。
DownloaderMiddleware可以用于修改请求的headers、添加代理、设置User-Agent,cookie等操作，并且可以在下载器返回响应后对响应进行处理，例如检查状态码、解密内容等。
SpiderMiddleware主要负责处理Spider发出的请求和接收的响应，而DownloaderMiddleware主要负责处理引擎发往下载器的请求以及下载器返回的响应。它们分别在不同阶段对请求和响应进行处理，为爬虫提供了灵活的自定义操作和处理能力。

1. 在中间件中设置使用cookie

middlewares.py中

拿到我们的cookie

def get_cookies_dict():# cookie字符串转为字典并返回cookies_str='XXXXXXXXX'#你的豆瓣cookiecookies_dict={}for item in cookies_str.split('; '):# 用 "; "作为分隔符,分割字符串得到列表,比如说列表第一项 ll="118174key,vlaue=item.split('=',maxsplit=1)# 用 "="作为分隔符,分割"ll="118174",得到的key和value分别是 li 和 118174cookies_dict[key]=vlauereturn cookies_dictCOOKIES_DICT=get_cookies_dict #全局变量cookie字典

请求前使用cookie,注意是MyscrapyDownloaderMiddleware里的process_request

# 在进行下载请求之前的拦截
class MyscrapyDownloaderMiddleware:# Not all methods need to be defined. If a method is not defined,# scrapy acts as if the downloader middleware does not modify the# passed objects.@classmethoddef from_crawler(cls, crawler):# This method is used by Scrapy to create your spiders.s = cls()crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)return s# 下载请求前的操作def process_request(self, request, spider):# request.meta={'proxy':"socket5://127.0.0.1:1086"}#在中间件中请求前拦截请求 添加代理request.cookie=COOKIES_DICT #设置cookiereturn None

2.启用中间件

settings.py中新增
这里的543权重,数字越小越先执行.

# 配置下载中间件
DOWNLOADER_MIDDLEWARES = {"myscrapy.middlewares.MyscrapyDownloaderMiddleware": 543,
}

总结

大家喜欢的话，给个👍，点个关注！给大家分享更多计算机专业学生的求学之路！

发现你走远了@mzh原创作品，转载必须标注原文链接

Crated：2024-3-1

欢迎关注『scrapy爬虫』专栏，持续更新中
欢迎关注『scrapy爬虫』专栏，持续更新中
『未完待续』

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/754731.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！