『scrapy爬虫』08. 中间件的使用之引入cookie(详细注释步骤)

目录

    • 中间件介绍
    • 1. 在中间件中设置使用cookie
    • 2.启用中间件
    • 总结


欢迎关注 『scrapy爬虫』 专栏,持续更新中
欢迎关注 『scrapy爬虫』 专栏,持续更新中

本文以豆瓣为例子,抓取cookie的方式默认大家已经知道,简单来说登录豆瓣后f12抓包搜索cookie即可,实在不会可以看此文requests实战-comicai绘画ai通过cookie签到中介绍的方法.

中间件介绍

在Scrapy中有两个中间件SpiderMiddleware和DownloaderMiddleware

  • SpiderMiddleware:

SpiderMiddleware是用于处理从Spider发出的请求和接收的响应的中间件。它负责在请求发送到引擎之前和响应从引擎返回给Spider之后进行预处理和后处理操作。
SpiderMiddleware可以用于修改请求的headers、URL、数据等内容,并且可以在接收到响应后对响应进行处理,例如解析数据、修改响应内容等。

  • DownloaderMiddleware:

DownloaderMiddleware是用于处理引擎发往下载器的请求以及下载器返回的响应的中间件。它负责在请求发送到下载器之前和下载器返回响应到引擎之后进行预处理和后处理操作。
DownloaderMiddleware可以用于修改请求的headers、添加代理、设置User-Agent,cookie等操作,并且可以在下载器返回响应后对响应进行处理,例如检查状态码、解密内容等。
SpiderMiddleware主要负责处理Spider发出的请求和接收的响应,而DownloaderMiddleware主要负责处理引擎发往下载器的请求以及下载器返回的响应。它们分别在不同阶段对请求和响应进行处理,为爬虫提供了灵活的自定义操作和处理能力。


1. 在中间件中设置使用cookie

middlewares.py中

  • 拿到我们的cookie
def get_cookies_dict():# cookie字符串转为字典并返回cookies_str='XXXXXXXXX'#你的豆瓣cookiecookies_dict={}for item in cookies_str.split('; '):# 用 "; "作为分隔符,分割字符串得到列表,比如说列表第一项 ll="118174key,vlaue=item.split('=',maxsplit=1)# 用 "="作为分隔符,分割"ll="118174",得到的key和value分别是 li 和 118174cookies_dict[key]=vlauereturn cookies_dictCOOKIES_DICT=get_cookies_dict #全局变量cookie字典
  • 请求前使用cookie,注意是MyscrapyDownloaderMiddleware里的process_request
# 在进行下载请求之前的拦截
class MyscrapyDownloaderMiddleware:# Not all methods need to be defined. If a method is not defined,# scrapy acts as if the downloader middleware does not modify the# passed objects.@classmethoddef from_crawler(cls, crawler):# This method is used by Scrapy to create your spiders.s = cls()crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)return s# 下载请求前的操作def process_request(self, request, spider):# request.meta={'proxy':"socket5://127.0.0.1:1086"}#在中间件中请求前拦截请求 添加代理request.cookie=COOKIES_DICT #设置cookiereturn None

2.启用中间件

settings.py中新增
这里的543权重,数字越小越先执行.

# 配置下载中间件
DOWNLOADER_MIDDLEWARES = {"myscrapy.middlewares.MyscrapyDownloaderMiddleware": 543,
}

总结

大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2024 mzh

Crated:2024-3-1

欢迎关注 『scrapy爬虫』 专栏,持续更新中
欢迎关注 『scrapy爬虫』 专栏,持续更新中
『未完待续』


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/754731.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软考真题详解-系统架构设计师-计算机基础知识(1)

题目1:计算机系统中硬件层之上的软件通常按照三层来划分,如下图所示,图中①②③分别表示(1)。 A.操作系统、应用软件和其他系统软件 B.操作系统、其他系统软件和应用软件 C.其他系统软件、操作系统和应用软件 D.应…

中国银行信息系统应用架构发展历程

概述: 从 20 世纪 80 年代开始至今,我国银行业信息化历程已 有四十年历史。虽然相对于发达国家来讲,我国银行业务信 息化起步较晚,但发展速度很快, 目前我国一些大型商业银行的信息化程度已经处于全球领先水平。 “银行…

Python Web开发记录 Day13:Django part7 Ajax入门与案例(任务管理)

名人说:莫道桑榆晚,为霞尚满天。——刘禹锡(刘梦得,诗豪) 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 1、Ajax入门①简介②工作原理③优点④缺点⑤使用…

操作系统知识-操作系统作用+进程管理-嵌入式系统设计师备考笔记

0、前言 本专栏为个人备考软考嵌入式系统设计师的复习笔记,未经本人许可,请勿转载,如发现本笔记内容的错误还望各位不吝赐教(笔记内容可能有误怕产生错误引导)。 本章的主要内容见下图: 1、操作系统的作用…

Vim替换时区分大小写

在 Vim 中执行替换时,你可以使用不同的命令来区分大小写。要进行区分大小写的替换,你可以在替换命令前添加 :set 命令来设置相应的选项。这里有两种方法可以实现: 方法一:使用 :set 命令设置 ignorecase 选项 执行以下命令打开 …

c++类和对象(二)

c类和对象(二) 1.类的6个默认成员函数 2. 构造函数 3. 析构函数 4. 拷贝构造函数 5. 赋值运算符重载 6. const成员函数 7. 取地址及const取地址操作符重载 1.类的6个默认成员函数 如果一个类中什么成员都没有,简称为空类。 空类中真的什么都…

python中如何解析Html

在最近需要的需求中,需要 python 获取网页内容,并从html中获取到想要的内容。这里记录一下两个比较常用的python库对html的解析。 1. BeautifulSoup 它是一个非常流行的python脚本库,用于解析HTML和XML文档。如果你对 java 很熟悉&#xff…

关于Zookeeper分布式锁

背景 之前说到分布式锁的实现有三种 1、基于数据库实现的分布式锁 2、Redis分布式锁 3、Zookeeper分布式锁 前者redis分布式锁博客已具体介绍,此博客最终决定补齐关于Zookeeper分布式锁的实现原理。 简述 Zoopkeeper,它是一个为分布式的协调服务&…

C#,图论与图算法,图(Graph)广度优先遍历(BFS,Breadth First Search)算法与源代码

1 深度优先算法与 宽度优先遍历 深度优先算法(DFS,Deep First Search)与 宽度优先遍历(BFS,Breadth First Search) 是树、图数据结构的基础性、标准性的遍历算法。 2 深度优先算法(DFS,Deep First Search) 深度优先搜索(DFS)是一种用于搜索图形或树数据结构的算法…

Kafka:分布式消息队列

1. 简介 介绍 Kafka 的概述、优势和劣势,以及应用场景。 2. 基本概念 2.1 架构 一个典型的 Kafka 体系架构包括若干 Producer、若干Broker、若干 Consumer,以及一个ZooKeeper集群。 ZooKeeper是Kafka用来负责集群元数据的管理、控制器的选举等操作的…

本地虚拟机平台Proxmox VE结合Cpolar内网穿透实现公网远程访问

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《C》 《Linux》 《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默&…

Selenium 自动化 —— Selenium IDE录制、回放、导出Java源码

Hello Selenium 示例 之前我们在专栏的第一篇文章中演示了使用使用Selenium进行百度搜索的Hello world示例。 代码不复杂非常简单: public static void main(String[] args) {WebDriver driver null;try {// 设置Chrome驱动的路径 // System.setPro…

Zynq—AD9238数据采集DDR3缓存千兆以太网发送实验(后记)

2024.03.05: 测试了开发板网线直连电脑可以传输数据。但是通过开发板→交换机→电脑,没有数据传输。通讯采用UDP通讯,一个是无法满足后续对采集数据的傅里叶变换和傅里叶逆变换的处理。二是无法通过交换机传输数据。 2024.03.07&#xff1a…

【C++】每日一题 71 简化路径

给你一个字符串 path ,表示指向某一文件或目录的 Unix 风格 绝对路径 (以 ‘/’ 开头),请你将其转化为更加简洁的规范路径。 在 Unix 风格的文件系统中,一个点(.)表示当前目录本身;…

YoloV8改进策略:Block改进|焦点调制网络

摘要 FocalNets是一个新型的神经网络架构,它的核心特点是用焦点调制模块完全取代了自注意力(SA)机制,用于在视觉任务中建模令牌(token)之间的交互。这种架构的设计旨在提高模型的可解释性,并在…

已解决OperationTimeoutException:KeeperErrorCode=OperationTimeout异常的正确解决方法,亲测有效!!!

已解决OperationTimeoutException:KeeperErrorCodeOperationTimeout异常的正确解决方法,亲测有效!!! 目录 问题分析 报错原因 解决思路 解决方法 总结 博主v:XiaoMing_Java 在使用分布式协调服务Apache ZooKeepe…

DataX脚本告别手动编写,用大模型或Java代码自动生成

在离线数仓开发中,DataX支持多种数据源,性能好抽取速度快。美中不足的是,对需要抽取的每一张表都需要写配置文件,这样很繁琐和耗时。可以用大模型提示词来节省这方面的工作量。ChatGPT等大模型并不能很智能提供一个完全正确的,需要提供一个模板让它参考。 方法1:用大模型…

Midjourney订阅攻略/Midjourney的基本参数和命令

AI绘画软件Midjourney使用原理 Midjourney是一个由Midjourney研究实验室开发的先进的人工智能程序,它可以根据用户的文本输入生成精美的图像。Midjourney的主要原理是通过收集大量已有的作品数据,对这些数据进行算法解析,它就可以通过关键词生…

HandyControl PropertyGrid及自定义编辑器

前提条件 项目引入对应HandyControl对应版本包。 使用案例 UI部分 <Window xmlns:hc"https://handyorg.github.io/handycontrol"><hc:TabControl><hc:TabItem Header"默认样式"><hc:PropertyGrid Width"380" SelectedO…

在ubuntu下安装MQTT 服务

ubuntu系统版本22.4.4LTS amd64 在ubuntu系统下打开终端输入命令 ## 安装MQTT 服务 sudo apt-get install mosquitto mosquitto-clients继续执行后系统就完成了安装并默认已启动服务 ## 查看MQTT运行状态 systemctl status mosquitto## 启动服务 systemctl start mosquitto…