scrapy的概念作用和工作流程

scrapy的概念作用和工作流程

news/2025/4/27 5:54:51/文章来源:https://blog.csdn.net/weixin_44143876/article/details/135876994

1. scrapy的概念

Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。

Scrapy 使用了Twisted['twɪstɪd]异步网络框架，可以加快我们的下载速度。

Scrapy文档地址：http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

2. scrapy框架的作用

少量的代码，就能够快速的抓取

3. scrapy的工作流程

3.1 回顾之前的爬虫流程

在这里插入图片描述

3.2 上面的流程可以改写为

在这里插入图片描述

3.3 scrapy的流程

在这里插入图片描述

其流程可以描述如下：

爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送请求，获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器，重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据

注意：

图中中文是为了方便理解后加上去的
图中绿色线条的表示数据的传递
注意图中中间件的位置，决定了其作用
注意其中引擎的位置，所有的模块之前相互独立，只和引擎进行交互

3.4 scrapy的三个内置对象

request请求对象：由url method post_data headers等构成
response响应对象：由url body status headers等构成
item数据对象：本质是个字典

3.5 scrapy中每个模块的具体作用

在这里插入图片描述

注意：

爬虫中间件和下载中间件只是运行逻辑的位置不同，作用是重复的：如替换UA等

小结

scrapy的概念：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架
scrapy框架的运行流程以及数据传递过程：
1. 爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
2. 调度器把request–>引擎–>下载中间件—>下载器
3. 下载器发送请求，获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
4. 爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器，重复步骤2
5. 爬虫提取数据—>引擎—>管道处理和保存数据
scrapy框架的作用：通过少量代码实现快速抓取
掌握scrapy中每个模块的作用：
引擎(engine)：负责数据和信号在不腰痛模块间的传递
调度器(scheduler)：实现一个队列，存放引擎发过来的request请求对象
下载器(downloader)：发送引擎发过来的request请求，获取响应，并将响应交给引擎
爬虫(spider)：处理引擎发过来的response，提取数据，提取url，并交给引擎
管道(pipeline)：处理引擎传递过来的数据，比如存储
下载中间件(downloader middleware)：可以自定义的下载扩展，比如设置代理ip
爬虫中间件(spider middleware)：可以自定义request请求和进行response过滤，与下载中间件作用重复

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/650838.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

05 双向链表

05 双向链表

目录 1.双向链表 2.实现 3.OJ题 4.链表和顺序表对比 1. 双向链表前面写了单向链表，复习一下无头单向非循环链表：结构简单，一般不会单独用来存数据。实际中更多作为其他数据结构的子结构，如哈希桶、图的邻接等。另外这种结构在…

阅读更多...

dubbo和eureka的区别

dubbo和eureka的区别

dubbo可以作为客户端，也可以作为服务端，因此他内置了很多序列化框架可供选择，通过配置可以进行选择。默认是hession，还有gson，fastJson，jdk自带的序列化。 eureka只能作为服务端，他序列要与客户…

阅读更多...

解析MySQL生产环境CPU使用率过高的排查与解决方案

解析MySQL生产环境CPU使用率过高的排查与解决方案

引言在生产环境中，MySQL作为一个关键的数据库组件，其性能对整个系统的稳定性至关重要。然而，有时候我们可能会遇到MySQL CPU使用率过高的问题，这可能导致系统性能下降，应用页面访问减慢，甚至影响到用户体…

阅读更多...

编译与运行环境（C语言）

编译与运行环境（C语言）

文章目录前言编译环境编译链接运行环境前言 C语言代码的实现，存在两种不同的环境。第一种是翻译环境，在这个环境中，源代码被转换为可执行的二进制指令。翻译环境即我们日常使用编译器，将一个 " mission.c " 的文件…

阅读更多...

软件包管理：在CentOS 7中部署Tengine

软件包管理：在CentOS 7中部署Tengine

目录下载： 方法一： 方法二： 部署： 实验操作下载： 方法一： 1、打开浏览器搜索tengine并点击官网 2、选择需要安装的版本并复制链接链接标题栏处可以更改为中文界面下滑选择版本单击下载在远程连…

阅读更多...

Matlab神经网络

Matlab神经网络

Matlab神经网络资料拟合神经网络fitnet里面的函数选择神经网络输入输出处理函数 MATLAB 创建神经网络模型的patternnet和newff函数区别 MATLAB中patternnet函数返回的网络结构中各个参数的含义神经网络对象属性径向基函数神经网络（RBFNN）详解 RBF网…

阅读更多...

Python字符串：基础要点与实践应用

Python字符串：基础要点与实践应用

文章目录一、Python字符串1.介绍2.与C语言字符串比较2.1 相同点2.2 不同点 3.创建Python字符串3.1 使用单引号3.2 使用双引号3.3 使用三引号二、访问字符串中的值1.索引方式2.截取方式三、Python 转义字符1.续行符\(在行尾时)2.反斜杠符号\\3.单引号\4.双引号\"5.响铃\…

阅读更多...

使用Docker部署MySQL并结合内网穿透实现远程访问本地数据库

使用Docker部署MySQL并结合内网穿透实现远程访问本地数据库

文章目录前言1 .安装Docker2. 使用Docker拉取MySQL镜像3. 创建并启动MySQL容器4. 本地连接测试4.1 安装MySQL图形化界面工具4.2 使用MySQL Workbench连接测试 5. 公网远程访问本地MySQL5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定TCP地址远程访问前言本文主…

阅读更多...

搭建nginx图片服务器

搭建nginx图片服务器

（1）将图片存储于/home/data/images目录； （2）配置nginx.conf user nginx; worker_processes 4;error_log /var/log/nginx/error.log notice; pid /var/run/nginx.pid;events {worker_connections 10000; }ht…

阅读更多...

Vue3中ElementPlus组件二次封装，实现原组件属性、插槽、事件监听、方法的透传

Vue3中ElementPlus组件二次封装，实现原组件属性、插槽、事件监听、方法的透传

本文以el-input组件为例，其它组件类似用法。一、解决数据绑定问题封装组件的第一步，要解决的就是数据绑定的问题，由于prop数据流是单向传递的，数据只能从父流向子，子想改父只能通过提交emit事件通知父修改。父&a…

阅读更多...

移动Web——平面转换-旋转

移动Web——平面转换-旋转

1、平面转换-旋转 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><style…

阅读更多...

$DAY32：贪心算法part2、122\55\45$

DAY32：贪心算法part2、122\55\45

贪心算法没有统一的模板，因此对题目的理解非常重要，理解题目，了解之后想到代码就很简单。 Leetcode: 122 买卖股票的最佳时机II 首先，题目中只有一支股票，可以一直买入卖出。而且我们只需要记录利润，不需…

阅读更多...

在使用springboot框架式的的script无法通过${}来获取值

在使用springboot框架式的的script无法通过${}来获取值

今天使用springboot框架做项目，想着来实现一下搜索的下拉框回显功能，然后就一直在报错误，关键是报的错误牛头不对马嘴，检查了一下后端代码，发现没什么问题，就把目光聚焦了.jsp页面的代码 <script type&…

阅读更多...

主流影视网站8合一H5源码

主流影视网站8合一H5源码

目前影视接口完好，可正常观看影视。上传即可使用包括了百度视频风格 PP视频风格咪咕爱看风格爱奇艺风格腾讯视频风格优酷视频风格搜狐视频风格 B站风格 8种主流影视网站，喜欢那个用那个

阅读更多...

函数类（Function Classes）和富函数类（Rich Function Classes）

函数类（Function Classes）和富函数类（Rich Function Classes）

目录函数类（Function Classes） 富函数类（Rich Function Classes） 函数类（Function Classes） Flink暴露了所有UDF函数的接口，具体实现方式为接口或者抽象类，例如MapFunction、Filt…

阅读更多...

【STM32】STM32学习笔记-Unix时间戳(41)

【STM32】STM32学习笔记-Unix时间戳(41)

00. 目录文章目录 00. 目录01. Unix时间戳02. UTC/GMT03. 时间戳转换04. C 标准库 <time.h>05. 时间相关函数示例5.1 time函数5.2 gmtime函数5.3 localtime函数5.4 mktime函数5.5 ctime函数5.6 asctime函数5.7 strftime函数 06. 预留07. 附录 01. Unix时间戳 •Unix 时…

阅读更多...

2024-macOS系统或Kail系统重——破解ZIP压缩的文件密码

2024-macOS系统或Kail系统重——破解ZIP压缩的文件密码

2024-macOS系统或Kail系统重——破解ZIP压缩的文件密码 1. 你们有遇见这样子的情况么： 别人给你发的zip或者下载的zip文件，没有密码打不开么网上都是win系统的，都是没有macOS系统的，所以比较烦恼 2. 所以我就想到了代码&#x…

阅读更多...

gradle简单入门

gradle简单入门

安装需要有Java环境下载地址：https://gradle.org/releases/ 8.5版本仅有二进制文件：https://gradle.org/next-steps/?version8.5&formatbin 8.5版本包含文档和源码及二进制文件：https://gradle.org/next-steps/?version8.5&f…

阅读更多...

PyTorch 之 rand() 与 randn() 函数

PyTorch 之 rand() 与 randn() 函数

文章目录 torch.rand()示例: torch.randn()示例: 当然，让我更详细地介绍 torch.rand() 和 torch.randn()，以及它们在 PyTorch 中的用法。 torch.rand() torch.rand(*sizes, outNone, dtypeNone, layouttorch.strided, deviceNone, requires_gradFalse)…

阅读更多...

无线路由探索

无线路由探索

实验大纲第一部分： 探索无线网络步骤 1： 探索拓扑步骤 2： 验证连接第二部分： Wi-Fi 连接添加到董事会议室步骤 1： 安装新的 LAP-PT 设备以覆盖新的董事会议室步骤 2： 检验连接第三部分&#…

阅读更多...

最新文章