python爬虫学习第二十八天-------了解scrapy(二十八天)

🎈🎈作者主页: 喔的嘛呀🎈🎈
🎈🎈所属专栏:python爬虫学习🎈🎈
✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 

hello,兄弟姐妹们!我是喔的嘛呀。今天我们首先来了解scrapy。为后面的学习打下基础。

一、scrapy是什么?

Scrapy 是一个用于爬取网站数据并提取结构化信息的强大 Python 框架。它可以帮助开发人员快速、高效地构建网络爬虫,从而自动化地从网页中提取所需数据。Scrapy 提供了一套完整的工具和组件,包括用于定义爬取规则的 Spider、用于提取数据的选择器(Selectors)、用于处理数据的管道(Pipeline)等,使得爬虫开发变得简单且高效。Scrapy 还支持异步处理和并发请求,可以处理复杂的爬取任务,并提供了命令行工具和调试工具,方便开发人员进行调试和监控。Scrapy 在数据挖掘、信息收集、监测和自动化测试等领域都有广泛的应用。

二、工作原理和重要功能

工作原理:

  1. 引擎(Engine):是 Scrapy 的核心,负责调度整个爬取流程的执行。
  2. 调度器(Scheduler):接收引擎发来的请求,并根据一定的策略进行调度,以确保合理高效地使用网络和系统资源。
  3. 下载器(Downloader):负责下载网页并将响应传递给 Spider。
  4. Spider:定义了如何抓取某个网站的规则,包括如何开始抓取以及如何跟踪链接等。
  5. Item Pipeline:负责处理爬取到的数据,可以进行数据清洗、验证、存储等操作。
  6. Downloader Middleware:介于引擎和下载器之间的一层组件,可以修改请求和响应,例如添加代理、设置 User-Agent 等。
  7. Spider Middleware:介于引擎和 Spider 之间的一层组件,用于处理 Spider 的输入和输出。

主要功能:

  1. Spider:定义了如何爬取某个(些)网站的规则,包括起始URL、如何跟踪链接、如何解析页面等。
  2. Selector:用于从页面中提取数据的工具,支持 XPath 和 CSS 选择器。
  3. Item:表示从网页中提取的数据,类似于字典或数据库表的行。
  4. Pipeline:负责处理爬取到的数据,可以进行数据清洗、去重、验证、存储等操作。
  5. Downloader Middleware:用于在下载器处理请求和响应的过程中进行额外的操作,比如修改请求头、处理代理等。
  6. Spider Middleware:对 Spider 的输出(Item 和 Request)进行处理的组件,可以对请求和响应进行预处理或后处理。
  7. Scrapy Shell:交互式 shell 环境,用于测试和调试 XPath 或 CSS 选择器表达式。
  8. 命令行工具:用于运行爬虫、检查爬取结果等,例如 scrapy crawl spider_name

三、工作流程

Scrapy 的工作流程可以简要地描述为以下几个步骤:

  1. 启动爬虫
    • 使用命令行工具或代码启动 Scrapy 爬虫。
  2. 引擎调度请求
    • 引擎接收到启动爬虫的命令后,会根据 Spider 的配置和规则生成初始请求,并将请求交给调度器。
  3. 调度器管理请求队列
    • 调度器会根据一定的策略管理请求队列,确保请求按照合理的顺序被发送给下载器。
  4. 下载器下载网页
    • 下载器接收到调度器发送的请求后,会下载对应的网页内容,并将下载到的响应返回给引擎。
  5. 引擎将响应发送给 Spider
    • 引擎接收到下载器返回的响应后,会将响应发送给对应的 Spider 进行处理。
  6. Spider 解析响应
    • Spider 接收到响应后,会根据预先定义的规则,解析网页内容,提取需要的数据,并生成新的 Item 对象。
  7. Item 被发送到 Item Pipeline
    • Spider 将解析得到的 Item 对象发送到 Item Pipeline 进行处理,包括数据清洗、验证、存储等操作。
  8. 数据存储
    • Item Pipeline 将处理后的数据存储到指定的数据存储介质(如数据库、文件等)中。
  9. Spider 继续爬取
    • Spider 可能会继续根据规则跟踪链接,生成新的请求,并重复上述流程,直到没有新的请求或达到停止条件。
  10. 爬虫关闭
    • 当爬取结束时,Spider 可能会发送信号给引擎,引擎收到信号后关闭爬虫。

这就是 Scrapy 的基本工作流程。通过这个流程,Scrapy 能够高效地从网页中提取数据,并进行处理和存储,实现了一个完整的网络爬虫功能。

介绍完了scrapy相信你对它已经有了一定的了解。不要着急,后面我会详细解析scrapy的知识点。那今天的学习就到这里了,我们明天再见啦。要天天开心!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/2533.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

接口测试和Mock学习路线(中)

1.什么是 swagger Swagger 是一个用于生成、描述和调用 RESTful 接口的 WEB 服务。 通俗的来讲,Swagger 就是将项目中所有想要暴露的接口展现在页面上,并且可以进行接口调用和测试的服务。 现在大部分的项目都使用了 swagger,因为这样后端…

有哪些强化学习的算法以及它们的原理及优缺点

强化学习是一种机器学习方法,其目标是设计智能体(agent),使其能够通过与环境的交互学习最优的行为策略。下面将介绍几种主要的强化学习算法,包括Q-Learning、Deep Q-Network(DQN)、Policy Gradi…

C语言如何进⾏指针运算?

一、问题 普通变量可以运算,那么指针可以吗?答案是肯定的。那么如何运算呢,下⾯就来介绍⼀下。 二、解答 我们知道可以利⽤指针⽅便地对数组元素进⾏⽐较和查找,那么这就需要对指针进⾏运算。 (1)⾃增/⾃…

fakak详解(2)

Kafka和Flume整合 Kafka与flume整合流程 Kafka整合flume流程图 flume主要是做日志数据(离线或实时)地采集。 图-21 数据处理 图-21显示的是flume采集完毕数据之后,进行的离线处理和实时处理两条业务线,现在再来学习flume和kafka的整合处理。 配置fl…

微信小程序开发工具的使用,各个配置文件详解,小程序开发快速入门

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

redis单线程模型

工作原理 在Redis中,当两个客户端同时发送相同的请求时,Redis采用单线程模型来处理所有的客户端请求,会依次处理这些请求,每个请求都会按照先后顺序被执行,不会同时处理多个请求。使得Redis能够避免多线程并发访问数据…

大语言模型应用指南:以ChatGPT为起点,从入门到精通的AI实践教程

目录 前言ChatGPT问世和发展展望未来大语言模型应用指南 特点大语言模型应用指南 主要内容 前言 在20世纪末和21世纪初,人类经历了两次信息革命的浪潮。 第一次是互联网时代的兴起,将世界各地连接在一起,改变了人们获取信息和交流的方式。 …

Nobe.js的安装与配置

1. **下载**:访问Node.js官网,选择适合自己操作系统的安装包进行下载。 2. **安装**:双击下载好的安装包并按照提示进行安装。在安装过程中,可以选择自定义安装路径,并确保勾选接受许可协议。 3. **环境变量配置**&…

函数式接口及Stream流式计算

一、什么是函数式接口 只有一个方法的接口,例如 FunctionalInterface public interface Runnable { public abstract void run(); }二、Function函数式接口:有一个输入参数,有一个输出 三、断定型接口:有一个输入参数&#xf…

YOLO如何入门?

入门 YOLO 目标检测算法,你可以遵循以下步骤: 1. 理解目标检测的基本概念:了解目标检测在计算机视觉中的作用,以及它如何帮助识别和定位图像中的对象。 2. 学习基础的机器学习和深度学习知识:熟悉基础的机器学习算法…

使用rsync建立MySQL从节点

使用场景:MySQL主节点存储较大,使用xtrabackup会遇到异常的情况 前置条件:node-01 与 node-02 做过ssh互信,rsync客户端均已安装,主节点开启binlog node-01 原主节点,数据存放目录为 /var/lib/mysql node-0…

Bin-什么是wafer sorting及相关方案

在半导体行业中,"wafer分bin"(或称为wafer sorting)是指根据晶圆上的芯片在测试过程中的性能参数,将它们分类到不同的性能等级或"bin"中。这个过程对于确保最终产品的性能和质量至关重要。以下是wafer分bin业务的介绍和相关方案: 01、业务介绍: 1. …

语音驱动AI人脸动画

目录 audio2face FaceFormer 语音驱动 3D人脸动画 MODA 基于人脸关键点的语音驱动单张图数字人生成(ICCV2023) sadTalker 从音频中生成3DMM的头部姿势和表情 Media2Face 还没开源 audio2face https://github.com/FACEGOOD/FACEGOOD-Audio2Face/tr…

《ElementPlus 与 ElementUI 差异集合》el-select 显示下拉列表在 Cesium 场景中无法监听关闭

前言 仅在 Element UI 时有此问题,Element Plus 由于内部结构差异较大,不存在此问题。详见《el-select 差异点,如:高、宽、body插入等》; 问题 点击空白处,下拉列表可监听并关闭;但在 Cesium…

【js】解决自动生成颜色时相邻颜色视觉相似问题的技术方案

解决自动生成颜色时相邻颜色视觉相似问题的技术方案 在进行大规模颜色生成时,特别是在数据可视化、用户界面设计等应用领域,一个常见的挑战是确保相邻颜色在视觉上具有足够的区分度。本文介绍的方法通过结合黄金分割比与饱和度、亮度的周期性变化&#…

数据分析_时间维度对比及变化可视化分析(Pandas和Matplotlib)

数据分析_时间维度对比及变化可视化分析(Pandas和Matplotlib) 分析维度包括: 各年度合计销量 各年度合计销售额 各年度平均每公斤销售额 各月度销量对比 各月度销售额变化 构建测试数据 这里你可以了解到: 如何生成时间相关的数据。 如何从列表(可迭代对象…

Linux多进程(二)进程通信方式一 管道

管道的是进程间通信(IPC - InterProcess Communication)的一种方式,管道的本质其实就是内核中的一块内存(或者叫内核缓冲区),这块缓冲区中的数据存储在一个环形队列中,因为管道在内核里边,因此我们不能直接…

Vue 双向绑定、diff和nextTick原理

前言 什么是虚拟dom virtual DOM 虚拟DOM,用普通js对象来描述DOM结构,因为不是真实DOM,所以称之为虚拟DOM。 虚拟 dom 是相对于浏览器所渲染出来的真实 dom而言的,在react,vue等技术出现之前,我们要改变页面…

LabVIEW专栏八、类

该章目的是可以开发仪器类。 一、类的概述 一般来说类有三大特性,封装,继承和多态。 在实际项目中,最主要是继承和多态,要搞清楚这两者的概念和在LabVIEW中是怎样应用的。在LabVIEW中,面向对象编程用到的就是LabVIE…

Mac 上可以使用 ping 端口

在 Mac 上可以使用 ping 命令来检查与另一台计算机或网络设备的连通性。要 ping 一个端口,你需要使用另一个命令 nc(也称为 netcat)。 例如,假设你想要 ping 端口 8080(通常用于 HTTP 代理服务器)&#xf…