【Python爬虫实战】深入解析 Scrapy:从阻塞与非阻塞到高效爬取的实战指南

  🌈个人主页:易辰君-CSDN博客
🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html

目录

前言

一、阻塞和非阻塞

(一)阻塞

(二)非阻塞

二、Scrapy的工作流程

三、Scrapy每个模块的具体作用

(一)Engine引擎

(二)Scheduler调度器

(三)Downloader下载器

(四)Spider爬虫

(五)Item Pipeline数据管道

(六)Downloader Middlewares下载中间件

(七)Spider Middlewares爬虫中间件

(八)Extensions扩展

(九)Item数据对象

(十)Signals信号

四、Scrapy的入门使用

(一)安装 Scrapy

(二)创建 Scrapy 项目

(三)编写爬虫

(四)运行爬虫

(五)保存数据

(六)常见配置修改

(七)调试与扩展

五、总结


前言

在大数据时代,网络爬虫成为获取信息的重要工具,而 Scrapy 是其中的佼佼者。作为一个功能强大且高效的 Python 爬虫框架,它不仅支持复杂的网页抓取,还能通过非阻塞的异步机制极大提升爬取性能。然而,许多人在初学时常常被阻塞与非阻塞的概念以及 Scrapy 的模块化设计弄得一头雾水。这篇文章将从基础的阻塞与非阻塞概念出发,逐步深入解析 Scrapy 的工作流程和模块作用,最后通过一个完整的入门实例,帮助你快速掌握这款高效爬虫框架。


一、阻塞和非阻塞

在学习 Scrapy 时,理解阻塞和非阻塞是非常重要的,这直接影响到爬虫的性能和并发能力。

(一)阻塞

阻塞是指代码在执行某个操作时,会等待这个操作完成后,才会继续执行后续的代码。

  • 特点:代码会暂停,直到当前任务完成,其他任务会因此被延迟。

  • 缺点:在网络爬虫中,阻塞的网络请求会降低效率。例如,如果某个请求需要 2 秒才能返回数据,这 2 秒内程序不能做其他任何事情。

示例:

import timedef blocking_example():print("任务开始")time.sleep(2)  # 模拟阻塞操作print("任务完成")blocking_example()

输出:

任务开始
(等待2秒)
任务完成

在爬虫中,如果你使用了阻塞的网络请求库(例如 requests),程序会等待每个请求完成后才继续处理下一个请求。

(二)非阻塞

非阻塞是指代码不会等待某个操作完成,而是直接继续执行其他代码。

  • 特点:异步任务可以被调度,程序不会因单个任务的延迟而停滞。

  • 优点:在 Scrapy 中,非阻塞机制允许同时发出多个网络请求,大幅提高爬取速度。

异步调用示例:

import asyncioasync def non_blocking_example():print("任务开始")await asyncio.sleep(2)  # 模拟非阻塞操作print("任务完成")asyncio.run(non_blocking_example())

输出:

任务开始
(任务等待中,但主线程未阻塞)
任务完成

在爬虫中,Scrapy 利用了 Twisted 框架的异步特性来管理非阻塞 I/O,使得多个请求可以同时进行。


二、Scrapy的工作流程

Scrapy 的工作流程可以分为以下关键步骤,每个步骤紧密配合以实现高效的爬取和解析:

  • 引擎启动
    Scrapy 引擎负责协调各个模块的工作,包括调度器、下载器和爬虫代码。它是 Scrapy 的核心。

  • 调度器调度请求
    引擎将初始的请求发送给调度器。调度器按优先级对请求进行排序,并将它们排队等待执行。

  • 下载器下载页面
    调度器将请求发送给下载器,下载器负责根据请求的 URL 抓取对应的网页内容。

  • 爬虫处理响应
    下载的页面内容被传回引擎,并交给爬虫的回调函数(如 parse 方法)进行处理。爬虫提取所需数据并生成新的请求(递归爬取)。

  • 解析与提取

    • 提取到的数据会被交给 Item Pipeline 进一步清洗、验证和存储,如存入数据库或文件。

    • 中间件在请求和响应过程中允许对内容进行额外处理,如添加 headers、代理、错误处理等。

  • 循环重复
    生成的新请求再次交给调度器,重复上述流程,直到所有请求完成。

工作流程总结:

  1. 爬虫将初始请求发送给引擎。

  2. 引擎将请求传递给调度器。

  3. 调度器按优先级将请求发送给引擎。

  4. 引擎将请求传递给下载器。

  5. 下载器获取网页内容并返回响应。

  6. 引擎将响应发送给爬虫。

  7. 爬虫解析响应,生成数据和新的请求。

  8. 数据经过管道处理后存储,新的请求被传回调度器。


三、Scrapy每个模块的具体作用

Scrapy 是一个流行的 Python 爬虫框架,由多个模块组成,各模块协同工作以实现高效的数据抓取和处理。以下是 Scrapy 中各模块的具体作用:

(一)Engine引擎

  • 作用:

    • Scrapy 的核心模块,负责协调其他组件之间的工作流。

    • 它根据预定义的爬取规则控制数据流在框架内的流转,包括调度器、下载器、爬虫以及管道之间的交互。

  • 主要职责:

    • 处理调度器队列中的请求。

    • 将请求发送到下载器。

    • 接收下载器的响应并将其传递给爬虫。

    • 从爬虫中获取新的请求或 Item 并传递给相应组件。

(二)Scheduler调度器

  • 作用:

    • 用于管理请求队列。

    • 确保请求的优先级和去重,避免重复抓取相同的 URL。

  • 主要职责:

    • 接收引擎发来的请求。

    • 按照优先级对请求进行排序。

    • 将下一个请求交回给引擎。

(三)Downloader下载器

  • 作用:

    • 负责将调度器传来的请求发送到目标网站并获取网页内容。

  • 主要职责:

    • 执行 HTTP/HTTPS 请求。

    • 处理网络请求相关的中间件(如代理、用户代理设置)。

    • 返回网站响应(如 HTML、JSON 数据)。

(四)Spider爬虫

  • 作用:

    • 用户定义爬取逻辑的核心模块。

    • 从下载器传递的响应中提取所需的数据和后续需要爬取的 URL。

  • 主要职责:

    • 编写爬取规则(解析页面,提取数据,生成新的请求)。

    • 将提取的数据传递给 Item Pipeline 或调度器。

(五)Item Pipeline数据管道

  • 作用:

    • 用于对提取到的数据进行进一步处理(清理、验证、存储)。

  • 主要职责:

    • 接收 Spider 提取的数据(Item)。

    • 对数据进行清洗、去重、校验。

    • 存储数据到数据库、文件或其他目标位置。

(六)Downloader Middlewares下载中间件

  • 作用:

    • 位于引擎与下载器之间,用于对请求和响应进行处理。

    • 常用于修改请求头、设置代理、处理验证码等功能。

  • 主要职责:

    • 对即将发送的请求进行修改。

    • 对下载后的响应进行预处理。

(七)Spider Middlewares爬虫中间件

  • 作用:

    • 位于引擎和 Spider 之间,用于对 Spider 的输入和输出数据进行处理。

  • 主要职责:

    • 过滤、修改或扩展 Spider 输入的响应。

    • 处理 Spider 输出的请求或 Item。

(八)Extensions扩展

  • 作用:

    • 用于提供额外功能,例如日志记录、性能监控、信号处理等。

  • 主要职责:

    • 扩展 Scrapy 功能,例如设置超时重试、统计抓取进度等。

(九)Item数据对象

  • 作用:

    • 定义抓取的数据结构。

  • 主要职责:

    • 用于描述从网页中提取的数据字段及其属性。

(十)Signals信号

  • 作用:

    • 用于框架内事件的订阅与触发,便于实现钩子机制。

  • 主要职责:

    • 处理事件通知,如爬虫开始、爬虫结束、异常发生等。


四、Scrapy的入门使用

Scrapy 的入门使用主要包括安装、创建项目、编写爬虫以及数据保存等基本步骤。以下是详细流程:

(一)安装 Scrapy

使用 pip 安装:

pip install scrapy

确认安装成功:

scrapy --version

(二)创建 Scrapy 项目

创建一个新的项目:

scrapy startproject myproject

项目结构:

myproject/├── myproject/          # 项目模块│   ├── __init__.py│   ├── items.py        # 定义数据结构│   ├── middlewares.py  # 中间件│   ├── pipelines.py    # 数据管道│   ├── settings.py     # 配置文件│   └── spiders/        # 爬虫目录└── scrapy.cfg          # 项目配置

(三)编写爬虫

进入项目目录:

cd myproject

创建爬虫:

scrapy genspider example example.com

修改 spiders/example.py,示例爬取 quotes.toscrape.com:

import scrapyclass ExampleSpider(scrapy.Spider):name = 'example'start_urls = ['http://quotes.toscrape.com']def parse(self, response):for quote in response.css('div.quote'):yield {'text': quote.css('span.text::text').get(),'author': quote.css('span small.author::text').get(),'tags': quote.css('div.tags a.tag::text').getall(),}

(四)运行爬虫

执行命令运行爬虫:

scrapy crawl example

(五)保存数据

直接保存爬取结果为 JSON、CSV 或 XML 文件:

scrapy crawl example -o output.json

(六)常见配置修改

修改 settings.py

DOWNLOAD_DELAY = 2

启用 User-Agent:

USER_AGENT = 'myproject (+http://www.example.com)'

(七)调试与扩展

使用调试工具检查 CSS 或 XPath 选择器:

scrapy shell 'http://quotes.toscrape.com'

在管道、下载中间件或扩展中实现更复杂功能。

五、总结

Scrapy 是一个以模块化、异步非阻塞为核心的爬虫框架,通过精细的组件协作,提供了高效抓取、数据处理和存储的能力。从理解阻塞与非阻塞的机制,到掌握 Scrapy 的引擎、调度器、下载器和中间件的作用,再到编写第一个爬虫,完整的流程让你从零起步,逐步进入 Scrapy 的世界。熟悉这些模块和配置后,你将不仅能快速构建爬虫项目,还能在复杂场景中灵活应对,实现数据抓取的高效化与专业化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/62107.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算(a+b)/c的值

计算(ab)/c的值 C语言代码C语言代码Java语言代码Python语言代码 💐The Begin💐点点关注,收藏不迷路💐 给定3个整数a、b、c,计算表达式(ab)/c的值,/是整除运算。 输入 输入仅一行&…

技术文档的高质量翻译对俄罗斯汽车推广的影响

进入新市场需要的不仅仅是一个伟大的产品;它要求深入了解当地消费者的期望、法规和文化差异。对于希望在俄罗斯取得成功的国际汽车制造商来说,技术文件的质量是一个关键因素。手册、规范和服务指南在产品和用户之间形成了直接的桥梁,影响着客…

网络安全事件管理

一、背景 信息化技术的迅速发展已经极大地改变了人们的生活,网络安全威胁也日益多元化和复杂化。传统的网络安全防护手段难以应对当前繁杂的网络安全问题,构建主动防御的安全整体解决方案将更有利于防范未知的网络安全威胁。 国内外的安全事件在不断增…

c++:面向对象三大特性--继承

面向对象三大特性--继承 一、继承的概念及定义(一)概念(二)继承格式1、继承方式2、格式写法3、派生类继承后访问方式的变化 (三)普通类继承(四)类模板继承 二、基类和派生类的转换&a…

【C语言】web workers

请解释一下什么是Web Workers,以及它在哪些场景下会被使用。 Web Workers是一种HTML5技术,它允许在浏览器后台线程中运行脚本,从而实现了JavaScript的异步处理。Web Workers创建了独立于主线程的执行上下文,可以执行计算密集型任…

关于网络安全攻防知识

DNS 劫持 什么是DNS劫持? DNS劫持又叫域名劫持,(劫持了路由器或域名服务器等),篡改了域名的解析结果,使得指向该域名的IP指向IP,你想访问正经网站结果给你跳到一个不正经的网站,实现…

基于Boost库的搜索引擎

本专栏内容为:项目专栏 💓博主csdn个人主页:小小unicorn ⏩专栏分类:基于Boots的搜索引擎 🚚代码仓库:小小unicorn的代码仓库🚚 🌹🌹🌹关注我带你学习编程知识…

Pgsql:json字段查询与更新

1.查询json字段的值 SELECT attribute_data->>设施类别 mycol, * FROM gis_coord_data WHERE attribute_data->>设施类别阀门井 查询结果如下: 2.更新json字段中的某个属性值 UPDATE gis_coord_data SET attribute_data(attribute_data::jsonb ||{&quo…

【eNSP】动态路由协议RIP和OSPF

动态路由RIP(Routing Information Protocol,路由信息协议)和OSPF(Open Shortest Path First,开放式最短路径优先)是两种常见的动态路由协议,它们各自具有不同的特点和使用场景。本篇会对这两种协…

Linux——基础命令(1)

目录 一、认识Linux 终端命令格式 查阅命令帮助信息 -help 辅助操作 自动补全 清屏和查看当前工作目录 二、基本命令 文件和目录常用命令 1.ls-查看文件与目录 2.cd切换目录 (1)touc创建文件或修改文件时间 (2)mkdir创…

leetcode - LRU缓存

什么是 LRU LRU (最近最少使用算法), 最早是在操作系统中接触到的, 它是一种内存数据淘汰策略, 常用于缓存系统的淘汰策略. LRU算法基于局部性原理, 即最近被访问的数据在未来被访问的概率更高, 因此应该保留最近被访问的数据. 最近最少使用的解释 LRU (最近最少使用算法), 中…

基于springboot的HttpClient、OKhttp、RestTemplate对比

HttpClient详细 Httpclient基础&#xff01;&#xff01;&#xff01;&#xff01;实战训练&#xff01;&#xff01;&#xff01;&#xff01;-CSDN博客 OKhttp使用 OKhttp导包 <!-- ok的Http连接池 --><dependency><groupId>com.squareup.okhttp3</g…

【Python】九大经典排序算法:从入门到精通的详解(冒泡排序、选择排序、插入排序、归并排序、快速排序、堆排序、计数排序、基数排序、桶排序)

文章目录 1. 冒泡排序&#xff08;Bubble Sort&#xff09;2. 选择排序&#xff08;Selection Sort&#xff09;3. 插入排序&#xff08;Insertion Sort&#xff09;4. 归并排序&#xff08;Merge Sort&#xff09;5. 快速排序&#xff08;Quick Sort&#xff09;6. 堆排序&…

【PyTorch】(基础三)---- 图像读取和展示

图像读取和展示 pytorch本身并不提供图像的读取和展示功能&#xff0c;利用pytorch执行计算机视觉任务的时候&#xff0c;通常是利用opencv等工具先进行图像处理&#xff0c;然后将结果转化成tensor类型传递给pytorch&#xff0c;在pytorch执行之后&#xff0c;也可以将tensor…

Diffusion异常检测相关论文及代码整理

扩散模型&#xff08;Diffusion Models&#xff09;是一种生成模型&#xff0c;广泛用于图像生成、文本生成等领域。在异常检测任务中&#xff0c;扩散模型也可以被用来识别和检测异常数据点。该文章对近几年利用扩散模型进行异常检测的文章进行了整理&#xff1a; 2024 1. A…

蓝桥杯c++算法秒杀【6】之动态规划【下】(数字三角形、砝码称重(背包问题)、括号序列、异或三角:::非常典型的必刷例题!!!)

别忘了请点个赞收藏关注支持一下博主喵&#xff01;&#xff01;&#xff01;! ! ! ! &#xff01; 关注博主&#xff0c;更多蓝桥杯nice题目静待更新:) 动态规划 三、括号序列 【问题描述】 给定一个括号序列&#xff0c;要求尽可能少地添加若干括号使得括号序列变得合…

LLM PPT Translator

LLM PPT Translator 引言Github 地址UI PreviewTranslated Result Samples 引言 周末开发了1个PowerPoint文档翻译工具&#xff0c;上传PowerPoint文档&#xff0c;指定想翻译的目标语言&#xff0c;通过LLM的能力将文档翻译成目标语言的文档。 Github 地址 https://github.…

三格电子—EtherNet IP转Modbus RTU网关

EtherNet/IP转Modbus RTU网关 SG-EIP-MOD-210 产品用途 SG-EIP-MOD-210网关可以实现将Modbus接口设备连接到 EtherNet/IP网络中。用户不需要了解具体的Modbus和 EtherNet/IP协议即可实现将Modbus设备挂载到 EtherNet/IP接口的PLC上&#xff0c;并和Modbus设备进行数据交互。拓…

【计算机网络】核心部分复习

目录 交换机 v.s. 路由器OSI七层更实用的TCP/IP四层TCPUDP 交换机 v.s. 路由器 交换机-MAC地址 链接设备和设备 路由器- IP地址 链接局域网和局域网 OSI七层 物理层&#xff1a;传输设备。原始电信号比特流。数据链路层&#xff1a;代表是交换机。物理地址寻址&#xff0c;交…

前端网络请求:从 XMLHttpRequest 到 Axios

​&#x1f308;个人主页&#xff1a;前端青山 &#x1f525;系列专栏&#xff1a;Vue篇 &#x1f516;人终将被年少不可得之物困其一生 依旧青山,本期给大家带来Vue篇专栏内容:前端网络请求&#xff1a;从 XMLHttpRequest 到 Axios 前言 在网络应用中&#xff0c;前后端的数据…