Scrapy 核心组件之Spiders组件的使用

 Spiders 组件是 Scrapy 框架的核心组件,它定义了网络爬虫抓取网站数据的方式,其中包 括抓取的动作,如是否跟进链接,以及如何从网页内容中提取结构化数据。换言之,Spiders 组件用于定义抓取网页数据的动作及解析网页数据。

编程梦想家(大学生版)-CSDN博客

那么,Spiders 组件是如何循环抓取所有网页数据的呢?对于使用 Scrapy 编写的爬虫来说,

循环抓取网页数据的流程分为如下 4 个步骤。
(1) 根据初始 URL 创建 Request ,并设置回调函数。当该 Request 设置完毕后返回 Response
并将 Response 作为参数传递给该回调函数。需要说明的是,爬虫中初始的 Request 是通过调
start_requests() 方法获取的,在该方法中读取 start_urls 中的 URL ,并以 parse() 方法作为回
调函数生成 Request
(2) 在回调函数中分析返回的内容。返回的内容主要有 Item 对象、 Request 对象两种形
式。其中, Request 对象会经过 Scrapy 处理,下载相应的内容,并调用设置的回调函数。
(3) 在回调函数中,可以使用 Selectors Scrapy 自带的选择器,用于从网页源代码中提
取数据)、 Beautiful Soup lxml 或其他解析器来解析网页数据,并根据解析的数据生成 Item
(4) Spiders 返回的 Item 数据经 Item Pipeline 组件处理后存储到数据库或文件中。
虽然以上步骤对大多数 Spiders 都适用,但 Scrapy 仍然为不同的采集需求提供了多种默认
Spiders ,例如 10.5 节即将介绍的 CrawlSpider 类。
        Scrapy 框架提供了 Spider 作为爬虫的基类,自定义的爬虫需要继承这个类。 scrapy.Spider
类的常用属性和方法介绍如下。
  •  name 属性:设置爬虫名称的字符串。由于爬虫名称用于被 Scrapy 定位和初始化一个 爬虫,所以它必须是唯一的。通常情况下,我们会将待抓取网站的域名作为爬虫名称。例如, 抓取域名为 mywebsite.com 网站的爬虫被命名为 mywebsite
  • allowed_domains 属性:设置爬虫允许抓取的域名列表。
  •  start_urls 属性:表示初始 URL 元组或列表。当没有指定 URL 时,爬虫会从该列表中
  • 开始抓取。
  •  __init__()方法:负责初始化爬虫名称和初始 URL 列表。
  •  start_requests()方法:负责生成 Requests 对象,交给 Scrapy 下载并返回 Responsestart_requests()方法的返回值是一个可迭代对象,该对象中包含了爬虫抓取的第一个 Request 对象,默认使用初始 URL 列表中的第一个 URL。  
  • parse(response)方法:负责解析 Response,并返回 Item Requests(需指定回调函数)。 Item 传给 Item Pipeline 组件进行持久化存储,而 Requests 则交由 Scrapy 下载,并由指定的回 调函数(默认为 parse())处理。之后会持续循环,直到处理完所有的数据为止。
  •  log(message[level, component])方法:负责发送日志信息。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/872037.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IGBT参数学习

IGBT(绝缘栅双极晶体管(Insulated Gate Bipolar Transistor))的内部架构如下所示: IGBT是个单向的器件,电流只能朝一个方向流动,通常IGBT会并联一个续流二极管 IGBT型号:IKW40N120T2 IKW40N120T2 电路符号…

ICPC铜牌算法

铜牌算法 2021ICPC上海站 铜牌开题: D:数学思维构造 E:贪心思维 G:树形dp H:图论克鲁斯卡尔重构树 I:背包dp K:思维构造2021ICPC沈阳站 铜牌开题: B:并查集 E:字符串简单查找 F:字符串简单构造模拟 J:BFS预处理2021ICPC南京站 铜牌开题: A:思维 C:暴力均摊stl D:贪心暴力…

【代码规范】.train(False)和.eval()的相似性和区别

【代码规范】.train(False)和.eval()的相似性和区别 文章目录 一、.train(False) 和 .eval() 的功能二、.train(False) 和 .eval() 的区别2.1 .eval()2.2 .train(False)2.3 总结 三、.eval()更加规范 一、.train(False) 和 .eval() 的功能 .train(False) 和 .eval() 在功能上非…

Centos7 安装Redis6.2.6 gcc报错问题解决

Redis 报错信息 make: *** [all] 错误 2 安装gcc 修改yum源,在安装更新rpm包时获得比较理想的速度,走阿里云镜像通道 发现报错信息如下: 正在解析主机 mirrors.aliyun.com (mirrors.aliyun.com)… 失败:未知的名称或服务。 wget: 无法解析主机地址 “mi…

LLM:学习清单 ing

根据模型的数据流程方向和自己的经验列出: 一、模型输入 分词器:BPE,BBPE 位置编码:绝对位置编码,三角函数编码,ROPE 词向量模型:词袋,监督学习模型;BGE,BC…

数据中心内存RAS技术发展背景

随着数据量的爆炸性增长和云计算的普及,数据中心内存的多比特错误及由无法纠正错误(UE)导致的停机问题日益凸显,这些故障不仅影响服务质量,还会带来高昂的修复或更换成本。随着工作负载、硬件密度以及对高性能要求的增加,数据中心…

01--IptablesFirewalld详解

前言:这里写一下,前面文章里都是直接关闭然后实验,感觉这样有点草率,这里写一下大概的概念和用法,作为知识的补充,这章写轻松点,毕竟是网安毕业的,算是给自己放松一下吧。 1、iptabl…

RK3568笔记三十八:DS18B20驱动开发测试

若该文为原创文章,转载请注明原文出处。 DS18B20驱动参考的是讯为电子的单总线驱动第十四期 | 单总线_北京迅为的博客-CSDN博客 博客很详细,具体不描述。 只是记录测试下DS18B20读取温度。 一、介绍 流程基本和按键驱动差不多,主要功能是…

asio之fd_set_adapter

简介 fd_set_adapter是对fd_set的封装 fd_set_adapter 是不同平台fd_set的别名 #if defined(BOOST_ASIO_WINDOWS) || defined(__CYGWIN__) typedef win_fd_set_adapter fd_set_adapter; #else typedef posix_fd_set_adapter fd_set_adapter; #endifposix_fd_set_adapter l…

为什么要做USB转多路UART项目 - 技术角度

前言 之前专门为USB转多路UART项目写了个序,提到了技术方案原因,这个文章打算展开讲一下。 一、工业物联网关 最初是因为有个工业物联网关的项目,需要出多路RS485接口,每路外接几十个三相电表PLC之类的电力电子设备。其中一款需…

构建艺术:精通Gradle依赖替换的策略与实践

构建艺术:精通Gradle依赖替换的策略与实践 在软件开发的构建过程中,依赖管理是确保项目顺利进行的关键环节。Gradle,作为一款强大的构建工具,提供了灵活的依赖管理功能,包括依赖替换,这使得开发者能够精细…

【论文极速读】 可微分检索索引(Differential Search Index, DSI)

【论文极速读】 可微分检索索引(Differential Search Index, DSI) FesianXu 20240714 at WeChat Search Team 前言 最近从朋友处得知了DSI这个概念,所谓的可微分检索索引DSI,就是通过语言模型将检索过程中的索引和召回…

​低学历的的程序员如何逆袭?​

​低学历的的程序员如何逆袭?​ 我在领英上看到一篇文章《低学历者逆袭成功的概率是多少》,该文章将低学历与不读书化等号。 事实上低学历与是否读书并无半点关系,这跟在寺庙里念经还是在家修行一个道理。另外知识的获取已经不仅仅限于读书一种,你可以从多种渠道获得知识…

pixelRNN与pixelCNN

目的:为了找到一个最能解释得到的生成样本的模型 PixelRNN 我们需要利用概率链式法则将图像x的生成概率转变为每个像素生成概率的乘积,也就是每个通道生成概率的乘积。 公式: 公式解释:p(x)是每个图像x的概率;右侧为…

浅聊授权-spring security和oauth2

文章目录 前言自定义授权spring security授权oauth2授权概述 前言 通常说到授权,就会想到登录授权、token令牌、JWT等概念,授权。顾名思义就是服务器授予了客户端访问资源的权益,那么要实现授权有几种方案呢,三种授权方式在公司项…

c++dll库的制作和使用

01、dll库的创建使用 创建dll项目 dllexport到处 dllimport导入 分别制定dll和lib的生成目录 调用: 包含头文件 常规添加 最后把dll文件拷贝到程序 成功调用

使用Keepalived实现双机热备(虚拟漂移IP地址)详细介绍

🏡作者主页:点击! 🐧Linux基础知识(初学):点击! 🐧Linux高级管理防护和群集专栏:点击! 🔐Linux中firewalld防火墙:点击! ⏰️创作…

linux彻底卸载docker

for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done 要彻底卸载 Docker 及其相关组件,可以按照以下步骤进行操作。请注意,这些步骤会删除 Docker 安装的所有容器、镜…

负载均衡的艺术:Eureka驱动的分布式服务网格负载均衡策略

负载均衡的艺术:Eureka驱动的分布式服务网格负载均衡策略 在微服务架构的复杂网络中,服务的负载均衡是确保系统稳定性和可扩展性的关键。服务网格(Service Mesh)作为微服务间通信的代理层,承担着流量管理、服务发现、…

uniapp发送Form Data格式请求

设置header的Content-Type为 application/x-www-form-urlencoded 即可 uni.request({url: , // 接口urldata: {input: 写一篇一千字的作文}, // 入参method: POST, // 参数类型header: {"Content-Type": "application/x-www-form-urlencoded"}, // 请求头…