scrapy框架核心知识Spider,Middleware,Item Pipeline,scrapy项目创建与启动,Scrapy-redis与分布式

scrapy项目创建与启动

创建项目

在你的工作目录下直接使用命令:

scrapy startproject scrapytutorial

运行后创建了一个名为scrapytutorial的爬虫工程

创建spider

在爬虫工程文件内,运行以下命令:

scrapy genspider quotes

创建了名为quotes的爬虫

修改爬虫代码,实现自己想要的爬虫逻辑

启动爬虫

在爬虫项目目录下,运行:

scrapy crawl quotes

即可运行爬虫

Spider

在scrapy中,网站的链接配置抓取逻辑解析逻辑都是在spider内配置。

在这里插入图片描述

start_requests

分析以下简单的爬虫代码:

import scrapyclass HttpbinspiderSpider(scrapy.Spider):# 定义 Spider 的名称name = "httpbinspider"# 设置允许爬取的域名allowed_domains = ["www.httpbin.org"]# 定义起始 URLstart_uri = 'https://www.httpbin.org/get'# 定义 Spider 的起始请求def start_requests(self):# 使用循环生成多个请求,这里生成了 1 到 5 的 offset 参数for offset in range(1, 6):url = self.start_uri + f'?offset={offset}'# 生成请求,并指定回调函数为 parse# 同时将 offset 通过 meta 传递给回调函数yield scrapy.Request(url, callback=self.parse, meta={'offset': offset})# 定义数据处理逻辑def parse(self, response):# 打印 offset 和响应文本print(f"===============offset {response.meta['offset']}=========")print(response.text)# 打印 meta 数据,这里包含了在 start_requests 中传递的 offsetprint(response.meta)

这里我重写了start_requests方法,使用scrapy.Request构造了5个GET请求,并使用yield方法发送到下载器用于下载,同时指定了响应的解析回调函数,并通过meta参数传递offset参数。

简要说明:
name:定义 Spider 的名称。
allowed_domains:定义允许爬取的域名。
start_uri:定义起始 URL。
start_requests:生成起始请求,使用循环生成多个带有不同 offset 参数的请求,每个请求的回调函数是 parse。
parse:处理响应的回调函数,打印 offset、响应文本和 meta 数据。

spider发送GET请求

使用scrapy.Request(url=url)
scrapy.Request(method=‘GET’,url=url)
发送GET请求,查询参数建议拼接在url内。

spider发送POST请求

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/652452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python在无人机器人

Python在无人机器人战争研发开发中具有重要性,主要体现在以下几个方面: 简洁易懂的语法:Python语法简洁易懂,容易上手,使得开发人员能够快速构建无人机器人应用程序,并且减少编码错误的可能性。 强大的科学…

【分治专题】详解快排类型4道题

本文讲解分治下的快排类型的4道题,在讲解题目的同时提供AC代码,点击题目即可打开对应链接 目录 1、颜色分类 2、排序数组 3、数组中的第K个最大元素 4、库存管理 III 1、颜色分类 解法(快排思想--三指针法使数组分三块)&…

专业建设数字平台

专业建设数字平台,遵循以学生发展为中心、以产出为导向的OBE理念,大数据赋能人才培养全过程管理,支撑专业数字化建设与专业认证等专项工作,平台围绕学院与专业建设中人才培养方案制定的顶层设计工作及全流程、全场景业务&#xff…

ARM常用汇编指令

文章目录 前言一、处理器内部数据传输指令MOV: 将数据从一个寄存器复制到另一个寄存器。MRS: 将特殊寄存器(CPSR,SPSR)中的数据传给通用寄存器。MSR: 将通用寄存器中的数据传给特殊寄存器(CPSR,SPSR)。 二、存储器访问指令LDR:用于从内存中加…

网路服务器——线程池技术

文章目录 一、线程池技术二、使用原理三、优点总结 一、线程池技术 预创建原则,线程池内部准备线程备用, 不宜过多。线程应该重用性,可以一对多处理任务或服务不同的客户端。处理单元(线程)数量并不固定,动态扩容与缩减(任务量)。…

力扣面试题 16.06. 最小差

Problem: 面试题 16.06. 最小差 文章目录 题目描述思路即解法复杂度Code 题目描述 思路即解法 注意本题目的数据范围!!! 1.对数组a与数组b进行排序;获取a与b的数组长度aLen,bLen,定义一个long类型的变量min; 2.分别让两个指针i,j指向数组的开…

Acwing---791. 高精度加法(减、乘、除、取余)——整数

高精度加法 1.题目2.基本思想3.代码实现4.总结 1.题目 给定两个正整数(不含前导 0),计算它们的和。 输入格式 共两行,每行包含一个整数。 输出格式 共一行,包含所求的和。 数据范围 1 ≤ 整数长度 ≤ 100000 1≤整…

56. 合并区间 - 力扣(LeetCode)

题目描述 以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 题目示例 输入:intervals [[1,3…

LeNet跟LeNet5详解

1 LeNet结构 主要是为了手写数字识别 具体结构讲解:从图中例子可得 1 先传入一个灰度图像尺寸为1x28x28,通道数为1,尺寸为28x28的灰度图像 2 第一层5x5卷积,经过公式 输入图像尺寸-卷积核尺寸2padding/步长1,&#…

༺༽༾ཊ—设计-抽象-05-工厂-模式—ཏ༿༼༻

名称:抽象工厂 类型:创建型 目的:当有多个抽象角色时使用的一种工厂模式。 抽象工厂模式可以向客户端提供一个接口,使 客户端在不必指定产品的具体情况下,创建多个产品族中的产品对象。 优点&#xf…

Linux第38步_编译“正点原子移植好的uboot”

uboot的全称是Universal Boot Loader,uboot是一个遵循GPL协议的开源软件,uboot是一个裸机代码,可以看作是一个裸机综合例程。现在的 uboot 已经支持液晶屏、网络、USB等高级功能。 uboot官方的uboot源码是给所有的半导体厂商准备的。ST公司会…

v38.恒星金字塔

1.循环嵌套 1.1矩阵(i,j) i行 j列 将矩阵与循环嵌套结合起来: 2.2.于是,金字塔就是

【Docker】Docker学习⑥ - 网络部分

【Docker】Docker学习⑥ - 网络部分 一、Docker简介二、Docker安装及基础命令介绍三、Docker镜像管理四、Docker镜像与制作五、Docker数据管理六、网络部分1 docker结合负载实现网站高可用1.1 安装并配置keepalived1.2 安装并配置haproxy1.3 服务器启动nginx容器并验证 2 容器之…

文旅游戏的多元应用场景

文旅游戏在各个领域中找到了广泛的应用,为用户提供了独特的文化体验和娱乐享受。下面将探讨文旅游戏在多个应用场景中的丰富表现。 1. 旅游推广与目的地引导 文旅游戏成为旅游局的一项有力工具,能够将目的地的历史、文化和特色景点巧妙地融入游戏中。通…

基于QC-LDPC编码的循环移位网络的FPGA实现

一、桶式移位寄存器(barrel shifter) 八位桶式移位寄存器的VHDL实现如下,由于每一层结构相似,于是采用生成语句for_generate实现,使用该代码实现的RTL级分析和理论的结构一致,仿真结果也符合预期。 entity barrel_shift isGENE…

从关键新闻和最新技术看AI行业发展(2024.1.15-1.28第十五期) |【WeThinkIn老实人报】

Rocky Ding 公众号:WeThinkIn 写在前面 【WeThinkIn老实人报】旨在整理&挖掘AI行业的关键新闻和最新技术,同时Rocky会对这些关键信息进行解读,力求让读者们能从容跟随AI科技潮流。也欢迎大家提出宝贵的优化建议,一起交流学习&…

GEE数据集——MOD13A1.006Terra星搭载的中分辨率成像光谱仪获取的L3级植被指数产品

数据名称: MOD13A1.006 Modis 16天 Terra 500m 数据来源: NASA 时空范围: 2000-2022年 空间范围: 全国 波段 名称波段单位最小值最大值比例因子波长描述NDVIB1NDVI-2000100000.0001Normalized Difference Vegetation…

Modern C++ std::shared_ptr::reset()的实现原理

reset的实现 reset是一个常用的shared_ptr函数,文档请参考链接。 shared_ptr自己没有实现reset,而是基类__shared_ptr实现的: 1287 template<typename _Yp> 1288 _SafeConv<_Yp> 1289 reset(_Yp* __p) // _Yp must be complete. 1290 {1291…

for循环里i++和++i的区别

主要有以下三个区别&#xff1a; 1、i是先改变i的值即加1后再使用i的值&#xff1b;而i是先使用i的值在改变它的值即加。 2、for循环内部仅形式不同&#xff1a;当i循环和i循环在for循环内部&#xff0c;虽然形式上明显不同&#xff0c;但输出结果可以一样。 public static …

“群载波”全频强插无线应急广播在高速公路交通管控中的应用

一、“群载波”全频强插应急广播系统基本概念 群载波应急广播系统的技术是北京恒星科通科技发展有限公司技术总监刘军先生多年从事无线通信与应急通信产品的研发&#xff0c;突破传统无线电理论&#xff0c;开创性地提出了“群载波”通信理论&#xff0c;并亲自投入很大精力潜心…