python爬虫学习------scrapy第二部分(第三十天)

🎈🎈作者主页: 喔的嘛呀🎈🎈
🎈🎈所属专栏:python爬虫学习🎈🎈
✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 

兄弟姐妹,大家好哇!我是喔的嘛呀。今天我们来学习 scrapy的第二部分。

一、Item Pipelines

在Scrapy框架中,Item Pipeline是一个用于处理爬虫抓取到的数据的关键组件。它负责接收由Spiders(爬虫)提取出的Item(实体),并对这些Item进行进一步的处理,如清洗、验证和持久化等。Item Pipeline提供了灵活的方式,以便将抓取的数据按照我们的需求进行存储或进一步处理。

以下是Item Pipeline的主要作用:

  1. 数据清洗:Pipeline可以对从网页中抓取的数据进行清洗,去除不需要的字符、空格、HTML标签等,确保数据的整洁和一致性。
  2. 数据验证:在将数据持久化之前,Pipeline可以执行验证操作,检查数据是否满足特定的格式或条件。这有助于确保数据的准确性和可靠性。
  3. 持久化存储:Pipeline可以将清洗和验证后的数据保存到数据库(如MySQL、MongoDB等)、文件(如CSV、JSON等)或其他存储系统中。这样,我们可以长期保存并随时访问这些抓取的数据。
  4. 发送数据到外部API:除了存储数据外,Pipeline还可以将数据发送到外部API进行进一步处理或分析。

要编写自定义的Pipeline,你需要遵循以下步骤:

  1. 创建Pipeline类:首先,你需要创建一个继承自scrapy.pipelines.Pipeline的Python类。在这个类中,你可以定义一些方法,如process_item,来处理传入的Item。
  2. 实现process_item方法process_item方法是Pipeline类中的核心方法,它接收一个Item和一个Spider作为参数。在这个方法中,你可以实现数据清洗、验证和持久化等逻辑。
  3. 配置Pipeline:在你的Scrapy项目的settings.py文件中,你需要添加你的Pipeline类的路径到ITEM_PIPELINES设置中,并为其分配一个优先级数字。这个数字决定了Pipeline的执行顺序,数字越小,优先级越高。

下面是一个简单的自定义Pipeline示例:

# myproject/pipelines.py  class MyCustomPipeline(object):  def __init__(self):  # 初始化方法,可以在这里建立数据库连接等  self.connection = ...  def open_spider(self, spider):  # 在Spider打开时调用,可以用于执行一些启动时的任务  pass  def close_spider(self, spider):  # 在Spider关闭时调用,可以用于执行一些清理任务,如关闭数据库连接等  self.connection.close()  def process_item(self, item, spider):  # 处理Item的方法,你可以在这里实现数据清洗、验证和持久化等操作  # 假设item['data']是需要存储的数据  cleaned_data = self.clean_data(item['data'])  if self.validate_data(cleaned_data):  self.store_data(cleaned_data)  return item  # 如果处理成功,返回Item以便进行后续的Pipeline处理  else:  raise DropItem("Invalid data: %s" % item)  # 如果验证失败,则丢弃该Item  def clean_data(self, data):  # 数据清洗逻辑  ...  def validate_data(self, data):  # 数据验证逻辑  ...  def store_data(self, data):  # 数据持久化逻辑,例如存储到数据库  ...

然后,在你的settings.py文件中配置Pipeline:

# myproject/settings.py  ITEM_PIPELINES = {  'myproject.pipelines.MyCustomPipeline': 300,  # 数字是优先级,可以根据需要调整  
}

通过编写自定义的Pipeline,你可以根据自己的需求灵活地处理爬虫抓取到的数据,实现数据清洗、验证和持久化等功能。

二、Middleware(中间件)

在Scrapy框架中,中间件(Middleware)是一个非常重要的组件,它允许开发者在Scrapy引擎处理请求和响应的过程中插入自定义的代码。中间件位于Scrapy引擎和下载器之间,用于拦截、修改、或添加额外的逻辑到请求和响应中。通过中间件,你可以轻松实现如设置代理、添加请求头、处理异常等功能。

中间件的概念

中间件是一种插件式的组件,用于在Scrapy处理请求和响应的过程中添加额外的功能。Scrapy提供了请求中间件(Request Middleware)和响应中间件(Response Middleware)两种类型。请求中间件在请求被下载器发送之前处理请求,而响应中间件在响应被引擎处理之前处理响应。

如何编写自定义的中间件

要编写自定义的中间件,你需要创建一个Python类,并实现特定的方法。这些方法会在请求或响应被处理时自动调用。

以下是一个简单的自定义请求中间件的示例:

class CustomRequestMiddleware:  def process_request(self, request, spider):  # 在请求被发送之前修改请求,比如添加请求头  request.headers['Custom-Header'] = 'Custom Value'  return None  # 返回None表示继续处理请求  def process_exception(self, request, exception, spider):  # 处理请求过程中发生的异常  # 可以选择记录日志、重试请求或返回None  return None  # 返回None表示继续抛出异常

同样地,你也可以创建自定义的响应中间件:

class CustomResponseMiddleware:  def process_response(self, request, response, spider):  # 在响应被处理之前修改响应,比如检查响应状态码  if response.status != 200:  return self._handle_error(request, response, spider)  # 处理或返回响应  return response  def _handle_error(self, request, response, spider):  # 处理响应错误的逻辑,比如记录日志或重试请求  pass  def process_exception(self, request, exception, spider):  # 处理在下载过程中发生的异常  # 可以选择记录日志、重试请求或返回None  return None  # 返回None表示继续抛出异常

中间件的应用场景

中间件在Scrapy爬虫中有许多应用场景,以下是一些常见的例子:

  1. 设置代理:通过中间件,你可以为所有请求设置代理,以隐藏你的爬虫的真实IP地址。
  2. 添加请求头:你可以使用中间件来添加自定义的请求头,比如User-Agent,以模拟不同的浏览器行为。
  3. 处理异常:中间件可以用来处理在请求或响应过程中发生的异常,比如网络错误、超时等。你可以定义重试逻辑、记录日志或采取其他适当的措施。
  4. 自定义请求或响应数据:在请求被发送或响应被处理之前,你可以通过中间件来修改请求或响应的数据,比如添加额外的参数、过滤不需要的数据等。
  5. 实现身份验证:对于需要身份验证的网站,你可以使用中间件来在请求中添加认证信息,如cookies或API令牌。
  6. 启用或禁用爬虫组件:通过中间件,你可以基于某些条件启用或禁用特定的爬虫组件,如某些特定的spider或downloader中间件。

要启用自定义的中间件,你需要在Scrapy项目的settings.py文件中配置它们。对于请求中间件,你需要将它们添加到DOWNLOADER_MIDDLEWARES设置中;对于响应中间件,你需要将它们添加到SPIDER_MIDDLEWARES设置中。每个中间件都需要一个唯一的键(通常是中间件类的路径)和一个整数值来表示它的优先级。数值越小,优先级越高。

# settings.py  DOWNLOADER_MIDDLEWARES = {  'myproject.middlewares.CustomRequestMiddleware': 543,  
}  SPIDER_MIDDLEWARES = {  'myproject.middlewares.CustomResponseMiddleware': 543,  
}

通过编写和使用中间件,你可以灵活地扩展Scrapy的功能,满足各种复杂的爬虫需求。

三、设置与配置(Settings & Configurations)

Scrapy 设置与配置是控制爬虫行为的重要方面,通过调整不同的设置,你可以定制爬虫的行为以满足特定的需求。以下是关于 Scrapy 设置和配置的基本介绍,以及如何调整并发和延迟来优化爬虫性能。

Scrapy 设置

Scrapy 框架提供了一套默认的设置,这些设置可以在 Scrapy 项目的 settings.py 文件中进行自定义。通过修改这些设置,你可以控制爬虫的行为、性能以及数据处理等方面。

一些常见的 Scrapy 设置包括:

  • ROBOTSTXT_OBEY: 控制爬虫是否遵守 robots.txt 文件中的规则。
  • CONCURRENT_REQUESTS: 并发请求的最大数量,用于控制爬虫同时发送的请求数。
  • DOWNLOAD_DELAY: 下载器在连续发送请求之间的延迟时间(秒),用于控制爬虫发送请求的速率。
  • RETRY_TIMES: 请求失败时的重试次数。
  • RETRY_HTTP_CODES: 需要重试的 HTTP 状态码列表。
  • DUPEFILTER_CLASS: 重复请求过滤器的类名,用于去除重复的请求。
  • ITEM_PIPELINES: Item Pipeline 的配置和顺序。
  • LOG_LEVEL: 控制日志输出的级别。

你可以在 settings.py 文件中添加或修改这些设置来定制你的爬虫。例如:

python复制代码
# settings.py# 并发请求数CONCURRENT_REQUESTS = 16# 请求之间的延迟时间(秒)DOWNLOAD_DELAY = 3# 重试次数RETRY_TIMES = 3# 其他自定义设置...

并发与延迟

调整并发请求数和请求超时时间等设置是优化爬虫性能的关键。以下是一些建议:

并发请求数 (CONCURRENT_REQUESTS):

  • 增加并发请求数可以加快爬取速度,但也可能导致目标网站过载或被封禁。
  • 根据目标网站的负载能力和爬虫所在服务器的性能,适当调整并发请求数。

请求之间的延迟 (DOWNLOAD_DELAY):

  • 设置适当的延迟可以模拟人类用户的浏览行为,降低被封禁的风险。
  • 如果目标网站对请求频率有严格的限制,需要增加延迟时间。

超时时间:

  • 你可以通过 DOWNLOAD_TIMEOUT 设置请求的超时时间。如果请求在这个时间内没有响应,Scrapy 会认为请求失败。
  • 根据网络条件和目标网站的响应速度,调整超时时间以避免不必要的等待或过多的失败请求。

自动调整设置:

  • Scrapy 还提供了 AUTOTHROTTLE_ENABLED 和相关设置,可以自动调整请求延迟,以根据网站的响应速度动态控制爬虫的速度。

调整这些设置时,建议逐步进行,并观察爬虫的性能和目标网站的响应。通过不断地尝试和调整,你可以找到最适合你爬虫的设置组合。

最后,记得在修改完设置后,重新启动你的 Scrapy 项目以使新的设置生效。

好了,今天的学习就到这里了,我们明天再见啦!拜拜!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/828835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10、了解JVM判断对象可回收的神秘法则!

10.1、垃圾回收触发时机? 在我们之前的学习中,我们已经了解到,当我们的系统在运行过程中创建对象时,这些对象通常会被优先分配在所谓的“新生代”内存区域,如下图所示。 在新生代中,当对象数量逐渐增多,接近填满整个空间时,会触发垃圾回收机制。这个机制的作用是回收…

LabVIEW专栏七、队列

目录 一、队列范例二、命令簇三、队列应用1.1、并行循环队列1.2、命名队列和匿名队列1.2.1、命名队列1.2.2、匿名队列 1.3、长度为1的队列 队列是一种特殊的线性表,就是队列里的元素都是按照顺序进出。 队列的数据元素又称为队列元素。在队列中插入一个队列元素称为…

Boot过程相关镜像详解:IVT、DCD、App Boot镜像到底是什么?

《S32G3系列芯片——Boot详解》系列——Boot过程相关镜像详解:IVT、DCD、App Boot镜像到底是什么? 一、概述二、 IVT镜像2.1 IVT header的结构2.2 BCW和LCW的结构2.3 最后16个字节GMAC的概念 三、DCD镜像3.1 DCD相关的基本概念3.2 DCD header的结构3.3 D…

Java使用IText根据pdf模板创建pdf文件

1.导包 <dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.10</version></dependency><dependency><groupId>com.itextpdf</groupId><artifactId>itext-as…

jvm知识点总结(二)

Java8默认使用的垃圾收集器是什么? Java8版本的Hotspot JVM,默认情况下使用的是并行垃圾收集器&#xff08;Parallel GC&#xff09; 如果CPU使用率飙升&#xff0c;如何排查? 1.先通过top定位到消耗最高的进程id 2.执行top -h pid单独监控该进程 3.在2中输入H&#xff…

【树莓派】yolov5 Lite,目标检测,行人检测入侵报警

延续之前的程序&#xff1a; https://qq742971636.blog.csdn.net/article/details/138172400 文章目录 播放声音pygame不出声音怎么办&#xff08;调节音量&#xff09;树莓派上的音乐播放器&#xff08;可选&#xff09;命令行直接放歌&#xff08;尝试放mp3歌曲&#xff09; …

Windows 本地直接使用 SSH,SFTP 以及 SFTP下载文件到 Windows/mac 本地或上传(没有客户端时)

windows 本地打开 ssh 以及 sftp 等的方式 1.win(windows图标那个键) r 直接搜 然后从打开的位置运行 如果是打开 sftp 前面的 ssh 换一下成sftp 就行 直接从地址栏输入也可以直接转过去 通过 windows 的工具直接访问 sftp 后将文件下载到自己的windows 或 mac 上 先通过…

【C++】---STL之list的模拟实现

【C】---STL之list的模拟实现 一、list模拟实现思路二、结点类的实现三、list迭代器的实现1、ListIterator类2、构造函数3、operator*运算符重载5、operator->运算符重载6、operator&#xff01;运算符重载7、operator运算符重载8、前置9、后置10、前置--11、后置-- 四、lis…

JAVAEE—HTTPS和ssl证书

0[toc] 什么是HTTPS HTTPS 也是一个应用层协议. 是在 HTTP 协议的基础上引入了一个加密层. HTTP 协议内容都是按照文本的方式明文传输的. 这就导致在传输过程中出现一些被篡改的情况而HTTPS则是新采用加密的方式进行传输 为什么需要HTTPS 为什么要使用HTTPS呢&#xff1f;这…

win c++使用lua环境配置 5.3.5版本

编译lua 下载lua源码&#xff0c;github仓库 使用vs编译源码&#xff0c;新建一个静态库项目(只会生成lib文件)&#xff0c;想要dll的话就新建dll项目&#xff08;有一个lib文件和dll文件&#xff09; 把lua源码下面的文件夹都是&#xff0c;复制到vs项目中 lib目录是我手动…

4.25java项目小结

完成了头像的显示&#xff0c;能将头像设置圆形&#xff0c;从数据库传输头像&#xff0c;客户端接收并在界面上展示&#xff0c;并能从文件选择图片 、

Golang | Leetcode Golang题解之第49题字母异位词分组

题目&#xff1a; 题解&#xff1a; func groupAnagrams(strs []string) [][]string {mp : map[[26]int][]string{}for _, str : range strs {cnt : [26]int{}for _, b : range str {cnt[b-a]}mp[cnt] append(mp[cnt], str)}ans : make([][]string, 0, len(mp))for _, v : ra…

金融级国产化替代中间件有哪些?

过去&#xff0c;国内中间件市场一直由IBM、Oracle等国际大型企业所主导&#xff0c;这在一定程度上限制了对国内企业多样化和个性化需求的满足&#xff0c;尤其是在实现底层硬件与上层应用软件之间高效、精准匹配方面。面对日益复杂的国际局势&#xff0c;金融安全已成为国家整…

负载均衡集群——LVS

目录 1.LVS简介 2.LVS体系结构 3.LVS相关术语 4. LVS工作模式 5. LVS调度算法 6.LVS集群介绍 6.1 LVS-DR模式 6.2 LVS – NAT 模式 6.3 LVS – TUN 模式 7.LVS 集群构建 7.1 LVS/NAT 模式配置 实验操作步骤 步骤 1 Nginx1 和 Nginx2 配置 步骤 2 安装和配置 LVS …

【AIGC调研系列】Bunny-Llama-3-8B-V与其他多模态大模型相比的优劣

Bunny-Llama-3-8B-V作为基于Llama-3的多模态大模型&#xff0c;其优势主要体现在以下几个方面&#xff1a; 性能超越其他模型&#xff1a;根据我搜索到的资料&#xff0c;Bunny-Llama-3-8B-V在多个主流Benchmark上表现良好&#xff0c;超越了LLaVA-7B、LLaVA-13B、Mini-Gemini…

Navicat连接SQLSever报错:[08001] MicrosoftTCP Provider 远程主机强迫关闭了一个现有的连接

Navicat连接SQLSever报错&#xff1a;[08001] [Microsoft][SQL Server Native Client 10.0]TCP Provider: 远程主机强迫关闭了一个现有的连接 问题分析 旧版的MSSQL 如果不是最新版的&#xff0c;可以去这安装以下即可。 最新版的MSSQL 如果是安装最新版的MSSQL连接不上很正…

2024高级卫生职称考试报名时间汇总

20地报名时间汇总&#xff0c;其他时间安排见图 上海&#xff1a;4.23-5.24 黑龙江&#xff1a;4.23-5.24 陕西&#xff1a;4.23-5.24 重庆&#xff1a;4.23-5.24 浙江&#xff1a;4.23-5.24 20地报名时间汇总 甘肃&#xff1a;4.23-5.24 江西&#xff1a;4.28-5.10 河北&#…

【黑马点评Redis——004达人探店】

1.发布探店笔记 2.点赞 利用Redis中的Set集合来判断是否点赞过。 3.点赞排行榜 可以通过SortedSet来按点赞时间进行排序。 4.好友关注 4.1.关注和取关 4.2.共同关注 可以通过set实现交集的功能 4.3.关注推送 4.3.1 拉模式 拉模式&#xff08;Pull&#xff09;&#x…

linux 上 jps 列出一堆 jar,如何快速定位 jar 文件启动位置?

例如&#xff0c;在 /data下有一个 xxx.jar &#xff0c;如果是通过 "java -jar /data/xxx.jar" 方式启动&#xff0c;则 jps会列出的名字中带 xxx.jar&#xff0c;这时再 "ps -ef | grep xxx.jar" 就会列出 更详细的信息&#xff0c;例如 "java -ja…

【VScode】VScode+如何从git上面拉取代码?

目录标题 1、打开VSCode。File>New Window。2、打开集成终端&#xff08;Terminal > New Terminal 或使用快捷键Ctrl \)。3、在终端中&#xff0c;使用Git命令克隆仓库。4、打开项目。 1、打开VSCode。File>New Window。 2、打开集成终端&#xff08;Terminal > …