当当网数据采集:Scrapy框架的异步处理能力

Python_00025.png
在互联网数据采集领域,Scrapy框架以其强大的异步处理能力而著称。Scrapy利用了Python的异步网络请求库,如twisted,来实现高效的并发数据采集。本文将深入探讨Scrapy框架的异步处理能力,并展示如何在当当网数据采集项目中应用这一能力。

1. Scrapy框架概述

Scrapy是一个快速的、高层次的web爬虫框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy的异步处理能力主要得益于其底层的twisted异步网络库。

1.1 Scrapy架构

Scrapy的架构可以分为几个主要部分:

  • 引擎(Engine):负责控制数据流在系统中的所有组件之间的流动,并在某些动作发生时触发事件。
  • 爬虫(Spiders):负责解析响应并生成爬取的URL和/或提取数据(即Item)。
  • 调度器(Scheduler):负责接收引擎发送的请求,并将其入队列以待之后处理。
  • 下载器(Downloader):负责获取网页数据。
  • 项目管道(Item Pipeline):负责处理爬虫从网页中抽取的数据。
  • 下载器中间件(Downloader Middlewares):位于Engine和Downloader之间,主要是处理引擎与下载器之间的请求和响应。
  • 爬虫中间件(Spider Middlewares):位于Engine和Spider之间,主要是处理蜘蛛的输入(响应)和输出(提取的数据,即Item)。

1.2 异步处理的优势

Scrapy的异步处理能力使得它能够在单个爬虫实例中同时处理多个请求和响应,这大大提高了数据采集的效率。异步处理的优势包括:

  • 提高效率:并发处理多个请求,减少等待时间。
  • 节省资源:相比多进程或多线程,异步IO使用更少的系统资源。
  • 易于扩展:Scrapy的架构支持水平扩展,易于在多台机器上运行。

2. 实现当当网数据采集

首先,确保安装了Scrapy。
使用Scrapy创建一个新的项目:
items.py文件中定义当当网数据的结构。
编写爬虫
spiders/doudang_spider.py文件中编写爬虫:

import scrapy
from doudang_spider.items import DoudangBookItemclass DoudangSpider(scrapy.Spider):name = 'doudang'allowed_domains = ['dangdang.com']start_urls = ['http://dangdang.com'] def __init__(self, *args, **kwargs):super(DoudangSpider, self).__init__(*args, **kwargs)self.proxy = 'http://{}:{}'.format(self.proxyHost, self.proxyPort)self.auth = (self.proxyUser, self.proxyPass)def parse(self, response):for book in response.css('div.product'):item = DoudangBookItem()item['title'] = book.css('h3::text').get()item['price'] = book.css('.price::text').get()item['description'] = book.css('.description::text').get()item['url'] = response.urljoin(book.css('a::attr(href)').get())yield item# 在 settings.py 中添加以下配置
DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}PROXY_HOST = 'www.16yun.cn'
PROXY_PORT = '5445'
PROXY_USER = '16QMSOML'
PROXY_PASS = '280651'

2.1 异步处理

Scrapy的异步处理主要通过twisted库实现。在爬虫中,可以通过meta传递消息给下一个请求,实现请求的异步处理:

python
def parse(self, response):for book in response.css('div.product'):# ... 省略其他代码yield scrapy.Request(url=item['url'],callback=self.parse_book_detail,meta={'item': item})def parse_book_detail(self, response):item = response.meta['item']# 处理书籍详情item['description'] = response.css('.detail-description::text').get()yield item

3. 性能优化

3.1 并发设置

settings.py中设置并发请求的数量:

python
CONCURRENT_REQUESTS = 32

3.2 下载延迟

设置下载延迟,以避免对网站服务器造成过大压力:

python
DOWNLOAD_DELAY = 1.0  # 每秒请求一次

3.3 自动限制

Scrapy还提供了自动限制请求速率的功能:

python复制
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 5.0
AUTOTHROTTLE_MAX_DELAY = 60

关于文章代理有需要的小伙伴可以关注获取免费测试:https://v.16yun.cn/accounts/phone_register/?sale_user=ZM_seven7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/49039.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

理解 Objective-C 中 `+load` 方法的执行顺序

理解 Objective-C 中 load 方法的执行顺序 在 Objective-C 中,load 方法是在类或分类被加载到内存时调用的。它在程序启动过程中非常早的阶段执行,用于在类或分类被加载时进行一些初始化工作。理解 load 方法的执行顺序对于编写可靠的 Objective-C 代码…

docker build时的网络问题

docker build时无法yum安装包,因为无法访问外网,无法ping通外网。 解决办法: systemctl stop NetworkManager.service firewall-cmd --permanent --zonetrusted --change-interfacedocker0 systemctl start NetworkManager.service systemct…

C++开发示例、护照真伪查验接口、护照阅读器

在这个全球化的世界里,旅行已经成为了连接不同文化和国家的桥梁。然而,这也给不法分子提供了可乘之机,伪造或篡改护照成为了他们逃避责任的通行证,对此,为助力确保每一份护照的真实性,维护国家财产安全&…

用Java手写jvm之实现java -version的效果

写在前面 源码 。 本文来用纯纯的Java代码来实现java -version的效果,就像下面这样: 1:程序 这里输出类似这样的: java version "9" Java(TM) SE Runtime Environment (build 9181) Java HotSpot(TM) 64-Bit Serve…

[保姆级教程]uniapp安装使用uViewUI教程

文章目录 创建 UniApp 项目下载uView UI下载安装方式步骤 1: 安装 uView UI步骤 2: 查看uView UI是否下载成功步骤 3: 引入 uView 主 JS 库步骤 4: 引入 uView 的全局 SCSS 主题文件步骤 5: 引入 uView 基础样式步骤 6: 配置 easycom 组件模式注意事项 NPM方式步骤 1: 安装 uVi…

websocket状态机

websocket突破了HTTP协议单向性的缺陷,基于HTTP协议构建了双向通信的通道,使服务端可以主动推送数据到前端,解决了前端不断轮询后台才能获取后端数据的问题,所以在小程序和H5应用中被广泛使用。本文主要集合报文分析对于websocket…

力扣题解(组合总和IV)

377. 组合总和 Ⅳ 给你一个由 不同 整数组成的数组 nums ,和一个目标整数 target 。请你从 nums 中找出并返回总和为 target 的元素组合的个数。 题目数据保证答案符合 32 位整数范围。 思路: 本题实质上是给一些数字,让他们在满足和是targ…

MATLAB绘制正弦波、余弦波、方波、三角波

一、引言 MATLAB是一种具有很强的数值计算和数据可视化软件,提供了许多内置函数来简化数学运算和图形的快速生成。在MATLAB中,你可以使用多种方法来快速绘制正弦波、方波和三角波。以下是一些基本的示例,展示了如何使用MATLAB的命令来实现正弦…

基于dcm4chee搭建的PACS系统讲解(一)docker搭建精简版

文章目录 知识点PACSdcm4chedcm4chee部署dcm4chee方式 docker部署docker编排 总结 最近项目开始需要用到PACS系统,于是研究了一番,选用了dcm4chee搭建PACS系统,抛出 dcm-arc-light的git地址 。 知识点 PACS Picture Archiving and Communic…

【详细的springboot自动装载原理】

1.默认提供的核心配置模块 springboot提供了 spring-boot-autoconfigure模块,该模块为springboot自动配置的核心模块,它初始化好了很多我们平时需要的配置类,那么有了这些配置类就能生效了吗?得需要一个东西在启动的时候去把它加…

uniapp 小程序 嵌套 webview 返回需要点击两次

uniapp 小程序 嵌套 webview 返回需要点击两次 先 上图 小程序也监听不到 返回事件在网上找了一圈 都没有理想的答案&#xff0c;猜测 是因为嵌入的页面中有问题果然 小程序中嵌入的代码 <view><web-view :src"urlSrc" ></web-view></view>…

常用的python程序汇总——入门级

只用于记录最近的一些日常程序。 目录 前言 一、文件和目录管理 1.读取文件结构 读取所有文件夹和文件 读取到N级子文件夹和文件 只读取到N级子文件夹 2.遍历文件并处理&#xff08;复制、删除&#xff09; 说明&#xff1a; 二、数据分析和处理 三、数据可视化 四、…

关于银联支付交易状态码的一些分析

目录 关于银联支付 一些准备 交易状态码的一些分析 小结 关于银联支付 目前B2C购物支付场景下&#xff0c;支付宝和微信的在线支付已经成为我们经常遇到的支付方式。另外&#xff0c;银联支付也是我们日常的一种支付方式&#xff0c;本文所指的银联支付即指中国银联网关支…

NumPy算法封装:优化你的科学计算

NumPy算法封装&#xff1a;优化你的科学计算 作为一名资深的Python程序员&#xff0c;我深知NumPy库在科学计算中的重要性。NumPy不仅提供了强大的多维数组对象ndarray&#xff0c;而且封装了一系列高效的算法&#xff0c;极大地简化了我们的编程工作。本文将深入探讨NumPy的算…

IActionResult 介绍

IActionResult 是 ASP.NET Core MVC 中的一个接口&#xff0c;它代表了一个动作&#xff08;Action&#xff09;方法的返回类型。在 ASP.NET Core MVC 中&#xff0c;控制器&#xff08;Controller&#xff09;中的每个动作方法都可以返回一个 IActionResult 或其派生类型的实例…

jdk1.8 List集合Stream流式处理

jdk1.8 List集合Stream流式处理 一、介绍(为什么需要流Stream&#xff0c;能解决什么问题&#xff1f;)1.1 什么是 Stream&#xff1f;1.2 常见的创建Stream方法1.3 常见的中间操作1.4 常见的终端操作 二、创建流Stream2.1 Collection的.stream()方法2.2 数组创建流2.3 静态工厂…

深度学习之DeepMind的AlphaZero

AlphaZero 是 DeepMind 开发的一种人工智能程序,最初在 2017 年推出。它是一种通用的自我学习算法,能够通过自我对弈来学习并掌握各种棋类游戏,比如国际象棋、围棋和将棋。与传统的棋类 AI 不同,AlphaZero 不依赖于人工设置的规则或数据库中的棋局,而是通过自我对弈和深度…

理解进程status的二进制位表示及进程等待(是什么,为什么,怎么办)

信号编号&#xff1a;低7位 状态编号&#xff1a;次低8位 1.子进程退出后会变为僵尸进程&#xff0c;将退出结果写入自身的task_struct结构体中 2.wait/waitpid是一个系统调用->OS可以读取子进程的task_struct 1.为什么要进行进程等待&#xff1f; 1.将子进程&#xff…

C语言 | Leetcode C语言题解之第241题为运算表达式设计优先级

题目&#xff1a; 题解&#xff1a; #define ADDITION -1 #define SUBTRACTION -2 #define MULTIPLICATION -3int* diffWaysToCompute(char * expression, int* returnSize) {int len strlen(expression);int *ops (int *)malloc(sizeof(int) * len);int opsSize 0;for (in…

Mybatis-Plus只将指定字段更新为null

不需要自定义sql&#xff0c;可以使用UpdateWrapper方式更新 Employee employee new Employee(); employee.setId(1L); employee.setOssIds(null); LambdaUpdateWrapper<Employee> lambdaUpdate Wrappers.lambdaUpdate(); lambdaUpdate.eq(Employee::getId, employee.g…