Scrapy 性能

参考：https://blog.csdn.net/s150503/article/details/72571680

CONCURRENT_REQUESTS 与 DOWNLOAD_DELAY

Scrapy 中 CONCURRENT_REQUESTS 与 DOWNLOAD_DELAY 的联系，先建立一个项目来找CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系

以豆瓣电影top250 为例

douban_spider.py

# -*- coding: utf-8 -*-import scrapy
import time
import re
from lxml import etree"""
scrapy 豆瓣登录响应结果乱码问题
https://www.jianshu.com/p/9974fc338242
"""class ExampleSpider(scrapy.Spider):name = 'douban'allowed_domains = ['example.com']# start_urls = ['https://movie.douban.com/top250?start={}&filter='.format(i) for i in range(0, 250, 25)]start_urls = ['https://movie.douban.com/top250?start={}&filter='.format(i) for i in range(10000)]custom_settings = {'DEFAULT_REQUEST_HEADERS': {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,''*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',"Accept-Encoding": "gzip, deflate","Accept-Language": "zh-CN,zh;q=0.9","Connection": "keep-alive","Host": "movie.douban.com","Upgrade-Insecure-Requests": "1","User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'' (KHTML, like Gecko) Chrome/81.0.4044.113 Safari/537.36',},'CONCURRENT_REQUESTS': 10,'DOWNLOAD_DELAY': 0.01,'CONCURRENT_REQUESTS_PER_IP': 0,'CONCURRENT_REQUESTS_PER_DOMAIN': 10000,'FEED_EXPORT_ENCODING': 'utf-8'}def parse(self, response):current_url = response.urlprint(current_url)time.sleep(3)returnoffset = re.findall(r'start=(\d+)', current_url)[0]page_num = int(offset) // 25html = etree.HTML(text=response.text)# 先定位到 li 标签，data 是一个包含25个li标签的list，就是包含25部电影信息的listdata = html.xpath('//ol[@class="grid_view"]/li')index = 0for d in data:data_title = d.xpath('div/div[2]/div[@class="hd"]/a/span[1]/text()')data_info = d.xpath('div/div[2]/div[@class="bd"]/p[1]/text()')data_quote = d.xpath('div/div[2]/div[@class="bd"]/p[2]/span/text()')data_score = d.xpath('div/div[2]/div[@class="bd"]/div/span[@class="rating_num"]/text()')data_num = d.xpath('div/div[2]/div[@class="bd"]/div/span[4]/text()')data_pic_url = d.xpath('div/div[1]/a/img/@src')print(f"No: {str(page_num * 25 + index + 1)} {data_title}")index += 1passif __name__ == '__main__':from scrapy import cmdlinecmdline.execute('scrapy crawl douban'.split())pass

验证 1：

'CONCURRENT_REQUESTS': 10,
'DOWNLOAD_DELAY': 0.01,

CONCURRENT_REQUESTS 设置为 10 时，理论上可以并发 10个请求。但是 DOWNLOAD_DELAY 设置为 0.01 时，按 DOWNLOAD_DELAY 来算，可以并发 1 / 0.01 = 100 个请求，这两个取最小值为 10，所以并发 10个请求。

几乎同一秒并发 10 个左右的请求

验证 2：

'CONCURRENT_REQUESTS': 10,
'DOWNLOAD_DELAY': 0.5,

CONCURRENT_REQUESTS 设置为 10 时，理论上可以并发 10个请求。但是 DOWNLOAD_DELAY 设置为 0.5 时，按 DOWNLOAD_DELAY 来算，可以并发 1 / 0.5 = 2 个请求，这两个取最小值为 2，所以并发 2个请求。

总结：

DOWNLOAD_DELAY 会影响 CONCURRENT_REQUESTS，不能使并发显现出来。

思考：

1. 当有 CONCURRENT_REQUESTS，没有 DOWNLOAD_DELAY 时，服务器会在同一时间收到大量的请求。

'CONCURRENT_REQUESTS': 10,
# 'DOWNLOAD_DELAY': 0.5,

DOWNLOAD_DELAY 注释后，会使用默认值 0，

2. 当有 CONCURRENT_REQUESTS，有 DOWNLOAD_DELAY 时，服务器不会在同一时间收到大量的请求。

# 'CONCURRENT_REQUESTS': 0,
'DOWNLOAD_DELAY': 0.5,

CONCURRENT_REQUESTS 注释后，会使用默认值 16，

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/495424.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Scrapy 性能

CONCURRENT_REQUESTS 与 DOWNLOAD_DELAY

相关文章

在CentOS6虚拟机上安装VirtualBox增强功能

5G 发展报告：以四项技术为基础，广泛应用还需十年

33个优秀的 jQuery 图片展示插件分享

安卓逆向_13 --- AndroidStudio + Smalidea 动态调试 smali 代码【APK可调试】、gradle 配置

IEEE协会首次在京举办研讨会，王飞跃称不存在AI芯片

Lucene提供的条件判断查询[转]

安卓逆向_14 --- 单机和弱联网游戏内购突破口和思路

OpenAI最新研究：如何通过无监督学习提升「自然语言理解能力」？

安卓逆向_15（一） --- JNI 和 NDK

Nature：科学家成功绘制出大脑神经细胞“地图”

互联网的大脑模型与原子的太阳系模型，科学史上的巨系统对比

安卓逆向_15（二） --- Android Studio 3.6.3 JNI 环境配置和 so 生成开发 demo

SQL经典语句(转载)

卡内基梅隆大学机器学习系副主任邢波：AI落地现在最缺的是思维方式

安卓逆向_15（三） --- Android NDK 开发【 jni 静态注册、JNI_OnLoad 动态注册】

scrapy-redis 使 redis 不止保存 url（例如：json）

学界 | DeepMind等机构提出「图网络」：面向关系推理

oracle 11g 下载地址

ARM 汇编基础教程番外篇 ——配置实验环境

asp.net网站编码测试