爬虫工作量由小到大的思维转变---<第二十七章 Scrapy的暂停和重启>

前言:

一个小知识点,刚刚有朋友私信我的; 就是scrapy的暂停与重启;

没什么可讲的,就是一个命令,还有需要注意的一个地方,我就当留言板来写这篇吧!

正文:

首先,如果我们在控制台中,一般都是用ctrl+c进行停止;(ctrl+c一次是暂停,两次是终止)

而如果想让scrapy继续第一次爬完之后,带爬取的任务继续下去,我们必须要明白,需要有一个队列~或者说,我们需要知道scrapy第一次爬了哪些(这次重新爬就不用再爬了;然后我们接着爬); 于是,就需要有一个专门用来放这些缓存的文件夹;

直接控制台,或者cmd里面到爬虫文件:

scrapy crawl <spider_name> -s JOBDIR=<job_directory>

其中,<spider_name> 是要运行的爬虫的名称,<job_directory> 是指定的用于存储状态信息的目录。通过设置 -s JOBDIR=<job_directory> 参数,Scrapy 将在指定的目录中创建状态文件,并将爬虫的状态信息存储在其中。

也就是说,当你运行的时候,最好在后面加一个 "-s JOBDIR=一个文件夹名"(如果你没有创建,他会自己给你创建的);

然后,你不小心停了,或者中断了;他会自动把爬虫信息,存到这个文件夹中~ 

下次,你再要重启你这未完成任务的爬虫时,继续用这个

scrapy crawl <spider_name> -s JOBDIR=<job_directory>

就行了!!!

然后,网上说啥:"在setting里面设置JOBDIR=xxx" ,我个人感觉没啥用;虽然原理是这么个原理,但实际在运行爬虫的时候,多还是临时添加一个 JOBDIR,这样一个爬虫一个任务会很方便; 即使你在setting里添加了这个jobdir设置,你正常启动爬虫,他不会给你生成缓存文件夹的;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/576836.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【prompt一】Domain Adaptation via Prompt Learning

1.Motivation 当前的UDA方法通过对齐源和目标特征空间来学习域不变特征。这种对齐是由诸如统计差异最小化或对抗性训练等约束施加的。然而&#xff0c;这些约束可能导致语义特征结构的扭曲和类可辨别性的丧失。 在本文中&#xff0c;引入了一种新的UDA提示学习范式&#xff0…

RPC 实战与原理

文章目录 什么是 RPC&#xff1f;RPC 有什么作用&#xff1f;RPC 步骤为什么需要序列化&#xff1f;零拷贝什么是零拷贝&#xff1f;为什么需要零拷贝&#xff1f;如何实现零拷贝&#xff1f;Netty 的零拷贝有何不同&#xff1f; 动态代理实现HTTP/2 特性为什么需要服务发现&am…

SpringBoot整合Mybatis遇到的常见问题及解决方案

大家好&#xff0c;我是升仔 一、背景 SpringBoot与Mybatis的整合是Java开发中常见的实践&#xff0c;用于简化数据库操作。然而&#xff0c;在整合过程中&#xff0c;开发者可能会遇到各种问题&#xff0c;影响开发效率和应用性能。 二、具体问题及解决方案 问题&#xff1…

卸载了Visual Studio后,在vscode中执行npm i或npm i --force时报错,该怎么解决?

卸载了Visual Studio后&#xff0c;在vscode中执行npm i或npm i --force时报错,该怎么解决&#xff1f; 报错内容&#xff1a;原因解决办法 报错内容&#xff1a; npm ERR! code 1 npm ERR! path E:\VScode\codeDate\yugan\node_modules\node-sass npm ERR! command failed np…

ElasticSearch入门介绍和实战

目录 1.ElasticSearch简介 1.1 ElasticSearch&#xff08;简称ES&#xff09; 1.2 ElasticSearch与Lucene的关系 1.3 哪些公司在使用Elasticsearch 1.4 ES vs Solr比较 1.4.1 ES vs Solr 检索速度 2. Lucene全文检索框架 2.1 什么是全文检索 2.2 分词原理之倒排索引…

easypoi通过反射修改表头,poi,workbook修改表头

没废话上代码&#xff0c; 使用easypoi导出时一般会用到一个实体类 提供一个示例代码&#xff1a; 实体类&#xff1a; Data public class TestVO {private String id;Excel(name "字段1")private String findId1;Excel(name "字段2")private String fi…

Windows 10中查找文件的3种方法,就差不多够你查找想要的文件了

本文介绍了在Windows 10计算机上搜索文件的两种主要方法&#xff0c;以及对第三方搜索应用程序的建议和更好地搜索文件的有用提示。 使用任务栏搜索栏进行常规搜索 永久位于屏幕底部的搜索栏是大多数人的首选搜索方法&#xff0c;使用起来毫不费力。如果你不知道在哪里可以找…

2023航天推进理论基础考试划重点(W老师)绪论固体推进剂

1、推进系统的分类&#xff1a; 按工作原理分&#xff0c; 直接反作用发动机(喷气发动机) 火箭发动机、组合发动机、冲压发动机、涡轮喷气发动机、涡轮风扇发动机 间接反作用发动机 活塞式发动机、涡轮螺旋桨发动机、涡轮轴发动机、航空电动机 2、后面不细讲的火箭发动机要…

Windows系统重启Redis服务

Windows系统 在安装Redis的目录下打开终端 执行 redis-cli.exe shutdown先停止 Redis 服务 然后 执行 redis-server.exe启动Redis服务

浅谈Dubbo核心概念及架构流程

浅谈Dubbo核心概念及架构流程 前言重要概念1、SPI2、ServiceBean3、URL4、Invoker 整体流程1、架构图2、调用链路 笔者碎碎言&#xff0c;我们学习Dubbo应该学的是什么&#xff1f; 笔者是一名业务开发&#xff0c;认为一切目的都要为我们的目标服务&#xff0c;即日常工作有帮…

医院智慧能源管理平台,为医疗机构高效控能!

随着医院的不断扩大与发展&#xff0c;能源问题日益严重。大型医院能耗计量点位繁多&#xff0c;数据采集方式落后&#xff0c;难以保证计量管理的准确性与科学性。为了对医院能耗进行精细化管理&#xff0c;实时监测用能情况&#xff0c;需要建议一个完善的监管体系。基于能源…

docker 安装mysql 8.0.35

1.拉取镜像 docker pull mysql:8.0.35 2.创建相关挂载目录与文件 mkdir -p /opt/mysql8/conf mkdir -p /opt/mysql8/data mkdir -p /opt/mysql8/logs 或者:mkdir -p /opt/mysql8/{data,conf,logs,mysqld,mysql-files} 文件与文件夹授权:chmod -R 775 /opt/mysql8/* 3.运…

软件开发有哪些基本常识?

软件开发的定义&#xff1a;软件开发是指使用计算机语言编写程序&#xff0c;将计算机硬件与软件相结合&#xff0c;实现某种功能的过程。 软件开发的流程&#xff1a;通常包括需求分析、设计、编码、测试、部署和维护等环节。 需求分析&#xff1a;在软件开发过程中&#xff…

Java Heap Space堆内存异常处理

Heap Space问题是Java开发中常见的内存溢出问题之一&#xff0c;我们需要理解其原因和表现形式&#xff0c;然后通过优化代码、增加JVM内存和使用垃圾回收机制等方法来解决。 场景 新增数据&#xff0c;富文本插入多张图片&#xff0c;总共总共大小6.6MB&#xff0c;提交报50…

java期末复习笔记

java期末复习笔记 课程大纲java开发入门java发展历程&#xff08;可能&#xff09;java特点&#xff08;可能&#xff09;java版本&#xff08;可能&#xff09;java运行过程java类结构&#xff08;注意编程题&#xff09;java环境的配置 java编程基础&#xff08;选择填空&…

【XML】TinyXML 详解(一):介绍

【C】郭老二博文之&#xff1a;C目录 1、简介 优点&#xff1a; TinyXML 是一个简单、小型的 C XML 解析器&#xff0c;可以轻松集成到项目中。 TinyXML 解析 XML 文档&#xff0c;并根据该文档构建可读取、修改和保存的文档对象模型 (DOM) TinyXML 是在 ZLib 许可下发布的&a…

计算机毕业设计------SSM网上超市购物商城管理系统

项目介绍 本项目分为前后台&#xff0c;分为普通用户、管理员两种角色。前台普通用户登录&#xff0c;后台管理员登录&#xff1b; 管理员角色包含以下功能&#xff1a; 登录页面,用户查看,一级分类管理,二级分类管理,商品管理,查看订单,留言管理等功能。 用户角色包含以下功…

如何使用JuiceSSH实现手机端远程连接Linux服务器

文章目录 1. Linux安装cpolar2. 创建公网SSH连接地址3. JuiceSSH公网远程连接4. 固定连接SSH公网地址5. SSH固定地址连接测试 处于内网的虚拟机如何被外网访问呢?如何手机就能访问虚拟机呢? cpolarJuiceSSH 实现手机端远程连接Linux虚拟机(内网穿透,手机端连接Linux虚拟机) …

Linux---命令行参数+环境变量

一、命令行参数 int main(int argc,char*argv[]) {//...return 0; } 不知道有没有人见过这样的主函数&#xff0c;它带了两个参数&#xff0c;argv接收的参数就叫做命令行参数&#xff0c;因为它的参数是从命令行来的&#xff0c;给大家演示一下&#xff0c;大家就懂了 命令行…

算法基础之数字三角形

数字三角形 核心思想&#xff1a;线性dp 集合的定义为 f[i][j] –> 到i j点的最大距离 从下往上传值 父节点f[i][j] max(f[i1][j] , f[i1][j1]) w[i][j] 初始化最后一层 f w #include <bits/stdc.h>using namespace std;const int N 510;int w[N][N],f[N][…