python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码

1. 前言。

1.1. 需求背景。

每天抓取的是同一份商品的数据,用来做趋势分析。

要求每天都需要抓一份,也仅限抓取一份数据。

但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量有关,一般情况下在20小时左右,极少情况下会超过24小时。

1.2. 实现功能。

通过以下三步,保证爬虫能自动隔天抓取数据:

每天凌晨00:01启动监控脚本,监控爬虫的运行状态,一旦爬虫进入空闲状态,启动爬虫。

一旦爬虫执行完毕,自动退出脚本,结束今天的任务。

一旦脚本距离启动时间超过24小时,自动退出脚本,等待第二天的监控脚本启动,重复这三步。

2. 环境。

python 3.6.1

系统:win7

IDE:pycharm

安装过scrapy

3. 设计思路。

3.1. 前提:

目前爬虫是通过scrapy模块自带的cmdline.execute来启动的。

from scrapy import cmdline

cmdline.execute("scrapy crawl mySpider".split())

3.2. 将自动执行脚本做到scrapy爬虫的外部

(1)每天凌晨00:01启动脚本(控制脚本的存活时间为24小时),监测爬虫的运行状态(需要用一个标记信息来表示爬虫的状态:运行还是停止)。

如果爬虫处于运行状态(前一天爬取数据尚未结束),进入第(2)步;

如果爬虫处于非运行状态(前一天的爬取任务已完成,今天的尚未开始),进入第(3)步;

(2)脚本进入等待阶段,每隔10分钟,检查一下爬虫的运行状态,如(1)。但是一旦发现,脚本的等待时间超过了24小时,则自动退出脚本,因为第二天的监测脚本已经开始运行了,接替了它的任务。

(3)做一些爬虫启动前的准备工作(删除用来续爬的文件,防止爬虫不运行了),启动爬虫爬取数据,待爬虫正常结束后,退出脚本,完成当天的爬取任务。

4. 准备工作。

4.1. 标记爬虫的运行状态。

通过判断文件是否存在的方式来判断爬虫是否处于运行状态:

在爬虫启动时,创建一个isRunning.txt文件。

在爬虫结束时,删除这个isRunning.txt文件。

那么isRunning.txt存在,就说明爬虫正在运行;文件不存在,就说明爬虫不在运行。

# 文件pipelines.py

# 爬虫启动时

checkFile = "isRunning.txt"

class myPipeline:

def open_spider(self, spider):

self.client = MongoClient("localhost:27017") # 连接Mongodb

self.db = self.client["mydata"] # 待存储数据的数据库mydata

f = open(checkFile, "w") # 创建一个文件,代表爬虫在运行中

f.close()

# 文件pipelines.py

# 爬虫正常结束时

checkFile = "isRunning.txt"

class myPipeline:

def close_spider(self, spider):

self.client.close()

isFileExsit = os.path.isfile(checkFile)

if isFileExsit:

os.remove(checkFile)

4.2. 爬虫支持续爬,能随时暂停,方便调试。

# 在scrapy项目中添加start.py文件,用于启动爬虫

from scrapy import cmdline

# 在爬虫运行过程中,会自动将状态信息存储在crawls/storeMyRequest目录下,支持续爬

cmdline.execute("scrapy crawl mySpider -s JOBDIR=crawls/storeMyRequest".split())

# Note:若想支持续爬,在ctrl+c终止爬虫时,只能按一次,爬虫在终止时需要进行善后工作,切勿连续多次按ctrl+c

325139076119a9395befed58f10b0ef7.png

4.3. Log按照每天的日期命名,方便查看和调试

设置Log等级:

# 文件mySpider.py

class mySpider(CrawlSpider):

name = "mySpider"

allowed_domains = ["http://photo.poco.cn/"]

custom_settings = {

"LOG_LEVEL":"INFO", # 减少Log输出量,仅保留必要的信息

# ...... 在爬虫内部用custom_setting可以让这个配置信息仅对这一个爬虫生效

}

以日期为Log文件命名

# 文件settings.py

import datetime

BOT_NAME = "mySpider"

ROBOTSTXT_OBEY = False

startDate = datetime.datetime.now().strftime("%Y%m%d")

LOG_FILE=f"mySpiderlog{startDate}.txt"

4.4. 为数据按日期存储到不同的表(mongodb的集合)中

# 文件pipelines.py

import datetime

GALANCE=f"galance{datetime.datetime.now().strftime("%Y%m%d")}" # 表名

class myPipeline:

def open_spider(self, spider):

self.client = MongoClient("localhost:27017") # 连接Mongodb

self.db = self.client["mydata"] # 待存储数据的数据库mydata

self.db[GALANCE].insert(dict(item))

97c445acfc43de52ce59398c99d56bfe.png

4.5. 编写批处理文件启动爬虫

# 文件run.bat

cd /d F:/newClawer20170831/mySpider

call python main.py

pause

bcf17057c078178afa7e425f73a5e22c.png

5. 实现代码

5.1. 编写python脚本

# 文件timerStartDaily.py

from scrapy import cmdline

import datetime

import time

import shutil

import os

recoderDir = r"crawls" # 这是为了爬虫能够续爬而创建的目录,存储续爬需要的数据

checkFile = "isRunning.txt" # 爬虫是否在运行的标志

startTime = datetime.datetime.now()

print(f"startTime = {startTime}")

i = 0

miniter = 0

while True:

isRunning = os.path.isfile(checkFile)

if not isRunning: # 爬虫不在执行,开始启动爬虫

# 在爬虫启动之前处理一些事情,清掉JOBDIR = crawls

isExsit = os.path.isdir(recoderDir) # 检查JOBDIR目录crawls是否存在

print(f"mySpider not running, ready to start. isExsit:{isExsit}")

if isExsit:

removeRes = shutil.rmtree(recoderDir) # 删除续爬目录crawls及目录下所有文件

print(f"At time:{datetime.datetime.now()}, delete res:{removeRes}")

else:

print(f"At time:{datetime.datetime.now()}, Dir:{recoderDir} is not exsit.")

time.sleep(20)

clawerTime = datetime.datetime.now()

waitTime = clawerTime - startTime

print(f"At time:{clawerTime}, start clawer: mySpider !!!, waitTime:{waitTime}")

cmdline.execute("scrapy crawl mySpider -s JOBDIR=crawls/storeMyRequest".split())

break #爬虫结束之后,退出脚本

else:

print(f"At time:{datetime.datetime.now()}, mySpider is running, sleep to wait.")

i += 1

time.sleep(600) # 每10分钟检查一次

miniter += 10

if miniter >= 1440: # 等待满24小时,自动退出监控脚本

break

5.2. 编写bat批处理文件

# 文件runTimerRunDaily.bat

cd /d F:/newClawer20170831/mySpider

call python timerStartDaily.py

pause

6. 部署。

6.1. 添加计划任务。

参考以下这篇博客部署windows计划任务:

https://www.jb51.net/article/204879.htm

有关windows计划任务相关设置的详细说明如下:

https://technet.microsoft.com/zh-cn/library/cc722178.aspx

6.2. 注意事项。

(1)在添加计划任务时,要按照如下图进行勾选(只在用户登录时运行),才能弹出下面的cmd任务界面,方便观察和调试。

03baa5f1530be6deb3d1c74f6bc2c3eb.png

1d1c3dac6c087f83f17448da106d2162.png

(2)由于爬虫运行时间很长,如果按照默认设置,在凌晨运行实例时,上一次启动尚未结束,会导致这次启动失败,所以要更改默认设置为(如果此任务已经运行:并行运行新实例。保护机制在于每个启动脚本在等待24小时候会自动退出,来保证不会重复启动)。

a844305123d1b954b7a402ab3bc130cb.png

(3)如果想支持续传,只能按一次 ctrl + c 来停止爬虫运行。因为终止爬虫时,爬虫需要做一些善后工作,如果连续按多次ctrl + c来停止爬虫,爬虫将来不及善后,会导致无法续爬。 6.3. 效果展示。

正常执行完成:

78ebbc27e8dd7b6bb639e96717419d6b.png

正在执行中:

28ee344c3d38133cd0548e56376fd5d0.png

到此这篇关于python实现scrapy爬虫每天定时抓取数据的示例代码的文章就介绍到这了,更多相关python scrapy定时抓取内容请搜索云海天教程以前的文章或继续浏览下面的相关文章希望大家以后多多支持云海天教程!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/259693.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

博客园win8客户端开发记录5-app设置 登录 回复评论

这段时间完成了博客园cnblogs登录,注销和设置的相关功能 ,进入软件, 打开win8的charm setting 选择设置就是当前软件的设置选项了, 感觉这有点山寨mac os x系统(所有软件包括当前系统使用统一的设置)。 扯远…

简单工厂模式,工厂方法模式,抽象工厂模式,spring的狂想

菜鸟D在项目中遇见一个比较纠结的高耦合,所以就想办法来解耦。情况是这样的:系统通过用户选择treeview控件的节点判断调用不同的处理,这些处理中某些东西又是类似的。同事的建议是采用简单工厂,耦合就耦合吧,反正treev…

如何使用CSS实现居中

前言: 这一篇主要是翻译 《how-to-center-anything-with-css》这一篇文章的主要内容,再加上自己的一些概括理解;主要问题是解决垂直居中的问题。我们知道实现水平居中的方式很多种,比如: text-align:center; margin:0 …

java布局_运用 BoxLayout 进行 Swing 控件布局

引言在用户使用 Java Swing 进行用户界面开发过程中,会碰到如何对 Java Swing 的控件进行布局的问题。Swing 的控件放置在容器 (Container) 中,容器就是能够容纳控件或者其它容器的类,容器的具体例子有 Frame、Panel 等等。容器需要定义一个布…

java链表实现_链表的原理及java实现

一:单向链表基本介绍链表是一种数据结构,和数组同级。比如,Java中我们使用的ArrayList,其实现原理是数组。而LinkedList的实现原理就是链表了。链表在进行循环遍历时效率不高,但是插入和删除时优势明显。下面对单向链表…

xss challenge 解题思路(1-3)

challenge1: 用很基本的方法即可&#xff0c;截图如下&#xff1a; 提交后成功弹窗&#xff0c;完成。 challenge2 这次我们发现我们输入的内容被放入value”“ 中&#xff0c;所以需要将前面的结构闭合&#xff0c;构造如下&#xff1a; "><script>alert(docume…

宾得准饼干广角镜头DA15

DA15的挂机效果图&#xff0c;感觉还是超级的小&#xff0c;是最小的广角镜头了&#xff1a; 主要特点1. 超广视角当安装在宾得数码单反相机上时&#xff0c;这款全新的镜头提供相当于35mm胶片规格的约23mm画面视角&#xff0c;可使拍摄者拍摄出独特的诱人影像和超广角镜头独有…

java slf4j_SLF4J 使用手册

原文链接 译者&#xff1a;zivyuJava的简单日志门面( Simple Logging Facade for Java SLF4J)作为一个简单的门面或抽象&#xff0c;用来服务于各种各样的日志框架&#xff0c;比如java.util.logging、logback和log4j。SLF4J允许最终用户在部署时集成自己想要的日志框架。需要…

[译]Java 垃圾回收介绍

说明&#xff1a;这篇文章来翻译来自于Javapapers 的Java Garbage Collection Introduction 在Java中&#xff0c;对象内存空间的分配与回收是由JVM中的垃圾回收进程自动完成的。和C语言不一样的是&#xff0c;开发中不需要在Java中写垃圾回收代码。这也是使Java更加流行而且帮…

打印三角形

直角三角形 #include<iostream> using namespace std; int main() { int i,j; for(i1;i<10;i) {for(j1;j<i;j) cout<<"*"; cout<<endl; } } ———————————————————————————…

Linux基础入门学习笔记之二

第三节 用户及文件权限管理 Linux用户管理 Linux是可以实现多用户登录的操作系统 查看用户who命令用于查看用户 shiyanlou是当前登录用户的用户名 pts/0中pts表示伪终端&#xff0c;后面的数字表示伪终端的序号。 后面是当前伪终端启动时间 创建用户创建用户需要root权限&#…

这几天有django和python做了一个多用户博客系统(可选择模板) 没完成,先分享下...

这个TBlog已经全新改版了&#xff0c;更名为UUBlog 新版地址&#xff1a; 用Python和Django实现多用户博客系统——UUBlog 断断续续2周时间吧&#xff0c;用django做了一个多用户博客系统&#xff0c;现在还没有做完&#xff0c;做分享下,以后等完善了再慢慢说 做的时候房展了博…

MySQL数据高级查询之连接查询、联合查询、子查询

2019独角兽企业重金招聘Python工程师标准>>> 一、连接查询 连接查询: 将多张表(>2)进行记录的连接(按照某个指定的条件进行数据拼接)。 连接查询的意义: 在用户查看数据的时候,需要显示的数据来自多张表. 连接查询: join, 使用方式: 左表 join 右表&#xff1b;左…

Oracle11g解锁报错SP2-0306-选项无效

普通用户登录isqlplus: (一)在浏览器中输入URL &#xff08;http://localhost:5560/isqlplus&#xff09;。显示登录界面 这里只能用普通用户进行登录&#xff0c;因为要用sys登录&#xff0c;必须用sys的DBA身份登录。所以用普通用户SCOTT&#xff0c;但是还未解锁 问题:SP2-0…

Chrome浏览器无法观看视频,一直提示“adobe flash player 已过期” ?

很多新用户在安装了Chrome浏览器或者更新过的的时候&#xff0c;经常提示“ adobe flash player 已过期”的问题&#xff0c;反复提示&#xff0c;导致无法观看视频。于是从网上也找了很多办法都没有解决。这里给大家提供一个最完美的解决方案。经亲自测试&#xff0c;完美解决…

关于JVM的垃圾回收GC的一些记录

目录 一、JVM内存区域划分 二、从一个基本问题开始引入垃圾回收 三、GC作用的区域 三、如何确定一个对象是否可以被当成垃圾进行回收 &#xff08;1&#xff09;引用计数法 &#xff08;2&#xff09;可达性分析算法 &#xff08;3&#xff09;引用的类型 &#xff08;3…

codevs1219 骑士遍历(棋盘DP)

题目描述 Description设有一个n*m的棋盘&#xff08;2≤n≤50&#xff0c;2≤m≤50&#xff09;&#xff0c;如下图&#xff0c;在棋盘上有一个中国象棋马。 规定&#xff1a; 1)马只能走日字 2)马只能向右跳 问给定起点x1,y1和终点x2,y2&#xff0c;求出马从x1,y1出发到x2,y2的…

java ssh免密登录_SSH公钥、私钥配置(SSH免密码登录方式)

1.首先使用想要发起ssh免密访问的用户A登录Linux(简称客户端Linux)2.进入该用户的家目录(cd ~)&#xff0c;看是否有.ssh文件夹(linux中以.开头文件夹是隐藏的&#xff0c;使用ll -a进行查看)&#xff0c;如果没有则创建(mkdir ~/.ssh)&#xff0c;并修改访问权限(chmod 700 ~…

win8, VS2013 .NET 4.5在哪找svcutil.exe?

我这个纠结呀&#xff0c;公司用win8&#xff0c; .NET 4.5。想做一个很简单的项目&#xff0c;就是wcf宿主iis&#xff0c;项目根目录下有aspx文件和svc文件。于是参考了一个博客http://www.cnblogs.com/yjmyzz/archive/2008/08/19/1270961.html&#xff0c;[原创]WCF入门级使…

Starling 2D框架简介

本系列是对Introducing Starling pdf的翻译&#xff0c;下文是对adobe开发人员中心的一片日志的转载&#xff0c;地址为http://www.adobe.com/cn/devnet/flashplayer/articles/introducing_Starling.html Starling 是在 Stage3D APIs 基础上开发的一种 ActionScript 3 2D 框架&…