python爬虫程序自动结束-在linux下python爬虫进程发生异常时自动重启直至正常结束的方法...

之前在做爬虫的时候遇到一种情况,当网络情况不太好的时候,爬虫爬到的链接在urlopen时会因为无法正常连接而报URLError或者timeout的错误导致陈序报错而终止;但是这些错误在重新运行陈序后能够解决,因此为了避免重复手动重启程序的麻烦,就想写脚本来自动重启。

思路很简单:

1.首先脚本检测目标程序是否在运行。这里我们可以用pidof的返回值来判断。

2.如果脚本检测到程序尚未运行或程序运行出错,重启程序。这里需要用到linux的$?变量,该变量能返回上一次命令的运行状态。其中0为运行正常,其他均为运行报错。

3.如果程序正常运行结束,终止脚本

例如我们要自动运行名为web_crawler.py的脚本,那么可以写如下shell脚本:

#! /bin/bash

pidof web_crawler.py # 检测程序是否运行

while [ $? -ne 0 ] # 判断程序上次运行是否正常结束

do

echo "Process exits with errors! Restarting!"

python web_crawler.py #重启程序

done

echo "Process ends!"

PS1: 这只能处理网络状况不良引起连接出错的情况,通过重新尝试链接能够解决的。如果是遇到了由于网站被墙导致的链接错误,那么这个做法就很有问题了,因为无论你重复几次都无法打开链接。这种情况的解决方式要么是翻墙再运行爬虫,那么就是跳过被墙的链接——具体操作可以是用re匹配链接排除,也可以是用try在连接超时执行跳出操作。例如:

try:

res = urllib2.urlopen(rq, timeout=10) # use urllib2 package

except urllib2.URLError, e:

print "Timed out to connect to this URL"

return None

except socket.timeout: # use socket package

print "Time out!"

return None

PS2:这里我们实际爬的是stanford cs224d上的链接然后下载内容,由于有些链接(pdf文件或者html网页)不包含文件后缀,保存的时候会比较麻烦。但是如果链接是网页的话那么res.headers.getheader("Content-Type") # urllib2或者rq = requests.get(url);r.headers["content-type"] # requests返回内容包含"text/html",利用这一点我们就可以识别出网页链接进行保存。

参考:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/433889.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu apt-get 卸载命令

通过sudo apt-get install xxxx 安装软件后,总是无法卸载干净,这里以Apache 为例,提供方法:首先sudo apt-get remove apache2 再sudo apt-get autoremove 最近在Ubuntu下写python,需要看下python的文档,我…

ORACLE EBS 多账套总结

1.客户化开发中的多帐套屏蔽 (1) 得到当前OU mo_global.get_current_org_id或者fnd_global.org_id (2)根据组织ID得到账套ID和公司名称 DECLAREl_org_information3 VARCHAR2(150); --帐套idl_company_desc VARCHAR2(150); --公司中文描述 BEGINSELECT o3.org_information3,…

联想一体机电源键不亮_联想电脑一体机B505拆机经验

我修复联想电脑一体机的经验分享退休之后我较多的时间就是使用电脑,上上网,玩玩游戏,更多的是用电脑使用ps修图,修整照片。同时给自己的书法作品美化美化。很是方便。我这台b505的电脑,整体配置不错,就是一…

html textarea 自动高度,HTML页面中textarea高度自适应解决方案

背景: 页面上加了一个div标签,div标签下有一个textarea标签,textarea的内容通过后台读取数据自动填充,希望通过textarea的高度随着内容的增减,自动调整,在网上说通过设置textarea属性可以解决,即…

电脑入门完全自学手册_室内设计CAD施工图识读手册

室内设计全案行业班学习分为三个学习阶段第一阶段:软件技能学习,包括CAD、3DMAX、SU、PS、办公软件等第二阶段:设计理论学习,包括客户分析、方案设计、材料采买、工艺选用、预算造价等第三阶段:工程项目实战&#xff0…

[转]宝文!Apple Push Notification Service (APNS)原理与实现方案

原理 简单的说,app要单独实现消息动态更新,一种是轮询,这对用户来说会带来额外的流量。另一种方案是push,app client和server直接保持一个长连接,有新的消息时server push给app client。 这两种通过app自身实现的“pus…

if 组件是否存在_UE4 UMG简介+Slate组件问题排查

Slate 组件问题排查总结简介首先是一个工作中遇到的BUG: 用slua添加子节点到父节点上的时候,第二次打开无法显示对应的子节点Widget。对应Lua代码如下local comboBox ui_manager.ShowUI(ui_manager.UI_Config.ui_coupon_combobox,2,price,buyUIInfo.sho…

创业型公司的产品经理应该知道的事情

可能因为最近有一本书叫做<<人人都是产品经理>>&#xff0c;所以产品经理这个词变得很fashion了&#xff0c;产品经理在一些成熟型的公司&#xff0c;确实是一个很重要的职位。因为成熟型的公司产品的开发的流程都已经很完善&#xff0c;所以产品经理是其中一个不可…

设置框开始隐藏状态html5,小猿圈分享HTML5中form如何关闭自动完成功能的方法

WEB前端现在是时下较火的编程语言之一&#xff0c;但是对于怎么学习或者学习哪些内容很多朋友都是不了解的&#xff0c;针对以上内容小猿圈web前端讲师总结了form如何关闭自动完成功能的方法&#xff1f;希望对你的前端学习有一定的帮助。什么是HTML5的form自动完成功能&#x…

浏览器登录_经常用浏览器自动登录忘记了密码?教你一键查看网页星号密码

不知道大家有没有出现这种情况&#xff0c;因为一直用的网页自动填写密码来登录&#xff0c;所以有时候甚至把密码给忘了相信有的小伙伴有可能就会出现这种情况哈&#xff0c;今天小林君来教你个超简单的方法&#xff0c;不用安装任何软件&#xff0c;就可以一键查看网页上隐藏…

控件属性动作

控件应该定义属性而不是公共字段&#xff0c;因为可视化设计器在属性浏览器中显示属性&#xff0c;而不显示字段。属性就像智能字段。属性通常具有带访问函数的专用数据成员&#xff0c;在语法上属性被作为类的字段进行访问。&#xff08;虽然属性可以具有不同的访问级别&#…

python连接数据库并编写调用函数_Python使用pyodbc访问数据库操作方法详解

本文实例讲述了Python使用pyodbc访问数据库操作方法。分享给大家供大家参考&#xff0c;具体如下&#xff1a;1、连接数据库1)直接连接数据库和创建一个游标(cursor)cnxn pyodbc.connect(DRIVER{SQL Server};SERVERlocalhost;DATABASEtestdb;UIDme;PWDpass)cursor cnxn.cursor(…

Mysql 5.5的编译安装 在ubuntu 10平台上面

(一)安装mysql5.5的要求 编译安装mysql5.5与5.1还是有一点不同&#xff0c;因为mysql现在用cmake来作编译工程工具。 这是与mysql5.1最大不同的地方&#xff0c;因此在安装mysql5.5时所要求的工具包也不同。发现用cmake编译mysql比以前的速度还是快了不少。 &#xff08;1&a…

html图片轮播怎么做的,CSS3制作轮播图的一种方法

轮播图&#xff0c;网页上经常能看得见&#xff0c;画面比较精美&#xff0c;下面是纯CSS3的轮播图的一种下面是style部分&#xff1a;这几行都能明白吧*{margin:0;padding:0;}a{text-decoration:none}li{list-style:none;}设计宽度不要超过轮播图片的总宽度再加不到第一张1张图…

怎么让textarea占满整个td高度没用_家里没发现虫子,怎么才能确定是被什么害虫咬了?...

在家里被虫子咬&#xff0c;还发痒&#xff0c;主要有三种可能性。蚊子、跳蚤、臭虫都有可能&#xff0c;那么如何才能确定是被哪种害虫叮咬&#xff1f;接下来带大家了解三种害虫叮咬的区别&#xff01;首先是蚊子&#xff0c;早上起来发现身上有包&#xff0c;先看有几处&…

PLSQL 笔记

oracle的左连接或右连接 以下是解释&#xff0c;自己研究下&#xff1a; ------------------------------------------------------------------- 数据表的连接有: 1、内连接(自然连接): 只有两个表相匹配的行才能在结果集中出现 2、外连接: 包括 &#xff08;1&#xff09;左外…

上位机与1200组态步骤_组态王与 I/O 设备

组态王软件是一种通用的工业监控软件&#xff0c;它将过程控制设计、现场操作以及工厂资源管理融于一体&#xff0c;将一个企业内部的各种生产系统和应用以及信息交流汇集在一起&#xff0c;实现最优化管理。它基于Microsoft Windows XP/Win7/Win8/Win10/WinServer 系列操作系统…

MySQL安装错误: unknown option '--skip-federated'

mysql启动时出现以下错误&#xff1a; [ERROR] /usr/local/mysql/libexec/mysqld: unknown option --skip-federated [ERROR] Aborting [Note] /usr/local/mysql/libexec/mysqld: Shutdown complete 只要将/etc/my.cnf文件中的skip-federated注释掉即可 通过查看/var/log/mysql…

华为鸿蒙发布2.0,华为做到了!鸿蒙2.0正式发布,苹果安卓有危机?

孩子的梦想总是天真烂漫&#xff0c;无论年龄大小&#xff0c;每个人都有属于自己的梦想&#xff0c;儿童节刚过华为天真的梦就照进了现实。6月2日晚间&#xff0c;鸿蒙2.0版本发布会如期而至&#xff0c;余承东正式向全世界宣布这款挑战安卓和 iOS的商用移动操作系统&#xff…

【IE大叔的嘴歪眼斜】之—— 由hasLayout引发的临床CSS Bug表

IE大叔这嘴歪眼斜的毛病不是一天两天了&#xff0c;集体拉出来测试时候&#xff0c;明明大家都在微笑&#xff0c;就丫一副呲牙咧嘴的...... 哎&#xff0c;没办法&#xff0c;谁让咱国内市面上都是这种呲牙咧嘴的浏览器呢.....(关注IE678死亡速度) 查阅&#xff0c;翻读&#…