python爬虫-异常处理

URLerror产生原因:

  • 网络未连接(即不能上网)
  • 服务器不存在

 

1 #-*-coding:utf-8-*-
2 import urllib2
3 request=urllib2.Request('http://www.wujiadong.com')
#这是一个不能打开的网址
4 response=urllib2.urlopen(request) 5 html=response.read() 6 print(html)

 

报错情况:

 

下面我们对可能出现异常进行处理,一般通过try-except语句来包围并捕获相应的异常。我们先尝试一下:

 

 1 #-*-coding:utf-8-*-
 2 import urllib2
 3 try:
 4     request=urllib2.Request('http://www.wujiadong.com')
 5     response=urllib2.urlopen(request)
 6     html=response.read()
 7 except:
 8     print('something wrong')
 9 else:
10     print(html)

 

常用另一种:

 

1 import urllib2
2 request=urllib2.Request('http://www.wujiadong.com')
3 try: 
urllib2.urlopen(request)
4 except:
urllib2.URLError,e:
5 print(e.reason)

异常处理的终极完整形态

1 try:
# 框住了你感觉会抛出异常的代码
2 print(a[6]) 3 except:
#try代码块里的代码如果抛出异常了,该执行什么内容
4 print('haha') 5 else:
#try代码块里的代码如果没有跑出异常,就执行这里
6 print('hehe') 7 finally:
#不管如何,finally里的代码,是总会执行的
8 print('xixi')

HTTPError

在你利用urlopen方法发出一个请求时,服务器上都会对应一个应答对象response,其中它包含

一个数字”状态码。例如:假如response是一个"重定向",需要客户端从别的地址获取文档,

urllib2将为你处理。其他不能处理的,urlopen会产生一个HTTPError。

典型的错误包含"404"(页面无法找到),"403"(请求禁止),和"401"(带验证请求)。

HTTP状态码表示HTTP协议所返回的响应的状态。

比如客户端向服务器发送请求,如果成功地获得请求的资源,则返回的状态码为200,表示响应成功。

如果请求的资源不存在, 则通常返回404错误。 

HTTP状态码通常分为5种类型,分别以1~5五个数字开头,由3位整数组成:

 1     100:继续  客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。
 2 
 3     101: 转换协议  在发送完这个响应最后的空行后,服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。
 4 
 5     102:继续处理   由WebDAV(RFC 2518)扩展的状态码,代表处理将被继续执行。
 6 
 7     200:请求成功      处理方式:获得响应的内容,进行处理
 8 
 9     201:请求完成,结果是创建了新资源。新创建资源的URI可在响应的实体中得到    处理方式:爬虫中不会遇到
10 
11     202:请求被接受,但处理尚未完成    处理方式:阻塞等待
12 
13     204:服务器端已经实现了请求,但是没有返回新的信 息。如果客户是用户代理,则无须为此更新自身的文档视图。    处理方式:丢弃
14 
15     300:该状态码不被HTTP/1.0的应用程序直接使用, 只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。    处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃
16     301:请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源    处理方式:重定向到分配的URL
17 
18     302:请求到的资源在一个不同的URL处临时保存     处理方式:重定向到临时的URL
19 
20     304:请求的资源未更新     处理方式:丢弃
21 
22     400:非法请求     处理方式:丢弃
23 
24     401:未授权     处理方式:丢弃
25 
26     403:禁止     处理方式:丢弃
27 
28     404:没有找到     处理方式:丢弃
29 
30     500:服务器内部错误  服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。一般来说,这个问题都会在服务器端的源代码出现错误时出现。
31 
32     501:服务器无法识别  服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法,并且无法支持其对任何资源的请求。
33 
34     502:错误网关  作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应。
35 
36     503:服务出错   由于临时的服务器维护或者过载,服务器当前无法处理请求。这个状况是临时的,并且将在一段时间以后恢复。
     HTTPError实例产生后会有一个整型'code'属性,是服务器发送的相关错误号。
   Error Codes错误码
   因为默认的处理器处理了重定向(300以外号码),并且100-299范围的号码指示成功,所以你只能看到400-599的错误号码。
1 import urllib2
2 request=urllib2.Request('http://bbs.csdn.net/callmewhy')
3 try: urllib2.urlopen(request)
4 except urllib2.URLError,e:
5    print(e.code)
6 #  print(e.reason)
7 # print(e.read())

错误代号是403,错误原因是Forbidden,说明服务器禁止访问。

方法一:加入 hasattr属性提前对属性进行判断,来处理异常

 1 from urllib2 import Request,urlopen,URLError,HTTPError
 2 request=Request('http://blog.csdn.net/cqcre')
 3 try:
 4    response=urlopen(request)
 5 
 6 except URLError,e:
 7 
 8    if hasattr(e,'code'):
 9       print('the server couldn\'t fulfill the request')
10       print('Error code:',e.code)
11    elif hasattr(e,'reason'):
12       print('we failed to reach a server')
13       print('Reason:',e.reason)
14 else:
15    print('no exception was raised')
16    # everything is ok

方法二:暂时未写

 

转载于:https://www.cnblogs.com/wujiadong2014/p/4928036.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/262550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

将给定数据源生成静态HTML页面持久化到项目之外的硬盘

一、java代码 设置好数据源map Map<String,String> mapnew HashMap<>();map.put("knowledgeName",tBasKnowledgebase.getKnowledgeName());map.put("htmlContent",tBasKnowledgebase.getHtmlContent());map.put("publishDate",new j…

qt qthead里如何响应信号_Qt 中的多线程技术(翻译)

原文链接Multithreading Technologies in Qt​doc.qt.io正文Qt 提供一系列的类与函数来处理多线程。Qt 开发者们可以使用下面四种方法来实现多线程应用。QThread: 底层 API 与可选的事件循环作为 Qt 进行线程控制的基石&#xff0c;每一个 QThread 实例都代表并控制着一个线程。…

SATA盘与SAS盘的区别

在过去的20年中&#xff0c;并行&#xff08;Paralle&#xff09;总线接口在存储市场上占据了主导的地位。但随着CPU时钟频率和内存带宽的不断提升&#xff0c;两种主要的并行总线接口技术ATA和SCSI逐渐显现出不足来。尽管ATA和SCSI均是并行总线接口&#xff0c;但是它们之间却…

如何彻底删除SVN中的文件和文件夹(附恢复方法)

在SVN中如果删除某个文件或文件夹也可以在历史记录中进行找回&#xff0c;有的时候需要彻底删除某些文件&#xff0c;即不希望通过历史记录进行恢复&#xff0c;需要在服务器上对SVN的数据进行重新整理这里假设SVN项目的目录为 /data/svn/project&#xff0c;我们想排除trunk/t…

Linux 技巧: Bash 测试和比较函数

http://www.ibm.com/developerworks/cn/linux/l-bash-test.html 转载于:https://www.cnblogs.com/daojian/archive/2012/07/16/2593960.html

页面调用系统window打印

一、 打印&#xff1a;直接页面调用window.print()&#xff0c;当前页面就会转换成打印页面 当前页面是使用HTML拼接成A4纸表格样式的展示&#xff1b; doPrint:function(type) {// this.centerDialogVisiblefalse;$(#button).hide();window.print();$(#button).show(); } 二、…

为什么只看重结果_猫很现实?猫只是看重结果

猫的智谋是许多家养宠物难以比拟的&#xff0c;这和猫的思维模式有关。和一些看重过程的动物不同&#xff0c;猫非常重视结果。这意味着&#xff0c;猫会通过自己的观察&#xff0c;通过结果来倒推过程&#xff0c;从而记住最佳的行动方案。铲屎官教给猫的一些方法&#xff0c;…

SQL Server 语句查询手册

建表&#xff1a; CREATE TABLE [DB.dbo].tableName (Stud_id int CONSTRAINT constraintName1 not null primary key, Name nvarchar(5) not null, Birthday datetime, Gender nchar(1), Telcode char(12), Zipcode char(6) CONSTRAINT constraintName2 CHECK(zipcode like…

Spring 3整合Quartz 2实现定时任务(转)

http://www.meiriyouke.net/?p82 最近工作中需要用到定时任务的功能&#xff0c;虽然Spring3也自带了一个轻量级的定时任务实现&#xff0c;但感觉不够灵活&#xff0c;功能也不够强大。在考虑之后&#xff0c;决定整合更为专业的Quartz来实现定时任务功能。 首先&#xff0c;…

OpenGL Shader基本概念

转载自&#xff1a;http://blog.csdn.net/lcphoenix/article/details/6574417 使用OpenGL创造的物体&#xff0c;在最终被绘制出来之前&#xff0c;有一个流水线处理过程&#xff0c;该过程被称为graphics pipeline,或者rendering pipeline&#xff0c;期间大部分工作由GPU执行…

android 编译之后黑屏_抖音BoostMultiDex:Android低版本上首次启动时间减少80%(一)...

我们知道&#xff0c;Android 低版本(4.X 及以下&#xff0c;SDK < 21)的设备&#xff0c;采用的 Java 运行环境是 Dalvik 虚拟机。它相比于高版本&#xff0c;最大的问题就是在安装或者升级更新之后&#xff0c;首次冷启动的耗时漫长。这常常需要花费几十秒甚至几分钟&…

[转]关于多线程并发:每个开发人员都应了解的内容(转自Mainz's)

Concurrency: What Every Dev Must Know About Multithreaded Apps 本文讨论: 多线程和共享内存线程模型争用及并发访问如何能够打破不变量作为争用标准解决方案的锁定何时需要锁定如何使用锁定&#xff1b;理解开销锁定如何能够各行其道十年前&#xff0c;只有核心系统程序员会…

Filter案例之登录验证

一、登录验证&#xff0c;权限控制 1、需求分析 其中&#xff0c;登录有关的资源被访问时要直接放行&#xff0c;不然会死循环&#xff1b; 2、代码实现 转载于:https://www.cnblogs.com/wmqiang/p/11604621.html

未在本地计算机上注册“Microsoft.ACE.OLEDB.12.0”提供程序。

当用sqlserver 导入excel文件的时候&#xff0c;会出现未在本地计算机上注册“Microsoft.ACE.OLEDB.12.0”提供程序。 解决办法&#xff1a;去http://download.microsoft.com/download/7/0/3/703ffbcb-dc0c-4e19-b0da-1463960fdcdb/AccessDatabaseEngine.exe下载。然后安装就行…

js导出excel单元格内换行符代码_前端和excel的那些事

前端和 excel 的那点事在开发需求中&#xff0c;经常会遇到需要和excel相关的需求&#xff0c;毕竟不是所有人都是程序员&#xff0c;很多的业务都是通过excel去进行数据的整理归类计算的&#xff0c;excel中提供的一系列快捷功能&#xff0c;统计功能也非常的实用&#xff0c;…

C语言高级技术之--游戏属性修改器(背景故事)

前些天&#xff0c;由于看朋友在玩单机游戏仙剑3&#xff08;这么早的游戏&#xff0c;早不完了&#xff09;&#xff0c;看得我实在太累&#xff0c;问他为什么不找修改器之类的&#xff0c;那样轻松一些&#xff0c;他的回答让我很无语&#xff0c;他说&#xff1a;“老是下到…

CIO职业生涯如何进行三级跳

关于从技术员到CIO转型的&#xff0c;网上讨论的已经很多了。下面笔者结合自己的工作经历&#xff0c;谈谈自己在这方面的感受。概括的说来&#xff0c;我的CIO职业生涯&#xff0c;可以用“三级跳”来概括。借此&#xff0c;也给应届毕业生几个建议。  一级跳&#xff1a;MC…

Filter案例之敏感词过滤和代理模式

一、需求分析 二 、代理模式 1、概念 2、代码实现 代理对象可以强转为真实对象&#xff0c;即对应的接口类&#xff1b; 3、通过代理增强方法 其中&#xff0c;方法对象invoke真实对象&#xff0c;反射原理&#xff1b; 三、过滤敏感词汇案例代码实现 本地的字符流和字节流创建…

555定时器回差电压计算公式_555时基电路引脚解析

555时基电路引脚解析凡是时基电路555&#xff0c;电路内部结构相同&#xff0c;性能都是相同的。 时基电路555有很多厂家型号&#xff0c;如MC555、CA555、XR555、LM555等&#xff1b;国产型号有SL555、FX555、5G1555等&#xff0c;典型的、也是最常用的是NE555。555前的字母只…

LINQ学习(四):From子句

说明&#xff1a;查询表达式必须以 from 子句开头。 另外&#xff0c;查询表达式还可以包含子查询&#xff0c;子查询也是以 from 子句开头。SQL命令中from指的是数据表&#xff0c;LINQ中from 子句中引用的数据源的类型必须为 IEnumerable、IEnumerable<T> 或一种派生类…