网络爬虫--5.urllib库的基本使用(1)

文章目录

  • 一. 前言
  • 二. urlopen
  • 三. Request
  • 四. User-Agent
  • 五. 添加更多的Header信息
    • 1. 添加一个特定的header
    • 2. 随机添加/修改User-Agent

一. 前言

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib。

二. urlopen

我们先来段代码:

# 导入urllib.request 库
import urllib.request# 向指定的url发送请求,并返回服务器响应的类文件对象
response = urllib.request.urlopen("http://www.baidu.com")# 类文件对象支持文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
html = response.read()# 打印字符串
print ('---------------------')
print (html)
print ('---------------------')

执行写的python代码,显示打印结果。

实际上,如果我们在浏览器上打开百度主页, 右键选择“查看源代码”,你会发现,跟我们刚才打印出来的是一模一样。也就是说,上面的4行代码就已经帮我们把百度的首页的全部代码爬了下来。

一个基本的url请求对应的python代码真的非常简单。

三. Request

在我们第一个例子里,urlopen()的参数就是一个url地址;

但是如果需要执行更复杂的操作,比如增加HTTP报头,必须创建一个 Request 实例来作为urlopen()的参数;而需要访问的url地址则作为 Request 实例的参数。

# urllib_request.pyimport urllib.request# url 作为Request()方法的参数,构造并返回一个Request对象
request = urllib.request.Request("http://www.baidu.com")# Request对象作为urlopen()方法的参数,发送给服务器并接收响应
response = urllib.request.urlopen(request)html = response.read().decode()print (html)

运行结果是完全一样的:

新建Request实例,除了必须要有 url 参数之外,还可以设置另外两个参数:

data(默认空):是伴随 url 提交的数据(比如要post的数据),同时 HTTP 请求将从 "GET"方式 改为 "POST"方式。

headers(默认空):是一个字典,包含了需要发送的HTTP报头的键值对。

这两个参数下面会说到。

四. User-Agent

但是这样直接用urllib给一个网站发送请求的话,确实略有些唐突了,就好比,人家每家都有门,你以一个路人的身份直接闯进去显然不是很礼貌。而且有一些站点不喜欢被程序(非人为访问)访问,有可能会拒绝你的访问请求。

但是如果我们用一个合法的身份去请求别人网站,显然人家就是欢迎的,所以我们就应该给我们的这个代码加上一个身份,就是所谓的User-Agent头。

浏览器 就是互联网世界上公认被允许的身份,如果我们希望我们的爬虫程序更像一个真实用户,那我们第一步,就是需要伪装成一个被公认的浏览器。用不同的浏览器在发送请求的时候,会有不同的User-Agent头。 urllib默认的User-Agent头为:Python-urllib/x.y(x和y是Python主版本和次版本号,例如 Python-urllib/2.7)

import urllib.requesturl = "http://www.itcast.cn"#IE 9.0 的 User-Agent,包含在 ua_header里
ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}#  url 连同 headers,一起构造Request请求,这个请求将附带 IE9.0 浏览器的User-Agent
request = urllib.request.Request(url, headers = ua_header)# 向服务器发送这个请求
response = urllib.request.urlopen(request)html = response.read()
print (html)

五. 添加更多的Header信息

在 HTTP Request 中加入特定的 Header,来构造一个完整的HTTP请求消息。

可以通过调用Request.add_header() 添加/修改一个特定的header,也可以通过调用Request.get_header()来查看已有的header。

1. 添加一个特定的header

import urllib.requesturl = "http://www.itcast.cn"#IE 9.0 的 User-Agent
header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
request = urllib.request.Request(url, headers = header)#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("Connection", "keep-alive")# 也可以通过调用Request.get_header()来查看header信息
# request.get_header(header_name="Connection")response = urllib.request.urlopen(request)print (response.code) #可以查看响应状态码
html = response.read().decode()print (html)

2. 随机添加/修改User-Agent

import urllib
import randomurl = "http://www.itcast.cn"ua_list = ["Mozilla/5.0 (Windows NT 6.1; ) Apple.... ","Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ","Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ","Mozilla/5.0 (Macintosh; Intel Mac OS... "
]user_agent = random.choice(ua_list)request = urllib.request.Request(url)#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("User-Agent", user_agent)# get_header()的字符串参数,第一个字母大写,后面的全部小写
request.get_header("User-agent")response = urllib.request.urlopen(requestr)html = response.read()
print (html)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/452073.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高性能计算

信息时代的硬件芯片和存储器价格以摩尔定律的形式下降,可是现在处理的数据量也越来越大。我们先以cocoa编程为例,然后再结合网格计算、云计算,综合对最新的高性能计算技术作介绍。 使用 runloop 在cocoa编程如果用NSThread开线程 [NSThread …

混合型面向对象语言和纯面向对象语言

20世纪80年代以来,面向对象语言像雨后春笋一样大量涌现,形成了两大类面向对象语言。 一类是纯面向对象语言,如Smalltalk和Eiffel等语言 另一类是混合型面向对象语言,也就是在过程语言的基础上增加面向对象机制,如C等…

块级元素的margin-left和margin-right的用法注意

此时是有效果显示的因为html文档流默认是从上往下,从左往右进行显示的,所以此时是有效果的。那如果此时把#son的块元素的margin-right:20px; 是没有效果的此时是没有效果的,如图所示:如果此时想要margin-right有效果的话&#xf…

Apache Tiles的基本使用

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 1、概述 对于一个新的技术,了解其基本的概念和和原理是学好该技术的基础。 2、Tiles的概念 Tiles 是复合视图模式&#xff0…

js--------1.时间

1 //获取当前时间 yyyy-MM-dd2 function getNowFormatDate() {3 var date new Date();4 var seperator1 "-";5 var seperator2 ":";6 var month date.getMonth() 1;7 var strDate date.getDate();8 if (month > 1 &&…

网络爬虫--6.urllib库的基本使用(2)

文章目录一. urllib.parse.urlencode()和urllib.parse.unquote()二. Get方式三. 批量爬取百度贴吧数据四.POST方式五.关于CA六.处理HTTPS请求 SSL证书验证一. urllib.parse.urlencode()和urllib.parse.unquote() 编码工作使用urllib.parse的urlencode()函数,帮我们…

面向对象语言的技术特点

1.支持类与对象概念的机制 所有面向对象语言都允许用户动态创建对象,并且可以用指针引用动态创建的对象。允许动态创建对象,就意味着系统必须处理内存管理问题,如果不及时释放不再需要的对象所占用的内存,动态存储分配就有可能耗…

INI 文件的操作

在程序中经常要用到设置或者其他少量数据的存盘,以便程序在下一次执行的时候可以使用,比如说保存本次程序执行时窗口的位置、大小、一些用户设置的数据等等,在 Dos 下编程的时候,我们一般自己产生一个文件,由自己把这些…

摩拜大数据杀熟?官方:老用户押金的确退款延迟

近日,有媒体曝出摩拜单车一些老用户出现押金难退现象。有的消费者点击退款后,系统不断奔溃;有的申请退款后,账户又莫名出现押金,就像未申请一样;也有人终于提交了退款,等候数日却迟迟不见到账。…

Junit Test使用样例

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 配置: 调用类: import java.util.List;import javax.annotation.Resource;import org.apache.shiro.crypto.Rand…

Django congtent types应用

contenttypes 是Django内置的一个应用,可以追踪项目中所有app和model的对应关系,并记录在ContentType表中。 每当我们创建了新的model并执行数据库迁移后,ContentType表中就会自动新增一条记录。比如我在应用app01的models.py中创建表class E…

网络爬虫--7.Handler处理器 和 自定义Opener

文章目录一. 引言二. 简单的自定义opener()三. ProxyHandler处理器(代理设置)四. Cookie1.Cookie原理2.Cookie应用五. cookiejar库 和 HTTPCookieProcessor处理器1.案例一:获取Cookie,并保存到CookieJar()对象中2.案例二:利用cook…

如何选择面向对象语言

开发人员在选择面向对象语言时,还应该着重考虑以下一些实际因素。 1. 将来能否占主导地位 为了使自己的产品在若干年后仍然具有很强的生命力,人们可能希望采用将来占主导地位的语言编程。 根据目前占有的市场份额,以及专业书刊和学术会议上所…

Unicode编码及其实现:UTF-16、UTF-8,and more

本文主要讨论Unicode的编码与各种实现,着重讨论UTF-16,UTF-8的实现规则,以及Big-endian和Little-Endian的存储规则。 一、Unicode编码 Unicode出现之前已经有各种编码标准:ANSI、ISO8859-1、GB2312、GBK以及BIG-5等。Unicode试图统…

Apache Tiles的使用 前配置

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 使用方法见&#xff1a; http://blog.csdn.net/jiangyu1013/article/details/53161580 1.加maven 依赖&#xff1a; <!-- 页面布局…

day212223:线程、进程、协程

1、程序工作原理 进程的限制&#xff1a;每一个时刻只能有一个线程来工作。多进程的优点&#xff1a;同时利用多个cpu&#xff0c;能够同时进行多个操作。缺点&#xff1a;对内存消耗比较高当进程数多于cpu数量的时候会导致不能被调用&#xff0c;进程不是越多越好&#xff0c;…

php课程 8-28 php如何绘制生成显示图片

php课程 8-28 php如何绘制生成显示图片 一、总结 一句话总结&#xff1a;gd库轻松解决 1、php图片操作生成的图的两种去向是什么&#xff1f; 一种在页面直接输出&#xff0c;一种存进本地磁盘 2、php操作图片的库有哪些&#xff1f; PHP: Image Processing and Generation - M…

代码行技术

用代码行技术估算软件规模时&#xff0c;当程序较小时常用的单位是代码行数&#xff08;LOC&#xff09;&#xff0c;当程序较大时常用的单位是千行代码数&#xff08;KLOC&#xff09;。 代码行技术的主要优点是&#xff0c;代码是所有软件开发项目都有的“产品”&#xff0c;…

网络爬虫--8.编码趣闻

很久很久以前&#xff0c;有一群人&#xff0c;他们决定用8个可以开合的晶体管来组合成不同的状态&#xff0c;以表示世界上的万物。他们看到8个开关状态是好的&#xff0c;于是他们把这称为"字节"。 再后来&#xff0c;他们又做了一些可以处理这些字节的机器&#…

科技领域的一分钟

各位果迷是否能想象在一分钟之内&#xff0c;科技领域都会发生什么事情&#xff1f;——苹果平均每分钟卖出81部 iPad&#xff1b;在 iPhone 4S 发布后的第一个周末&#xff0c;每分钟卖出925部 iPhone 4S&#xff1b;RIM每分钟卖出103台黑莓手机&#xff1b;Amazon每分钟卖出1…