目录
一、会话和Cookies
1.1 静态网页和动态网页
1.2 无状态HTTP
1.3 常见误区
二、代理的基本原理
2.1 基本原理
2.2 代理的作用
2.3 爬虫代理
2.4 代理分类
2.5 常见代理设置
一、会话和Cookies
大家在浏览网站过程中,肯定经常遇到需要登录的场景。有些页面限制访问,只有登录后才能打开,而且登录一次后,能连续多次访问网站。不过,有时候隔了一段时间,就又得重新登录。还有一些网站更方便,打开浏览器就自动完成登录,很长时间内都不会失效。这究竟是什么原因呢?实际上,这些现象背后,都和会话(Session)以及Cookies的知识有关。接下来这一节,咱们就一起深入了解一下。
1.1 静态网页和动态网页
在正式了解会话和Cookies之前,我们得先清楚静态网页和动态网页的概念。这里还是用前面的示例代码:
<!DOCTYPE html>
<html>
<head><meta charset="UTF-8"><title>This is a Demo</title>
</head>
<body><div id="container"><div class="wrapper"><h2 class="title">Hello World</h2><p class="text">Hello,this is a paragraph.</p></div></div>
</body>
</html>
先把这段基础的HTML代码保存成.html文件,接着将文件放到一台有固定公网IP的主机上。在这台主机上安装Apache或者Nginx这类服务器软件,如此一来,这台主机就能充当服务器了。其他人只要访问这台服务器,就能看到对应的网页,这样一个最简单的网站就搭建好了。
这种网页的内容都是用HTML代码编写的,网页上的文字、图片等,都由提前写好的HTML代码确定,我们把这类网页称作静态网页。静态网页加载速度快,编写也容易,可它有不少缺点。比如,后期维护起来比较麻烦,而且不能根据URL的变化,灵活展示不同内容。举个例子,要是想在网页URL里传入一个name参数,让网页显示这个参数的内容,静态网页就实现不了。
为了解决这些问题,动态网页应运而生。动态网页可以解析URL里参数的变化,还能和数据库关联,根据不同情况展示不一样的页面内容,十分灵活。如今,我们日常接触的大多数网站都是动态网站。它们不再局限于简单的HTML页面,而是用JSP、PHP、Python等编程语言开发的,功能比静态网页丰富、强大得多。
另外,动态网站还支持用户登录和注册功能。回到开头提到的,很多网页得登录后才能访问。正常情况下,输入用户名和密码登录成功后,肯定获取了某种类似凭证的东西,凭借它,我们才能维持登录状态,访问那些限制登录后才能查看的页面。
那么,这个神秘的凭证到底是什么呢?实际上,它是会话和Cookies协同工作产生的结果。接下来,咱们就深入探究一番。
1.2 无状态HTTP
在深入了解会话和Cookies之前,我们得先掌握HTTP的一个特性,那就是无状态。
所谓HTTP的无状态,也就是说HTTP协议在处理事务时,没有记忆的能力。直白点讲,服务器是不知道客户端处于什么状态的。当我们向服务器发送请求后,服务器会对请求进行解析,然后返回对应的响应。而且这个过程是完全独立的,服务器不会去记录前后状态的变化情况,缺少对状态的记录。这就导致了一个问题,如果后续的处理需要用到前面的信息,那就必须重新传输,这样就需要额外地发送一些重复的请求,才能获取到后续的响应。很明显,这种情况并不是我们想要的。为了能保持前后状态的连贯性,我们肯定不能把前面的请求全部再重传一遍,这样做太浪费资源了,特别是对于那些需要用户登录的页面来说,这种重传的方式就更不合适了。
在这种情况下,有两种能够保持HTTP连接状态的技术就出现了,它们分别是会话和Cookies。会话是保存在服务端的,也就是网站的服务器上,主要用来保存用户的会话信息;而Cookies则保存在客户端,也就是我们使用的浏览器端。当浏览器有了Cookies后,下次再去访问网页时,就会自动把Cookies附带上发送给服务器。服务器通过对Cookies的识别,就能确定是哪个用户,然后进一步判断这个用户是不是处于登录状态,最后再返回相应的响应。
我们可以把Cookies理解成是保存了登录的凭证。有了这个凭证,下次发送请求的时候,只要带着Cookies就行了,不需要再重新输入用户名、密码这些信息来重新登录。
所以在开发爬虫的时候,要是遇到那些需要登录才能访问的页面,我们一般会把登录成功后获取到的Cookies放在请求头里面,直接发送请求,这样就不用再重新去模拟登录的过程了。
在知道了会话和Cookies的概念之后,下面我们就来详细地分析一下它们各自的原理。
(1)会话
会话,从原本的意思来讲,就是指一系列有开始也有结束的动作或者消息。就好比我们打电话,从拿起电话拨号开始,一直到挂断电话这一整个过程,就可以被称作是一个会话。
在Web应用里,会话对象的作用是用来存储特定用户在会话过程中所需要的属性以及配置信息。这样一来,当用户在应用程序的各个Web页面之间进行跳转的时候,存储在会话对象里面的变量是不会丢失的,会在整个用户会话期间一直存在。当用户请求应用程序的Web页面时,如果这个用户之前还没有会话,那么Web服务器就会自动创建一个会话对象。而当会话过期了或者被用户放弃了之后,服务器就会终止这个会话。
(2)Cookies
Cookies其实就是某些网站为了能够辨别用户的身份,以及对会话进行跟踪,而存储在用户本地终端上的数据。
- 会话维持:那么,我们到底是怎么利用Cookies来保持状态的呢?当客户端第一次向服务器发送请求的时候,服务器会返回一个请求头中带有Set-Cookie字段的响应给客户端,这个字段就是用来标记是哪个用户的,客户端的浏览器会把这些Cookies保存下来。等到浏览器下一次再去请求这个网站的时候,就会把这些Cookies放到请求头里面,一起提交给服务器。因为Cookies里面携带了会话ID的信息,所以服务器检查这些Cookies之后,就能找到对应的会话,然后再判断用户的状态。
当我们成功登录某个网站的时候,服务器会告诉客户端需要设置哪些Cookies信息。在后续访问页面的时候,客户端就会把Cookies发送给服务器,服务器找到对应的会话并进行判断。要是会话中一些用来标记登录状态的变量是有效的,那就说明用户是处于登录状态的,服务器就会返回那些只有登录之后才能查看的网页内容,浏览器对这些内容进行解析之后,我们就能看到相应的页面了。
反过来,如果传给服务器的Cookies是无效的,又或者会话已经过期了,那我们就没办法继续访问页面了,这个时候可能会收到错误的响应,或者会被跳转到登录页面,要求我们重新登录。
所以说,Cookies和会话是需要相互配合的,一个在客户端,一个在服务端,它们共同协作,才实现了对登录会话的控制。
- 属性结构:接下来我们看看Cookies具体都包含哪些内容。就拿百度来举例吧,在浏览器的开发者工具中打开Application选项卡,在左侧的Storage部分,最后一项就是Cookies,把它点开之后,就能看到相关的Cookies信息了,就像下图所展示的那样。
这里面有很多条目,每一个条目都可以看作是一个Cookie,它有以下几个属性:
- Name:这是Cookie的名称。一旦创建好了,这个名称就不能再更改了。
- Value:这是Cookie的值。如果这个值是Unicode字符的话,就需要进行字符编码;要是值是二进制数据,那就需要用BASE64编码。
- Domain:指的是可以访问这个Cookie的域名。比如说,如果设置成了.zhihu.com,那么所有以zhihu.com结尾的域名都可以访问这个Cookie。
- MaxAge:这是Cookie失效的时间,单位是秒,它经常会和Expires一起使用,通过它可以计算出Cookie的有效时间。当MaxAge是正数的时候,这个Cookie会在MaxAge秒之后失效;要是MaxAge是负数,那么关闭浏览器的时候,这个Cookie就会失效,而且浏览器也不会保存这个Cookie。
- Path:这是Cookie的使用路径。要是设置成了/path/,那就只有路径为path/的页面才可以访问这个Cookie;要是设置成了/,那么本域名下的所有页面都能访问这个Cookie。
- Size字段:表示的是这个Cookie的大小。
- HTTP字段:指的是Cookie的httponly属性。如果这个属性是true,那么只有在HTTP头中才会带有这个Cookie的信息,没办法通过document.cookie来访问这个Cookie。
- Secure:这个属性是说该Cookie是不是只能通过安全协议来传输。像HTTPS和SSL等都是安全协议,在网络上传输数据之前会先对数据进行加密,这个属性默认是false。
- 会话Cookie和持久Cookie:从表面上看,会话Cookie是存储在浏览器的内存里面的,一旦关闭浏览器,这个Cookie就会失效;而持久Cookie则会被保存到客户端的硬盘中,下次还能继续使用,能够长时间地保持用户的登录状态。但实际上,严格来讲,并没有明确区分会话Cookie和持久Cookie,它们的过期时间其实是由Cookie的MaxAge或者Expires字段来决定的。
所以,有些支持持久化登录的网站,会把Cookie的有效时间和会话的有效期设置得比较长。这样一来,下次我们再去访问页面的时候,只要还带着之前的Cookie,就可以直接保持登录状态了。
1.3 常见误区
在探讨会话机制时,不少人存在一个误解,觉得“只要关闭浏览器,会话就会消失”。打个比方,以会员卡为例,通常情况下,除非顾客主动要求店家注销会员卡,否则店家不会随意删除顾客的资料。会话机制也是同样的道理,除非程序指令服务器删除会话,不然服务器会一直保存会话数据。比如当我们执行注销操作时,程序就会删除对应的会话。
当我们关闭浏览器时,浏览器并不会在关闭前告知服务器它即将关闭,因此服务器无从得知浏览器已经关闭。大家之所以会产生“关闭浏览器会话就消失”这种错觉,是因为大多数会话机制采用会话Cookie来存储会话ID信息。关闭浏览器后,这些Cookie就会消失,再次连接服务器时,自然无法找到之前的会话。但是,如果服务器设置将Cookie保存到硬盘上,又或者通过某些技术手段修改浏览器发出的HTTP请求头,让浏览器再次向服务器发送原来的Cookie,那么再次打开浏览器访问服务器时,依然能够找到原来的会话ID,进而保持登录状态。
也正因为关闭浏览器不会直接致使会话被删除,所以服务器需要为会话设置一个失效时间。当客户端距离上一次使用会话的时间超过这个设定的失效时间,服务器便会判定客户端已停止活动,从而删除会话,以此节省存储空间。
二、代理的基本原理
在编写爬虫程序时,大家常常会碰到这样的状况。刚开始,爬虫能够正常运转,顺利抓取数据。但没过多久,程序可能就会报错,最常见的就是403 Forbidden错误。这时候打开对应的网页,可能会看到“您的IP访问频率太高”的提示。出现这种情况,是因为网站采用了反爬虫手段。网站服务器会监测某个IP在一定时间内的请求次数,一旦请求次数超过预先设定的阈值,服务器就会直接拒绝服务,返回错误信息,这就是我们常说的封IP。
既然服务器是依据IP在单位时间内的请求次数来进行检测的,那只要想办法伪装我们的IP地址,让服务器无法察觉请求来自本地,不就能避免IP被封了吗?
使用代理就是一种行之有效的办法。后续,我们会详细讲解代理的使用方法。在此之前,我们有必要先了解代理的基本原理,弄清楚它究竟是如何实现IP伪装的。
2.1 基本原理
代理,说的就是代理服务器,英文叫proxy server。它能代替网络用户去获取网络信息,打个比方,它就像网络信息的“中转站”。
平常我们访问网站时,会直接给Web服务器发送请求,Web服务器处理后,把响应结果回传给我们。要是设置了代理服务器,就如同在我们自己的设备和Web服务器之间架起了一座“桥”。这时候,我们的设备不再直接向Web服务器发起请求,而是将请求发送给代理服务器。代理服务器收到请求后,再把它转交给Web服务器。Web服务器处理完请求,将响应返回给代理服务器,代理服务器又会把响应转发给我们的设备。
通过这样的流程,我们依旧可以正常浏览网页。而且,Web服务器识别出的IP是代理服务器的,而非我们本机的IP,就这样,成功实现了IP伪装,这便是代理的基本工作原理。
2.2 代理的作用
代理到底有什么用呢?下面简单给大家说一说:
(1)突破IP访问限制:有些网站我们平常无法直接访问,借助代理,就能突破限制,正常访问这些站点。
(2)访问内部资源:以教育网为例,使用教育网内地址段的免费代理服务器,就能访问教育网开放的各类FTP服务,进行资料的下载、上传,还能查询和共享各类学习资料。
(3)加快访问速度:一般来说,代理服务器都会配置一个大容量的硬盘缓冲区。当有信息通过代理服务器时,这些信息会被缓存到缓冲区里。当其他用户再次访问相同信息时,代理服务器就可以直接从缓冲区调取信息,快速传给用户,大大提高了访问速度。
(4)隐藏真实IP:通过代理上网,用户能隐藏自己的真实IP,降低遭受攻击的风险。对爬虫来说,使用代理能隐藏爬虫程序所在的IP,防止因频繁访问被网站封锁IP 。
2.3 爬虫代理
爬虫爬取数据的速度往往很快,这就导致在爬取时,同一个IP可能会过于频繁地访问网站。一旦出现这种情况,网站为了防范,可能会要求我们输入验证码才能继续访问,甚至直接封锁这个IP。这无疑给爬虫的爬取工作造成很大阻碍。
而使用代理就能解决这个问题。通过使用代理,我们可以隐藏爬虫程序所在设备的真实IP,让网站服务器以为请求是代理服务器发出的。在爬取过程中,要是我们持续更换不同的代理,网站就难以锁定并封锁我们的IP,爬虫也就可以较为顺利地开展爬取工作了 。
2.4 代理分类
代理按照不同标准,可以从协议类型和匿名程度这两个方面进行分类。
(1)按照协议分类
依据代理所遵循的协议,主要有下面这些类型:
- FTP代理服务器:专门用来访问FTP服务器,一般能实现文件的上传、下载,还带有缓存功能。它常用的端口是21、2121 。
- HTTP代理服务器:主要用来访问网页,多数带有内容过滤功能,还能缓存网页数据。常见端口有80、8080、3128。
- SSL/TLS代理:如果要访问加密网站,就会用到它。这类代理一般具备SSL或TLS加密功能,最高支持128位加密强度,常用端口是443。
- RTSP代理:主要服务于Real流媒体服务器的访问,通常带有缓存功能,端口多为554。
- Telnet代理:多用于Telnet远程控制场景,黑客入侵电脑时,常借助它隐藏自己的身份,端口一般是23。
- POP3/SMTP代理:在使用POP3/SMTP方式收发邮件时会用到,通常有缓存邮件数据的功能,使用的端口一般是110和25。
- SOCKS代理:它只负责传递数据包,不关注具体协议和使用方法,速度相对较快,也带有缓存功能,端口多为1080。SOCKS代理协议分为SOCKS4和SOCKS5,SOCKS4仅支持TCP协议,而SOCKS5不仅支持TCP,还支持UDP,并且支持多种身份验证机制和服务器端域名解析。简单来讲,SOCKS4能干的事,SOCKS5都能做,但SOCKS5能做的,SOCKS4不一定能做到。
(2)按照匿名程度分类
根据代理的匿名程度差异,又可以分为以下几类:
- 高度匿名代理:转发数据包时,不会做任何修改。在服务器端看来,就像是普通客户端在发起访问,记录的IP地址也是代理服务器的。
- 普通匿名代理:在转发数据包时,会对数据包做一些处理。服务器端有可能察觉到这是代理服务器在访问,甚至有一定概率追踪到客户端的真实IP。这类代理服务器一般会添加HTTP_VIA和HTTP_X_FORWARDED_FOR等HTTP头信息。
- 透明代理:不仅会修改数据包,还会直接把客户端的真实IP告知服务器。这类代理除了能借助缓存技术提升浏览速度,利用内容过滤增强安全性外,没有其他突出作用,常见于内网中的硬件防火墙。
- 间谍代理:由组织或个人搭建,目的是记录用户传输的数据,进而对用户行为展开研究和监控。
2.5 常见代理设置
下面给大家介绍几种常见的获取代理的途径:
(1)使用网上免费代理:优先选择高匿名代理。网上免费代理数量有限,且质量参差不齐。在使用之前,得筛选出可用的代理。为了更方便地使用,还可以搭建并维护一个代理池。
(2)使用付费代理服务:互联网上有不少提供代理服务的商家,只要支付一定费用,就能使用他们的代理服务。相比免费代理,付费代理的稳定性和可用性都要好很多。
(3)ADSL拨号:每次进行ADSL拨号,都会获取一个新的IP地址。这种方式稳定性高,在解决IP限制问题上,是个比较有效的办法。
后面的内容里,我们会详细讲解这几种代理的具体使用方法。
参考学习书籍:Python 3网络爬虫开发实战