一:爬虫前导知识
1.爬虫引入:
网络爬虫又称为网络蜘蛛;网络蚂蚁;网络机器人等,可以自动高效地从互联网的海量信息中浏览获取到我们感兴趣的信息,在浏览信息的时候需要按照我们制定的规则进行,而这些规则就是网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索,也就是代替人去模拟浏览器进行网页操作
网络爬虫分为通用网络爬虫和聚焦网络爬虫
(1)通用网络爬虫:
用做搜索引擎,获取一些高质量网页
(2)聚焦网络爬虫:
获取某一垂直领域的数据或者有明确的检索需求,并过滤掉无用的信息
2.Python做爬虫的优势:
PHP
:对多线程;异步支持不太好Java
:代码量大;代码笨重C/C++
:代码量大;难以编写Python
:支持模块多;代码简洁;开发效率高(scrapy
框架)
3.爬虫的合法性:
爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。建议熟读《网络安全法》;并参考《刑法》第72条,第253条,第285条;且遵守Robots协议
4.http
与https
协议:
http
与https
:
http
– 不安全;https
– 安全
https
= http
+ ssl
ssl
:安全认证证书
网址(url
):全球统一资源管理定位器,用来定位的
写爬虫的第一步就是找到数据接口 – 当前数据存在的url
,也就是网址
(1)什么是协议:
网络协议是计算机之间为了实现网络通信而达成的一种 “约定” 或者 “规则” ,有了这种约定,不同厂商的生产设备,以及不同操作系统组成的计算机之间,就可以实现通信
(2)HTTP
(Hyper Text Transfer Protocol)协议:
是超文本传输协议的缩写;是从Web服务器传输超文本标记语言(HTML
)到本地浏览器的传送协议。设计HTTP
最初的目的就是为了提供一种发布和接收HTML
页面的方法
HTTP
有多个版本,目前广泛使用的是HTTP1.1
版本,有些网站运用的是HTTP2.0
版本,因为版本的不同,所以可能会导致发包异常
(3)HTTP
原理(了解):
HTTP
是一种基于TCP
/IP
通信协议来传递数据的协议,传输的数据类型为HTML文件;图片文件;查询结果等
HTTP
协议一般用于B
/S
架构(浏览器/服务器结构)。浏览器作为HTTP
客户端通过URL
向HTTP
服务端即Web
服务器发送所有请求
(4)HTTP
特点(了解):
-
HTTP
协议支持客户端/服务端模式,也是一种请求/响应模式的协议 - 简单快速:客户向服务器请求服务时,只需传送请求方法和路径,请求方法常用的有
GET
;HEAD
;POST
- 灵活:
HTTP
允许传输任意类型的数据对象,传输的类型由Content-Type
加以标记 - 无连接:限制每次连接只处理一个请求。服务器处理完请求,并收到客户的应答后,即断开连接,但是却不利于客户端与服务器保持会话连接,为了弥补这种不足,产生了两项记录
HTTP
状态的技术,一个叫做Cookie
;一个叫做Session
- 无状态:无状态是指协议对于事物处理没有记忆,后续处理需要前面的信息,则必须重传
(5)HTTP
的请求与响应:
HTTP
通信由两部分组成:客户端请求信息;服务器响应信息
示例:
1.当用户在浏览器的地址栏中输入一个URL https://www.baidu.com/ 并按回车键后,浏览器会向HTTP
服务器发送HTTP
请求,HTTP
请求主要分为 Get
和 Post
两种方法
2.当我们在浏览器输入URL
https://www.baidu.com/ 的时候,浏览器会发送一个Request
请求去获取这个URL
https://www.baidu.com/ 的html
文件,服务器把Response
文件对象发送回浏览器(客户端)
3.浏览器分析Response
中的HTML
,发现其中引用了很多其它文件,比如images
文件;CSS
文件;JS
文件,浏览器会自动的再次发送Request
去获取images
文件;CSS
文件;JS
文件 —— 下载的过程
4.当所有的文件都下载成功后,网页会根据HTML
语法结构,完整的显示出来
(6)HTTP
的报文组成:
HTTP
报文大致分为报文首部和报文主体两块,中间用空行来划分。通常不一定会有报文主体
报文首部:包含服务器或客户端需处理的请求或响应的内容及属性
报文主体:应该被发送的数据
(7)什么是HTTPS
?
https
= http
+ ssl
,https
就是在http
的基础上加上了SSL
保护壳,信息的加密过程就是在SSL
中完成的
https
是以安全为目标的HTTP
通道,简单来讲就是HTTP
的安全版,即HTTP
下加入SSL
层,HTTPS
的安全基础就是SSL
注意: SSL
也是一个协议,主要用于Web
的安全传输协议
(8)HTTPS
和HTTP
的区别与总结(了解):
一般http
中存在如下问题:
- 请求信息明文传输,容易被窃听截取。
- 数据的完整性未校验,容易被篡改
- 没有验证对方身份,存在冒充危险
HTTPS
的缺点
HTTPS
协议多次握手,导致页面的加载时间延长近50%;HTTPS
连接缓存不如HTTP高效,会增加数据开销和功耗;- 申请
SSL
证书需要钱,功能越强大的证书费用越高。 SSL
涉及到的安全算法会消耗CPU
资源,对服务器资源消耗较大。
总结
HTTPS
是HTTP
协议的安全版本,HTTP
协议的数据传输是明文的,是不安全的,HTTPS
使用了SSL
/TLS
协议进行了加密处理。http
和https
使用连接方式不同,默认端口也不一样,http
是80,https
是443。
5.抓包工具的使用:
如何抓包:以抓取百度首页的包为例:
注意: 尽量不要把英文换成中文,因为在找资料的过程中,通过中文搜索有时会搜索不到
(1)鼠标右键网页然后点击检查 / 按F12
/ 按Fn
+ F12
– 打开抓包工具框
注意: 不要弄错,是点击检查,不是网页源代码,网页源代码是查看当前页面的组成代码数据
(2)点击 Network
– 抓包;Network
是网络工作区,里面有非常多的包
(3)把 Preserve log
(日志信息) 和 Disable cache
(禁用缓存) 勾选上,避免有些包抓不到
(4)点击刷新页面 / CTRL + R
– 刷新页面让它发包
(5)点击百度的包 www.baidu.com 再点击 Headers
(标头)
Headers
里面有 General
(通用的);Response Headers
(响应头);Request Headers
(请求头)。先请求再响应,只有发出了正常的请求头才会得到正确的响应;所以目前主要关注 Request Headers 就可以
发出请求: 1.携带URL;URL可以在 General 中查看
2.请求参数;在 Request Headers 中查看
因为服务器会做校验,而校验的内容全是 Request Headers(请求头),当你不知道要校验的具体参数时,就将请求头里面的内容全部复制下来,这样做不会出现任何的问题;但在有反爬的情况下,它里面的有些参数会是动态的,这个时候,在发出请求的过程中,如果不能找到那个动态的参数,这样做就没有任何的意义了
图片解析:
示例代码:爬取百度首页源代码:
#导入网络请求模块;因为这是第三方模块,并不是内库,所以需要去安装 -- 通过 win + R 输入cmd 打开终端,输入 pip install requests 安装
import requests #目标网址
url = 'http://www.baidu.com' #添加请求头信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'} #发送请求:1.携带url 2.携带请求头信息
response = requests.get(url,headers=headers)#将得到的响应数据指定为可读的格式编码
response.encoding = 'utf-8' #获取到响应内容
html = response.text #打印响应数据
print(html) #CTRL+F检索,查找具体数据
6.一些零碎的知识:
(1)反反爬的第一步(了解):Request Headers
(请求头)里的 User-Agent
(用户代理)
User-Agent
:客户端程序的信息,就是我发送请求的浏览器信息
我们的爬虫程序的目的:模拟我们的浏览器向我们的服务器要数据
在发请求的过程中,我们需携带请求头,而这个 User-Agent
是第一步,要让它认为我们是一个浏览器去访问的服务器,而不是我们的爬虫程序去访问的服务器,因为如果是爬虫程序访问的服务器,它会在前面显示 Python-Request
,它会认为我们是一个自动化爬虫的请求,服务器一旦检测出来 User-Agent:Python-Request
,那么服务器就不会给我们校验通过,这个时候我们需要模拟携带上我们自带的电脑上的 User-Agent
(这个 User-Agent
直接复制就可以了)
注意: 无论要写什么样的爬虫程序 User-Agent
都是我们必须要携带的东西
Response Headers
(响应头)里的 Set-Cookie
:判断我们的Cookie
它是本地生成的,还是服务器生成的(了解)
(2)认识url
:
URL
(Uniform Resource Locator
),中文叫统一资源管理定位器,是用来标识某一处资源的地址,即是我们常说的网址,在发送http
请求时,通过URL
对网络资源进行定位
(3)常见的请求方法:
-
GET
:请求指定的页面信息,并返回实体主体 -
POST
:向指定资源提交数据进行处理请求(例如提交表单或者上传文件),数据被包含在请求体中,POST
请求可能会导致新的资源的建立和/或已有资源的修改 -
HEAD
:类似于get
请求,只不过返回的响应中没有具体的内容,用于获取报头 -
PUT
:从客户端向服务器传送的数据取代指定的文档的内容 -
DELETE
:请求服务器删除指定的页面 注意:
GET
请求和POST
请求是用的最多的,其它的很少用到
(4)响应状态码:
访问一个网页时,浏览器会向web
服务器发出请求。此网页所在的服务器会返回一个包含HTTP
状态码的信息头用以响应浏览器的请求
状态码的分类:
-
1XX
– 信息型,服务器收到请求,需要请求者继续操作 -
2XX
– 成功型,请求成功收到,理解并处理 -
3XX
– 重定向,需要进一步的操作以完成请求 -
4XX
– 客户端错误,请求包含语法错误或无法完成请求 -
5XX
– 服务器错误,服务器在处理请求的过程中发生了错误常见的状态码:
-
200 OK
– 客户端请求成功 -
301
– 资源(网页等)被永久转移到其它URL -
302
– 临时跳转 -
400 Bad Request
– 客户端请求有语法错误,不能被服务器所理解 -
401 Unauthorized
– 请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用 -
404
– 请求资源不存在,可能是输入了错误的URL
-
500
– 服务器内部发生了不可预期的错误 -
503 Server Unavailable
– 服务器当前不能处理客户端的请求,一段时间后可能恢复正常