1.什么是爬虫
1.爬虫(又被称为网页蜘蛛,网络机器人),是按照一定规则,自动的抓取万维网中的程序或者脚本,是搜索引擎的重要组成;比如:百度、
2.爬虫应用:1.搜索引擎,2.数据分析,3.人工智能,4.薅羊毛(抢车票)
3.常见爬虫产品:神箭手、八爪鱼、造数、后裔采集器
4.什么事是爬虫工程师:我们不生成数据我们是数据的搬运工
5.爬虫工程师的基础
1.python编程基础
2.linux系统操作
3.http协议
4.数据库的增删改查
2.网络协议
1. 协议可以理解为“规则”,是数据传输和数据的解释和规则
OSI七层参考模型
TCP/IP模型
1. 1974年诞生,5层协议
1.应用层
基于tcp和udp
1.http:超文本传输协议,基于tcp,使用80端口号,适用于从www服务器传输超文本到本地浏览器的传输协议
2.SMTP:用于简单的邮件传输协议,基于tcp,使用25端口号,是一组2用于由源地址到目的地传送邮件的规则,用来控制信件的发送,中转。
3.FTP:文件传送协议,基于tcp,一般上传下载用FTP服务,数据端口20,控制端口21
4.telnet:远程登录协议,基于tcp,使用23端口,是internet远程登录服务的标准协议和主要方式。为用户提供了本地计算机上完成远程主机工作的能力。在终端使用者的电脑上使用telnet程序链接到服务器。使用明码传送,保密性差,简单方便。
5.dns:域名解析,基于UDP,使用53端口,提供域名到ip之间的转换
6.SSH:安全外壳协议,基于tcp,使用端口22,为建立在应用层和传输层基础上的安全协议,SSH是目前比较可靠,专门为远程登录会话和其他网络服务提供安全性的协议
2.传输层
1. TCP: 传输控制协议,一种面向链接的可靠的,基于字节流的传输层通信协议。
2.UDP:用户数据报协议,一种无链接的通信协议,不可靠,基于报文的传输层通信协议;
3.SCTP: 流量传输控制协议,一种面向连接的流传输协议,是tcp的升级改善tcp的不足
4.MPTCP:多路径传输协议。
3.网络层
1. IP:Internet协议。通过路由选择将下一条ip封装后交给接口层。ip数据报是无连接服务。
2. ICMP:Internet控制报文协议,是网络层的补充。用于在P主机、路由器之间传递控制消息,检测网络通不通,主机是否可达,路由是否可用等网络本身的消息;如:ping ip地址 就是使用本协议
3.ARP: 地址解析协议,是通过目标设备的ip地址,查询目标设备的mac地址,以保证通信的顺利进行;
4.RARP:反向地址解析协议。
3.HTTP协议
1.介绍
HTTP(HyperText Transfer Protocol,超文本传输协议)是互联网上应用最广泛的一种网络协议,他基于TCP的应用层协议,客户端和服务端进行通信的一种规则,他的模式非常简单,就是客户端发起请求,服务器响应请求;
2.http版本:
目前使用最多的是HTTP/1.1
3.请求格式
4.请求方法
5.HTTP响应
状态码:
未完....