目录
一、什么是代理
二、基本原理
三、代理分类
一、什么是代理
爬虫一般是自动化的,当我们自动运行时
爬虫自动抓取数据,但一会就出现了错误:
如,您的访问频率过高!
这是因为网站的反爬措施,如果频繁访问,则会被禁止,即封IP
为解决这种情况,我们需要把自己的IP伪装一下,即代理
所谓代理,就是代理服务器。
二、基本原理
正常来说:
客户发送请求给服务器
然后服务器将响应传给客户
而代理的话:
相当于在客户和服务器之间加一个代理服务器
就成了客户发送请求给代理服务器
代理服务器将请求传给服务器
服务器将响应传给代理服务器
代理服务器再传给客户
而使用代理服务器,则可以隐藏真实IP
我们只需要不断更换IP即可
三、代理分类
根据协议分类
-
HTTP代理
-
仅支持HTTP协议,适用于网页浏览。
-
通常用于访问受限网站或匿名浏览。
-
-
HTTPS代理
-
支持HTTPS协议,提供加密传输,安全性更高。
-
适用于需要加密的网页访问。
-
-
SOCKS代理
-
支持多种协议(如HTTP、FTP),灵活性高。
-
常用于P2P文件共享或绕过防火墙。
-
-
FTP代理
-
专用于FTP协议,用于文件传输。
-
适用于需要匿名上传或下载文件的场景。
-
-
SSL/TLS代理
-
支持SSL/TLS加密,安全性强。
-
适用于需要高安全性的数据传输。
-
根据匿名程度分类
-
透明代理(Transparent Proxy)
-
不隐藏用户IP,服务器知道请求经过代理。
-
常用于内容过滤或缓存。
-
-
普通匿名代理(Anonymous Proxy)
-
隐藏用户IP,但服务器知道请求来自代理。
-
提供一定匿名性,但无法完全隐藏代理身份。
-
-
高匿名代理(Elite Proxy)
-
完全隐藏用户IP和代理信息,服务器无法识别请求是否通过代理。
-
提供最高匿名性,适用于高隐私需求。
-