Python网络爬虫进阶:自动切换HTTP代理IP的应用

亿牛云IP.png

前言

当你决定做一个网络爬虫的时候,就意味着你要面对一个很大的挑战——IP池和中间件。这两个东西听起来很大上,但其实就是为了让你的爬虫不被封杀了。下面我就来给你讲讲如何搞定这些东西。

第一步:创建爬虫IP池的详细过程

首先,你得有一批代理IP,这可不是随随便便就能搞到的。你可以花钱买,也可以去免费代理网站找,甚至还可以自己搭建代理。但是别忘了,这些IP得稳定、快速,并且得在不同的地方分布。
接下来,你要验证和筛选这些代理IP,不能用的得掉掉。你得发HTTP请求,看看响应状态码、响应时间,才能哪些IP可用,哪些慢如蜗牛、闲得发慌。
最后,你得把这些代理IP整合到你的爬虫里,这样每次请求换个IP,这样就成功被封了,也能提高爬取效率。这就需要写个中间件,让IP能动态切换,这样每次请求都使用不同的IP,降低被封的风险。
下面是一个简单的Python代码示例,演示了如何使用代理IP来发送HTTP请求。在这个示例中,我们使用了requests库来发送HTTP请求,并通过代理IP来访问目标网站。

import requests# 代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"# 目标网站的URL
targetUrl = "http://example.com"# 构造代理地址
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host": proxyHost,"port": proxyPort,"user": proxyUser,"pass": proxyPass,
}proxies = {"http": proxyMeta,"https": proxyMeta,
}# 发送带代理的HTTP请求
response = requests.get(targetUrl, proxies=proxies)# 输出响应内容
print(response.text)
第二步:编写中间件附带实现代码流程

中间件在网络爬虫中扮演关键的角色,它可以用于处理请求、响应和异常。在这一部分,我们将详细介绍如何编写中间件来实现IP切换、请求重试和处理等功能。我们将附带异常实现代码流程,方便读卡器能够了解中间件的编写和使用方法。

# 导入必要的库
import random
from scrapy import signals
from scrapy.downloadermiddlewares.retry import RetryMiddleware
from scrapy.exceptions import NotConfigured# 自定义的IP切换中间件
class CustomProxyMiddleware(object):def process_request(self, request, spider):# 在这里实现IP切换的逻辑,可以使用代理IP池中的IP来发送请求proxy = get_random_proxy()  # 从代理IP池中随机选择一个IPrequest.meta['proxy'] = proxy# 自定义的请求重试中间件
class CustomRetryMiddleware(RetryMiddleware):def process_response(self, request, response, spider):# 在这里实现请求重试的逻辑,可以根据响应状态码进行判断是否需要重试if response.status in [500, 502, 503, 504]:reason = 'HTTP状态码错误:%s' % response.statusreturn self._retry(request, reason, spider) or responsereturn response# 自定义的异常处理中间件
class CustomExceptionMiddleware(object):@classmethoddef from_crawler(cls, crawler):if not crawler.settings.getbool('CUSTOM_EXCEPTION_ENABLED'):raise NotConfiguredreturn cls()def process_exception(self, request, exception, spider):# 在这里实现异常处理的逻辑,可以根据不同的异常类型进行处理if isinstance(exception, SomeSpecificException):# 处理特定的异常passreturn None# 注册中间件
def spider_opened(self, spider):spider.signals.connect(self.spider_opened, signal=signals.spider_opened)spider.signals.connect(self.spider_closed, signal=signals.spider_closed)
第三步:配置爬虫框架

在网络爬虫开发中,选择合适的爬虫框架需要考虑核心。不同的框架各自具有各自的特点和适用场景,因此在选择和配置框架时需要进行自由选择。
Scrapy是一个功能强大的Python爬虫框架,它具有高效的数据提取能力和灵活的扩展性,适用于大规模数据提取和重构数据提取。配置Scrapy框架通常涉及定义爬虫的起始URL、数据提取规则和存储方式,同时可以通过设置中间件实现IP切换和请求重试等功能。
另一个常用的爬虫框架是Beautiful Soup,它是一个优秀的HTML和XML解析库,适用于快速解析网页内容并提取所需数据。配置Beautiful Soup框架通常包括解析HTML结构、定位目标数据处理和异常情况等步骤。
对于JavaScript渲染的页面,Puppeteer是一个强大的爬虫框架选择。可以模拟浏览器行为,对动态生成的内容进行抓取和处理。配置Puppeteer框架通常包括模拟用户操作、等待页面加载完成和处理JavaScript渲染等操作。
在高效选择和配置爬虫框架时,需要根据具体的抓取需求和目标网站特点进行综合考量。合理选择和配置爬虫框架可以提高开发效率和抓取效果,帮助开发者上手并开发出稳定的网络爬虫。

第四步:运行爬虫最后

在网络爬虫开发的最后阶段,我们需要运行并监控我们开发的爬虫,并处理可能出现的问题。首先,我们应该确保爬虫的运行环境配置正确,包括所需的依赖库和环境变量。接着,我们可以通过日志系统监控爬虫的运行状态,及时发现并解决异常情况。在处理可能遇到的问题时,我们需要考虑网络请求超时、页面结构变化、反爬虫策略等情况,通过设置合理的重试机制和异常处理来提高爬虫的稳定性。另外,合理的并发控制和请求频率也是限制爬虫稳定运行的重要因素。总之,通过详细介绍爬虫运行的流程和常见问题的处理方法,我们可以更好地面保障爬虫的稳定运行和数据的准确聚焦。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/627331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ACM:每日学习 状压dp

状压dp: 状压dp是对一般dp的改进: //对于判断多种物品的取法,开多维数组比较麻烦,也不好开,使用二进制来表示物品的取与否。 //使用二进制的话,位运算就更能省时间了,而且更会节省空空间&…

[LitCTF 2023]easy_shark

解压缩,发现需要输入密码,使用010打开,发现frflags和deflags都被修改了,这就会造成压缩包伪加密 把他们都改为0,再打开 将流量包使用wirshark打开 过滤http,并追踪 得到以下信息 看到了一个类似于flag格…

文章阅读总结:多传感器融合:GNSS微弱信号场景的补救措施

[TOC](多传感器融合导航论文积累) # 知识点总结 ## 因子图 Factor Graph 是概率图的一种,是对函数因子分解的表示图,一般内含两种节点,变量节点和函数节点。 因子图存在着:**两类节点: 变量节点和对应的函数节点**变量…

4 - JdbcTemplate

spring 框架如何处理对数据库的操作呢? 1. 基本介绍 文档:JdbcTemplate APIs : /spring-framework-5.3.8/docs/javadoc-api/index.html JdbcTemplate 是 Spring 提供的访问数据库的技术。可以将 JDBC 的常用操作封装为模板方法 已经提供了特别多的 API 2. 使用…

Linux网络文件共享服务之FTP协议

目录 一、存储类型 1、直连式存储(DAS) 2、存储区域网络(SAN) 3、网络附加存储(NAS) 二、 FTP文件传输协议 1、FTP协议的工作原理 1.1 FTP协议的工作流程 1.2 FTP协议的两种工作模式 1.2.1 主动模…

flutter报错Cannot hit test a render box that has never been laid out

出现这个问题的原因可能是因为你把一个ListView或者GridView放到了一个没有设置大小的容器里面导致的,所以意思是不能渲染那一个没有布局过的容器。我这里遇到的错误是因为我把GridView放到了一个Container里面,并且我没有设置Container宽高。 就导致了那…

嵌入式工作岗位未来会不会越来越少?

今日话题,嵌入式工作岗位未来会不会越来越少?未来的嵌入式岗位机会将会逐渐增多,因为嵌入式技术是万物互联的基础,从智能手表到智能汽车,嵌入式都扮演着关键角色。虽然相比计算机科学CS,嵌入式领域的天花板…

中间件框架知识进阶

概述 近期从不同渠道了解到了一些中间件相关的新的知识,记录一下收获。涉及到的中间件包括RPC调用、动态配置中心、MQ、缓存、数据库、限流等,通过对比加深理解,方便实际应用时候更明确如何进行设计和技术选型。 一、RPC框架中间件系列 1、…

华清远见作业第二十七天——网络编程(第二天)

思维导图&#xff1a; 在虚拟机实现客户端控制机械臂 代码&#xff1a; #include<stdio.h> #include<string.h> #include<stdlib.h> #include <sys/types.h> #include <sys/stat.h> #include <a.h> #define SER_PORT 8888 //服务端口 #d…

SpringBoot 启动优化实践!

背景 公司 SpringBoot 项目在日常开发过程中发现服务启动过程异常缓慢&#xff0c;常常需要 6-7 分钟才能暴露端口&#xff0c;严重降低开发效率。通过 SpringBoot 的 SpringApplicationRunListener 、BeanPostProcessor 原理和源码调试等手段排查发现&#xff0c;在 Bean 扫描…

Linux安装Rdkafka PHP 扩展(Kafka使用教程)

以是centos为例 #可以查看php版本 php -v#查看php安装的扩展库 php -m 1、首先&#xff0c;确保你已经安装了 PHP 和相关的开发工具。你可以使用以下命令来安装它们&#xff1a; sudo yum install php-devel 中间会问你是否ok&#xff0c;输入y回车&#xff0c;出现complete…

pycharm debug显示的变量过多

问题&#xff1a; https://blog.csdn.net/Hodors/article/details/117535731 解决方法&#xff1a; 把"Show console variables by default"前面的勾取消掉就行 参考&#xff1a; https://stackoverflow.com/questions/48969556/hide-console-variables-in-pychar…

数据结构——二叉树(先序、中序、后序及层次四种遍历(C语言版))超详细~ (✧∇✧) Q_Q

目录 二叉树的定义&#xff1a; *特殊的二叉树&#xff1a; 二叉树的性质&#xff1a; 二叉树的声明&#xff1a; 二叉树的先序遍历&#xff1a; 二叉树的中序遍历&#xff1a; 二叉树的后序遍历&#xff1a; 二叉树的层序遍历&#xff1a; 二叉树的节点个数&#xff1a; 二叉…

使用netdxf(C#)框架实现dxf文件读取与导出坐标

使用netdxf&#xff08;C#&#xff09;框架实现dxf文件读取与导出坐标 一、新建窗体应用程序DxfToolDemo&#xff0c;将默认的Form1重命名为FormDxfTool 窗体FormDxfTool.Designer.cs设计器源程序如下&#xff1a; namespace DxfToolDemo {partial class FormDxfTool{/// <…

x-cmd pkg | magic-wormhole - (魔法虫洞)文件传输工具

目录 简介首次用户功能特点竞品和相关作品进一步探索 简介 magic-wormhole 是一个用于在两台计算机之间安全传输文件的工具。它通过创建一个临时的点对点连接&#xff0c;允许用户将文件或文本从一台计算机发送到另一台计算机。 它使用 PAKE 这一系列的加密算法&#xff0c;通…

扫地机行业研究:预计2028年将达到78.51亿美元

吸尘器、扫地机器人、洗地机为清洁电器中最亮眼的三大品类。吸尘器主要用来吸尘&#xff0c;扫地机的主要作用也是用于除尘&#xff0c;具备扫拖一体功能的扫地机&#xff0c;干湿混合垃圾暂时做不到干净清理。洗地机集齐了“吸、拖、洗”三种功能为一体&#xff0c;并且具备自…

消息队列-RockMQ-定时延时发送消息

定时延时发送消息 任务需要延迟一段时间再进行处理。 生产者 public class Producer {public static void main(String[] args) throws Exception {DefaultMQProducer producer new DefaultMQProducer("producer_group");producer.setNamesrvAddr("ip:9876&q…

【Python 数据分析】数据预处理:z-score 标准化、min-max 归一化、数据缺失值处理、数据重复处理

目录 简述 / 前言1. z-score 标准化2. min-max 归一化3. 数据缺失值处理4. 数据重复处理 简述 / 前言 本篇文章分享数据分析中最重要的一个步骤&#xff1a;数据预处理。我们在做数据分析之前&#xff0c;都需要采集很多数据&#xff0c;这些数据可能是从官网下载的&#xff0…

【docker-compose】【nginx】内网环境https配置

目录 1、openssl生成自签名证书和私钥2、nginx.conf配置ssl3、docker-compose挂载 1、openssl生成自签名证书和私钥 在部署服务器上&#xff0c;新建cert目录&#xff0c;执行以下指令&#xff0c;然后生成.crt和.key文件 openssl req -newkey rsa:2048 -nodes -keyout rsa_pri…

linux yum仓库

yum是基于rpm包构建的软件更新机制&#xff0c;能够自动解决软件包之间的依赖关系。 常用命令 查询 yum list [软件名] 显示可用的安装包&#xff0c;如果不加软件名则显示所有的可用包 yum info [软件名] 显示安装包的详细信息 如果不加软件名是显示所有包…