爬虫笔记19——代理IP的使用

访问网站时IP被阻止

有些网站会设置特定规则来限制用户的访问,例如频率限制、单一账户多次登录等。

网站为了保护自身安全和用户体验,会设置防御机制,将涉嫌恶意行为的IP地址加入黑名单并屏蔽访问。如果用户在使用网站时违反了这些规则,就会出现这种情况。

例如,我们使用爬虫爬取网站数据的时候,就会过多的请求网站,这样可能会导致IP地址被网站屏蔽。就是用户在短时间内发送了大量请求,网站可能会误认为其是恶意行为,从而采取屏蔽措施。

解决的方法其一就是请求的时候更换IP地址。

代理IP的爬取

要更换IP地址,其实我是最喜欢白嫖的了,我们可以爬取代理IP网站的免费IP来使用,不过,经过我的验证,免费的代理IP几乎没有可用的。。。
思路分析:
1、找代理IP的网站,一般他们都有免费IP提供。
2、看数据是静态还是动态,一般翻页后URL地址会更新那这个网页一般就是静态数据,反之为动态。
3、以下爬取的代理IP地址是个静态页面,里面的IP数据可以直接用xpath、bs4语法提取:

在这里插入图片描述
4、最后存入txt文件中

以下是爬取免费代理IP及使用的脚本:

import requests
from fake_useragent import UserAgent
from lxml import etree
import json# 请求获取IP数据及端口号
def request_ip():ip_list = list()ip_dict = dict()headers = {'User-Agent': UserAgent().random}for page in range(1, 7):url = f'http://www.ip3366.net/?stype=1&page={page}'response = requests.get(url, headers=headers)if response.status_code == 200:html = etree.HTML(response.text)ips = html.xpath('//div[@id="list"]/table/tbody/tr/td[1]/text()')ports = html.xpath('//div[@id="list"]/table/tbody/tr/td[2]/text()')for i in range(0, 15):ip_dict["ip"] = ips[i]ip_dict["port"] = ports[i]ip_list.append(ip_dict)print(ip_list)else:print(response.status_code)verify_and_save(ip_list)# 获取的IP数据进行爬取验证及存储
def verify_and_save(ip_list):headers = {'User-Agent': UserAgent().random}for temp in ip_list:proxies = {'http': 'http://' + temp['ip'] + ':' + temp['port'],'https': 'http://' + temp['ip'] + ':' + temp['port']}with open('ip.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(temp, ensure_ascii=False, indent=4) + '\n')print('ip代理:', proxies)try:response = requests.get('https://www.baidu.com/', headers=headers, proxies=proxies, timeout=3)if response.status_code == 200:print(response.text)with open('success_ip.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(temp, ensure_ascii=False, indent=4) + '\n')except Exception as e:print('请求超时:', e)if __name__ == '__main__':request_ip()

但是最终没有生成success_ip.txt文件,我一开始以为程序有bug,结果发现是真的一个能用的IP都没有,所以公开的免费IP基本是不可用的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/865191.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

格式化选NTFS还是exFAT 格式化NTFS后Mac不能用怎么办 移动硬盘格式化ntfs和exfat的区别

面对硬盘、U盘或移动硬盘的格式化决策,NTFS与exFAT作为主流的文件系统,用户在选择时可以根据它们的不同特点来选择适用场景。下面我们来看看格式化选NTFS还是exFAT,格式化NTFS后Mac不能用怎么办的相关内容。 一、格式化选NTFS还是exFAT 在数…

十四、【源码】@Autowired、@Value、@Component

源码地址:https://github.com/spring-projects/spring-framework 仓库地址:https://gitcode.net/qq_42665745/spring/-/tree/14-auto-property Autowired、Value、Component 注解注入属性的实现分散在refresh容器的各个方法中,梳理&#x…

玩转springboot之springboot使用外置tomcat进行运行

使用外置tomcat进行运行 springboot中是集成了tomcat容器的,如果我们不想使用springboot所集成的tomcat,而想要使用自己的Tomcat外部容器,该怎么做呢? 首先,需要更改打包方式,之前是打成jar包,现…

docker 搭建 AI大数据模型 --- 使用GPU

docker 搭建 AI大数据模型 — 使用GPU方式 搭建本地大模型,最简单的方法!效果直逼GPT 服务器GPU系统HP580 G8P40Rocky9.2 安装程序AnythingLLM前端界面Open WebUIChatOllamaollama 一、AnythingLLM 介绍 AnythingLLM 是 Mintplex Labs Inc. 开发的一…

面试官:Rocketmq是推消息还是拉消息

RocketMQ消息模型 核心模型:RocketMQ本质上是基于拉模式的。长轮询技术:使用长轮询技术,减少了拉取消息的延迟,同时保持了拉模式的控制优势。 长轮询技术详解 工作原理: 请求保持开放:消费者向服务器发出…

MySQL 聚集索引与非聚集索引的概念以及优缺点

概念介绍: 聚集索引(Clustered Index): 定义:聚集索引是一种数据存储方式,数据表中主键记录按照索引的顺序进行物理排序。每个表只能有一个聚集索引,因为数据物理上只能排序一次。实现&#x…

FreeDOS 已经30岁了

1994 年 6 月,微软发布了其 DOS 操作系统的最后一个版本 MS-DOS 6.22。 程序员 Jim Hall 对微软的 Windows 3.x 以及后来的 Windows 95 都不满意不感兴趣,他希望创建一个公共领域的 DOS 兼容系统,在越来越多的人拥抱图形用户界面的时代维持传…

9.(vue3.x+vite)修改el-input,el-data-picker样式

效果预览 二:相关代码 <template><div style="padding: 50px"><el-input placeholder="请输入模型名称" style="width: 260px" /><br /

Java灵活用工2.0报价单微信小程序+APP+微信公众号 源码

&#x1f680;【开篇&#xff1a;解锁灵活用工的高效时代】 在人力资源市场日益灵活的今天&#xff0c;如何快速、准确地生成报价单&#xff0c;成为企业吸引并管理自由职业者的关键。而“灵活用工报价单微信小程序APP微信公众号源码”正是这样一款集高效、便捷于一体的解决方…

YOLO在目标检测与视频轨迹追踪中的应用

YOLO在目标检测与视频轨迹追踪中的应用 引言 在计算机视觉领域&#xff0c;目标检测与视频轨迹追踪是两个至关重要的研究方向。随着深度学习技术的飞速发展&#xff0c;尤其是卷积神经网络&#xff08;CNN&#xff09;的广泛应用&#xff0c;目标检测与视频轨迹追踪的性能得到…

YOLO-V2

一、V2版本细节升级 1、YOLO-V2&#xff1a; 更快&#xff01;更强 1.1 做的改进内容 1. YOLO-V2-Batch Normalization V2版本舍弃Dropout&#xff0c;卷积后每一层全部加入Batch Normalization网络的每一层的输入都做了归一化&#xff0c;收敛相对更容易经过Batch Norma…

【C++】相机标定源码笔记- RGB 相机与 ToF 深度传感器校准类

类的设计目标是为了实现 RGB 相机与 ToF 深度传感器之间的高精度校准&#xff0c;从而使两种类型的数据能够在同一个坐标框架内被整合使用。这在很多场景下都是非常有用的&#xff0c;比如在3D重建、增强现实、机器人导航等应用中&#xff0c;能够提供更丰富的场景信息。 -----…

MySQL锁机制详细笔记

1. MySQL锁的基本概念 共享锁&#xff08;Shared Lock&#xff09;&#xff1a;允许多个事务读取同一数据&#xff0c;不阻塞其他读操作。排它锁&#xff08;Exclusive Lock&#xff09;&#xff1a;写锁&#xff0c;阻塞其他读写操作。 2. 锁的分类 全局锁&#xff1a;锁定…

在卷积神经网络(CNN)中为什么可以使用多个较小的卷积核替代一个较大的卷积核,以达到相同的感受野

在卷积神经网络&#xff08;CNN&#xff09;中为什么可以使用多个较小的卷积核替代一个较大的卷积核&#xff0c;以达到相同的感受野 flyfish 在卷积神经网络&#xff08;CNN&#xff09;中&#xff0c;可以使用多个较小的卷积核替代一个较大的卷积核&#xff0c;以达到相同的…

交叉编译tslib库和上机测试

目录 一、tslib 介绍 二、tslib 框架分析 三、交叉编译、测试 tslib 1.安装工具链 tslib &#xff08;1&#xff09;设置交叉编译工具链 &#xff08;2&#xff09;进入tslib目录 &#xff08;3&#xff09;安装工具链 &#xff08;4&#xff09;确定工具链中头文件、库…

千亿级市场迎来新增量:中老年K歌需求高涨,解读线上+线下创新方向

干货抢先看 1. 我国KTV产业一度达到千亿规模&#xff0c;近年来随着线下娱乐方式多样化&#xff0c;KTV逐渐被年轻用户抛弃&#xff0c;中老年成为行业关键增量。 2. 数据显示&#xff0c;全国量贩式KTV中&#xff0c;60-70岁年龄段用户数同比增长29.6%&#xff0c;订单量同比…

【AI原理解析】—隐马尔可夫模型(HMM)原理

目录 一、定义 二、模型结构 三、基本假设 四、观测序列的产生过程 五、基本问题 六、应用领域 一、定义 隐马尔可夫模型&#xff08;Hidden Markov Model, HMM&#xff09;是一种统计模型&#xff0c;用于描述一个含有隐含未知参数的马尔可夫过程。它假设存在一个隐藏的…

【分布式系统】监控平台Zabbix介绍与部署(命令+截图版)

目录 一.Zabbix概述 1.为什么要做监控 2.zabbix 是什么 3.zabbix 监控原理 4.zabbix 6.0 新特性 5.zabbix 6.0 功能组件 Zabbix Server 数据库 Web 界面 Zabbix Agent Zabbix Proxy Java Gateway 补充 二.部署安装Zabbix 6.0 1.初始化环境 2.安装nginx跟php&am…

如何评定旅游卡的品质与服务?

评定旅游卡的品质与服务&#xff0c;可以从以下几个关键方面进行综合考量&#xff1a; 公司实力与资质&#xff1a;选择有实力、资质齐全的公司发行的旅游卡。查看公司背景&#xff0c;确认其是否长期稳定运营&#xff0c;是否具有旅游行业的专业资质&#xff0c;如旅行社许可证…

优秀的收银系统要怎么挑选?

市面上收银系统软件多种多样&#xff0c;让人挑得眼花缭乱&#xff0c;对于很多不懂软件的老板来说&#xff0c;不仅挑选困难&#xff0c;还很容易就踩到坑&#xff0c;而每个老板都想要一款最好用、最适合自己店铺的收银系统。 那什么收银系统软件好用呢?又如何选择一款合适…