Python爬虫之代理IP与访问控制

目录

前言

一、代理IP

1.1.使用代理IP的步骤

1.2.寻找可用的代理IP

1.3.设置代理IP

1.4.验证代理IP的可用性

二、访问控制

2.1.遵守Robots协议

2.2.设置访问时间间隔

2.3.多线程爬取

总结


前言

在进行Python爬虫过程中,代理IP与访问控制是我们经常需要处理的问题。本文将介绍代理IP与访问控制相关的知识,并提供相应的代码案例。

一、代理IP

在进行爬虫时,我们通常会遇到一些反爬虫的网站。为了应对这种情况,我们可以使用代理IP。代理IP的作用是通过一个中间服务器来访问目标网站,隐藏我们真实的IP地址,从而达到反爬虫的目的。

1.1.使用代理IP的步骤

使用代理IP主要包含以下步骤:

  1. 寻找可用的代理IP
  2. 设置代理IP
  3. 进行爬取操作

接下来我们将分别介绍这些步骤。

1.2.寻找可用的代理IP

寻找代理IP可以通过以下方式:

  1. 网上搜索:通过搜索引擎可以找到很多代理IP网站,但是这些网站提供的代理IP质量参差不齐,需要我们进行筛选。
  2. 付费购买:付费购买的代理IP较为稳定,但是价格相对较高。
  3. 自建代理:可以通过购买服务器自建代理IP,这种方式相对稳定,但需要一定的技术水平。

1.3.设置代理IP

在Python中,使用代理IP可以通过urllib库中的ProxyHandler类实现。下面是设置代理IP的示例代码:

import urllib.request# 设置代理IP
proxy_handler = urllib.request.ProxyHandler({'http': 'http://127.0.0.1:8888'})
opener = urllib.request.build_opener(proxy_handler)
urllib.request.install_opener(opener)# 访问网站
response = urllib.request.urlopen('http://www.baidu.com')
html = response.read().decode('utf-8')
print(html)

在以上代码中,我们通过ProxyHandler类设置了代理IP,然后通过build_opener方法创建一个Opener对象,最后使用install_opener方法将该Opener对象安装为全局Opener。这样,在进行后续的网页访问时,就会自动使用代理IP了。

1.4.验证代理IP的可用性

为了提高效率,我们可以使用多个代理IP轮流使用。但是在使用之前,我们需要验证代理IP的可用性。以下是验证代理IP可用性的示例代码:

import urllib.request# 设置代理IP
proxy_handler = urllib.request.ProxyHandler({'http': 'http://127.0.0.1:8888'})
opener = urllib.request.build_opener(proxy_handler)
urllib.request.install_opener(opener)# 验证代理IP可用性
try:response = urllib.request.urlopen('http://www.baidu.com', timeout=3)if response.getcode() == 200:print('IP可用')
except Exception as e:print('IP不可用')

在以上代码中,我们通过urlopen方法访问了百度网站,并设置了超时时间为3秒。如果连接成功,即返回了200状态码,则说明该代理IP可用。

二、访问控制

访问控制是指在进行爬虫时,需要遵循一定的爬取规则,如遵守网站的Robots协议、设置爬虫访问时间间隔等。以下我们将分别介绍这些规则。

2.1.遵守Robots协议

Robots协议是一种网站使用的协议,它告诉爬虫哪些页面可以访问、哪些页面不可以访问,以及访问间隔等信息。Robots协议通常存在于网站的根目录下的robots.txt文件中。

以下是一个Robots协议的示例:

User-agent: *
Disallow: /admin
Disallow: /tmp
Crawl-delay: 10

在以上协议中,User-agent表示爬虫的名称,*表示所有爬虫都要遵守该协议。Disallow表示不允许访问的路径,如上例中的/admin和/tmp。Crawl-delay表示访问间隔,如上例中的10秒。如果爬虫访问网站时违反了Robots协议,可能会被封禁IP或者限制爬取速度。

2.2.设置访问时间间隔

为了防止爬虫过于频繁的访问网站,我们需要设置访问时间间隔。下面是一个设置时间间隔的示例代码:

import time
import urllib.requesturl = 'http://www.baidu.com'
interval = 5  # 时间间隔为5秒while True:# 访问网站try:response = urllib.request.urlopen(url, timeout=3)if response.getcode() == 200:html = response.read().decode('utf-8')print(html)except Exception as e:print(e)# 等待时间间隔time.sleep(interval)

在以上代码中,我们设置了5秒的时间间隔。每次访问网站后,程序会等待5秒再进行下一次访问。

2.3.多线程爬取

为了提高爬取效率,我们可以使用多线程进行爬取。以下是使用多线程爬取的示例代码:

import threading
import urllib.requesturl = 'http://www.baidu.com'# 定义线程类
class MyThread(threading.Thread):def __init__(self):threading.Thread.__init__(self)def run(self):while True:# 访问网站try:response = urllib.request.urlopen(url, timeout=3)if response.getcode() == 200:html = response.read().decode('utf-8')print(html)except Exception as e:print(e)# 创建线程对象并启动线程
for i in range(3):  # 启动3个线程t = MyThread()t.start()

在以上代码中,我们创建了一个线程类MyThread,该类继承自threading.Thread。在该类的run方法中,我们使用无限循环来访问网站。然后我们创建了3个线程对象,并启动了这些线程。

总结

本文介绍了Python爬虫中代理IP与访问控制的知识,并提供了相应的代码案例。在进行爬虫时,需要遵守网站的Robots协议、设置访问时间间隔等,以避免被网站封禁IP或限制爬取速度。同时,使用代理IP也是爬虫过程中常用的手段,可以帮助我们顺利的爬取目标网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/175305.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

贪吃蛇小游戏基本简单布局

代码&#xff1a; <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>Layui贪吃蛇小游戏</title> <link rel"stylesheet" href"https://cdn.bootcdn.net/ajax/libs/layui/2.5.7/css/layui.…

如何与死锁斗争!!!

其他系列文章导航 Java基础合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、死锁场景现场 二、死锁是如何产生的 三、死锁排查思路 四、sql模拟死锁复现 五、死锁的解决方案 前言 为避免影响业务&#xff0c;应尽可能避…

Django回顾【一】

一、Web应用程序 Web应用程序是一种可以通过Web访问的应用程序&#xff0c;程序的最大好处是用户很容易访问应用程序&#xff0c;用户只需要有浏览器即可&#xff0c;不需要再安装其他软件。应用程序有两种模式C/S、B/S。 C/S&#xff1a;客户端<----->服务端 例如My…

分类预测 | Matlab实现NGO-KELM北方苍鹰算法优化核极限学习机分类预测

分类预测 | Matlab实现NGO-KELM北方苍鹰算法优化核极限学习机分类预测 目录 分类预测 | Matlab实现NGO-KELM北方苍鹰算法优化核极限学习机分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现NGO-KELM北方苍鹰算法优化核极限学习机分类预测&#xff08;完…

App的测试,和传统软件测试有哪些区别?应该增加哪些方面的测试用例?

从上图可知&#xff0c;测试人员所测项目占比中&#xff0c;App测试占比是最高的。 这就意味着学习期间&#xff0c;我们要花最多的精力去学App的各类测试。也意味着我们找工作前&#xff0c;就得知道&#xff0c;App的测试点是什么&#xff0c;App功能我们得会测试&#xff0…

Unreal Engine 学习笔记 (4)—— 多方向动画

1.创建混合空间 1.设置水平方向命名为Direction表示行进方向 -45,300表示向左前方45度方向行走-90,300表示向正左方90度方向行走-135,300表示向左后方45度方向行走-180,300表示向正后方行走右侧方向动画与上述左侧使用同样方法设置Run动画与Walk动画使用同样方法设置 2. 设置…

Java游戏 王者荣耀

GameFrame类 所需图片&#xff1a; package 王者荣耀;import java.awt.*; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.awt.event.KeyAdapter; import java.awt.event.KeyEvent; import java.io.File; import java.util.ArrayList…

某思路等考通一级MSOffice的分析

看到有朋友寻求2021版的等级考试一级软件&#xff0c;秉承授人以鱼不如授人以渔的理念&#xff0c;特写这个帖子。 某思路等考通一级MSOffice&#xff0c;版本6.5。 用到的软件&#xff0c;ScanId&#xff0c;de4dot,dnSpy。 第一步&#xff1a;分析 软件启动后有在线激活提示&…

【索引优化与查询优化】

文章目录 1. 索引失效的案例1.1 最左优先1.2 主键插入顺序1.3 计算、函数、类型转换(自动或手动)导致索引失效1.4 范围条件右边的列索引失效1.5 非 条件索引失效1.6 like以通配符%开头索引失效1.7 OR 前后存在非索引的列&#xff0c;索引失效 2. 关联查询优化 1. 索引失效的案例…

FinOps和DevOps的未来会怎样?

FinOps&#xff08;或财务运营&#xff09;是一种文化实践&#xff0c;它将财务责任引入云的可变支出模型。这是一种将系统、最佳实践和文化相结合的战略方法&#xff0c;可提高组织了解云成本并做出明智决策的能力。 本质上&#xff0c;FinOps 是一个管理云运营费用&#xff…

水面倒影可视化渲染方法

水面材质在三维可视化场景中的使用非常广泛。水面材质非常重要的一个光学特性就是反射倒影&#xff0c;有了倒影的加持能使水面更加逼真的渲染出来。本文主要讨论水面材质中倒影的渲染方法。 要有倒影&#xff0c;必须先有水面&#xff0c;第一步要做的就是确定水面所在的平面…

ChromeDriver最新版本下载与安装方法

关于ChromeDriver最新下载地址&#xff1a;https://googlechromelabs.github.io/chrome-for-testing/ 下载与安装 setp1&#xff1a;查看Chrome浏览器版本 首先&#xff0c;需要检查Chrome浏览器的版本。请按照以下步骤进行&#xff1a; 打开Chrome浏览器。 点击浏览器右上角…

状态设计模式是什么?什么是 State 状态设计模式?Python 状态设计模式示例代码

什么是 State 状态设计模式&#xff1f; 状态设计模式是一种行为型设计模式&#xff0c;它允许一个对象在其内部状态发生改变时改变其行为&#xff0c;使其看起来好像改变了其类。状态模式主要解决的问题是&#xff1a;当一个对象的行为取决于它的状态&#xff0c;并且在运行时…

【数据结构】八大排序(一)

目录 前言&#xff1a; 直接插入排序 直接插入排序代码实现 直接插入排序特性总结 希尔排序 希尔排序代码实现 希尔排序特性总结 直接选择排序 直接选择排序代码实现 直接选择排序特性总结 堆排序 堆的向下调整算法 建堆 堆排序代码实现 堆排序特性总结 前言&am…

【设计模式】模板方法模式

目录 一、定义二、使用场景三、使用方法四、结构五、代码示例六、优点七、缺点八、适用场景 一、定义 1.在父类定义一个操作中的算法骨架&#xff0c;将算法的一些步骤延迟到子类中&#xff0c;使得子类可以不改变该算法结构的情况下重定义该算法的某些特定步骤 二、使用场景 …

Vue3-pnpm包管理器创建项目

一些优势&#xff1a;比同类工具快2倍左右、节省磁盘空间 官网&#xff1a;pnpm - 速度快、节省磁盘空间的软件包管理器 | pnpm中文文档 | pnpm中文网 npm升级到yarn再升级到pnpm&#xff08;速度更快&#xff09; 安装方式&#xff1a;npm install -g pnpm 创建项目&#…

【vue】浏览器安装vue插件不生效

上一篇&#xff1a;浏览器安装vue插件 https://blog.csdn.net/m0_67930426/article/details/134598104 目录 问题情景 解决办法 问题情景 输入框无内容 解决办法 添加 Vue.config.devtools true; 并且控制台不显示的vue又出现

C_6微机原理

一、单项选择题&#xff08;本大题共 15小题&#xff0c;每小题3分&#xff0c;共45分。在每小题给出的四个备选项中&#xff0c;选出一个正确的答案&#xff0c;请将选定的答案填涂在答题纸的相应位置上。 n1 位有符号数 的补码表示范围为&#xff08;&#xff09; A. -2n&l…

lenovo联想笔记本YogaPro 14s IRP8D 2023款(83BU)原装出厂Windows11预装OEM系统

链接&#xff1a;https://pan.baidu.com/s/1s7PcN-y8RyHSV7uJQzC5OQ?pwddy9y 提取码&#xff1a;dy9y 联想电脑原厂W11系统&#xff0c;自带所有驱动、出厂主题壁纸、系统属性专属LOGO标志、Office办公软件、联想电脑管家等预装程序 所需要工具&#xff1a;16GB或以上的U盘…

linux task_struct中进程调度相关的变量记录

参考文章&#xff1a; Linux进程调度分析记录&#xff0c;进程优先级&#xff0c;隔离处理器&#xff0c;isolcpus - 知乎