Python爬虫:搭建本地IP池

本地代理IP池

代理IP池是一种由多个代理IP构成的集合,可以通过接口等方式随时获取可用的代理IP。通俗地打个比方,它就是一个池子,里面装了很多代理ip。代理IP具有以下几个特征:

      1、池子里的ip是有生存周期的,它们将被定期验证,其中失效的将被剔除。

      2、池子里的ip是有补充渠道的,不断会有新的代理ip加入其中。

      3、池子中的代理ip是可以被随机取出来使用的。

这样,代理池中始终有多个不断更换的、有效的代理ip,且我们可以无间隔随机从池子中取出代理ip,然后让爬虫程序使用代理ip访问目标网站,解决在爬虫或其他应用中遇到的封禁、限制等问题。

代理IP池功能组件

1.IP池管理器:用于管理IP池,包括IP地址的添加、删除、查询和更新等操作。

2.代理IP获取器:用于从外部资源中获取代理IP,例如从公开代理IP网站上爬取代理IP、从代理服务商订购代理IP等。

3.IP质量检测器:用于检测代理IP的质量,包括代理IP的连接速度、稳定性、匿名性等特征。

4.数据存储器:用于存储IP池和代理IP的数据,例如使用MySQL等关系型数据库、Redis等非关系型数据库等。

5。API接口层:用于接收来自应用程序的请求,调用IP池管理器、代理IP获取器、IP质量检测器和数据存储器等组件进行处理,并返回相应的数据结果。

6.应用程序:用于调用API接口层,实现代理IP的使用、监控和管理等功能。

各个组件功能说明及示例代码

IP池管理器

添加新的IP地址到IP池中;
删除不需要的IP地址;
查询IP池中的可用IP地址;
更新IP池中的IP地址信息。

class IPPoolManager:def __init__(self, db):self.db = db  # 数据库连接def add_ip(self, ip, port, protocol='http', source='', status='new'):''' 添加新的IP地址到IP池 '''cursor = self.db.cursor()sql = "INSERT INTO ip_pool(ip, port, protocol, source, status) VALUES(%s, %s, %s, %s, %s)"data = (ip, port, protocol, source, status)cursor.execute(sql, data)self.db.commit()return cursor.lastrowid  # 返回添加记录的IDdef delete_ip(self, ip_id):''' 从IP池中删除不需要的IP地址 '''cursor = self.db.cursor()sql = "DELETE FROM ip_pool WHERE id=%s"cursor.execute(sql, (ip_id,))self.db.commit()def get_ip(self, status='new'):''' 查询IP池中的可用IP地址 '''cursor = self.db.cursor()sql = "SELECT * FROM ip_pool WHERE status=%s ORDER BY id DESC LIMIT 1"cursor.execute(sql, (status,))result = cursor.fetchone()return resultdef update_status(self, ip_id, status):''' 更新IP池中的IP地址信息 '''cursor = self.db.cursor()sql = "UPDATE ip_pool SET status=%s WHERE id=%s"cursor.execute(sql, (status, ip_id))self.db.commit()

代理IP获取器

负责定时(最小提取间隔)从代理IP服务商那里调用API接口获取代理IP。当然也可以爬取免费代理IP,但为了提高工作效率,建议购买优质代理IP,这里使用了站大爷代理IP(https://www.zdaye.com)。注册后可以免费试用所有的套餐2小时,生成API接口后,就可以提取到代理IP

这里以某一代理IP接口为例,实现一个简单的代理IP获取器(需要使用requests库):

import requestsdef get_ip():url = "https://www.zdaye.com" //在后台的实例管理里面可以直接生成api接口,选择JSON格式res = requests.get(url)# print(res.text)for i in json.loads(res.text)["data"]:print(i, type(i))ip = {"http": str(i["ip"]) + ":" + str(i["port"]),"https": str(i["ip"]) + ":" + str(i["port"])} return ip

注意:我们拿到的代理是 {"ip":"117.57.91.154","port":40021} 这种样子的;

爬虫使用的代理要装成:{'http': '163.125.104.6:40011', 'https': '163.125.104.6:40011'}这种样子。

IP质量检测器

IP质量检测器的作用是检测代理IP的质量,包括代理IP的连接速度、稳定性、匿名性等特征。这里以验证代理IP的可用性为例,实现一个简单的IP质量检测器

import requestsclass IPChecker:def __init__(self):self.timeout = 5  # 设置超时时间self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'}def check_ip(self, ip, port):''' 验证代理IP的可用性 '''proxies = {'http': 'http://%s:%s' % (ip, port), 'https': 'https://%s:%s' % (ip, port)}try:response = requests.get('http://www.baidu.com', headers=self.headers, proxies=proxies, timeout=self.timeout)if response.status_code == 200:return Trueelse:return Falseexcept:return False

上面的代码使用requests库发送HTTP请求,通过设置proxies参数和timeout参数来验证代理IP是否可用,如果能正常访问百度网站,则验证通过返回True,否则返回False。

数据存储器

数据存储器的作用是存储IP池和代理IP的数据,例如使用MySQL等关系型数据库、Redis等非关系型数据库等。这里以MySQL为例,实现一个简单的数据存储器。

import pymysqlclass MySQLDataStorage:def __init__(self, host, port, user, password, database):self.host = hostself.port = portself.user = userself.password = passwordself.database = databasedef connect(self):''' 连接数据库 '''self.db = pymysql.connect(host=self.host, port=self.port, user=self.user, password=self.password, database=self.database)def disconnect(self):''' 断开数据库连接 '''self.db.close()def create_table(self):''' 创建IP池表 '''cursor = self.db.cursor()sql = '''CREATE TABLE IF NOT EXISTS ip_pool (id INT(11) NOT NULL AUTO_INCREMENT,ip VARCHAR(50) NOT NULL,port VARCHAR(10) NOT NULL,protocol VARCHAR(10) NOT NULL,source VARCHAR(50) NOT NULL,status VARCHAR(10) NOT NULL,created_time TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,PRIMARY KEY (id)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;'''cursor.execute(sql)self.db.commit()def insert(self, ip, port, protocol, source, status):''' 添加新的IP地址到IP池 '''cursor = self.db.cursor()sql = "INSERT INTO ip_pool(ip, port, protocol, source, status) VALUES(%s, %s, %s, %s, %s)"data = (ip, port, protocol, source, status)cursor.execute(sql, data)self.db.commit()return cursor.lastrowid  # 返回添加记录的IDdef delete(self, ip_id):''' 从IP池中删除不需要的IP地址 '''cursor = self.db.cursor()sql = "DELETE FROM ip_pool WHERE id=%s"cursor.execute(sql, (ip_id,))self.db.commit()def select(self, status='new'):''' 查询IP池中的可用IP地址 '''cursor = self.db.cursor()sql = "SELECT * FROM ip_pool WHERE status=%s ORDER BY id DESC LIMIT 1"cursor.execute(sql, (status,))result = cursor.fetchone()return resultdef update(self, ip_id, status):''' 更新IP池中的IP地址信息 '''cursor = self.db.cursor()sql = "UPDATE ip_pool SET status=%s WHERE id=%s"cursor.execute(sql, (status, ip_id))self.db.commit()

上面的代码封装了MySQL的连接、断开连接、创建表、增删改查等操作,可以通过调用接口实现IP池数据库的交互。注意,这里使用了execute()函数的带参数方式来防止SQL注入攻击。

API接口层

API接口层的作用是提供API接口,让其他程序可以与IP池系统进行交互,例如查询可用代理IP、获取新的代理IP等。这里以Python Flask框架为例,实现一个简单的API接口层。

from flask import Flask, jsonify
from ip_pool_manager import IPPoolManagerapp = Flask(__name__)
manager = IPPoolManager()  # 初始化IP池管理器@app.route('/')
def hello_world():return 'Hello, World!'@app.route('/get')
def get_proxy():''' 查询可用代理IP '''result = manager.get_ip()if result:ip = result['ip']port = result['port']protocol = result['protocol']manager.update_status(result['id'], 'using')  # 更新IP状态为使用中return jsonify({'ip': ip, 'port': port, 'protocol': protocol})else:# 如果没有可用IP,则返回空return ''@app.route('/add/<ip>/<port>')
def add_proxy(ip, port):''' 添加新的代理IP '''manager.add_ip(ip, port)return 'ok'@app.route('/delete/<int:id>')
def delete_proxy(id):''' 删除不需要的代理IP '''manager.delete_ip(id)return 'ok'if __name__ == '__main__':app.run()

上面的代码使用了Flask框架实现了三个接口:

- /get:查询可用代理IP;
- /add:添加新的代理IP;
- /delete:删除不需要的代理IP。

其中,get_proxy()函数从IP池管理器中获取可用代理IP,并更新IP状态为使用中,返回JSON格式的数据;add_proxy()函数向IP池管理器中添加新的代理IP;delete_proxy()函数从IP池管理器中删除不需要的代理IP。启动Flask应用程序后,其他程序可以通过HTTP请求调用这些接口与IP池系统进行交互。

应用程序

以下是一个简单的应用程序示例。它使用IP池系统提供的可用代理IP,并使用requests库实现了一个简单的爬虫示例

import requests
from bs4 import BeautifulSoup
from ip_checker import IPChecker
from ip_pool_manager import IPPoolManager
import timedef main():checker = IPChecker()manager = IPPoolManager()while True:ip_info = manager.get_ip()  # 获取可用代理IPif ip_info:ip = ip_info.get('ip')port = ip_info.get('port')protocol = ip_info.get('protocol')if checker.check_ip(ip, port):print(f'使用代理IP {ip}:{port} 获取数据')proxies = {'http': f'{protocol}://{ip}:{port}', 'https': f'{protocol}://{ip}:{port}'}response = requests.get('http://www.baidu.com', proxies=proxies)# 这里可以根据需要解析返回的数据soup = BeautifulSoup(response.text, 'html.parser')print(soup.title.string)time.sleep(5)  # 延迟5秒后继续获取else:# 如果代理IP不可用,则将其状态设置为失效manager.update_status(ip_info['id'], 'invalid')else:# 如果没有可用代理IP,则等待一段时间后再尝试获取time.sleep(60)if __name__ == '__main__':main()

以上代码的主函数中使用IP池系统提供的可用代理IP,使用requests库发送HTTP请求,获取返回的数据。如果返回的数据解析成功,控制台输出网站的标题,然后等待5秒后继续获取。如果代理IP不可用或者IP池中没有可用的IP,程序会等待一段时间后再尝试获取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/677526.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx配置php留档

好久没有用过php了&#xff0c;近几日配置nginxphp&#xff0c;留档。 安装 ubunt下nginx和php都可以使用apt安装&#xff1a; sudo apt install nginx php8 如果想安装最新的php8.2,则需要运行下面语句&#xff1a; sudo dpkg -l | grep php | tee packages.txt sudo add-…

计算机算术

计算机算术 数据是什么 数据是各种各样的信息&#xff0c;如数字、文本、计算机程序、音乐、图像、符号等等&#xff0c;实际上&#xff0c;信息可以是能够被计算机存储和处理的任何事物。 位与字节 计算机中存储和处理信息的最小单位是位&#xff08;Binary digit比特&#x…

[C#] 如何对列表,字典等进行排序?

对列表进行排序 下面是一个基于C#的列表排序的案例&#xff1a; using System; using System.Collections.Generic;class Program {static void Main(string[] args){// 创建一个列表List<int> numbers new List<int>() { 5, 2, 8, 1, 10 };// 使用Sort方法对列…

[动态规划]判断整除

题目 一个给定的正整数序列&#xff0c;在每个数之前都插入号或-号后计算它们的和。比如序列&#xff1a;1、2、4共有8种可能的序列&#xff1a; (1) (2) (4) 7 (1) (2) (-4) -1 (1) (-2) (4) 3 (1) (-2) (-4) -5 (-1) (2) (4) 5 (-1) (2) (-4) -3 (…

Open CASCADE学习|保存为STL文件

STL (Stereolithography) 文件是一种广泛用于3D打印和计算机辅助设计 (CAD) 领域的文件格式。它描述了一个三维模型的表面而不包含颜色、材质或其他非几何信息。STL文件通常用于3D打印过程中&#xff0c;因为它们仅包含构建物体所需的位置信息。 由于STL文件只包含表面信息&am…

使用raw.gitmirror.com替换raw.githubusercontent.com以解决brew upgrade python@3.12慢的问题

MacOS系统上&#xff0c;升级python3.12时&#xff0c;超级慢&#xff0c;而且最后还失败了。看了日志&#xff0c;发现是用curl从raw.githubusercontent.com上下载Python安装包超时了。 解决方案一&#xff1a;开启翻墙工具&#xff0c;穿越围墙 解决方案二&#xff1a;使用…

测试OpenSIPS3.4.3的lua模块

这几天测试OpenSIPS3.4.3的lua模块&#xff0c;记录如下&#xff1a; 有bug&#xff0c;但能用 但现实世界就是这样&#xff0c;总是不完美的&#xff0c;发现之后马上提了issue 下面这段代码运行报错&#xff1a; function func1(msg) xlog("ERR","…

【开源项目阅读】Java爬虫抓取豆瓣图书信息

原项目链接 Java爬虫抓取豆瓣图书信息 本地运行 运行过程 另建项目&#xff0c;把四个源代码文件拷贝到自己的包下面 在代码爆红处按ALTENTER自动导入maven依赖 直接运行Main.main方法&#xff0c;启动项目 运行结果 在本地磁盘上生成三个xml文件 其中的内容即位爬取…

论文阅读-CARD:一种针对复制元数据服务器集群的拥塞感知请求调度方案

论文名称&#xff1a;CARD: A Congestion-Aware Request Dispatching Scheme for Replicated Metadata Server Cluster 摘要 复制元数据服务器集群&#xff08;RMSC&#xff09;在分布式文件系统中非常高效&#xff0c;同时面对数据驱动的场景&#xff08;例如&#xff0c;大…

ECMAScript Modules规范的示例详解

ECMAScript Modules&#xff08;ESM&#xff09;是JavaScript中用于模块化开发的规范&#xff0c;它允许开发者将代码分割成多个独立的文件&#xff0c;以提高代码的可维护性和可重用性。下面是一个ECMAScript Modules规范的示例详解&#xff1a; 创建模块 1.1 导出变量 在一个…

大数据Flume--入门

文章目录 FlumeFlume 定义Flume 基础架构AgentSourceSinkChannelEvent Flume 安装部署安装地址安装部署 Flume 入门案例监控端口数据官方案例实时监控单个追加文件实时监控目录下多个新文件实时监控目录下的多个追加文件 Flume Flume 定义 Flume 是 Cloudera 提供的一个高可用…

【安卓操作系统——讲解】

安卓操作系统 安卓操作系统 安卓操作系统 安卓&#xff08;Android&#xff09;是一种基于Linux内核和其他开源软件的移动操作系统&#xff0c;主要用于触屏移动设备如智能手机和平板电脑。由Andy Rubin等人开发&#xff0c;最初的目的是创建一个先进的操作系统&#xff0c;用…

Python算法100例-1.4 百钱百鸡

1.问题描述2.问题分析3.算法设计4.知识点补充5.确定程序框架6.确定公鸡、母鸡和小鸡数量7.完整的程序8.问题拓展 完整源代码项目地址&#xff0c;关注博主私信’源代码’后可获取 1.问题描述 中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱百鸡问题”&#xf…

【Make编译控制 03】Makefile常用函数

目录 一、shell 二、subst 三、patsubst 四、foreach 五、dir 六、notdir 七、filter 八、filter-out 九、basename 十、wildcard 一、shell $(shell <command> <arguments>)# 名称&#xff1a;shell 命令函数 # 功能&#xff1a;调用 shell 命令 comma…

聚簇索引、非聚簇索引、回表、索引下推、覆盖索引

聚簇索引&#xff08;主键索引&#xff09; 非叶子节点上存储的是索引值&#xff0c;叶子节点上存储的是整行记录。 非聚簇索引&#xff08;非主键索引、二级索引&#xff09; 非叶子节点上存储的都是索引值&#xff0c;叶子节点上存储的是主键的值。非聚簇索引需要回表&…

动态规划的一个初步学习

啥叫动态规划 在我们写很多的题目时&#xff0c;常常可以用暴力枚举来写&#xff0c;缺点就是速度太慢了。如果我们用一个数组或者哈希表&#xff08;虽然我还没学过哈希表&#xff09;将之前暴力枚举的数据储存起来&#xff0c;当再一次枚举到这个数字的时候就直接调用数组或…

Android---Jetpack Compose学习002

Compose 布局。Compose 布局的目标&#xff1a;1&#xff09;实现高性能&#xff1b;2&#xff09;让开发者能够轻松编写自定义布局&#xff1b;3&#xff09;在 Compose 中&#xff0c;通过避免多次测量布局子级可实现高性能。如果需要进行多次测量&#xff0c;Compose 具有一…

分享86个表单按钮JS特效,总有一款适合您

分享86个表单按钮JS特效&#xff0c;总有一款适合您 86个表单按钮JS特效下载链接&#xff1a;https://pan.baidu.com/s/1WwQGFPWv8464JBcuEMJZ_Q?pwd8888 提取码&#xff1a;8888 Python采集代码下载链接&#xff1a;采集代码.zip - 蓝奏云 学习知识费力气&#xff0c;…

LeetCode639. Decode Ways II——动态规划

文章目录 一、题目二、题解 一、题目 A message containing letters from A-Z can be encoded into numbers using the following mapping: ‘A’ -> “1” ‘B’ -> “2” … ‘Z’ -> “26” To decode an encoded message, all the digits must be grouped then …

spring boot学习第十二篇:mybatis框架中调用存储过程控制事务性

1、MySQL方面&#xff0c;已经准备好了存储过程&#xff0c;参考&#xff1a;MYSQL存储过程&#xff08;含入参、出参&#xff09;-CSDN博客 2、pom.xml文件内容如下&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"…