如何用Python同时抓取多个网页:深入ThreadPoolExecutor

爬虫代理

背景介绍

在信息化时代,数据的实时性和获取速度是其核心价值所在。对于体育赛事爱好者、数据分析师和投注行业而言,能否快速、稳定地抓取到实时比赛信息显得尤为重要。特别是在五大足球联赛中,能够在比赛进行时获得比分、控球率等实时数据,对分析和预测具有巨大的帮助。但由于数据分布在各个网站上,页面结构多样,抓取它们并不简单。

问题陈述

当我们试图抓取五大联赛的实时动态信息时,往往会遇到以下几个问题:

  1. 抓取效率低:如果逐个页面顺序请求,效率低下,获取数据会存在明显延迟。
  2. 请求限制:许多网站会对频繁请求设置限制,若操作不当,IP可能会被封禁。
  3. 网络代理需求:为了提高稳定性,需要使用代理IP规避封禁和流量限制。
  4. 多线程并发处理:单线程在处理大量请求时速度较慢,需要使用多线程来显著提高爬取速度。

针对以上挑战,Python中的concurrent.futures库为我们提供了一种理想的解决方案:ThreadPoolExecutor。通过它,我们可以在多线程的帮助下,同时抓取多个页面,再结合代理IP和合理的请求头设置,轻松获取所需的数据。

解决方案

为什么选择 ThreadPoolExecutor?

ThreadPoolExecutor是Python中高效的并发处理工具。它通过管理线程池的方式实现任务并行,避免了频繁创建和销毁线程的开销,是处理I/O密集型任务(例如爬虫)的理想选择。配合代理IP和自定义请求头,我们可以在提升效率的同时规避频繁请求带来的封禁风险。

实现方案概览
  1. 设置代理:使用代理IP有效避免被封禁。
  2. 设置请求头:包括User-AgentCookies,使请求更接近真实用户操作。
  3. 多线程处理:使用ThreadPoolExecutor实现并行抓取,大幅提高爬取速度。

案例分析:实时抓取五大联赛比赛信息

以下代码展示了如何使用ThreadPoolExecutor并结合代理IP和请求头设置,实时抓取五大联赛的动态数据。以几个常用的实时比分网站为目标,我们通过多线程并发快速获取比赛数据。代码中代理IP配置参考了爬虫代理的示例。

import requests
from concurrent.futures import ThreadPoolExecutor, as_completed
from bs4 import BeautifulSoup# 代理IP信息(请替换为实际的亿牛云爬虫代理账号信息 www.16yun.cn )
proxy_host = "proxy.16yun.cn"  # 代理主机
proxy_port = "8000"  # 代理端口
proxy_user = "your_username"  # 用户名
proxy_pass = "your_password"  # 密码# 构造代理字典
proxies = {"http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}","https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
}# 请求头信息
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36","Cookie": "your_cookie_here"  # 替换为实际的Cookie
}# 目标URL列表(以几个五大联赛的网页为例,实际使用时替换为各大网站的具体页面)
urls = ["https://www.livescore.com/en/football/england/premier-league/","https://live.win007.com/",  # 足彩网比分直播"https://www.flashscore.com/football/italy/serie-a/","https://www.sofascore.com/","https://www.365scores.com/football"
]# 抓取单个网页的函数
def fetch_data(url):try:# 发送请求response = requests.get(url, headers=headers, proxies=proxies, timeout=5)response.raise_for_status()  # 检查请求是否成功# 解析网页内容soup = BeautifulSoup(response.text, "html.parser")# 示例解析比赛标题和比分(根据实际页面结构解析)if "livescore" in url:title = soup.title.get_text()score = soup.find("div", class_="score").get_text() if soup.find("div", class_="score") else "Score Not Found"elif "win007" in url:title = soup.title.get_text()score = "解析内容根据实际页面结构调整"elif "flashscore" in url:title = soup.title.get_text()score = "解析内容根据实际页面结构调整"else:title = soup.title.get_text()score = "数据解析方式根据页面结构调整"return {"url": url,"title": title,"score": score}except requests.RequestException as e:print(f"Error fetching {url}: {e}")return None# 使用ThreadPoolExecutor进行多线程抓取
def fetch_all_data(urls):results = []with ThreadPoolExecutor(max_workers=5) as executor:# 提交任务future_to_url = {executor.submit(fetch_data, url): url for url in urls}# 获取结果for future in as_completed(future_to_url):url = future_to_url[future]try:data = future.result()if data:results.append(data)except Exception as exc:print(f"{url} generated an exception: {exc}")return results# 执行抓取任务并输出结果
data = fetch_all_data(urls)
for match in data:print(f"URL: {match['url']} - Title: {match['title']} - Score: {match['score']}")

代码详解

  1. 代理设置:使用爬虫代理提供的代理IP服务,通过proxies参数将代理信息传递给requests.get(),规避频繁请求限制。
  2. 请求头设置:设置User-AgentCookie,模拟真实用户操作,避免被识别为爬虫。
  3. 多线程请求:使用ThreadPoolExecutor的线程池来并行抓取数据,显著提升效率。
  4. 数据解析:对于不同的页面,设置了相应的解析逻辑。页面结构可能不同,因此代码中根据URL进行条件判断,便于在实际操作时调整解析方式。

结论

利用ThreadPoolExecutor和代理IP技术,我们可以高效稳定地抓取多个实时更新的足球联赛数据。本文所示的多线程抓取示例不仅适用于五大联赛,还可以广泛应用于其他实时数据采集场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/884011.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【UBuntu20 配置usb网卡】 记录Ubuntu20配置usb网卡(特别是建立热点)

【UBuntu20 配置usb网卡】 Ubuntu20配置usb网卡(特别是建立热点) 一、 闲言碎语的前言 usb的外置网卡,相比Windows即插即用,Linux买回来一顿折腾,准备把过程梳理一下记录起来。 网卡的方案其实就那几家,…

前端开发模块VUE-Element UI学习笔记

前端开发模块VUE-Element UI学习笔记 文章目录 前端开发模块VUE-Element UI学习笔记 1、Element UI 简介2、Element UI 安装3、Icon 图标4、Button 按钮5、Link 超链接6、Radio 单选框7、Checkbox 多选框8、Input 输入框9、Select 下拉框10、Switch 开关 1、Element UI 简介 基…

Java面试经典 150 题.P169. 多数元素(005)

本题来自:力扣-面试经典 150 题 面试经典 150 题 - 学习计划 - 力扣(LeetCode)全球极客挚爱的技术成长平台https://leetcode.cn/studyplan/top-interview-150/ 题解: class Solution {public int majorityElement(int[] nums) …

如何在Python爬虫等程序中设置和调用http代理

在Python爬虫中为了更好地绕过反爬机制,获取网页信息,有时可能需要在Python中应用代理服务,这样做的目的就是防止自己的ip被服务器封禁,造成程序运行时中断连接,那么如何在python中设置代理呢? 我们通过几个…

海思MPP音视频总结

基础篇 1.常用图像格式介绍 常用图像像素格式 RGB 和 YUV。 1.1RGB RGB分类通常指的是将图像或颜色按照RGB(红、绿、蓝)颜色空间进行分组或分类。RGB图像格式通常包括RGB24(RGB888)、RGB32、RGBA、RGB565等。 RGB24是一种常用…

预览 PDF 文档

引言 在现代Web应用中,文件预览功能是非常常见的需求之一。特别是在企业级应用中,用户经常需要查看各种类型的文件,如 PDF、Word、Excel 等。本文将详细介绍如何在Vue项目中实现 PDF 文档的预览功能。 实现原理 后端API 后端需要提供一个…

【c++ gtest】使用谷歌提供的gtest和抖音豆包提供的AI大模型来对代码中的函数进行测试

【c gtest】使用谷歌提供的gtest和抖音豆包提供的AI大模型来对代码中的函数进行测试 下载谷歌提供的c测试库在VsCode中安装抖音AI大模型找到c项目文件夹,使用VsCode和VS进行双开生成gtest代码进行c单例测试 下载谷歌提供的c测试库 在谷歌浏览器搜索github gtest, 第…

Pycharm,2024最新版Pycharm现在安装环境配置汉化详细教程!

码(文末附带精品籽料): K384HW36OBeyJsaWNlbnNlSWQiOiJLMzg0SFczNk9CIiwibGljZW5zZWVOYW1lIjoibWFvIHplZG9uZyIsImxpY2Vuc2VlVHlwZSI6IlBFUlNPTkFMIiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IiIsIm…

【论文分享】TensorTEE 24‘ASPLOS

目录 AbstractIntroductionContribution BackgroundCollaborative ComputingLLM CPU-NPU collaborative computing Memory ProtectionMemory encryption Integrity verificationHeterogeneous NPU TEEIntegrated NPU TEEDiscrete NPU TEE Threat Model MotivationInefficient C…

力扣每日一题合集

3211. 生成不含相邻零的二进制字符串 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:vector<string> validStrings(int n) {vector<string> ans;ans.emplace_back("0");ans.emplace_back("1");for(int i 1; i < n; i)…

Vue3 中实现过渡动画的几种方式?

前言 首先抛开 vue 本身&#xff0c;假设需要给某个 Dom 元素实现一些过渡动画&#xff0c;那么下面这些事是必须的&#xff1a; 实现目标元素不同时刻下的样式&#xff0c;常见做法就是抽取在不同的 css 选择器中根据不同时刻切换不同的 css 选择器以达到样式的变化设置样式…

Linux 中,flock 对文件加锁

在Linux中&#xff0c;flock是一个用于对文件加锁的实用程序&#xff0c;它可以帮助协调多个进程对同一个文件的访问&#xff0c;避免出现数据不一致或冲突等问题。以下是对flock的详细介绍&#xff1a; 基本原理 flock通过在文件上设置锁来控制多个进程对该文件的并发访问。…

【华为HCIP实战课程二十七】中间到中间系统协议IS-IS Hello报文,网络工程师

一、IS-IS术语 1、IIH: ISIS hello 报文,相当于OSPF的Hello报文,hello-interval 10s, hold-time 30s 2、LSP:链路状态数据单元,类似OSPF的LSA,携带路由信息(L1和L2的LSP) 3、SNP:系列号PDU (1)、PSNP:部分序列号协议数据单元,类似OSPF的ACK,Request (2)、CSNP:…

python-opencv给图片或视频去水印

文章目录 引言inpaint函数的使用方法鼠标事件回调函数cv2.setMouseCallback介绍去水印步骤实现代码 引言 本文主要基于cv2.inpaint函数实现图片的水印去除。 inpaint函数基于图像修复算法&#xff0c;通过对缺陷区域周围像素的分析和插值&#xff0c;生成合适的像素值来填充缺…

渗透测试-百日筑基—文件上传篇特征截断渲染%00绕过——下篇

目录 day10-渗透测试文件上传篇&绕过&特征&截断&渲染 一、黑名单大小写绕过代码分析 1、获取文件后缀名进行判断&#xff0c;如果后缀在这个字典里就禁止上传。 2、黑名单大小写绕过攻击 二、利用 windows 系统特征绕过上传 1、windows 系统特征绕过漏洞…

C语言 | Leetcode C语言题解之第522题最长特殊序列II

题目&#xff1a; 题解&#xff1a; #define MAX(a, b) ((a) > (b) ? (a) : (b))bool is_subseq(const char *s, const char *t) {int pt_s 0, pt_t 0;int len_s strlen(s), len_t strlen(t);while (pt_s < len_s && pt_t < len_t) {if (s[pt_s] t[pt_…

STM32CUBEMX安富莱STM32-V6开发板使用FMC驱动SDRAM芯片MT48LC4M32B2TG

文章的目的是快速使用SDRAM芯片&#xff0c;没有详细讲解原理。 1、环境&#xff1a; 单片机&#xff1a;STM32F429VIT6 CUBE版本&#xff1a;STM32CUBMX 6.12.1 编译&#xff1a;KEIL MDK 硬件&#xff1a;安富莱STM32-V6开发板 SDRAM芯片&#xff1a;MT48LC4M32B2TG 2、配…

为什么QNAP威联通NAS的APP center无法安装APP?

创作立场&#xff1a;原创不易&#xff0c;拒绝搬运~ hello大家好&#xff0c;我是你们的老伙伴&#xff0c;稳重的大王~ 如题&#xff0c;大王带你一起来排查一下&#xff0c;可能遇到的问题。如有帮助&#xff0c;请给个关注鼓励&#xff0c;互谢~ 1 首先&#xff0c;安装…

人工智能算法之粒子群优化算法

人工智能算法之粒子群优化算法 粒子群优化算法&#xff08;PSO&#xff09;是一种群体智能优化算法&#xff0c;由Kennedy和Eberhart在1995年提出&#xff0c;灵感来源于鸟群、鱼群等生物群体行为。PSO通过群体中个体的交互及对周围环境的感知&#xff0c;快速找到最优解。PSO算…

【深入浅出】深入浅出transformer(附面试题)

本文的目的是为了帮助大家面试transformer&#xff0c;会结合我的面试经历以及看法去讲解transformer&#xff0c;并非完整的技术细致讲解&#xff0c;介意请移步。 结构 提到transformer网络模型&#xff0c;大家脑海中是否有这张图呢&#xff1f; 这是网络结构中经典的编解…