Selenium 实现自动化分页处理与信息提取

Selenium 实现自动化分页处理与信息提取

在 Web 自动化测试或数据抓取场景中,分页处理是一个常见的需求。通过 Selenium,我们可以实现对多页面内容的自动遍历,并从中提取所需的信息。本文将详细介绍如何利用 Selenium 进行自动化分页处理和信息提取。


一、Selenium 分页处理的基本思路

在实际应用中,网页通常会采用分页显示数据(例如商品列表、新闻列表等)。每一页的内容通过不同的 URL 或动态加载的方式呈现。以下是分页处理的一般步骤:

  1. 定位分页控件
    • 找到“下一页”按钮、“上一页”按钮或页码选择器。
  2. 循环遍历页面
    • 通过循环点击“下一页”按钮,或者直接跳转到指定页码的方式,逐页加载内容。
  3. 提取每页数据
    • 在每一页加载完成后,定位并提取目标信息(如文本、图片链接等)。
  4. 终止条件
    • 设置终止循环的条件(例如到达最后一页、没有更多数据等)。

二、Selenium 分页处理的核心技术点

1. 定位分页控件

在 Selenium 中,我们需要通过元素定位方法(如 XPath、CSS Selector 等)找到分页控件。常见的分页控件包括:

  • 下一页按钮:例如 <button class="next-page">下一页</button>
  • 上一页按钮:例如 <button class="prev-page">上一页</button>
  • 页码选择器:例如 <select class="page-select"> 包含多个页码选项。
2. 处理动态加载内容

部分网页采用动态加载技术(如 AJAX),当用户点击“下一页”按钮时,页面内容会通过 JavaScript 动态更新。此时需要等待页面加载完成,确保数据被正确提取。

3. 循环遍历页面

Selenium 提供了丰富的元素操作方法,可以通过循环实现分页的自动遍历。例如:

  • 点击“下一页”按钮,直到无法点击为止。
  • 直接跳转到指定页码(适用于支持直接输入页码的场景)。
4. 数据提取与存储

在每一页加载完成后,使用 Selenium 或其他工具(如 BeautifulSoup、lxml)提取目标信息,并将其存储为文件或数据库中的数据。


三、Selenium 分页处理的典型实现

以下是一个完整的示例代码,展示了如何利用 Selenium 实现分页处理和信息提取:

示例场景:从某电商网站提取商品列表

假设目标网页是一个商品列表页面,每一页显示一定数量的商品信息。我们的任务是:

  1. 遍历所有页面。
  2. 提取每一件商品的标题、价格和链接。

代码实现

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd# 初始化 WebDriver(以 Chrome 为例)
options = webdriver.ChromeOptions()
options.add_argument('--start-maximized')
driver = webdriver.Chrome(options=options)try:# 打开目标页面driver.get('https://example.com/products')# 存储提取的数据data = []while True:# 等待当前页面加载完成(定位商品列表容器)product_container = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.product-list')))# 提取每一件商品的信息products = product_container.find_elements(By.CSS_SELECTOR, '.product-item')for product in products:title = product.find_element(By.CSS_SELECTOR, '.product-title').textprice = product.find_element(By.CSS_SELECTOR, '.price').textlink = product.find_element(By.CSS_SELECTOR, 'a').get_attribute('href')data.append({'标题': title,'价格': price,'链接': link})# 检查是否还有下一页next_button = driver.find_elements(By.CSS_SELECTOR, '.next-page')if len(next_button) == 0:break  # 已到达最后一页# 点击“下一页”按钮,并等待新页面加载next_button[0].click()time.sleep(2)  # 等待页面加载(可根据实际情况调整)except Exception as e:print(f"发生异常:{e}")finally:# 关闭浏览器driver.quit()# 将数据保存为 CSV 文件
df = pd.DataFrame(data)
df.to_csv('products.csv', index=False, encoding='utf-8-sig')
print("数据已成功提取并保存到 products.csv")

四、代码解析与关键点

1. 初始化 WebDriver
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pdoptions = webdriver.ChromeOptions()
options.add_argument('--start-maximized')
driver = webdriver.Chrome(options=options)
  • WebDriver: 使用 Chrome 浏览器进行自动化操作。
  • Options: 设置浏览器窗口最大化,避免因窗口大小导致的定位问题。
2. 打开目标页面
driver.get('https://example.com/products')
  • 这里需要替换为目标网站的实际 URL。

3. 提取数据
  1. 等待当前页面加载完成

    product_container = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.product-list'))
    )
    
    • 使用 WebDriverWait 等待目标元素(商品列表容器)加载完成。
  2. 提取每一件商品的信息

    products = product_container.find_elements(By.CSS_SELECTOR, '.product-item')
    for product in products:title = product.find_element(By.CSS_SELECTOR, '.product-title').textprice = product.find_element(By.CSS_SELECTOR, '.price').textlink = product.find_element(By.CSS_SELECTOR, 'a').get_attribute('href')data.append({'标题': title,'价格': price,'链接': link})
    
    • 使用 CSS 选择器定位商品信息,并提取标题、价格和链接。

4. 处理分页
  1. 检查是否还有下一页

    next_button = driver.find_elements(By.CSS_SELECTOR, '.next-page')
    if len(next_button) == 0:break  # 已到达最后一页
    
  2. 点击“下一页”按钮

    next_button[0].click()
    time.sleep(2)
    
    • 点击“下一页”按钮,并等待新页面加载。

5. 数据存储
  1. 将数据转换为 DataFrame

    df = pd.DataFrame(data)
    
  2. 保存为 CSV 文件

    df.to_csv('products.csv', index=False, encoding='utf-8-sig')
    
    • 使用 pandas 将数据保存为 CSV 格式,便于后续分析。

五、注意事项

  1. 反爬机制:部分网站会对频繁的请求进行限制(如 IP 封锁)。可以考虑使用代理或调整请求频率。
  2. 动态加载内容:对于采用动态加载技术的网页,需要等待 JavaScript 执行完毕后再进行数据提取。
  3. 异常处理:在实际开发中,应增加更多的异常处理逻辑,确保程序健壮性。
  4. 性能优化:如果目标网站包含大量页面和数据,可以考虑使用多线程或分布式爬虫技术。

六、总结

通过上述代码实现,我们展示了如何利用 Selenium 实现分页处理和数据提取。该方法适用于大多数采用传统分页方式的网页,并且具有较高的灵活性和可扩展性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/79797.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VS qt 联合开发环境下的多国语言翻译

添加Linguist 文件方法&#xff0c;如同添加类文件的方式&#xff0c;那样&#xff1a; 其他跟QT的一样的流程&#xff0c;另外在main函数里要注册一下&#xff0c; QTextCodec::setCodecForLocale(textCodec); QTranslator translator5; QString trans5 fi…

第十七节:高频开放题-React未来发展趋势

服务端组件&#xff08;RSC&#xff09;普及 React Compiler对开发模式的影响 React 未来发展趋势深度解析&#xff1a;服务端组件与编译器的革命性变革 一、服务端组件&#xff08;RSC&#xff09;的全面普及与生态重构 1. RSC 的核心理念与技术优势 React Server Component…

Python爬虫实战:获取B站查询数据

一、引言 1.1 研究背景 随着互联网的迅猛发展,视频分享平台积累了海量的数据资源。以 B 站为例,其丰富的视频内容和活跃的用户群体蕴含着巨大的价值。对 B 站搜索数据进行爬取和分析,有助于洞察用户兴趣、市场趋势以及内容创作方向,为市场调研、用户行为分析和内容推荐系…

【Rust 精进之路之第3篇-变量观】`let`, `mut` 与 Shadowing:理解 Rust 的变量绑定哲学

系列&#xff1a; Rust 精进之路&#xff1a;构建可靠、高效软件的底层逻辑 作者&#xff1a; 码觉客 发布日期&#xff1a; 2025-04-20 引言&#xff1a;为数据命名&#xff0c;Rust 的第一道“安全阀” 在上一篇文章中&#xff0c;我们成功搭建了 Rust 开发环境&#xff0c…

stm32(IO口的最高速度)

如果我们写入速度 快到一种程度 肯定就不能完全按理想的来了 当我们写01快起来 中间的保持时间就会越来越少 就逐渐往下面变化 所以其实 我们如果改变上升时间 和 下降时间 还是能将最后的波形 变成为正常的波形的。 不用追求高速 &#xff0c;满足要求下 选低速的即可。 因…

String +memset字符串类题型【C++】

tips&#xff1a; 1、寻找最大公共子串时&#xff0c;如果字符串可以旋转但是不能反转&#xff0c;考虑在每个字符串后重复一次自身&#xff0c;如 "abcd" 变为 "abcdabcd"&#xff0c;这样在用dp就可以了。 如何变环拆环为链&#xff1a; cin>>n&…

基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(三)

上一篇 介绍了数据接入处理的整体方案设计。本篇介绍基于SmartETL框架的流程实现。 5. 流程开发 5.1.简单采集流程 从指定时间&#xff08;yy年 mm月&#xff09;开始&#xff0c;持续采集arXiv论文。基于月份和顺序号&#xff0c;构造论文ID&#xff0c;进而下载论文PDF文件…

[Swift]Xcode模拟器无法请求http接口问题

1.以前偷懒一直是这样设置 <key>NSAppTransportSecurity</key> <dict><key>NSAllowsArbitraryLoads</key><true/><key>NSAllowsArbitraryLoadsInWebContent</key><true/> </dict> 现在我在Xcode16.3上&#xff…

Python基础总结(八)之循环语句

文章目录 一、for循环1.1 for循环格式1.2 for ...else1.3 for...break1.4 for...continue 二、while循环2.1 while循环格式2.2 while...break2.3 while...continue2.4 while ...else 循环语句就如其名&#xff0c;就是重复的执行一段代码&#xff0c;直到满足退出条件时&#x…

vuex实现同一页面radio-group点击不同按钮显示不同表单

本文实现的是点击单一规格和多规格两个按钮会在页面显示不同的表单 方法一 <!-- 单规格和多规格的切换 --> <el-form label-width"80px" class"text-align-left"><el-form-item label"商品规格"><!-- 监听skus_type的改…

AI编写的“黑科技风格、自动刷新”的看板页面

以下的 index.html 、 script.js 和 styles.css 文件&#xff0c;实现一个具有黑科技风格、自动刷新的能源管理系统实时监控看板。 html页面 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name&q…

Vim使用完全指南:从基础到高效编辑

Vim使用完全指南&#xff1a;从基础到高效编辑 一、Vim简介与基本概念 Vim&#xff08;Vi IMproved&#xff09;是从vi发展出来的一个功能强大的文本编辑器&#xff0c;以其高效性和灵活性著称&#xff0c;特别适合程序开发和系统管理任务。与常规文本编辑器不同&#xff0c;…

时序约束高级进阶使用详解三:Create_Clock

目录 一、前言 二、设计示例 2.1 设计代码 2.2 schematic 2.3 no overwriteing 2.4 约束到非时钟引脚 三、Create_clock应用 3.1 时钟输入端口 3.2 7系列高速收发器输出管脚 3.3 部分原语的输出管脚 3.4 主时钟路径上创建主时钟 3.5 虚拟时钟 3.6 差分时钟的约束 …

箱线图(盒须图)QCPStatiBox

一、QCPStatisticalBox 概述 QCPStatisticalBox 是 QCustomPlot 中用于绘制箱线图(盒须图)的类&#xff0c;可以显示数据的五个关键统计量&#xff1a;最小值、第一四分位数(Q1)、中位数、第三四分位数(Q3)和最大值&#xff0c;以及可能的异常值。 二、主要属性 属性类型描述…

人形机器人马拉松:北京何以孕育“领跑者”?

“机器人每跑一小步&#xff0c;都是人类科技的一大步”&#xff0c;这句对阿姆斯特朗登月名言的仿写&#xff0c;恰如其分地诠释了全球首场人形机器人半程马拉松赛事的里程碑意义。 2025年4月19日&#xff0c;北京亦庄半程马拉松暨人形机器人半程马拉松圆满结束。在总长21.09…

基于Python的推荐算法的电影推荐系统的设计

标题:基于Python的推荐算法的电影推荐系统的设计与实现 内容:1.摘要 本文围绕基于Python的推荐算法的电影推荐系统展开研究。背景在于随着电影数量的急剧增加&#xff0c;用户在海量电影中找到符合自身喜好的影片变得困难。目的是设计并实现一个高效准确的电影推荐系统&#x…

【深度学习】详解矩阵乘法、点积,内积,外积、哈达玛积极其应用|tensor系列02

博主简介&#xff1a;努力学习的22级计算机科学与技术本科生一枚&#x1f338;博主主页&#xff1a; Yaoyao2024往期回顾&#xff1a;【深度学习】你真的理解张量了吗&#xff1f;|标量、向量、矩阵、张量的秩|01每日一言&#x1f33c;: “脑袋想不明白的&#xff0c;就用脚想”…

面试常用基础算法

目录 快速排序归并排序堆排序 n n n皇后问题最大和子数组爬楼梯中心扩展法求最长回文子序列分割回文串动态规划求最长回文子序列最长回文子串单调栈双指针算法修改 分割回文串滑动窗口栈 快速排序 #include <iostream> #include <algorithm>using namespace std;…

相对路径和绝对路径解析

在 Linux/Unix 和文件系统中&#xff0c;绝对路径和相对路径是描述文件或目录位置的两种方式&#xff0c;它们的核心区别在于路径的起点和使用场景。以下是详细对比&#xff1a; 目录 1. 定义与起点 2. 符号与语法 3. 使用场景 4. 实际示例 示例 1&#xff1a;定位文件 示…

【算法数据结构】leetcode37 解数独

37. 解数独 - 力扣&#xff08;LeetCode&#xff09; 题目描述&#xff1a; 题目要求每一行 &#xff0c;每一列&#xff0c;每个3*3 的子框只能出现一次。每个格子的数字范围1-9. 需要遍历每个空格填入可能的数字&#xff0c;并验证符合规则。如果符合就填入&#xff0c;不符…