【Python爬虫实战】DrissionPage 与 ChromiumPage:高效网页自动化与数据抓取的双利器

  🌈个人主页:易辰君-CSDN博客
🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html

目录

前言

一、DrissionPage简介

(一)特点

(二)安装

(三)基本用法

(四)常见操作示例

二、ChromiumPage简介

(一)特点

(二)安装 ChromiumPage 和依赖

(三)基本用法

(四)常见操作

(五)适用场景

(六)ChromiumPage总结

三、总结


前言

在数据抓取与自动化测试领域,处理静态和动态网页的需求日益增加。传统的工具如 requestsselenium 虽然各有优势,但往往需要根据需求在二者之间切换,增加了代码的复杂度。DrissionPage 则创新性地整合了这两种模式,提供了统一的 API,使得静态和动态网页的处理变得更加简洁高效。此外,DrissionPageChromiumPage 模块结合了 Playwright 的强大性能,专为处理复杂的动态网页而设计,让开发者可以在无头浏览器中高效执行 JavaScript、进行模拟操作,为网页自动化和数据抓取提供了理想的解决方案。


一、DrissionPage简介

DrissionPage 是一个基于 Python 的网页自动化和数据抓取库,结合了 requestsselenium 两种工具的优势,为开发者提供了统一的 API,从而简化了静态和动态网页的处理。通过 DrissionPage,可以轻松切换不同的操作模式,适用于从简单的数据抓取到复杂的网页自动化操作。

(一)特点

(1)双模式支持:提供了两种模式,分别是 requests 模式和 selenium 模式。

  • requests 模式:适合加载速度快的静态网页抓取。

  • selenium 模式:适合处理动态网页和需要用户操作的网页,比如点击按钮、表单输入等。

(2)统一 APIDrissionPage 提供的 API 简洁且一致,无论是 requests 还是 selenium 模式,使用的接口基本一致,从而简化了代码的切换和维护。

(3)简化浏览器控制:在 selenium 模式下,可以自动加载页面、执行脚本、模拟用户操作(点击、输入等),便于实现自动化浏览器任务。

(4)智能解析与提取:集成了便捷的 CSS 选择器支持,可轻松定位页面元素,适用于快速数据提取和处理。

(二)安装

使用 pip 进行安装:

pip install drissionPage

此外,如果需要使用 selenium 模式,需要确保系统安装了对应的浏览器驱动(如 Chrome 的 chromedriver),或者使用 webdriver-manager 自动管理驱动。

(三)基本用法

以下是一个快速入门示例,展示如何使用 DrissionPage 切换模式来获取网页内容:

from drissionPage import Drission# 初始化 Drission 对象
drission = Drission()# 使用 requests 模式获取静态网页内容
page = drission.requests.get('https://example.com')
print(page.text)  # 输出网页文本内容# 切换到 selenium 模式,适用于动态网页
drission.change_mode('selenium')
page = drission.get('https://example.com')
print(page.page_source)  # 输出完整的网页源码

(四)常见操作示例

  • 定位和获取元素
# 在 requests 模式下查找元素
element = page.ele('h1')
print(element.text)
  • 自动化操作(在 selenium 模式下)
drission.change_mode('selenium')
page = drission.get('https://example.com')# 点击元素
page.ele('button#submit').click()# 输入文本
page.ele('input#name').input('example text')

二、ChromiumPage简介

ChromiumPageDrissionPage 库中的一个功能模块,专门用于控制基于 Chromium 的无头浏览器(headless browser),可以用于在 Python 中实现浏览器自动化和动态网页的数据抓取。ChromiumPage 使用 Playwright 作为底层引擎,能够高效地加载页面、执行 JavaScript 代码,并且可以无缝地处理动态内容(例如 AJAX 加载的内容)。

(一)特点

  • 高性能:基于 Playwright 引擎的无头浏览器,相比 Selenium 更轻量且性能更好。

  • 跨平台兼容Playwright 支持在 Windows、MacOS 和 Linux 上运行,并且适用于多种浏览器内核(包括 Chromium、Firefox 等)。

  • 处理动态内容:可以执行 JavaScript、模拟点击、输入等操作,适合动态网页的数据抓取。

  • API 简单易用:提供了简洁的 API,使得操作元素、提取数据变得更加直观。

(二)安装 ChromiumPage 和依赖

ChromiumPage 依赖 Playwright,因此在安装 DrissionPage 后,还需要安装 Playwright 并下载浏览器二进制文件:

pip install drissionPage[playwright]
python -m playwright install

(三)基本用法

以下是一个简单的例子,展示了如何使用 ChromiumPage 来访问网页、查找元素和执行自动化操作:

from drissionPage import ChromiumPage# 初始化 ChromiumPage 对象
page = ChromiumPage()# 访问网页
page.get('https://example.com')# 查找元素并获取文本
element = page.ele('h1')
print(element.text)# 模拟点击按钮
page.ele('button#submit').click()# 在输入框中输入文本
page.ele('input#name').input('Hello, World!')

(四)常见操作

定位元素:可以使用 CSS 选择器或 XPath 定位页面中的元素。

# 查找单个元素
element = page.ele('div.classname')# 查找多个元素
elements = page.eles('p')
for e in elements:print(e.text)

获取动态内容:在页面加载完成后,可以轻松获取由 JavaScript 动态生成的内容。

page.get('https://example.com')
content = page.ele('div#dynamic-content').text
print(content)

自动化操作:点击按钮、选择下拉框、输入文本等操作都可以在 ChromiumPage 中实现,比如登录表单填写

page.ele('input#username').input('my_username')
page.ele('input#password').input('my_password')
page.ele('button#login').click()

截图与 PDF 生成

可以轻松保存页面截图和生成 PDF 文件。

# 保存截图
page.screenshot('screenshot.png')# 保存页面为 PDF
page.pdf('page.pdf')

(五)适用场景

  • 数据抓取:适合处理需要 JavaScript 渲染的动态网页。

  • 自动化测试:能够模拟用户的操作,用于自动化测试。

  • 网页自动化操作:适用于登录操作、数据提交等任务。

(六)ChromiumPage总结

ChromiumPage 是一个强大的网页自动化和数据抓取工具,通过与 Playwright 的结合,可以实现高效、跨平台的浏览器自动化。无论是用于数据抓取还是自动化测试,它都提供了丰富的 API,适合需要处理动态网页内容的任务。


三、总结

DrissionPageChromiumPage 的结合,使得 Python 用户能够轻松应对多种网页自动化与数据抓取任务。从简单的数据抓取到复杂的用户交互、从静态页面到动态内容,这两个工具模块通过统一、简洁的 API 极大地降低了开发者的工作量。无论是需要更高性能的动态页面处理,还是简化自动化测试流程,DrissionPage 都是一个强大的利器,尤其在需要高效处理动态内容的场景下,ChromiumPage 的表现尤为出色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/59546.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

R7:糖尿病预测模型优化探索

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 一、实验目的: 探索本案例是否还有进一步优化的空间 二、实验环境: 语言环境:python 3.8编译器:Jupyter notebo…

HANDLINK ISS-7000v2 网关 login_handler.cgi 未授权RCE漏洞复现

0x01 产品简介 瀚霖科技股份有限公司ISS-7000 v2网络网关服务器是台高性能的网关,提供各类酒店网络认证计费的完整解决方案。由于智慧手机与平板电脑日渐普及,人们工作之时开始使用随身携带的设备,因此无线网络也成为网络使用者基本服务的项目。ISS-7000 v2可登录300至1000…

RK3576 LINUX RKNN SDK 测试

安装Conda工具 安装 Miniforge Conda wget -c https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-Linux-x86_64.sh chmod 777 Miniforge3-Linux-x86_64.sh bash Miniforge3-Linux-x86_64.shsource ~/miniforge3/bin/activate # Miniforge 安装的…

深入学习指针(5)!!!!!!!!!!!!!!!

文章目录 1.回调函数是什么?2.qsort使用举例2.1使用qsort函数排序整形数据2.2使用sqort排序结构数据 3.qsort函数的模拟实现 1.回调函数是什么? 回调函数就是⼀个通过函数指针调⽤的函数。 如果你把函数的指针(地址)作为参数传递…

天锐绿盾加密软件与Ping32数据安全防护对比,为企业提供坚实的保障

在当今信息化时代,数据安全已成为企业不可忽视的重要议题。天锐绿盾加密软件与Ping32作为两款备受关注的数据安全解决方案,各自以其卓越的功能和优势,为企业数据安全提供了坚实的保障。 Ping32,同样以其出色的数据加密和防泄密功能…

支持向量机相关证明 解的稀疏性

主要涉及拉格朗日乘子法,对偶问题求解

求职经验分享

更多详情:爱米的前端小笔记,更多前端内容,等你来看!这些都是利用下班时间整理的,整理不易,大家多多👍💛➕🤔哦!你们的支持才是我不断更新的动力!找…

基于Dpabi和spm12的脑脊液(csf)分割和提取笔记

一、前言 脑脊液(csf)一直被认为与新陈代谢有重要关联,其为许多神经科学研究提供重要价值,从fMRI图像中提取脑脊液信号可用于多种神经系统疾病的诊断。特别是自2019年Science上那篇著名的csf-BOLD文章发表后,大家都试图…

力扣:94--中序遍历二叉树

树 – 二叉树 完全二叉树: 完全二叉树可以用数组完美匹配位置(先序存储:根左右), 推论一 : 位置为k的节点,左孩子:2*k 1 ,右孩子 : 2 * (k 1&…

SQL 常用语句

目录 我的测试环境 学习文档 进入数据库 基础通关测验 语句-- 查 展示数据库; 进入某个数据库; 展示表: 展示某个表 desc 查询整个表: 查询特定列: 范围查询 等于特定值 不等于 介于 特定字符查询 Li…

MySQL utf8mb3 和 utf8mb4引发的问题

问题描述 Cause: java.sql.SQLException: Incorrect string value: \xF4\x8F\xBB\xBF-b... for column sddd_aaa_ark at row 1 sddd_aaa_ark 存储中文字符时,出现上述问题 原因分析 sddd_aaa_ark在数据库中结构是 utf8字符的最大字节数是3 byte,但是某些…

ONLYOFFICE 文档8.2更新评测:PDF 协作编辑、性能优化及更多新功能体验

文章目录 🍀引言🍀ONLYOFFICE 产品简介🍀功能与特点🍀体验与测评ONLYOFFICE 8.2🍀邀请用户使用🍀 ONLYOFFICE 项目介绍🍀总结 🍀引言 在日常办公软件的选择中,WPS 和微软…

SAP-ABAP开发-ONLINE 程序、DIALOG屏幕开发

目录 一、Online 程序概览 1、程序类型 2、Online程序的主要对象 二、界面 1、SAP的屏幕开发 2、屏幕功能实现 3、界面中的事件块(Event Block) 4、界面的创建 三、简单界面元素 1、文本/输入框控件 2、数据检查 3、一些常用的关键字 四、复…

java、excel表格合并、指定单元格查找、合并文件夹

#创作灵感# 公司需求 记录工作内容 后端:JAVA、Solon、easyExcel、FastJson2 前端:vue2.js、js、HTML 模式1:合并文件夹 * 现有很多文件夹 想合并全部全部的文件夹的文件到一个文件夹内 * 每个部门发布的表格 合并全部的表格为方便操作 模…

平替谷歌翻译--沉浸式翻译

这款插件真特么的猛啊!!! 谷歌插件或者油猴插件都有。 沉浸式翻译 - 免费双语对照网页翻译插件

印尼市场潜力无限!用友司库直联助力中企印尼“掘金”

在经济全球化的浪潮下,东南亚市场正焕发出勃勃生机。而其中印度尼西亚作为东盟 大的经济体,被认为是东南亚重要、有活力的市场之一,成为中企出海竞相布局的热门目的地。然而,在积极进军印尼市场的过程中,中国企业普遍面…

【贪心算法】No.1---贪心算法(1)

文章目录 前言一、贪心算法:二、贪心算法示例:1.1 柠檬⽔找零1.2 将数组和减半的最少操作次数1.3 最⼤数1.4 摆动序列1.5 最⻓递增⼦序列1.6 递增的三元⼦序列 前言 👧个人主页:小沈YO. 😚小编介绍:欢迎来到…

自动驾驶---“火热的”时空联合规划

1 背景 早期的不少规划算法都是横纵分离的(比如Apollo),先求解path之后,依赖path的结果再进行speed的求解。这种横纵解耦的规划方式具有以下特点: 相对较为简单,计算量通常较小,容易实现实时性…

在VSCode中读取Markdown文件

在VSCode安装Markdown All in One或Markdown Preview Enhanced即可 插件Markdown All in One GitHub:https://github.com/yzhang-gh/vscode-markdown v3.6.2下载链接:https://marketplace.visualstudio.com/_apis/public/gallery/publishers/yzhang/vs…

IDEA在编译时: java: 找不到符号符号: 变量 log

一、问题 IDEA在编译的时候报Error:(30, 17) java: 找不到符号符号: 变量 log Error:(30, 17) java: 找不到符号 符号: 变量 log 位置: 类 com.mokerson.rabbitmq.config.RabbitMqConfig 二、解决方案 背景:下载其他同事代码时,第一次运行&#xff0c…