动态加载内容时selenium如何操作?

当处理动态加载的内容时,Selenium 是一个非常强大的工具,因为它可以模拟真实用户的浏览器行为,等待页面元素加载完成后再进行操作。以下是使用 Selenium 获取动态加载内容的详细步骤和代码示例。

一、安装 Selenium 和 ChromeDriver

(一)安装 Selenium

通过 pip 安装 Selenium:

bash

pip install selenium

(二)下载 ChromeDriver

  1. 访问 ChromeDriver 下载页面。

  2. 下载与你的 Chrome 浏览器版本匹配的 ChromeDriver。

  3. 解压下载的文件,并将 chromedriver 的路径添加到系统的环境变量中,或者在代码中指定路径。

二、使用 Selenium 获取动态加载的内容

(一)基本用法

以下是一个基本的示例,展示如何使用 Selenium 打开一个网页并获取页面的 HTML 内容。

Python

from selenium import webdriver
import time# 设置 ChromeDriver 的路径
driver_path = 'path/to/chromedriver'# 初始化 WebDriver
driver = webdriver.Chrome(executable_path=driver_path)# 打开目标网页
url = 'https://example.com'
driver.get(url)# 等待页面加载完成
time.sleep(5)  # 等待 5 秒,确保页面加载完成# 获取页面的 HTML 内容
html = driver.page_source# 打印页面内容
print(html)# 关闭浏览器
driver.quit()

(二)处理动态加载的内容

如果页面内容是通过 JavaScript 动态加载的,可以使用 SeleniumWebDriverWaitexpected_conditions 来等待特定元素加载完成。

Python

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC# 设置 ChromeDriver 的路径
driver_path = 'path/to/chromedriver'# 初始化 WebDriver
driver = webdriver.Chrome(executable_path=driver_path)# 打开目标网页
url = 'https://example.com'
driver.get(url)# 等待特定元素加载完成
try:# 等待最多 10 秒,直到找到指定的元素element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'target_element_id')))# 获取页面的 HTML 内容html = driver.page_sourceprint(html)
except Exception as e:print(f"An error occurred: {e}")
finally:# 关闭浏览器driver.quit()

(三)处理分页和滚动

如果页面需要滚动或分页加载,可以使用 Selenium 模拟滚动操作。

Python

from selenium import webdriver
import time# 设置 ChromeDriver 的路径
driver_path = 'path/to/chromedriver'# 初始化 WebDriver
driver = webdriver.Chrome(executable_path=driver_path)# 打开目标网页
url = 'https://example.com'
driver.get(url)# 模拟滚动到底部
for _ in range(5):  # 滚动 5 次driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")time.sleep(2)  # 等待页面加载# 获取页面的 HTML 内容
html = driver.page_source
print(html)# 关闭浏览器
driver.quit()

三、完整示例:获取 1688 商品详情

以下是一个完整的示例,展示如何使用 Selenium 获取 1688 商品的详细信息。

Python

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup# 设置 ChromeDriver 的路径
driver_path = 'path/to/chromedriver'# 初始化 WebDriver
driver = webdriver.Chrome(executable_path=driver_path)# 打开目标网页
url = 'https://detail.1688.com/offer/123456789.html'
driver.get(url)# 等待页面加载完成
try:# 等待最多 10 秒,直到找到指定的元素element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'mod-detail')))# 获取页面的 HTML 内容html = driver.page_source# 使用 BeautifulSoup 解析 HTMLsoup = BeautifulSoup(html, 'html.parser')product_info = {}# 提取商品名称product_name = soup.find('h1', class_='product-title').text.strip()product_info['product_name'] = product_name# 提取商品价格product_price = soup.find('span', class_='price').text.strip()product_info['product_price'] = product_price# 提取商品描述product_description = soup.find('div', class_='product-description').text.strip()product_info['product_description'] = product_description# 提取商品图片product_image = soup.find('img', class_='main-image')['src']product_info['product_image'] = product_imageprint(product_info)
except Exception as e:print(f"An error occurred: {e}")
finally:# 关闭浏览器driver.quit()

四、注意事项和建议

(一)遵守网站规则

在爬取数据时,务必遵守 1688 的 robots.txt 文件规定和使用条款,不要频繁发送请求,以免对网站造成负担或被封禁。

(二)处理异常情况

在编写爬虫程序时,要考虑到可能出现的异常情况,如请求失败、页面结构变化等。可以通过捕获异常和设置重试机制来提高程序的稳定性。

(三)数据存储

获取到的商品信息可以存储到文件或数据库中,以便后续分析和使用。

(四)合理设置请求频率

避免高频率请求,合理设置请求间隔时间,例如每次请求间隔几秒到几十秒,以降低被封禁的风险。

五、总结

通过上述步骤和示例代码,你可以轻松地使用 Selenium 获取 1688 商品的详细信息。希望这个教程对你有所帮助!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/78013.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣第446场周赛

有事没赶上, 赛后模拟了一下, 分享一下我的解题思路和做题感受 1.执行指令后的得分 题目链接如下:力扣 给你两个数组:instructions 和 values,数组的长度均为 n。 你需要根据以下规则模拟一个过程: 从下标 i 0 的第一个指令开…

三维点拟合平面ransac c++

理论 平面的一般定义 在三维空间中,一个平面可以由两个要素唯一确定: 法向量 n(a,b,c):垂直于平面的方向 平面上一点 平面上任意一点 p(x,y,z) 满足: ( p − p 0 ) ∗ n 0 (p - p0) * n 0 (p−p0)∗n0 即 a ( x − x 0 ) …

基于LSTM-AutoEncoder的心电信号时间序列数据异常检测(PyTorch版)

心电信号(ECG)的异常检测对心血管疾病早期预警至关重要,但传统方法面临时序依赖建模不足与噪声敏感等问题。本文使用一种基于LSTM-AutoEncoder的深度时序异常检测框架,通过编码器-解码器结构捕捉心电信号的长期时空依赖特征&#…

Docker 部署 PostgreSQL 数据库

Docker 部署 PostgreSQL 数据库 基于 Docker 部署 PostgreSQL 数据库一、拉取 PostgreSQL 镜像二、运行 PostgreSQL 容器三、运行命令参数详解四、查看容器运行状态 基于 Docker 部署 PostgreSQL 数据库 一、拉取 PostgreSQL 镜像 首先,确保你的 Docker 环境已正确…

MySQL性能调优(四):MySQL的执行原理(MYSQL的查询成本)

文章目录 MySQL性能调优数据库设计优化查询优化配置参数调整硬件优化 1.MySQL的执行原理-21.1.MySQL的查询成本1.1.1.什么是成本1.1.2.单表查询的成本1.1.2.1.基于成本的优化步骤实战1. 根据搜索条件,找出所有可能使用的索引2. 计算全表扫描的代价3. 计算使用不同索…

用 Go 优雅地清理 HTML 并抵御 XSS——Bluemonday

1、背景与动机 只要你的服务接收并回显用户生成内容(UGC)——论坛帖子、评论、富文本邮件正文、Markdown 等——就必须考虑 XSS(Cross‑Site Scripting)攻击风险。浏览器在解析 HTML 时会执行脚本;如果不做清理&#…

Redis SCAN 命令的详细介绍

Redis SCAN 命令的详细介绍 以下是 Redis SCAN​ 命令的详细介绍,结合其核心特性、使用场景及底层原理进行综合说明: 工作原理图 : ​ 一、核心特性 非阻塞式迭代 通过游标(Cursor) 分批次遍历键,避免一次…

SpringBoot3集成MyBatis-Plus(解决Boot2升级Boot3)

总结:目前升级仅发现依赖有变更,其他目前未发现,如有发现,后续会继续更新 由于项目架构提升,以前开发的很多公共的组件,以及配置都需要升级,因此记录需要更改的配置(记录时间&#…

基于mybatis与PageHelper插件实现条件分页查询(3.19)

实现商品分页例子 需要先引入mybatis与pagehelper插件&#xff0c;在pom.xml里 <!-- Mybatis --> <dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId><version>3.0.3&l…

Spring Bean 全方位指南:从作用域、生命周期到自动配置详解

目录 1. Bean 的作用域 1.1 singleton 1.2 prototype 1.3 request 1.4 session 1.5 application 1.5.1 servletContext 和 applicationContext 区别 2. Bean 的生命周期 2.1 详解初始化 2.1.1 Aware 接口回调 2.1.2 执行初始化方法 2.2 代码示例 2.3 源码 [面试题…

C++ (非类型参数)

模板除了定义类型参数之外&#xff0c;也可以在模板内定义非类型参数 非类型参数不是类型&#xff0c;而是值&#xff0c;比如&#xff1a;指针&#xff0c;整数&#xff0c;引用 非类型参数的用法&#xff1a; 1.整数常量&#xff1a;非类型参数最常见的形式是整数常量&…

短视频+直播商城系统源码全解析:音视频流、商品组件逻辑剖析

时下&#xff0c;无论是依托私域流量运营的品牌方&#xff0c;还是追求用户粘性与转化率的内容创作者&#xff0c;搭建一套完整的短视频直播商城系统源码&#xff0c;已成为提升用户体验、增加商业变现能力的关键。本文将围绕三大核心模块——音视频流技术架构、商品组件设计、…

5.QT-常用控件-QWidget|enabled|geometry|window frame(C++)

控件概述 实现图形化界面的程序. Qt中已经给我们提供了很多的“控件" 就需要学习和了解这些控件&#xff0c;学会如何使用这些控件 编程讲究的是“站在巨人的肩膀上”&#xff0c;而不是“从头发明轮子" 一个图形化界面上的内容&#xff0c;不需要咱们全都从零去实…

2025-04-22| Docker: --privileged参数详解

在 Docker 中&#xff0c;--privileged 是一个运行容器时的标志&#xff0c;它赋予容器特权模式&#xff0c;大幅提升容器对宿主机资源的访问权限。以下是 --privileged 的作用和相关细节&#xff1a; 作用 完全访问宿主机的设备&#xff1a; 容器可以访问宿主机的所有设备&am…

高性能服务器配置经验指南1——刚配置好服务器应该做哪些事

文章目录 安装ubuntu安装必要软件设置用户远程连接安全问题ClamAV安装教程步骤 1&#xff1a;更新系统软件源步骤 2&#xff1a;升级系统&#xff08;可选但推荐&#xff09;步骤 3&#xff1a;安装 ClamAV步骤 4&#xff1a;更新病毒库步骤 5&#xff1a;验证安装ClamAV 常用命…

直流绝缘监测解决方案:保障工业与新能源系统的安全运行

一、引言 随着工业自动化和新能源技术的快速发展&#xff0c;直流供电系统在光伏发电、储能电站、电动汽车充电桩等领域的应用日益广泛。然而&#xff0c;直流系统的正负极不接地&#xff08;IT系统&#xff09;特性&#xff0c;使得绝缘故障可能导致漏电、短路甚至设备损毁等…

VSCode 用于JAVA开发的环境配置,JDK为1.8版本时的配置

插件安装 JAVA开发在VSCode中&#xff0c;需要安装JAVA的必要开发。当前安装只需要安装 “Language Support for Java(TM) by Red Hat”插件即可 安装此插件后&#xff0c;会自动安装包含如下插件&#xff0c;不再需要单独安装 Project Manager for Java Test Runner for J…

C++入门语法

C入门 首先第一点&#xff0c;C中可以混用C语言中的语法。但是C语言是不兼容C的。C主要是为了改进C语言而创建的一门语言&#xff0c;就是有人用C语言用不爽了&#xff0c;改出来个C。 命名空间 c语言中会有如下这样的问题&#xff1a; 那么C为了解决这个问题就整出了一个命名…

输入框仅支持英文、特殊符号、全角自动转半角 vue3

需求&#xff1a;封装一个输入框组件 1.只能输入英文。 2.输入的小写英文自动转大写。 3.输入的全角特殊符号自动转半角特殊字符 效果图 代码 <script setup> import { defineEmits, defineModel, defineProps } from "vue"; import { debounce } from "…

Uniapp:创建项目

目录 一、前提准备二、创建项目三、项目结构四、运行测试 一、前提准备 首先要创建uniapp项目&#xff0c;需要先下载HBuilderX&#xff0c;HBuilderX是一款开箱即用的工具&#xff0c;下载完毕之后&#xff0c;解压到指定的目录即可使用&#xff0c;需要注意的是最好路径里面…