用Python采集动态网页Requests就不那么好用了，试试Selenium

用Python采集动态网页Requests就不那么好用了，试试Selenium

news/2025/4/11 20:57:07/文章来源:https://blog.csdn.net/sohoqq/article/details/136255847

Requests + BeautifulSoup + 额外的库：

对于一些简单的动态内容，你能通过分析网络请求来找到并直接获取这些数据。

使用 requests 库来发送 HTTP 请求，并使用 BeautifulSoup 来解析 HTML。

对于 AJAX 请求，你可能需要使用额外的库（如 mitmproxy 或 BrowserMob Proxy）来拦截和分析这些请求。

这种方法需要深入了解目标网页的工作原理和数据加载方式。

采集动态网页，通常指的是抓取那些通过 JavaScript、AJAX 或其他客户端脚本技术动态生成内容的网页。这种网页在初始加载时可能只包含基本的 HTML 结构，而实际的数据和内容则是通过客户端脚本在浏览器加载后从服务器获取并动态添加到页面中的。

为了采集这样的网页，你不能仅仅依赖简单的 HTTP 请求来获取 HTML 内容，因为这样会错过由 JavaScript 加载的数据。相反，你需要模拟浏览器的行为，执行 JavaScript 并等待页面加载完成。

以下是一些 Python 工具和方法，可以帮助你采集动态网页：

一、Selenium：

Selenium 是一个自动化测试工具，但它也可以用来采集动态网页。

你可以使用 Selenium 启动一个浏览器实例，并控制它加载和交互网页。

一旦页面加载完成，你可以获取完整的 DOM 结构，包括由 JavaScript 动态添加的内容。

示例代码：

from selenium import webdriver  driver = webdriver.Chrome()  # 使用 Chrome 浏览器

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/697711.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

武汉AAA企业信用等级认证

武汉AAA企业信用等级认证

AAA企业信用等级认证 1. 什么是AAA企业信用等级认证 AAA企业信用等级认证是由国家知名的第三方机构对企业的信用状况进行评估和认证的一种方式。它是根据企业在市场经济中所展示出的信用水平、经营实力、企业形象等方面的表现来确定企业的信用等级，以此为企业提供…

阅读更多...

在线进制转换工具

在线进制转换工具

在线进制转换 - BTool在线工具软件，为开发者提供方便。在线进制转换器提供了二进制，八进制，十进制，十六进制等相互转换功能。

阅读更多...

Putty中运行matlab文件

Putty中运行matlab文件

首先使用命令 cd /home/ya/CodeTest/Matlab进入路径：到Matlab文件夹下然后键入matlab，进入matlab环境，如果main.m文件在Matlab文件夹下，直接键入main即可运行该文件。细节代码如下： Unable to use key file "y…

阅读更多...

LeetCode 2828.判别首字母缩略词

LeetCode 2828.判别首字母缩略词

给你一个字符串数组 words 和一个字符串 s ，请你判断 s 是不是 words 的首字母缩略词。如果可以按顺序串联 words 中每个字符串的第一个字符形成字符串 s ，则认为 s 是 words 的首字母缩略词。例如，“ab” 可以由 [“apple”, “banana”…

阅读更多...

【OpenAI官方课程】第三课：ChatGPT文本总结Summarizing

【OpenAI官方课程】第三课：ChatGPT文本总结Summarizing

欢迎来到ChatGPT 开发人员提示工程课程（ChatGPT Prompt Engineering for Developers）！本课程将教您如何通过OpenAI API有效地利用大型语言模型（LLM）来创建强大的应用程序。本课程由OpenAI 的Isa Fulford和 DeepLearn…

阅读更多...

【数据分析——Python Pandas库——数据清洗——电商数据分析】

【数据分析——Python Pandas库——数据清洗——电商数据分析】

引言现如今，我们在电商平台上购物已经成为日常生活的一部分。对于电商公司而言，如何准确理解消费者的需求，提供更好的服务是非常重要的。在这里，数据分析成为提供关键洞察力的工具。Python语言与其数据处理库Pandas，…

阅读更多...

K8S部署Java项目 pod报错 logs日志内容：no main manifest attribute, in app.jar

K8S部署Java项目 pod报错 logs日志内容：no main manifest attribute, in app.jar

天行健，君子以自强不息；地势坤，君子以厚德载物。每个人都有惰性，但不断学习是好好生活的根本，共勉！ 文章均为学习整理笔记，分享记录为主，如有错误请指正，共同学习进步。…

阅读更多...

hash，以及数据结构——map容器

hash，以及数据结构——map容器

1.hash是什么？ 定义：hash,一般翻译做散列、杂凑，或音译为哈希，是把任意长度的输入（又叫做预映射pre-image）通过散列算法变换成固定长度的输出， 该输出就是散列值。这种转换是一种压缩映射&…

阅读更多...

Ubuntu/WSL下生产密钥脚本

Ubuntu/WSL下生产密钥脚本

说明： 有时候需要为开发人员配发密钥，为方便写了个小脚本，在linux下运行，要求 python10, putty-tools。使用时，在staffList定义用户列表，运行后程序自动产生对应目录及密钥。安装： apt inst…

阅读更多...

jenkins报错：Pseudo-terminal will not be allocated because stdin is not a terminal

jenkins报错：Pseudo-terminal will not be allocated because stdin is not a terminal

jenkins的流水线部分代码如下 sh ssh root192.168.2.234 << remotessh cd /var/lib/jenkins/workspace/txkc /usr/local/maven/apache-maven-3.8.6/bin/mvn clean package -U ls remotessh执行流水线出现报错：Pseudo-terminal will not be allocated because…

阅读更多...

如何把电脑上的png图片变为jpg？图片格式在线转化的方法

如何把电脑上的png图片变为jpg？图片格式在线转化的方法

由于jpg文件比较小，把png格式转换后更适合我们的保存和使用，尤其是对于一些平台上传来说，很多地方都要求图片格式为jpg，为了能更顺利的上传，本文就叫大家一个图片格式转换的方法，使用压缩图网站&#xff0c…

阅读更多...

第2.1章 StarRocks表设计——概述

第2.1章 StarRocks表设计——概述

注：本篇文章阐述的是StarRocks-3.2版本的表设计相关内容。建表是使用StarRocks非常重要的一环，规范化的表设计在某些场景下能使查询性能有数倍的提升。StarRocks的表设计涉及到的知识点主要包括数据表类型、数据分布（分区分桶及排序键&#…

阅读更多...

golang命令行工具gtcli,实现了完美集成与结构化的gin脚手架,gin-restful-api开箱即用

golang命令行工具gtcli,实现了完美集成与结构化的gin脚手架,gin-restful-api开箱即用

关于gtools golang非常奈斯，gin作为web框架也非常奈斯，但我们在开发过程中，前期搭建会花费大量的时间，且还不尽人意。为此我集成了gin-restful-api的模板gin-layout，还有脚手架一键生成项目。集成相关 ginviperz…

阅读更多...

【Android】性能优化之内存、网络、布局、卡顿、安装包、启动速度优化

【Android】性能优化之内存、网络、布局、卡顿、安装包、启动速度优化

欢迎来到 Android 开发老生常谈的性能优化篇，本文将性能优化划分为内存、网络、布局、卡顿、安装包、启动速度七块，从这七块优化出发，阐述优化的 Application 的方式。目录内存优化避免内存泄漏使用内存分析工具优化数据结构和算法数据缓存…

阅读更多...

Jmeter基础(1) Mac下载安装启动

Jmeter基础(1) Mac下载安装启动

目录 Jmeter下载安装启动下载启动 Jmeter下载安装启动注意⚠️：使用jmeter需要有java环境下载官网下载地址：https://jmeter.apache.org/ 会看到这里有两个版本，那么有什么区别么？ Binaries是可执行版，直接下载解…

阅读更多...

Python算法题集_图论(课程表)

Python算法题集_图论(课程表)

Python算法题集_课程表题207：课程表1. 示例说明2. 题目解析- 题意分解- 优化思路- 测量工具 3. 代码展开1) 标准求解【循环递归全算】2) 改进版一【循环递归缓存】3) 改进版二【循环递归缓存反向计算】4) 改进版三【迭代剥离计数器检测】 4. 最优算法5. 相关资源本…

阅读更多...

Spring整合Junit4和Junit5

Spring整合Junit4和Junit5

1、整合的好处好处1：不需要自己创建IOC容器对象了好处2：任何需要的bean都可以在测试类中直接享受自动装配 2、操作整合junit4 ①加入依赖 <dependency><groupId>junit</groupId><artifactId>junit</artifactId><…

阅读更多...

代码随想录算法训练营第二十三天补|669. 修剪二叉搜索树 ● 108.将有序数组转换为二叉搜索树 ● 538.把二叉搜索树转换为累加树

代码随想录算法训练营第二十三天补|669. 修剪二叉搜索树 ● 108.将有序数组转换为二叉搜索树 ● 538.把二叉搜索树转换为累加树

平衡树、二叉树、灵活应用中序遍历（值大小有序） 669. 修剪二叉搜索树给你二叉搜索树的根节点 root ，同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树，使得所有节点的值在[low, high]中。修剪树不应该改变保留在树中…

阅读更多...

Window部署SkyWalking

Window部署SkyWalking

SkyWalking mysql的驱动依赖选择下载版本 v9.4 现在后解压缩目录结构一、修改config目录文件 application.yml 修改1： selector: ${SW_STORAGE:h2} 修改后： selector: ${SW_STORAGE:mysql} 修改2：使用mysql数据库 mysql: properti…

阅读更多...

通俗易懂分析：Vite和Webpack的区别

通俗易懂分析：Vite和Webpack的区别

1、对项目构建的理解先从浏览器出发， 浏览器是由浏览器内核和JS引擎组成；浏览器内核编译解析html代码和css代码，js引擎编译解析JavaScript代码；所以从本质上，浏览器只能识别运行JavaScript、CSS、HTML代码。而我们在…

阅读更多...

最新文章