爬虫—Scrapy 整合 ChromeDriver 实现动态网页拉取

在进行爬虫开发时,使用 Scrapy 配合 ChromeDriver 来模拟真实浏览器加载 JavaScript 渲染内容是一种常见且高效的方法。Scrapy 本身是一个非常强大的爬虫框架,然而它默认使用的是 requests 库来抓取静态网页内容。对于需要通过 JavaScript 渲染的动态网页,Scrapy 本身可能无法直接处理。

因此,使用 ChromeDriver 来模拟浏览器渲染 JavaScript 生成动态内容,然后再用 Scrapy 提取数据,成为了解决这一问题的一种好方式。本文将带你通过实际代码示例,教你如何结合 Scrapy 和 ChromeDriver 抓取动态网页内容。


1. 环境准备

1.1 安装 Scrapy

首先,需要确保你已经安装了 Scrapy。你可以使用以下命令来安装 Scrapy:

pip install scrapy

1.2 安装 Selenium 和 ChromeDriver

在 Scrapy 中使用 Chrome 浏览器来模拟请求,我们需要通过 Selenium 来控制 ChromeDriver。所以,首先需要安装 Selenium

pip install selenium

然后,下载并安装 ChromeDriver。你可以根据你 Chrome 浏览器的版本去 ChromeDriver 官网 下载合适的版本。确保 ChromeDriver 路径已经加入到系统环境变量中,或者你可以在代码中指定路径。

1.3 安装 Scrapy-Selenium

为了让 Scrapy 与 Selenium 配合使用,官方提供了 scrapy-selenium 扩展。安装它:

pip install scrapy-selenium

2. 配置 Scrapy 项目

2.1 创建 Scrapy 项目

在命令行中创建一个新的 Scrapy 项目:

scrapy startproject scrapy_chromedriver
cd scrapy_chromedriver

2.2 配置 settings.py

打开项目目录中的 settings.py,添加以下配置来启用 scrapy-selenium 中间件。

# settings.py# 启用 scrapy-selenium 中间件
DOWNLOADER_MIDDLEWARES = {'scrapy_selenium.SeleniumMiddleware': 800,
}# 设置 ChromeDriver 的路径
SELENIUM_DRIVER_NAME = 'chrome'
SELENIUM_DRIVER_EXECUTABLE_PATH = '/path/to/chromedriver'  # 替换成你下载的 ChromeDriver 路径
SELENIUM_DRIVER_ARGUMENTS = ['--headless', '--disable-gpu', '--no-sandbox']  # 使用无头模式(可选)# 默认设置 User-Agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'

2.3 配置 Spider

现在,你可以创建一个爬虫(Spider)来抓取动态网页。

scrapy genspider dynamic_spider example.com

编辑生成的 dynamic_spider.py 文件,配置爬虫来使用 Selenium 打开网页并提取数据。

# dynamic_spider.pyimport scrapy
from scrapy_selenium import SeleniumRequestclass DynamicSpider(scrapy.Spider):name = 'dynamic_spider'allowed_domains = ['example.com']start_urls = ['https://example.com/dynamic-page']def start_requests(self):# 使用 SeleniumRequest 代替 Scrapy 的 Requestfor url in self.start_urls:yield SeleniumRequest(url=url, callback=self.parse)def parse(self, response):# 使用 Selenium 请求加载后的 HTML 页面page_title = response.xpath('//title/text()').get()print("Page Title: ", page_title)# 提取页面中的其他数据,例如某些动态生成的内容dynamic_data = response.xpath('//div[@class="dynamic-content"]/text()').get()yield {'title': page_title,'dynamic_data': dynamic_data}

在这个例子中,我们用 SeleniumRequest 替代了 Request,并在回调函数中提取动态页面内容。SeleniumRequest 会启动一个浏览器实例来加载页面,并返回最终渲染的 HTML 内容。


3. 运行爬虫

完成配置后,你可以在命令行中运行爬虫:

scrapy crawl dynamic_spider

如果一切配置正确,Scrapy 会通过 Selenium 启动 Chrome 浏览器,加载动态内容并提取数据。


4. 调试与优化

4.1 启用浏览器可视化模式

为了调试,你可以去掉 --headless 参数,这样就可以看到实际的浏览器行为:

SELENIUM_DRIVER_ARGUMENTS = ['--disable-gpu', '--no-sandbox']

4.2 增加等待时间

有时动态内容加载较慢,你可能需要等待页面完全加载后再提取数据。可以通过 Selenium 提供的 WebDriverWait 来增加等待时间。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECdef parse(self, response):driver = response.request.meta['driver']# 等待某个元素加载完毕WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//div[@class="dynamic-content"]')))# 继续提取数据dynamic_data = response.xpath('//div[@class="dynamic-content"]/text()').get()yield {'dynamic_data': dynamic_data}

4.3 调整延迟与请求频率

在进行大量数据抓取时,记得调整请求的频率,避免过度访问同一网站导致 IP 被封锁:

DOWNLOAD_DELAY = 2  # 每次请求之间延迟 2 秒

5. 总结

通过 ScrapySelenium 结合使用,能够轻松抓取需要 JavaScript 渲染的动态网页。scrapy-selenium 提供了一个方便的接口来使用浏览器驱动,模拟用户行为获取动态数据。

  1. 安装 ScrapySeleniumscrapy-selenium
  2. 配置 settings.py,启用 Selenium 驱动。
  3. 在 Spider 中使用 SeleniumRequest 替代传统的 Request
  4. 进行调试和优化,确保爬虫运行稳定。

通过这种方式,你能够有效地抓取动态生成的网页内容,而不必担心 JavaScript 渲染的问题。希望本教程能够帮助你更好地理解如何在 Scrapy 中集成 ChromeDriver,成功地进行动态网页抓取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/62863.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

剖析kubernetes service的IP能否在宿主机中ping通

文章目录 前言一、serviceIP是怎么产生的二、宿主机中ping serviceIP地址1.ping示例2.为什么ping不通剖析2.1.封装及解封装过程2.2.ICMP报文以太网数据帧格式2.3.原因 三、ping不通svcIP是否跟iptables规则有关?四、为什么ipvs的的clusterIP类型的service能够ping通…

vue项目部署到github pages后页面显示不出来??

问题: 当我们在命令行执行 npm run build 后,项目的目录下会生成一个 dist 文件夹,它里面又包含一个 static 文件夹和一个 index.html 文件,这是 webpack 最终打包好的文件 项目上传到仓库后发现页面为空,找不到文件路…

ChatGPT科研应用、论文写作、课题申报、数据分析与AI绘图

随着人工智能技术的飞速发展,ChatGPT等先进语言模型正深刻改变着科研工作的面貌。从科研灵感的激发、论文的高效撰写,到课题的成功申报,乃至复杂数据的深度分析与可视化呈现,AI技术均展现出前所未有的潜力。其实众多科研前沿工作者…

现代应用程序中基于 Cell 架构的安全防护之道

在飞速发展的软件开发领域,基于 Cell 的架构日益流行起来。其概念源自船舶舱壁的设计准则,即单独的水密舱室能允许故障孤立存在。通过将这个概念应用于软件,我们创建了一个架构,将应用程序划分为离散的、可管理的组件,…

ROS基本框架2——在ROS开发中创建并使用自定义消息(C++版本)

ROS基本框架2——在ROS开发中创建并使用自定义消息(C++版本) code review! 参考笔记 1.ROS基本框架1——编写简单的发布者和订阅者(C++和Python版本) 2.ROS基本框架2——在ROS开发中创建并使用自定义消息(C++版本) 文章目录 ROS基本框架2——在ROS开发中创建并使用自定义…

vscode远程连接ssh

一. 使用vscode里的ssh查件连不上远程的解决方法 删除Windows上的known_host文件,该文件会在连接之后自动生成,用于验证远程服务器的身份。 konwn_host和id_rsa,id_rsa.pub的关系 (1)konwn_host用于客户端验证远程服务…

ccf A 类与sci 一区那个比较难? + 论文常识

论文常识: ESI 基本科学指标数据库(EssentialScience Indicators ) 高被引论文(Highly Cited Paper):根据同一年同一ESI学科统计最近10年发表论文中被引用次数进入世界前1%的论文;在硕士论文中文献综述是作为论文的理…

异步处理优化:多线程线程池与消息队列的选择与应用

目录 一、异步处理方式引入 (一)异步业务识别 (二)明确异步处理方式 二、多线程线程池(Thread Pool) (一)工作原理 (二)直面优缺点和适用场景 1.需要快…

计算机软件著作权常用的开发运行环境撰写教程

在申请计算机软件著作权登记时,开发运行环境的描述是必不可少的部分。明确、准确地阐述开发和运行环境,有助于著作权的审查以及软件后续使用。本文将提供10种常见参考写法,供开发者在填写软件开发环境和运行环境信息时参考。 一、通用示例 1 开发的硬件环境: 处理器:Int…

IS-IS的原理

IS-IS的基本概念: 概述: IS-IS,中间系统到中间系统,是ISO国际标准化组织为它的无连接网络协议设计的一种动态路由协议 IS-IS支持CLNP网络和IP网络,采用数据链路层封装,区别于ospf只支持IP网络&#xff0…

洛谷二分题

P1024 [NOIP2001 提高组] 一元三次方程求解 题目描述 有形如:𝑎𝑥3𝑏𝑥2𝑐𝑥𝑑0ax3bx2cxd0 这样的一个一元三次方程。给出该方程中各项的系数(𝑎,&#x1d44…

代理ip工具在网络安全中的作用是什么

代理IP工具在网络安全中扮演着至关重要的角色,它们不仅能够帮助用户保护隐私,还能提高网络性能,增强安全性。本文将深入探讨代理IP工具的定义、工作原理以及在网络安全中的具体应用,旨在为读者提供全面的理解和指导。 一、代理IP工…

PHP While 循环

PHP While 循环 引言 在PHP编程语言中,while循环是一种基本且强大的控制结构,用于重复执行一段代码,直到给定的条件不再满足。这种循环结构在处理迭代任务、读取数据集以及执行重复性操作时非常有用。本文将详细介绍PHP中的while循环,包括其语法、工作原理、使用场景以及…

MyBatis框架-日志配置

MyBatis框架的日志配置 MyBatis作为一个封装好的ORM框架,其运行过程我们没有办法跟踪,为了让开发者MyBatis执行流程及执行步骤所完成的工作,MyBatis框架本身支持log4j日志框架,对运行的过程进行跟踪记录。我们只需对MyBatis进行相…

IDEA 2024 配置Maven

Step 1:确定下载Apache Maven版本 在IDEA 2024中,随便新建一个Maven项目; 在File下拉菜单栏中,找到Setings; 在Build,Execution,Deployment中找到Maven 确定下载的Apache Maven版本应略低于或等于IDEA绑…

107.【C语言】数据结构之二叉树求总节点和第K层节点的个数

目录 1.求二叉树总的节点的个数 1.容易想到的方法 代码 缺陷 思考:能否在TreeSize函数内定义静态变量解决size的问题呢? 其他写法 运行结果 2.最好的方法:分而治之 代码 运行结果 2.求二叉树第K层节点的个数 错误代码 运行结果 修正 运行结果 其他写法 1.求二…

MySQL笔记-启动时log报错Table ‘mysql.user‘ doesn‘t exist

安装好mysql后,正常使用(使用的是rpm版安装的) service mysqld start | stop | restart 不会出现这个问题。 我遇到的情况是在凝思操作系统上,已经存在了一个mysql。网上查找了一些资料,卸载,后可能卸载…

Mybatis 复习

1 什么是MyBatis MyBatis是一个优秀的持久层框架,它对JDBC操作数据库的过程进行封装,使开发者只需要关注 SQL 本身,而不需要花费精力去处理例如注册驱动、创建connection、创建statement、手动设置参数、 结果集检索等JDBC繁杂的过程代码 。…

codeforces1814A

文章目录 一、题目链接二、题目代码三、题目总结 一、题目链接 A. Coins 二、题目代码 参看了这个博客的代码 下面这个代码是我自己写的&#xff0c;有问题。 #include<iostream> using namespace std;int main(){int testCase;cin >> testCase;while(testCase--){…

HNTS-MRG 2024 Challenge:是一个包含200个头颈癌病例的磁共振图像及其标注的公开数据集,旨在推动AI在头颈癌放射治疗自动分割领域的研究。

2024-11-28,由德克萨斯大学MD安德森癌症中心创建HNTS-MRG 2024 Challenge数据集&#xff0c;目的通过公开数据集推动自动分割算法的发展&#xff0c;这对于提高放射治疗的精确性和效率具有重要意义。 数据集地址&#xff1a;HNTS-MRG 2024|癌症放射治疗数据集|医学影像分析数据…