Selenium技巧大揭秘:动态数据、分页和Cookie的获取利器

背景:

​ 昨天我们讲了讲关于seleium的一些基础操作,今天讲讲如何将seleium和爬虫结合起来,可以使用selenium获取网页的动态加载数据,可以使用selenium获得cookie,这两个是比较常用的。我将一一展开。

实战案例:

获取XHR动态加载数据:

思考:在爬虫中为什么需要使用selenium?selenium和爬虫之间的关联是什么?

  • 便捷的爬取动态加载数据(可见即可得)

我发现大家对动态加载数据和请求包中的数据没有一个特别清晰的认识。

selenium获得网页数据是经过多个数据包发送请求共同渲染后的数据,上图片:

在这里插入图片描述

记住这个元素页面是有多个网络请求共同整合出来的数据,即下面网络请求数据包加载渲染后的:

在这里插入图片描述

要求:https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action= 解析其相关数据,电影名等等。

from selenium import webdriver
from time import sleep
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
path = r'D:\Downloads\xx\chromedriver-win64\chromedriver.exe'
url='https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action='
driver = webdriver.Chrome(executable_path=path)driver.get(url)
sleep(5)
print(driver.page_source)

在这里插入图片描述

如上图,我们获取的一定是渲染加载完成后的数据,接下来对网页源码数据进行解析即可。如果想获取全部,大家就注入js脚本使用selenium让其不断向下滑动即可。

获取分页数据:

​ 这个案例是之前写的,可能代码以已经失效了,但是爬虫学习学的一定是思路,不是代码,在当前这个大时代,会用chatgpt的程序员才不会被淘汰。

要求:获取前5页的企业名称

实现思路:将每一页源码数据存到一个列表中,最后对列表中的每一项进行数据解析即可,获得首页源码数据后,使用selenium对下一页进行点击,然后不断循环。

#获取前5页的企业名称
from selenium import webdriver
import time
from lxml import etreebro = webdriver.Chrome(executable_path='./chromedriver')
url = 'http://scxk.nmpa.gov.cn:81/xk/'
bro.get(url=url)
time.sleep(2)
#获取页面源码数据(page_source)
page_text = bro.page_source
#将前5页的页面源码数据存储到该列表中
all_page_text_list = [page_text]
for i in range(4):#找到下一页标签next_page_btn = bro.find_element_by_xpath('//*[@id="pageIto_next"]')# 点击next_page_btn.click()#等待几秒 使得网站数据能够加载出来time.sleep(2)#将当前页源码数据放入总列表all_page_text_list.append(bro.page_source)for page_text in all_page_text_list:#解析数据tree = etree.HTML(page_text)li_list = tree.xpath('//*[@id="gzlist"]/li')for li in li_list:# 这里得到 ./  .代表在上面的路径的基础上title = li.xpath('./dl/@title')[0]print(title)
time.sleep(2)
bro.quit()
Cookie:

使用Selenium,还可以方便地对Cookies进行操作,例如常见的获取Cookies,示例如下:

  • get_cookies()返回值是由字典组成的列表,叫做jsonCookies。
  • 需要将jsonCookies解析成浏览器携带的cookie形式
  • 这个返回的是相应请求相应回来的cookie
path = r'D:\Downloads\xx\chromedriver-win64\chromedriver.exe'
browser = webdriver.Chrome(executable_path=path)
browser.get('https://www.zhihu.com/explore')
# 获取cookie jsonhuke
cookies = browser.get_cookies()# 返回的是一个列表
print(cookies,type(cookies))
# 解析cookie
dic = {}
for cookie in cookies:key = cookie['name']value = cookie['value']dic[key] = valueprint(key,value)
print(dic)  # 在爬虫中可以使用的cookie
browser.close()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/169429.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于浣熊算法优化概率神经网络PNN的分类预测 - 附代码

基于浣熊算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于浣熊算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于浣熊优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神经网络的光滑…

网络运维与网络安全 学习笔记2023.11.24

网络运维与网络安全 学习笔记 第二十五天 今日目标 DHCP中继代理、三层交换机DHCP、子网划分的原理、子网划分的应用 项目需求分析、技术方案选型、网络拓扑绘制 基础交换网络设计、内网优化、连接外网服务器 DHCP中继代理 DHCP中继概述 场景: DHCP客户端与DH…

Java LCR 089 打家劫舍

题目链接:打家劫舍 定义一个数组 dp,其中 dp[i] 表示从第 0 间房子到第 i 间房子(包括第 i 间)能够偷窃到的最高金额。 对于第 i 间房子有两种选择,偷或不偷: 偷就不能偷第 i - 1 间房子: dp[i]…

中职网安-Linux操作系统渗透测-Server2130(环境加qq)

B-9:Linux操作系统渗透测 任务环境说明:  服务器场景:Server2130  服务器场景操作系统:Linux(关闭链接) 1.通过本地PC中渗透测试平台Kali对靶机场景进行系统服务及版本扫描渗透测试,并将该操作显示结果中Apache服务对应的版本信息字符串作为Flag值提交; 2.…

中间件渗透测试-Server2131(解析+环境)

B-10:中间件渗透测试 需要环境的加qq 任务环境说明: 服务器场景:Server2131(关闭链接) 服务器场景操作系统:Linux Flag值格式:Flag{Xxxx123},括…

【Netty专题】Netty调优及网络编程中一些问题补充(面向面试学习)

目录 前言阅读对象阅读导航笔记正文一、如何选择序列化框架1.1 基本介绍1.2 在网络编程中如何选择序列化框架1.3 常用Java序列化框架比较 二、Netty调优2.1 CONNECT_TIMEOUT_MILLIS:客户端连接时间2.2 SO_BACKLOG:最大同时连接数2.3 TCP_NODELAY&#xf…

rfc4301- IP 安全架构

1. 引言 1.1. 文档内容摘要 本文档规定了符合IPsec标准的系统的基本架构。它描述了如何为IP层的流量提供一组安全服务,同时适用于IPv4 [Pos81a] 和 IPv6 [DH98] 环境。本文档描述了实现IPsec的系统的要求,这些系统的基本元素以及如何将这些元素结合起来…

【数据结构】树与二叉树(廿四):树搜索给定结点的父亲(算法FindFather)

文章目录 5.3.1 树的存储结构5. 左儿子右兄弟链接结构 5.3.2 获取结点的算法1. 获取大儿子、大兄弟结点2. 搜索给定结点的父亲a. 算法FindFatherb. 算法解析c. 代码实现 3. 代码整合 5.3.1 树的存储结构 5. 左儿子右兄弟链接结构 【数据结构】树与二叉树(十九&…

没搞懂二维差分是什么怎么办???

摸鱼的时候画的,根据公式反推 一维差分倒是懂了 a[10]{1,2,6,9,11,12,17,21,32,67}; c[10]{1,1,4,3,2,1,5,4,11,35}; 现要把[3,7]的值都增加3 c[10]{1,1,7,3,2,1,5,1,11,35}; 要查询的时候再用for循环相加 结论:成立且适用于多次修改 不知道为什么这个…

抖音生态融合:开发与抖音平台对接的票务小程序

为了更好地服务用户需求,将票务服务与抖音平台结合,成为了一个创新的方向。通过开发票务小程序,用户可以在抖音平台上直接获取相关活动的票务信息,完成购票、预订等操作,实现了线上线下的有机连接。 一、开发过程 1…

h5小游戏-盖楼游戏

盖楼游戏 一个基于JavaScrtipt、Html5 的盖楼游戏 效果预览 点我下载源代码 Game Rule 游戏规则 以下为默认游戏规则,也可参照下节自定义游戏参数 每局游戏生命值为3,掉落一块楼层生命值减1,掉落3块后游戏结束,单局游戏无时间限…

springboot+vue基本微信小程序的旅游社系统

项目介绍 现今市面上有关于旅游信息管理的微信小程序还是比较少的,所以本课题想对如今这么多的旅游景区做一个收集和分类。这样可以给身边喜欢旅游的朋友更好地推荐分享适合去旅行的地方。 前端采用HTML架构,遵循HTMLss JavaScript的开发方式&#xff0…

[element-ui] el-dialog 中的内容没有预先加载,因此无法获得内部元素的ref 的解决方案

问题描述 在没有进行任何操作的时候,使用 this.$refs.xxxx 无法获取el-dialog中的内部元素,这个问题会导致很多bug. 官方解释,在open事件回调中进行,但是open()是弹窗打开时候的会调,有可能在此处获取的时候&#xff…

03 _ 系统设计目标(一):如何提升系统性能?

提到互联网系统设计,可能听到最多的词就是“三高”,也就是“高并发”“高性能”“高可用”,它们是互联网系统架构设计永恒的主题。这里将整体探讨下高并发系统设计的目标,然后在此基础上,探讨下:如何提升系…

Python---函数的参数类型----位置参数(不能顺序乱)、关键词参数(键值对形式,顺序可乱)

位置参数 理论上,在函数定义时,可以为其定义多个参数。但是在函数调用时,也应该传递多个参数,正常情况,要一一对应。 相关链接:Python---函数的作用,定义,使用步骤(调用…

Python基础:JSON保存结构化数据(详解)

1. JSON概念 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,也易于机器解析和生产。   虽然JSON使用JavaScript语法来描述数据对象,但是JSON仍然独立于语言和平台,JSON解…

二开的基础资料设置 为辅助核算项目的两种方式

一、第一种 自己插入相关表数据 T_BD_AsstActType //辅助核算项目表 insert into T_BD_AsstActType(FID, FName_L1, FName_L2, FName_L3, FNumber, FDescription_L1, FDescription_L2, FDescription_L3, FSimpleName, FAssistantType, FIsSelfAsstActaiatem, FIsSystemA…

HTML新特性【缩放图像、图像切片、平移、旋转、缩放、变形、裁切路径、时钟、运动的小球】(二)-全面详解(学习总结---从入门到深化)

目录 绘制图像_缩放图像 绘制图像_图像切片 Canvas状态的保存和恢复 图形变形_平移 图形变形_旋转 图形变形_缩放 图形变形_变形 裁切路径 动画_时钟 动画_运动的小球 引入外部SVG 绘制图像_缩放图像 ctx.drawImage(img, x, y, width, height) img &#xf…

每日一题:LeetCode-103/107.二叉树的(层序/锯齿形层序)遍历

每日一题系列(day 04) 前言: 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 &#x1f50e…

AD9528学习笔记

前言 AD9528是ADI的一款时钟芯片,由2-stage PLL组成,并且集成JESD204B/JESD204C SYSREF信号发生器,SYSREF发生器输出单次、N次或连续信号,并与PLL1和PLL2输出同步,从而可以实现多器件之间的同步。 AD9528总共有14路输…