解决Python用xpath爬取不到数据的一个思路

解决Python用xpath爬取不到数据的一个思路

news/2025/4/28 2:38:38/文章来源:https://blog.csdn.net/Cnc2014/article/details/140103342

前言

最近在学习Python爬虫的知识，既然眼睛会了难免忍不住要实践一把。

不废话直接上主题

代码不复杂，简单的例子奉上：

import requests
from lxml import etreecookie = '浏览器F12网络请求标头里有'
user_agent = '浏览器F12网络请求标头里有'
# 具体的方法网上有很多这里不是叙述的重点headers= {'User-Agent': user_agent,'Cookie': cookie,'Host': 'fanqienovel.com','Connection': 'keep-alive'
}url = "https://****"# 使用get方法请求网页
resp = requests.get(url, headers=headers)# 将网页内容按utf-8规范解码为文本形式
content = resp.content.decode('utf-8')# 将文本内容创建为可解析元素
html = etree.HTML(content)# 获取1
title1 = html.xpath('//*[@id="app"]/div/div[2]/div/div[1]/div/div[2]/div[2]/div[1]/h1/text()')[0]# 获取2
title2 = html.xpath('//*[@id="app"]/div/div/div/div[1]/div/div[2]/div[2]/div[1]/h1/text()')[0]

“获取1”是页面打开后直接复制的XPath路径，但根据这个路径获取不到数据，见截图。

但content是有内容的，参阅网上的方案都未决解，但提供了思路。

是网站做了反爬虫处理，复制的XPath不准确导致的，想了个办法将content的内容复制到txt文档，然后修改为html的后缀用浏览器打开，在新的网页下重新复制XPath就得到了“获取2”的路径，可以发现1和2路径是有差异的。

问题到这就解决了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/864185.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Java+Swing+mysql学生考勤管理系统(高分课程项目)

Java+Swing+mysql学生考勤管理系统(高分课程项目)

博主介绍： 大家好，本人精通Java、Python、Php、C#、C、C编程语言，同时也熟练掌握微信小程序和Android等技术，能够为大家提供全方位的技术支持和交流。我有丰富的成品Java、Python、C#毕设项目经验，能够为学生提供各类…

阅读更多...

系统架构设计师 - 计算机网络(1)

系统架构设计师 - 计算机网络(1)

计算机网络计算机网络TCP/IP 协议簇TCP与UDP ★★★DHCP与DNS ★★★DNS 协议应用DHCP 协议应用网络规划与设计逻辑设计与物理设计 ★★★★逻辑网络设计物理网路设计层次化网络设计网络冗余设计网络存储 ★★网络存储方式磁盘阵列 - Raid 大家好呀！我是小笙&am…

阅读更多...

【面试系列】信息安全分析师高频面试题及详细解答

【面试系列】信息安全分析师高频面试题及详细解答

欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏： ⭐️ 全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题. ⭐️ AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、…

阅读更多...

浅谈定时器之泊松随机定时器

浅谈定时器之泊松随机定时器

浅谈定时器之泊松随机定时器 “泊松随机定时器”(Poisson Random Timer)，它允许你基于泊松分布来随机化请求之间的延迟时间，这对于模拟具有随机到达率的事件特别有用，如用户访问网站或服务的请求。泊松分布简介泊松分布是一种统计与概率…

阅读更多...

Golang开发：构建支持并发的网络爬虫

Golang开发：构建支持并发的网络爬虫

Golang开发：构建支持并发的网络爬虫随着互联网的快速发展，获取网络数据成为了许多应用场景中的关键需求。网络爬虫作为一种自动化获取网络数据的工具，也因此迅速崛起。而为了应对日益庞大的网络数据，开发支持并发的爬虫成为了必…

阅读更多...

操作系统真象还原：进一步完善内核

操作系统真象还原：进一步完善内核

第12章-进一步完善内核 12.1 Linux系统调用浅析系统调用就是让用户进程申请操作系统的帮助，让操作系统帮其完成某项工作，也就是相当于用户进程调用了操作系统的功能，因此“系统调用”准确地来说应该被称为“操作系统功能调用”。 Linux 系…

阅读更多...

【深度笔记】LRU Cache

【深度笔记】LRU Cache

因为经常使用LRU（Least Recently Used，最近最少使用）或其他缓存替换策略来管理存储在KV Cache中的数据，保证高效的数据访问。在Transformer等深度学习模型中，KV Cache被广泛应用于存储Self-Attention机制中的中间计算结…

阅读更多...

RaysyncCMD-一款及其好用的镭速文件传输工具

RaysyncCMD-一款及其好用的镭速文件传输工具

在日常的生活及工作流中，文件传输扮演着至关重要的角色，从工作文档、家庭照片到高清视频，每一种数据的迁移都需仰赖高效的文件传输工具。今天，小编今天安利一款性能卓越的文件传输利器——RaysyncCMD。这是一款专为Windows、Linu…

阅读更多...

002-基于Sklearn的机器学习入门：基本概念

002-基于Sklearn的机器学习入门：基本概念

本节将继续介绍与机器学习有关的一些基本概念，包括机器学习的分类，性能指标等。同样，如果你对本节内容很熟悉，可直接跳过。 2.1 常见的监督学习方法

阅读更多...

智慧渔港：海域感知与岸线监控实施方案（智慧渔港渔船综合管控平台）

智慧渔港：海域感知与岸线监控实施方案（智慧渔港渔船综合管控平台）

文章目录引言I 技术栈1.1 物理结构图1.2 功能逻辑结构图II 云台（大华）2.1 设备网络SDK运行在Mac平台2.2 WEB无插件开发包III 术语3.1 渔业引言利用渔船现有的定位导航通讯设备等资源，实现岸线和近岸海域内违法船舶和可疑船舶预警、抓拍、跟踪和行为分析。在渔船上安装风…

阅读更多...

Java中的四种访问权限控制符分别是什么？

Java中的四种访问权限控制符分别是什么？

在Java编程语言中，访问权限控制符（也称为访问修饰符）是定义类、变量、方法和构造函数访问范围的关键字。它们确保了Java的封装性原则，允许开发者控制外部对类成员的访问权限。Java提供了四种访问权限控制符，分别是&…

阅读更多...

执行yum报错error: cannot open Packages

执行yum报错error: cannot open Packages

完整报错内容如下： error: rpmdb: BDB0113 Thread/process 162099/139704678967360 failed: BDB1507 Thread died in Berkeley DB library error: db5 error(-30973) from dbenv->failchk: BDB0087 DB_RUNRECOVERY: Fatal error, run database recovery error: …

阅读更多...

可燃气体报警器定期检测：优化与改进策略的探讨

可燃气体报警器定期检测：优化与改进策略的探讨

在现代化的工业环境中，可燃气体报警器的作用日益凸显。它们像是我们生产现场的安全卫士，时刻警惕着可能发生的危险，确保我们的工作环境安全、稳定。然而，要确保这些“卫士”始终忠诚可靠，定期检测就显得尤为重要。 …

阅读更多...

如何查询List中属性code为1~9中的数据,的三种方式

如何查询List中属性code为1~9中的数据,的三种方式

List<SpecialTesting> specialTestingFour = baseMapper.selectList(Wrappers.<SpecialTesting>query().lambda() .in(SpecialTesting::getId, listId)); 以上述Demo为例,如何查询parentCode为1~9的数据???? 方式一: List<SpecialTesting> specialTe…

阅读更多...

SSL证书中DV通配符与OV通配符证书的全方位对比

SSL证书中DV通配符与OV通配符证书的全方位对比

SSL证书中的DV通配符证书与OV通配符证书在多个维度上存在显著差异。下面是对这两种证书类型的全方位对比，以便更好地理解它们各自的特性和适用场景。一、验证流程 DV通配符证书：验证过程集中在域名所有权的确认，通常通过域名DNS解析记录来…

阅读更多...

Vue插槽详解

Vue插槽详解

简介：插槽是一种实现组件之间通信的技术，能够实现父组件向子组件传递HTML结构的技术，注意不是传递数据，而是传递结构，这些结构包括：HTML元素、组件等。目录 1、默认插槽 2、具名插槽 3、作用域插槽 4、…

阅读更多...

docker compose部署zabbix7.0官方yaml文件方法快速搭建

docker compose部署zabbix7.0官方yaml文件方法快速搭建

环境介绍： 系统：centos7 官方文档：https://www.zabbix.com/documentation/current/zh/manual/installation/containers docker镜像接口配置 vi /etc/docker/daemon.json{"registry-mirrors": ["https://docker.1panel.live…

阅读更多...

PostgreSQL判断字符串是否是json格式

PostgreSQL判断字符串是否是json格式

PostgreSQL判断字符串是否是json格式在PostgreSQL中如果你的字段类型是文本类型并不是json,jsonb类型的时候，这种情况下你要判断字段是否是json格式，可以创建函数is_json来进行判断(直接文本转换json可能会报异常导致sql语句失败)： CREATE…

阅读更多...

电脑数据丢失该怎么恢复？分享10款数据恢复神器

电脑数据丢失该怎么恢复？分享10款数据恢复神器

在数字化时代，数据丢失的问题时有发生，无论是手机，还是电脑，总有误删、格式化等各种原因导致数据丢失。那么当电脑数据丢失后，我们除了从回收站中找回文件，还可以使用哪些方法找回文件呢？ 本文将…

阅读更多...

C++视觉开发一.OpenCV环境配置

C++视觉开发一.OpenCV环境配置

一.OpenCV安装环境配置 1.OpenCV安装 （1）下载官方下载链接：http://opencv.org/releases 这边选择需要的版本，我是在windows下的4.9.0。（科学上网下载很快，否则可能会有点慢） (2)安装双击下…

阅读更多...

最新文章