网络爬虫中Xpath的使用方法

正则表达式虽然可以处理包含了诸如 HTML 或 XML 内容的字符串,但只能根据文本的
特征匹配字符串,而忽略字符串所包含的内容的真实格式。为了解决这个问题,Python 引入
XPath 以及支持 XPath 的第三方库 lxml,专门对 XML 或 HTML 格式的数据进行解析。接下来,
本节将针对 XPath 和 lxml 的相关内容进行详细介绍。

一、XPath 简介

XPath 即 XML 路径查询语言(XML Path Language),是一种用于确定 XML 文档中部分
节点位置的语言。它起初只支持搜索 XML 文档,更新后能支持搜索 HTML 文档。截至完稿
时,XPath 的最新版本为 XPath3.1。
那么 XPath 是如何搜索 XML 或 HTML 文档呢?其实 XPath 基于 XML 或 HTML 的节点
树,沿着节点树的节点关系定位到目标节点所在的位置,并选取节点或节点集。为了形象地
描述出搜索节点的路径,XPath 提供了简洁明了的路径表达式,通过路径表达式可以快速地定
位与选取 XML 或 HTML 文档中的一个节点或者一组节点集。
与正则表达式相比,路径表达式的搜索方式大不相同。在这里,我们借用一个形象的例
子进行比较。假如我们把选取目标节点比作找金燕龙办公楼。如果我们通过正则表达式查找,
则正则表达式会告诉我们办公楼有哪些特征,办公楼的左边有哪些建筑、右边有哪些建筑。
这样的描述限定的查找范围比较宽泛,查找起来比较烦琐。如果我们通过路径表达式查找,
则路径表达式会直接告诉我们办公楼的具体位置,即中国北京市昌平区建材城西路金燕龙办
公楼。这样的描述更加精准、更易查找。
路径表达式描述了从一个节点到另一个节点或一组节点的路径。这些路径与在常规的计算
机文件系统中见到的路径非常相似。例如,“/学生名单/班级/学生/籍贯”就是一个路径表达式,
该路径表达式也是用“/”字符进行分隔的,只不过它分隔的是节点,而不是目录。接下来,通
过一张示意图来描述 XML 文档、XML 节点树与路径表达式的关系,具体如图 4-1 所示。
422ec9dbdf0e41b0bf9788283e37e4ec.png
在图 4-1 中,从左到右、从上到下依次为 XML 文档、XML 节点树和路径表达式。其中,
路径表达式为“/bookstore/book/price”,它对应的路径为 XML 节点树中加粗的线条,用于选
取节点<price>对应的文本 39.95。

二、XPath 语法

我们如果要编写一个路径表达式,则要先了解 XPath 的语法,如此才能使用路径表达式
正确地选取节点。路径表达式会从某个节点开始沿着节点树查找节点,直至找到目标节点。
由于节点的多样性,为了帮助开发人员快速选取目标节点,XPath 提供了一套语法规则。下面
从选取节点、谓语、选取未知节点、选取若干路径这 4 个方面介绍 XPath 的语法。

1.选取节点

选取节点是最基础的操作之一。节点所在的路径既可以从根节点开始,也可以从任意位
置开始。选取节点的表达式如表 4-3 所示。
478967fe596b433ca6d97d3b1cf50ba2.png

1bff45a1ca6d40bbb1c6b67530b71198.png

接下来,以 XML 文档 bookstore.xml 为例,为大家演示如何使用表 4-3 中的表达式选取
XML 文档中的节点。bookstore.xml 的具体内容如下。
<?xml version="1.0" encoding="ISO-8859-1"?> 
<bookstore> <book> <title lang="eng">Harry Potter</title> <price>29.99</price> </book> <book> <title lang="eng">Learning XML</title> <price>39.95</price> </book> 
</bookstore>

        选取节点的示例代码如下。

 1 bookstore # 选取 bookstore 的所有子节点2 /bookstore # 选取根节点 bookstore 3 bookstore/book # 从根节点 bookstore 开始,向下选取名为 book 的所有子节点4 //book # 从任意节点开始,选取名为 book 的所有子节点5 bookstore//book # 从 bookstore 的后代节点中,选取名为 book 的所有子节点6 //@lang # 选取所有名为 lang 的属性节点
在上述代码中,第 3 行、第 4 行的路径表达式具有相同的功能,都可以选取节点 book 的所
有子节点。前者是从根节点开始沿着路径向下选取的,后者是从节点树的任意位置开始选取的。

2.谓语

谓语是为路径表达式附加的条件,主要用于筛选当前被处理的节点集,选取出满足某个
特定条件的节点,或者包含了指定属性或值的节点。谓语会嵌入方括号中,位于要补充说明
的节点后面。带谓语的路径表达式的语法格式如下:
节点[谓语]
在上述格式中,方括号中的谓语可以是整数、属性、函数,也可以是整数、属性、函数
与运算符组合的表达式。如果谓语是整数(从 1 开始),则这个数值将作为位置,用于从节点
集中选取与该位置对应的节点;如果是属性,则会从节点集中选取包含该属性的节点;如果
是函数,则会将该函数的返回值作为条件,从节点集中选取满足条件的节点。常用的 XPath
函数如表 4-4 所示。
e74661f6bf7e441195b30240688b518e.png

8f36aad2166e42e2b81d75efe0303246.png

接下来,以前面的 bookstore.xml 为例,为大家演示带谓语的路径表达式的用法,具体代
码如下。
/bookstore/book[1] # 选取属于 bookstore 子节点的第 1 个 book 节点
/bookstore/book[last()] # 选取属于 bookstore 子节点的最后一个 book 节点
/bookstore/book[last()-1] # 选取属于 bookstore 子节点的倒数第 2 个 book 节点
/bookstore/book[position()<3] # 选取属于 bookstore 子节点的前两个 book 节点
//title[@lang] # 选取所有的属性名称为 lang 的 title 节点
//title[@lang= 'eng'] # 选取所有的属性名称为 lang 且属性值为 eng 的 title 节点
# 选取子节点 price 的值大于 35.00,且父节点为 bookstore 的所有 book 节点
/bookstore/book[price>35.00] 
# 选取属于 book 的所有子节点 title,且节点 book 的子节点 price 的值必须大于 35.00 
/bookstore/book[price>35.00]/title

3.选取未知节点

表 4-5 选取未知节点的通配符和函数
通配符/函数说明
*
匹配任何元素节点
@*
匹配任何属性节点
node()
匹配任何类型的节点

        XPath 提供了选取未知节点的通配符和函数,关于它们的说明如表 4-5 所示。

        以前面的 XML 文档为例,演示表 4-5 中通配符和函数的用法,具体代码如下。

/bookstore/* # 选取属于 bookstore 的所有子节点
//* # 选取文档中的所有节点
//title[@*] # 选取所有带有属性的节点 title

4.选取若干路径

在 XPath 中,我们可以使用“|”运算符连接多个路径表达式,根据多个路径选取对应的
节点。以前面的 XML 文档为例,演示“|”运算符的用法,具体代码如下。
//book/title | //book/price # 选取属于 book 的子节点 title 和 price 
//title | //price # 选取所有 title 节点和 price 节点
# 选取属于/bookstore/book/的所有 title 节点和文档中的所有 price 节点
/bookstore/book/title | //price

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/35118.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

minio+tusd+uppy搭建文件上传服务

1、docker部署minio、tusd服务 1.1 新建docker-compose.yml minio API: http://ip:9100 minio控制台: http://ip:9101 tus API: http://ip:9102/files/ tus webhooh: http:172.0.0.1:3000/files/webhooh(用户鉴权API) version: 3.7services:minio:image: minio/minio:RELEAS…

亚马逊运营专词(一)

许多新入驻亚马逊的大陆卖家&#xff0c;对亚马逊的专业词汇还不太了解&#xff0c;导致在运营店铺的过程出现一些问题&#xff0c;今天就来讲解一下亚马逊常用的运营专词&#xff0c;方便新手卖家深入了解。 1. Listing&#xff1a;亚马逊listing指的是产品的详情页面&#xf…

【Feature Pyramid Networks for Object Detection】

Feature Pyramid Networks for Object Detection 摘要引言2 相关工作3 FPN4 应用摘要 特征金字塔是识别系统中用于检测不同尺度对象的基本组件。但是,最近的深度学习对象检测器已经避免了金字塔表示,部分原因是它们在计算和内存方面都很密集。在这篇论文中,我们利用深度卷积…

Java面试题:聚簇索引和非聚簇索引

聚簇索引和非聚簇索引 聚簇索引(聚集索引) 将数据的存储和索引放在一块,索引结构的叶子节点保存了行数据 索引字段必须存在,且只能存在一个 非聚集索引(二级索引) 将数据和索引分开存储,索引结构的叶子节点关联的是对应的主键 索引字段可以存在多个 索引的选取规则 如果…

豆瓣高分项目管理书籍推荐

&#x1f4ec;豆瓣网站上有很多项目管理领域的书籍获得了较高的评分&#xff0c;以下是一些高分项目管理书籍的精选列表&#xff0c;发出来跟大家分享一下&#xff1a; 《项目管理知识体系指南&#xff08;PMBOK指南&#xff09;》 【内容简介】这本书是美国项目管理协会&…

onnx模型修改:去掉Dropout层

文章目录 尝试1&#xff1a;强行设置dropout层train mode为False尝试2&#xff1a;找到onnx模型中的dropout, train mode设置为False尝试3&#xff1a;直接删除dropout层&#xff0c;连接其输入输出结语 最近训练模型使用了tinyvit&#xff0c;性能挺强的&#xff1a; 但是导出…

超细毛搭配超宽设计,一款更呵护牙龈的牙刷

牙龈敏感的时候&#xff0c;刷牙特别难受&#xff0c;最近试了试惠百施&#xff08;EBISU&#xff09;65孔宽头软毛牙刷&#xff0c;感觉它的口腔护理体验很不错。这款牙刷的设计独特&#xff0c;采用宽头设计&#xff0c;一次就能刷两排牙齿&#xff0c;极大地提高了清洁效率。…

RS232自由转Profinet协议网关模块连接1200PLC与扫码枪通讯及手动清零案例

一、RS232和Profinet这两种通讯接口的特点和应用场景&#xff1a; RS232是一种串行通讯接口标准&#xff0c;常用于连接计算机和外部设备&#xff0c;传输速率较低但稳定可靠。Profinet则是一种工业以太网通讯协议&#xff0c;具有高速、实时性强的特点&#xff0c;适用于工业…

【C语言】解决C语言报错:Dangling Pointer

文章目录 简介什么是Dangling PointerDangling Pointer的常见原因如何检测和调试Dangling Pointer解决Dangling Pointer的最佳实践详细实例解析示例1&#xff1a;释放内存后未将指针置为NULL示例2&#xff1a;返回指向局部变量的指针示例3&#xff1a;指针悬空后继续使用示例4&…

自编码器笔记

编码器解码器自编码器 先压缩特征&#xff0c;再通过特征还原。 判断还原的和原来的是否相等 encode data 在一个“潜在空间”里。它的用途是“深度学习”的核心-学习数据的特征并简化数据表示形式以寻找模式。 变分自编码器&#xff1a; 1. 首先、假设输入数据是符合正态分布…

【SQL Server点滴积累】Setup SQL Server 2008 Database Mirror (二)

【SQL Server点滴积累】Setup SQL Server 2008 Database Mirror (一)-CSDN博客今天分享SQL Server 2008 R2搭建数据库镜像(Database Mirror)https://blog.csdn.net/ncutyb123/article/details/139749117?spm1001.2014.3001.5501本篇Blog基于以上Blog步骤进行SQL Server 2008 R…

python03——文件操作(new)

“变量”open&#xff08;‘文件路径’&#xff0c;‘模式’&#xff09; //注意加引号 “变量”.write( ) //write函数是写的是字符串&#xff0c;如果你写的东西不是字符串&#xff0c;要写成write&#xff08;str&#xff08;。。&#xff09;&#xff09; “变量”.read…

vue3学习教程第四十节(pinia的用法注意事项解构store)

pinia 主要包括以下五部分&#xff0c;经常用到的是 store、state、getters、actions 以下使用说明&#xff0c;注意事项&#xff0c;仅限于 vue3 setup 语法糖中使用&#xff0c;若使用选项式 API 请直接查看官方文档&#xff1a; 一、前言&#xff1a; pinia 是为了探索 vu…

力扣算法-9.回文数

9.回文数 个人思考 首先从示例2可以看出符号也算在整数这个整体内&#xff0c;可以先判断整数若为负数则返回false其次很容易就会想到遍历两次&#xff0c;从头以及从尾&#xff0c;遍历得到的结果相比较&#xff0c;相同则为回文数 public class Alee9 {public static void …

【linux基础】后台执行命令,防止中断nohup

前台运行与后台运行&#xff1a;前台运行&#xff0c;就是运行过程一直在屏幕输出。 目的&#xff1a;1. 提交至后台 & 2.防止中断 nohup 1.终端上不要有大量的log出现&#xff0c;后台运行 (1) & 程序后台运行 #脚本、修改权限 vi test.sh chmod 777 test.sh#后…

ArcGIS Pro SDK (三)Addin控件 3 事件功能类

22 ArcGIS Pro 放置处理程序 目录 22 ArcGIS Pro 放置处理程序22.1 添加控件22.2 Code 23 ArcGIS Pro 构造工具23.1 添加控件23.2 Code 24 ArcGIS Pro 表构造工具24.1 添加控件24.2 Code 22.1 添加控件 22.2 Code 放置处理程序可以实现文件拖动放置、TreeVIew、ListBox等控件拖…

ArcGIS批量设置多图层的三调地类符号

​​ 点击下方全系列课程学习 点击学习—>ArcGIS全系列实战视频教程——9个单一课程组合系列直播回放 01需求说明 这次我们要实现的是将多个地类图层批量符号化。比如将多个三调地类图斑批量符号化。 ​ 有什么好方法呢 &#xff1f; 我们可以将一个图层利用三调符号库进行…

Stable Diffusion 3 正式开源,超强文生图模型 SD3-M 上线,赶紧来试试吧!

前言 我们都知道 Stable Diffusion 3 是一款强大的文生图模型&#xff0c;拥有20亿参数&#xff0c;因其高效的推理速度和卓越的生成效果而备受瞩目。 近日&#xff0c;Stability AI在推特上宣布正式开源了 Stable Diffusion 3 Medium&#xff08;SD3-M&#xff09; 权重&…

Dooprime外汇:如何高效规划家庭理财?从哪里开始?

摘要&#xff1a; 家庭理财是每个家庭都必须面对的重要课题。合理的理财规划不仅能提高家庭的生活质量&#xff0c;还能为未来的生活提供保障。然而&#xff0c;许多人在面对复杂的理财选项和信息时感到无从下手。本文将从不同角度详细分析如何进行高效的家庭理财规划&#xf…

【Playwright+Python】手把手带你写一个自动化测试脚本

如何使用代理方式打开网页 在 playwright.chromium.launch() 中传入 proxy 参数即可&#xff0c;示例代码如下&#xff1a; 1、同步写法&#xff1a; from playwright.sync_api import sync_playwrightproxy {server: http:/127.0.0.1:8080}def run():with sync_playwright(…