一、XPath是什么
XPath
定位 HTML 文档中的元素的工具 XPath
是一种表达语言,旨在支持XML文档的查询或转换。 XPath
由万维网联盟(W3C) 于 1999 年定义。 XPath
支持 XML 的应用程序(例如 Web 浏览器)和许多编程语言都支持 XPath。 XPath
语言基于XML 文档的树表示,并提供在树中导航、按各种标准选择节点的能力。
二、XPath的用途
XPath 用于在 XML 文档中通过元素和属性进行导航。当然作为一名爬虫程序员,更多的还是会将XPath应用于Python爬虫中。
三、XPath的优点
- XPath 可以选择 XML 文档中的任何节点,包括元素、属性、文本等。
- XPath 支持复杂的逻辑关系,例如选择任意层次的子节点,并且可以使用通配符和谓词进行筛选。
- XPath 可以在不同的环境中使用,例如在 XSLT 中使用 XPath 进行数据转换。
- 简单易学,容易上手,操作难度低。
-
Selecting Nodes(选择节):
一些非常有用的路径表达式:
表达式 描述 nodename Selects all child nodes of the node[选择所有目前节的子节] / Selects from the root node[从根节进行选择] // Selects nodes in the document from the current node that match the selection no matter where they are [选择文档中相吻合的节而不管其在文档的何处] . Selects the current node[选择当前节] .. Selects the parent of the current node[当前节的父节] @ Selects attributes[选择属性]
如何使用呢 首先安装 pip install lxml
一个小需求 1:馒头,2:火影,贝吉特,比鲁斯,界王 3:火影,贝吉特,比鲁斯,界王,鸟鸣,18号,19号 4:单独 鸟鸣,鸟二 五:超级赛尔人2
一
结果
二
三
四
五
如何用xpath 解析 html
这是我写的html 结果
拿到了数据
有一个小需求 利用xpath拿到 1:拿到谷歌,百度,搜狗 2:百度 3:单独拿到百度 4:找到href的值
一
二
三
4