xpath中两个冒号_爬虫学习(5)—XPath

之前我们写了一个简单的爬虫,在提取页面信息时我们使用正则表达式来匹配内容,但是正则表达式的书写比较繁琐,而且一旦错误就可能导致匹配失败。对于网页的节点来说,它可以定义id,class或其他的属性,而且节点之间还有层次关系,在网页中可以通过xpath后css选择器来定位一个或多个节点。那么,我们在解析页面时,利用CSS和XPath选择器来定位节点,再调用相关方法来获取其正文内容或属性。本文介绍XPath。

1.XPath概述

XPath的选择功能十分强大,提供了100多个内建函数,用于字符串、数值、时间的匹配和节点、序列的处理。

2.XPath常用规则

nodename          选取此节点的所有子节点
/                 从当前节点选取直接子节点
//                从当前节点选取子孙节点
.                 选取当前节点
..                选取当前节点的父节点
@                 选取属性

这里就是XPath的常用匹配规则,示例如下:

//title[@lang='eng']

这个就表示选择所有名称为title,同时属性lang的值为eng的节点。

3.准备工作

安装好lxml库。

4.实例引入

我们来通过实例来感受一下使用XPath来对网页进行解析的过程。

from lxml import etreetext = '''
<div>
<ul>
<li class="item-0"><a-href="link1.html">first item</a></li>
<li class="item-1"><a-href="link2.html">second item</a></li>
<li class="item-inactive"><a-href="link3.html">third item</a></li>
<li class="item-1"><a-href="link4.html">fourth item</a></li>
<li class="item-0"><a-href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

7578606c22876c6832391b9c48f6bbdf.png

这里我们先导入lxml库的etree模块,然后声明一段HTML文本,在调用HTML类进行初始化,这样就成功构造了一个XPath解析对象。我们可以注意到HTML文本中最后一个li节点是没有闭合的,但是etree模块可以自动修正HTML 文本。

我们调用tostring()方法即可输出修正后的HTML代码,但是结果是bytes类型。这里利用decode()方法将其转换为str类型。

我们也可以通过直接读取文件来进行解析。

from lxml import etreehtml = etree.parse('./test.html', etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))

其中test.html的内容就是上面的HTML代码。

5.所有节点

我们一般会用//开头的XPath规则来选取所有符合要求的节点。

result = html.xpath('//*')
print(result)

e57c376cf967ccec40113af468eca9f2.png

这里使用*来匹配所有节点,也就是整个HTML文本中的所有节点都会被获取,返回形式是一个列表,每个元素都是Element类型,后面跟着节点的名称。

当然,此处匹配也可以指定节点名称。如果想获取所有li节点,如下:

result = html.xpath('//li')
print(result)
print(result[0])

5858a66a4d080f5732a67479c8ae4411.png

如果我们要取出其中一个对象,可以直接用中括号加索引,如[0]。

6.子节点

我们通过/或//即可查找元素的子节点或子孙节点。假设我们现在想选择li节点的所有直接a节点,可以这样实现:

result = html.xpath('//li/a')

如果想获得所有子孙节点,则可使用//。例如,要获取ul节点下的所有子孙a节点,可以这样实现:

result = html.xpath('//ul//a')

/用于获取直接子节点,//用于获取子孙节点。

7.父节点

我们在上面讲了如何查找子节点或子孙节点,那么加入我们知道了子节点,怎么来查找父节点呢?可以用..来实现。

比如,我们选中属性为link4.html的a节点,然后获取其父节点,然后再获取其class属性。

result = html.xpath('//a[@href="link.html"]/../@class')

同时也可以使用parent::来获取父节点。

result = html.xpath('//a[@href="link.html"]/parent::*/@class')

8.属性匹配

在选取时,我们还可以使用@符号进行属性过滤。比如,这里如果要选取class为item-0的li节点,可以这样实现:

result = html.xpath('//li[@class="item-0"]')

c0d385fca25443f8218e971db05f12f6.png

这里我们通过加入[@class="item-0"],限制了节点的class属性为item-0,而HTML 文本中符合的li节点有两个,所以结果应该返回两个匹配到的元素。

9.文本获取

我们使用XPath中的text()方法获取节点中的文本,接下来尝试获取前面li节点中的文本。

result = html.xpath('//li[@class="item-0"]/text()')

我们运行之后没有获取任何文本。这是为什么呢?因为XPath中text()前面是/,代表选取直接子节点,很明显li节点的直接子节点都是a节点,文本都是在a节点内部的,所以只匹配到被修正的li节点内部的换行符。因为自动修正的li节点的尾标签换行了。即选中的是这两个节点:

<li class="item-0"><a-href="link1.html">first item</a></li>
<li class="item-0"><a-href="link5.html">fifth item</a>
</li>

因此,如果想获取li节点内部的文本,就有两种方式:一种是先选取a节点再获取文本,另一种是使用//。

result = html.xpath('//li[@class="item-0"]/a/text()')

运行结果为:

['first item', 'fifth item']

这里我们是逐层选取,先选取了li节点,又利用/选取了其直接子节点a。

result = html.xpath('//li[@class="item-0"]//text()')

运行结果为:

['first item', 'fifth item', 'n    ']

这里是选取所有子孙节点的文本,其中两个是li的子节点a节点内部的文本,另外一个就是最后一个li节点内部的文本,即换行符。

10.属性获取

我们使用text()方法获取文本内容,我们也可以用@href来获取节点的href属性。

result = html.xpath('//li/a/@href')

11.属性多值匹配

有时候,某些节点的某个属性有多个值,例如:

from lxml import etreetext = '''
<li class="li li-first"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[@class="li"]/a/text()')
print(result)

这里返回的结果是[],因为li的class属性有两个值li和li-first,此时还想用之前的属性匹配获取就无法匹配了。

这时就需要用contains()函数了,代码如下:

result = html.xpath('//li[contains(@class, "li")]/a/text()')

这样就会得到结果['first item']。

12.多属性匹配

另外,我们还会碰到另一种情况,那就是依据多个属性来确定一个节点,这时就需要同时匹配多个属性,此时我们可以使用运算符and来连接。

from lxml import etreetext = '''
<li class="li li-first" name="item"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')
print(result)

这里的li节点又增加了一个属性name。要确定这个节点,需要用时根据class和name来选择,中间用and相连,相连之后置于中括号内进行条件筛选。除了and之外还有其他的运算符可以使用。

13.顺序选择

我们在选择的时候某些属性可能已经匹配了多个节点,但是我们只想要其中的某个节点,如第二个节点或者最后一个节点。

from lxml import etreetext = '''
<div>
<ul>
<li class="item-0"><a-href="link1.html">first item</a></li>
<li class="item-1"><a-href="link2.html">second item</a></li>
<li class="item-inactive"><a-href="link3.html">third item</a></li>
<li class="item-1"><a-href="link4.html">fourth item</a></li>
<li class="item-0"><a-href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.HTML(text)
result = html.xpath('//li[1]/a/text()')
print(result)
result = html.xpath('//li[last()]/a/text()')
print(result)
result = html.xpath('//li[position()<3]/a/text()')
print(result)
result = html.xpath('//li[last()-2]/a/text()')
print(result)

第一次选择时,我们选取了第一个li节点,这里在中括号中传入1就可。

第二次选择时,我们选取最后一个li节点,中括号中传入last()即可。

第三次选择时,我们选取了位置小于3的li节点,运用了position()函数。

第四次选择时,我们选择了都输第三个li节点,中括号中传入last()-2即可。

在Xpath中,提供了100多个函数,包括存取、数值、字符串、逻辑、节点、序列等的处理功能。

14.节点轴选择

XPath提供了许多节点轴选择方法,包括获取子元素、兄弟元素、父元素、祖先元素等,示例如下:

from lxml import etreetext = '''
<div>
<ul>
<li class="item-0"><a-href="link1.html">first item</a></li>
<li class="item-1"><a-href="link2.html">second item</a></li>
<li class="item-inactive"><a-href="link3.html">third item</a></li>
<li class="item-1"><a-href="link4.html">fourth item</a></li>
<li class="item-0"><a-href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.HTML(text)
result = html.xpath('//li[1]/ancestor::*')
print(result)
result = html.xpath('//li[1]/ancestor::div')
print(result)
result = html.xpath('//li[1]/attribute::*')
print(result)
result = html.xpath('//li[1]/child::a[@href="link1.html"]')
print(result)
result = html.xpath('//li[1]/descendant::span')
print(result)
result = html.xpath('//li[1]/following::*[2]')
print(result)
result = html.xpath('//li[1]/following-sibling::*')
print(result)

1ab1b424af968ff573c8dd4d42e05e9a.png

第一次选择时,我们调用了ancestor轴,可以获取所有的祖先节点。之后需要跟两个冒号,然后是节点的选择器,这里我们使用*,表示匹配所有节点。

第二次选择时,我们又加了限定条件div,这时得到的结果就只有div这个祖先节点了。

第三次选择时,我们调用了attribute轴,可以获取所有属性值,其建瓯跟的选择器还是*,代表获取节点的所有属性。

第四次选择时,我们调用了child轴,可以获取所有直接子节点。这里我们又加入了限定条件,选取href属性为link1.html的a节点。

第五次选择时,我们调用了descendant轴,可以获取所有的子孙节点。这里我们又加入了限制条件获取span节点。所以返回的结果只包含span节点而不包括a节点。

第六次选择时,我们调用了following轴,可以获取当前节点之后的所有节点。这里我们使用*匹配,但又加入了索引选择,所以只获取了第二个后续节点。

第七次选择时,我们调用了following-sibling轴,可以获取当前节点之后的所有同级节点。这里我们使用*匹配,获取所有后续同级节点。

参考书目:《Python 3 网络爬虫开发实战》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/429861.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

canny算法的实现(android加载图片,数组写入文件换行)

Canny边缘检测首先要对图像进行高斯去噪&#xff0c;前面讲到了高斯去噪处理&#xff0c;这里从对图像灰度进行微分运算讲起吧。微分运算常用的方法是利用模板算子&#xff0c;把模板中心对应到图像的每一个像素位置&#xff0c;然后按照模板对应的公式对中心像素和它周围的像素…

【VirtualBox】VirtualBox的桥接网络模式,为啥网络不稳定?

网桥模式访问外网非常慢&#xff0c;经常卡死&#xff0c;ping时断时续 七搞八搞&#xff0c;反复重启了几次 TMD 就好了&#xff0c;也不知道什么情况&#xff0c;VirtualBox还是不太好使啊。。。。。 网桥模式 设置 如下&#xff1a; 参考资料&#xff1a; http://blog.csdn…

白盒基本路径发测试实验报告_软件生命周期、白盒测试、黑盒测试

继上一讲&#xff1a;隅巳毕月&#xff1a;达摩克里斯之——排序与查找技术​zhuanlan.zhihu.com我们今天来讲一下软件周期与两种软件测试方法软件开发应遵循一个软件的生命周期&#xff0c;通常把软件产品从提出、实现、使用、维护到停止使用、退役的过程称为软件生命周期。软…

Windows7睡眠后自动唤醒

笔者的电脑&#xff08;Windows7 64位旗舰版&#xff09;睡眠后&#xff0c;隔段时间后会自动唤醒。经两项配置后&#xff0c;解决了该问题。 1 禁用唤醒定时器 控制面板里进入"电源选项""更改计划设置"界面&#xff0c;如下图所示 单击上图的"更改高…

bootstrap 两个轮播图冲突_为什么使用bootstrap在一个页面同时做两个轮播效果时,只有第一个有效??...

我们都知道使用bootstrap做轮播效果非常快&#xff0c;但是有时候一个页面会需要两个轮播&#xff1b;但这个时候再次使用bootstrap做轮播效果时就会失效&#xff1b;原因在于bootstrap的Carousel问题&#xff0c;只要修改一下id&#xff0c;就好了~~这是第一个轮播&#xff1a…

Ajax的用法

1 Ajax是什么 1.1 Asynchronous JavaScript and XML&#xff08;异步的javascript和xml&#xff09; 实质为&#xff1a;使用浏览器内置的一个对象&#xff08;XmlHttpRequest&#xff09;向服务器发送请求&#xff0c;服务器返回xml数据或文本数据给浏览器&#xff0c;然后在浏…

Node.js server使用

一、创建项目 #创建项目目录 cd /data mkdir webroot cd webroot#初始化git git init vim .gitignore 输入&#xff1a; node_modules/ 保存: :wq#初始化npm,生成package.json npm init#安装express npm install -D express#创建入口文件 vim app.js输入&#xff1a; var expr…

模仿Linux内核kfifo实现的循环缓存

想实现个循环缓冲区&#xff08;Circular Buffer&#xff09;&#xff0c;搜了些资料多数是基于循环队列的实现方式。使用一个变量存放缓冲区中的数据长度或者空出来一个空间来判断缓冲区是否满了。偶然间看到分析Linux内核的循环缓冲队列kfifo的实现&#xff0c;确实极其巧妙。…

领域模型(domain model)贫血模型(anaemic domain model)充血模型(rich domain model)

领域模型是领域内的概念类或现实世界中对象的可视化表示&#xff0c;又称为概念模型或分析对象模型&#xff0c;它专注于分析问题领域本身&#xff0c;发掘重要的业务领域概念&#xff0c;并建立业务领域概念之间的关系。 贫血模型是指使用的领域对象中只有setter和getter方法&…

datagrid显示mysql_WPF DataGrid显示MySQL查询信息,且可删除、修改、插入 (原发布 csdn 2018-10-13 20:07:28)...

1、入行好几年了&#xff0c;工作中使用数据库几率很小(传统行业)。借着十一假期回家机会&#xff0c;学习下数据库。2、初次了解数据库相关知识&#xff0c;如果本文有误&#xff0c;还望告知。3、本文主要目的&#xff0c;记录下wpf界面显示数据库信息&#xff0c;且可进行删…

mysql 集群 qps_MySQL Cluster:如何通过扩展为MySQL带来2亿QPS

本篇文章的目的在于介绍MySQL Cluster——也就是MySQL的一套内存内、实时、可扩展且具备高可用性的版本。在解决标题中所提到的每秒2亿查询处理能力问题之前&#xff0c;我们先对MySQL集群的背景信息及其架构进行一番回顾&#xff0c;这将有助于大家理解上述目标的实现过程。My…

测试题的答案(技术博客)

根据老师的要求&#xff0c;我把上次测试的答案汇总了下&#xff0c;将程序写的得到满分的答案给挑了出来&#xff0c;希望大家不要追究版权问题&#xff0c;若有问题&#xff0c;我们私下武力解决问题。 第一题&#xff1a;从键盘输入一个大写字母&#xff0c;要求改用小写字母…

history模式监听_面试题:VueRouter中的 hash 模式和 history 模式有什么区别

面试题&#xff1a;VueRouter中的 hash 模式和 history 模式有什么区别hash模式hash 模式的路由中带有 # 号hash 模式通过 window.onhashchange 方法监听路由的修改hash 模式在页面刷新的时候&#xff0c;发送的请求 url 是不带 # 后面的内容的hash 模式可以兼容部分低版本的浏…

DC综合流程

Design Compiler and the Design Flow 步骤 将HDL描述的设计输入到Design Compiler中Design Compiler使用technology libraries, synthetic or DesignWare libraries, and symbol libraries执行综合过程&#xff0c;并展示综合结果。将HDL翻译为门级描述之后&#xff0c;Design…

对象必须实现 iconvertible。_精雕基础教程:对象的显示颜色

“颜色工具栏”用于修改图形、文字等操作对象的颜色&#xff0c;设置轮廓线或者区域填充颜色&#xff0c;从而获得彩色效果图。这一篇文章我们叙述如何修改对象的显示颜色和填充颜色。如下图所示&#xff0c;颜色工具栏按钮功能的说明参见相关部分。图 - 颜色工具栏修改对象颜色…

抓包mysql乱码_抓包数据乱码是什么情况?

为什么会出现这种情况&#xff1f;细心的童鞋可能发现是我们发送给服务器的请求连接的数据不同&#xff1a;第一张图的信息是{"roomid":98284,"uid":271298361556770}第二张图的信息是{"uid":276194535568357,"protover":2,"room…

[转载]析构函数的虚析构和非虚析构调用的差别

代码示例: 非虚析构的情况下. #include <stdio.h> #include <iostream>using namespace std;class A { public:A(){std::cout << "A is created." << std::endl;}~A(){std::cout << "A is deleted." << std::endl;} }…

外部函数能修改闭包内的变量_Python函数式编程,Python闭包

前置内容为了更容易理解闭包&#xff0c;在说闭包之前&#xff0c;讲一下两个概念&#xff1a;作用域和嵌套函数。作用域作用域是变量能被访问的范围&#xff0c;定义在函数内的变量是局部变量&#xff0c;局部变量的作用范围只能在函数内部&#xff0c;它不能在函数被外引用。…

mybatis 配置 mysql连接池_spring 5.x 系列第5篇 —— 整合 mybatis + druid 连接池 (xml配置方式)...

项目目录结构1. 导入依赖创建 maven 工程&#xff0c;除了 Spring 的基本依赖外&#xff0c;还需要导入 Mybatis 和 Druid 的相关依赖&#xff1a;org.springframeworkgroupId>spring-jdbcartifactId>${spring-base-version}version>dependency>mysqlgroupId>my…

noi题库(noi.openjudge.cn) 1.8编程基础之多维数组T21——T25

T21 二维数组右上左下遍历 描述 给定一个row行col列的整数数组array&#xff0c;要求从array[0][0]元素开始&#xff0c;按从左上到右下的对角线顺序遍历整个数组。 输入 输入的第一行上有两个整数&#xff0c;依次为row和col。余下有row行&#xff0c;每行包含col个整数&#…