xpath中两个冒号_爬虫学习(5)—XPath

之前我们写了一个简单的爬虫,在提取页面信息时我们使用正则表达式来匹配内容,但是正则表达式的书写比较繁琐,而且一旦错误就可能导致匹配失败。对于网页的节点来说,它可以定义id,class或其他的属性,而且节点之间还有层次关系,在网页中可以通过xpath后css选择器来定位一个或多个节点。那么,我们在解析页面时,利用CSS和XPath选择器来定位节点,再调用相关方法来获取其正文内容或属性。本文介绍XPath。

1.XPath概述

XPath的选择功能十分强大,提供了100多个内建函数,用于字符串、数值、时间的匹配和节点、序列的处理。

2.XPath常用规则

nodename          选取此节点的所有子节点
/                 从当前节点选取直接子节点
//                从当前节点选取子孙节点
.                 选取当前节点
..                选取当前节点的父节点
@                 选取属性

这里就是XPath的常用匹配规则,示例如下:

//title[@lang='eng']

这个就表示选择所有名称为title,同时属性lang的值为eng的节点。

3.准备工作

安装好lxml库。

4.实例引入

我们来通过实例来感受一下使用XPath来对网页进行解析的过程。

from lxml import etreetext = '''
<div>
<ul>
<li class="item-0"><a-href="link1.html">first item</a></li>
<li class="item-1"><a-href="link2.html">second item</a></li>
<li class="item-inactive"><a-href="link3.html">third item</a></li>
<li class="item-1"><a-href="link4.html">fourth item</a></li>
<li class="item-0"><a-href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

7578606c22876c6832391b9c48f6bbdf.png

这里我们先导入lxml库的etree模块,然后声明一段HTML文本,在调用HTML类进行初始化,这样就成功构造了一个XPath解析对象。我们可以注意到HTML文本中最后一个li节点是没有闭合的,但是etree模块可以自动修正HTML 文本。

我们调用tostring()方法即可输出修正后的HTML代码,但是结果是bytes类型。这里利用decode()方法将其转换为str类型。

我们也可以通过直接读取文件来进行解析。

from lxml import etreehtml = etree.parse('./test.html', etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))

其中test.html的内容就是上面的HTML代码。

5.所有节点

我们一般会用//开头的XPath规则来选取所有符合要求的节点。

result = html.xpath('//*')
print(result)

e57c376cf967ccec40113af468eca9f2.png

这里使用*来匹配所有节点,也就是整个HTML文本中的所有节点都会被获取,返回形式是一个列表,每个元素都是Element类型,后面跟着节点的名称。

当然,此处匹配也可以指定节点名称。如果想获取所有li节点,如下:

result = html.xpath('//li')
print(result)
print(result[0])

5858a66a4d080f5732a67479c8ae4411.png

如果我们要取出其中一个对象,可以直接用中括号加索引,如[0]。

6.子节点

我们通过/或//即可查找元素的子节点或子孙节点。假设我们现在想选择li节点的所有直接a节点,可以这样实现:

result = html.xpath('//li/a')

如果想获得所有子孙节点,则可使用//。例如,要获取ul节点下的所有子孙a节点,可以这样实现:

result = html.xpath('//ul//a')

/用于获取直接子节点,//用于获取子孙节点。

7.父节点

我们在上面讲了如何查找子节点或子孙节点,那么加入我们知道了子节点,怎么来查找父节点呢?可以用..来实现。

比如,我们选中属性为link4.html的a节点,然后获取其父节点,然后再获取其class属性。

result = html.xpath('//a[@href="link.html"]/../@class')

同时也可以使用parent::来获取父节点。

result = html.xpath('//a[@href="link.html"]/parent::*/@class')

8.属性匹配

在选取时,我们还可以使用@符号进行属性过滤。比如,这里如果要选取class为item-0的li节点,可以这样实现:

result = html.xpath('//li[@class="item-0"]')

c0d385fca25443f8218e971db05f12f6.png

这里我们通过加入[@class="item-0"],限制了节点的class属性为item-0,而HTML 文本中符合的li节点有两个,所以结果应该返回两个匹配到的元素。

9.文本获取

我们使用XPath中的text()方法获取节点中的文本,接下来尝试获取前面li节点中的文本。

result = html.xpath('//li[@class="item-0"]/text()')

我们运行之后没有获取任何文本。这是为什么呢?因为XPath中text()前面是/,代表选取直接子节点,很明显li节点的直接子节点都是a节点,文本都是在a节点内部的,所以只匹配到被修正的li节点内部的换行符。因为自动修正的li节点的尾标签换行了。即选中的是这两个节点:

<li class="item-0"><a-href="link1.html">first item</a></li>
<li class="item-0"><a-href="link5.html">fifth item</a>
</li>

因此,如果想获取li节点内部的文本,就有两种方式:一种是先选取a节点再获取文本,另一种是使用//。

result = html.xpath('//li[@class="item-0"]/a/text()')

运行结果为:

['first item', 'fifth item']

这里我们是逐层选取,先选取了li节点,又利用/选取了其直接子节点a。

result = html.xpath('//li[@class="item-0"]//text()')

运行结果为:

['first item', 'fifth item', 'n    ']

这里是选取所有子孙节点的文本,其中两个是li的子节点a节点内部的文本,另外一个就是最后一个li节点内部的文本,即换行符。

10.属性获取

我们使用text()方法获取文本内容,我们也可以用@href来获取节点的href属性。

result = html.xpath('//li/a/@href')

11.属性多值匹配

有时候,某些节点的某个属性有多个值,例如:

from lxml import etreetext = '''
<li class="li li-first"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[@class="li"]/a/text()')
print(result)

这里返回的结果是[],因为li的class属性有两个值li和li-first,此时还想用之前的属性匹配获取就无法匹配了。

这时就需要用contains()函数了,代码如下:

result = html.xpath('//li[contains(@class, "li")]/a/text()')

这样就会得到结果['first item']。

12.多属性匹配

另外,我们还会碰到另一种情况,那就是依据多个属性来确定一个节点,这时就需要同时匹配多个属性,此时我们可以使用运算符and来连接。

from lxml import etreetext = '''
<li class="li li-first" name="item"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')
print(result)

这里的li节点又增加了一个属性name。要确定这个节点,需要用时根据class和name来选择,中间用and相连,相连之后置于中括号内进行条件筛选。除了and之外还有其他的运算符可以使用。

13.顺序选择

我们在选择的时候某些属性可能已经匹配了多个节点,但是我们只想要其中的某个节点,如第二个节点或者最后一个节点。

from lxml import etreetext = '''
<div>
<ul>
<li class="item-0"><a-href="link1.html">first item</a></li>
<li class="item-1"><a-href="link2.html">second item</a></li>
<li class="item-inactive"><a-href="link3.html">third item</a></li>
<li class="item-1"><a-href="link4.html">fourth item</a></li>
<li class="item-0"><a-href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.HTML(text)
result = html.xpath('//li[1]/a/text()')
print(result)
result = html.xpath('//li[last()]/a/text()')
print(result)
result = html.xpath('//li[position()<3]/a/text()')
print(result)
result = html.xpath('//li[last()-2]/a/text()')
print(result)

第一次选择时,我们选取了第一个li节点,这里在中括号中传入1就可。

第二次选择时,我们选取最后一个li节点,中括号中传入last()即可。

第三次选择时,我们选取了位置小于3的li节点,运用了position()函数。

第四次选择时,我们选择了都输第三个li节点,中括号中传入last()-2即可。

在Xpath中,提供了100多个函数,包括存取、数值、字符串、逻辑、节点、序列等的处理功能。

14.节点轴选择

XPath提供了许多节点轴选择方法,包括获取子元素、兄弟元素、父元素、祖先元素等,示例如下:

from lxml import etreetext = '''
<div>
<ul>
<li class="item-0"><a-href="link1.html">first item</a></li>
<li class="item-1"><a-href="link2.html">second item</a></li>
<li class="item-inactive"><a-href="link3.html">third item</a></li>
<li class="item-1"><a-href="link4.html">fourth item</a></li>
<li class="item-0"><a-href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.HTML(text)
result = html.xpath('//li[1]/ancestor::*')
print(result)
result = html.xpath('//li[1]/ancestor::div')
print(result)
result = html.xpath('//li[1]/attribute::*')
print(result)
result = html.xpath('//li[1]/child::a[@href="link1.html"]')
print(result)
result = html.xpath('//li[1]/descendant::span')
print(result)
result = html.xpath('//li[1]/following::*[2]')
print(result)
result = html.xpath('//li[1]/following-sibling::*')
print(result)

1ab1b424af968ff573c8dd4d42e05e9a.png

第一次选择时,我们调用了ancestor轴,可以获取所有的祖先节点。之后需要跟两个冒号,然后是节点的选择器,这里我们使用*,表示匹配所有节点。

第二次选择时,我们又加了限定条件div,这时得到的结果就只有div这个祖先节点了。

第三次选择时,我们调用了attribute轴,可以获取所有属性值,其建瓯跟的选择器还是*,代表获取节点的所有属性。

第四次选择时,我们调用了child轴,可以获取所有直接子节点。这里我们又加入了限定条件,选取href属性为link1.html的a节点。

第五次选择时,我们调用了descendant轴,可以获取所有的子孙节点。这里我们又加入了限制条件获取span节点。所以返回的结果只包含span节点而不包括a节点。

第六次选择时,我们调用了following轴,可以获取当前节点之后的所有节点。这里我们使用*匹配,但又加入了索引选择,所以只获取了第二个后续节点。

第七次选择时,我们调用了following-sibling轴,可以获取当前节点之后的所有同级节点。这里我们使用*匹配,获取所有后续同级节点。

参考书目:《Python 3 网络爬虫开发实战》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/429861.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux压缩与解压常用命令

欢迎和大家交流技术相关问题&#xff1a; 邮箱: jiangxinnju163.com 博客园地址: http://www.cnblogs.com/jiangxinnju GitHub地址: https://github.com/jiangxincode 知乎地址: https://www.zhihu.com/people/jiangxinnju tar的相关参数-c: 建立压缩档案-x&#xff1a;解压-t&…

mysql 预留一个自定义字段_MySQL 按指定字段自定义列表排序 | DevOps

问题描述大家都知道, MySQL 中按某字段升序排列的 SQL 为 (以 id 为例, 下同):SELECT * FROM MyTableWHERE id IN (1, 7, 3, 5)ORDER BY id ASC降序排列的 SQL 为:SELECT * FROM MyTableWHERE id IN (1, 7, 3, 5)ORDER BY id DESC有时以上排序并不能满足我们的需求. 例如, 我们…

canny算法的实现(android加载图片,数组写入文件换行)

Canny边缘检测首先要对图像进行高斯去噪&#xff0c;前面讲到了高斯去噪处理&#xff0c;这里从对图像灰度进行微分运算讲起吧。微分运算常用的方法是利用模板算子&#xff0c;把模板中心对应到图像的每一个像素位置&#xff0c;然后按照模板对应的公式对中心像素和它周围的像素…

python程序中想使用正则表达式_python中正则表达式的使用方法

本文主要关于python的正则表达式的符号与方法。findall: 找寻所有匹配&#xff0c;返回所有组合的列表search: 找寻第一个匹配并返回sub: 替换符合规律的内容&#xff0c;并返回替换后的内容.&#xff1a;匹配除了换行符以外的任意字符a xy123b re.findall(x...,a)print(b)# …

jQ实现JSON.stringify(obj)方法

jQstringify是使用jQuery实现的JSON.stringify(obj)方法代码如下&#xff1a;<script type"text/javascript" src"http://keleyi.com/keleyi/pmedia/jquery/jquery-1.10.2.min.js"></script>function jQstringify( obj ) {var arr [];$.each(…

解决问题的反馈机制_谈谈HBase中的Nonce机制

最近在读hbase源码关于rpc的一些实现细节&#xff0c;想正好趁此机会和大家分享一下我理解到的hbase关于Nonce机制的实现。Nonce机制的来源Nonce这个词由来已久&#xff0c;且在各个领域都会有相对应的名词解释。对于HBase来说&#xff0c;由于网络环境的复杂性&#xff0c;在客…

【VirtualBox】VirtualBox的桥接网络模式,为啥网络不稳定?

网桥模式访问外网非常慢&#xff0c;经常卡死&#xff0c;ping时断时续 七搞八搞&#xff0c;反复重启了几次 TMD 就好了&#xff0c;也不知道什么情况&#xff0c;VirtualBox还是不太好使啊。。。。。 网桥模式 设置 如下&#xff1a; 参考资料&#xff1a; http://blog.csdn…

白盒基本路径发测试实验报告_软件生命周期、白盒测试、黑盒测试

继上一讲&#xff1a;隅巳毕月&#xff1a;达摩克里斯之——排序与查找技术​zhuanlan.zhihu.com我们今天来讲一下软件周期与两种软件测试方法软件开发应遵循一个软件的生命周期&#xff0c;通常把软件产品从提出、实现、使用、维护到停止使用、退役的过程称为软件生命周期。软…

Windows7睡眠后自动唤醒

笔者的电脑&#xff08;Windows7 64位旗舰版&#xff09;睡眠后&#xff0c;隔段时间后会自动唤醒。经两项配置后&#xff0c;解决了该问题。 1 禁用唤醒定时器 控制面板里进入"电源选项""更改计划设置"界面&#xff0c;如下图所示 单击上图的"更改高…

bootstrap 两个轮播图冲突_为什么使用bootstrap在一个页面同时做两个轮播效果时,只有第一个有效??...

我们都知道使用bootstrap做轮播效果非常快&#xff0c;但是有时候一个页面会需要两个轮播&#xff1b;但这个时候再次使用bootstrap做轮播效果时就会失效&#xff1b;原因在于bootstrap的Carousel问题&#xff0c;只要修改一下id&#xff0c;就好了~~这是第一个轮播&#xff1a…

Ajax的用法

1 Ajax是什么 1.1 Asynchronous JavaScript and XML&#xff08;异步的javascript和xml&#xff09; 实质为&#xff1a;使用浏览器内置的一个对象&#xff08;XmlHttpRequest&#xff09;向服务器发送请求&#xff0c;服务器返回xml数据或文本数据给浏览器&#xff0c;然后在浏…

mysql降级_mysql8降级到mysql5的方法介绍

本篇文章给大家带来的内容是关于mysql8降级到mysql5的方法介绍&#xff0c;有一定的参考价值&#xff0c;有需要的朋友可以参考一下&#xff0c;希望对你有所帮助。最近在研究liferay的使用。liferay可以连接mysql数据库。电脑中装的mysql的最新版本是mysql8。于是开始按照life…

Node.js server使用

一、创建项目 #创建项目目录 cd /data mkdir webroot cd webroot#初始化git git init vim .gitignore 输入&#xff1a; node_modules/ 保存: :wq#初始化npm,生成package.json npm init#安装express npm install -D express#创建入口文件 vim app.js输入&#xff1a; var expr…

ubuntu安装jdk_mysql_Ubuntu server 安装及jdk+mysql安装教程

Ubuntu server 安装教程1.查找及下载Ubuntu镜像文件可以在以下页面下载想要的版本,我这里选择19.04 server版的iso镜像文件:http://mirrors.163.com/ubuntu-releases/19.04/2.腾出一个空U盘&#xff0c;4G左右就行&#xff0c;iso文件本身就有750M左右,制作安装盘1).使用UltraI…

模仿Linux内核kfifo实现的循环缓存

想实现个循环缓冲区&#xff08;Circular Buffer&#xff09;&#xff0c;搜了些资料多数是基于循环队列的实现方式。使用一个变量存放缓冲区中的数据长度或者空出来一个空间来判断缓冲区是否满了。偶然间看到分析Linux内核的循环缓冲队列kfifo的实现&#xff0c;确实极其巧妙。…

win32mysql数据库回复_windows mysql 数据库备份与还原方法

一.使用 Mysql 自带 mysqldump 命令进行数据库备份mysql 数据库自带备份命令 mysqldump ,可对数据库进行备份操作最简单的备份是将数据库备份至本地&#xff0c;生成 **.sql 文件编写备份脚本文件(创建一个 txt 文件&#xff0c;写入批处理脚本&#xff0c;再将文件的后缀改为…

领域模型(domain model)贫血模型(anaemic domain model)充血模型(rich domain model)

领域模型是领域内的概念类或现实世界中对象的可视化表示&#xff0c;又称为概念模型或分析对象模型&#xff0c;它专注于分析问题领域本身&#xff0c;发掘重要的业务领域概念&#xff0c;并建立业务领域概念之间的关系。 贫血模型是指使用的领域对象中只有setter和getter方法&…

datagrid显示mysql_WPF DataGrid显示MySQL查询信息,且可删除、修改、插入 (原发布 csdn 2018-10-13 20:07:28)...

1、入行好几年了&#xff0c;工作中使用数据库几率很小(传统行业)。借着十一假期回家机会&#xff0c;学习下数据库。2、初次了解数据库相关知识&#xff0c;如果本文有误&#xff0c;还望告知。3、本文主要目的&#xff0c;记录下wpf界面显示数据库信息&#xff0c;且可进行删…

网站SEO优化中内部链接的优化

重要性&#xff1a;内链有效的优化能够间接的提高某页面的权重达到搜索排名靠前的效果。同时有效的带领搜索引擎蜘蛛对整站进行抓取。 网站头部导航&#xff1a; 这个导航称为‘网站主导航’&#xff0c;当用户来到网站需要给他们看到的内容。也就是UE&#xff08;用户体验&…

mysql 集群 qps_MySQL Cluster:如何通过扩展为MySQL带来2亿QPS

本篇文章的目的在于介绍MySQL Cluster——也就是MySQL的一套内存内、实时、可扩展且具备高可用性的版本。在解决标题中所提到的每秒2亿查询处理能力问题之前&#xff0c;我们先对MySQL集群的背景信息及其架构进行一番回顾&#xff0c;这将有助于大家理解上述目标的实现过程。My…