Python爬虫学习(二):xpath解析html

--xpath教程地址可参照:XPath 教程
被解析的html示例:
<html>
<body>
<div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html">third item</a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a></li></ul>
</div>
</body>
</html>
'''nodename   选取此节点的所有子节点/  从当前节点选取直接子节点// 从当前节点选取子孙节点.  选取当前节点.. 选取当前节点的父节点@  选取属性
'''
def xpathParse():# 解析htmlresult1 = etree.parse('test.html', etree.HTMLParser())result2 = etree.tostring(result1, method='html')print(result2.decode('utf-8'))
1、获取当前节点
 # 输出当前节点res = result1.xpath('.')print('当前节点为:', res)
2、获取所有节点:
 # 获取所有节点 * 代表所有节点result3 = result1.xpath('//*')print('result3输出结果为:', result3)
3、 获取所有li节点(从当前节点<Element html at 0x14fd2e09c40>直接选取子孙节点li) 
result4 = result1.xpath('//li')
print('result4输出结果为:', result4)
4、获取所有li节点下的a节点(从当前节点<Element html at 0x14fd2e09c40>直接选取子孙节点li,然后选取li的子节点a,如果存在返回值,不存在返回空)
 result5 = result1.xpath('//li/a')print('result5输出结果为:', result5)
5、获取当前节点的父节点的class
result6 = result1.xpath('//a[@href="link4.html"]/../@class')
result7 = result1.xpath('//a[@href="link4.html"]/parent::*/@class')
print('result6输出结果为:', result6)
print('result7输出结果为:', result7)
6、通过@进行属性过滤 过滤出li标签下class属性为item-0的元素
result8 = result1.xpath('//li[@class="item-0"]')
print('result8输出结果为:', result8)
7、获取标签下的文本信息’
result9 = result1.xpath('//a[@href="link4.html"]/text()')
print('result9输出结果为:', result9)
8、获取节点属性 使用@
result10 = result1.xpath('//li/a/@href')
print('result10输出结果为:', result10)
9、属性值匹配 通过contains方法(是否包含)
result11 = result1.xpath('//li[contains(@class,"item")]/a/text()')
print('result11输出结果为:', result11)
10、按序选择、获取节点属性 使用@
 result12 = result1.xpath('//li[1]')result13 = result1.xpath('//li[position()<3]')result14 = result1.xpath('//li[last()]')print('result12输出结果为:', result12)print('result13输出结果为:', result13)print('result14输出结果为:', result14)
11、节点轴选择
'''child:选择当前节点的直接子节点。parent:选择当前节点的父节点。descendant:选择当前节点的所有后代节点(子节点,子节点的子节点,等等)。ancestor:选择当前节点的所有先辈节点(父节点,父节点的父节点,等等)。following:选择文档中当前节点后面的所有节点。preceding:选择文档中当前节点前面的所有节点。following-sibling:选择当前节点的后续同级节点。preceding-sibling:选择当前节点的前置同级节点。self:选择当前节点。descendant-or-self:选择当前节点及其所有后代节点。ancestor-or-self:选择当前节点及其所有先辈节点。'''# 获取li节点的所有先辈节点result15 = result1.xpath('//li[1]/ancestor::*')print('result15输出结果为:', result15)

执行结果:

当前节点为: [<Element html at 0x1e84c28a380>]
result3输出结果为: [<Element html at 0x1e84c28a380>, <Element body at 0x1e84c5d7040>, <Element div at 0x1e84c5d70c0>, <Element ul at 0x1e84c5d7100>, <Element li at 0x1e84c5d7140>, <Element a at 0x1e84c5d71c0>, <Element li at 0x1e84c5d7200>, <Element a at 0x1e84c5d7240>, <Element li at 0x1e84c5d7280>, <Element a at 0x1e84c5d7180>, <Element li at 0x1e84c5d72c0>, <Element a at 0x1e84c5d7300>, <Element li at 0x1e84c5d7340>, <Element a at 0x1e84c5d7380>]
result4输出结果为: [<Element li at 0x1e84c5d7140>, <Element li at 0x1e84c5d7200>, <Element li at 0x1e84c5d7280>, <Element li at 0x1e84c5d72c0>, <Element li at 0x1e84c5d7340>]
result5输出结果为: [<Element a at 0x1e84c5d71c0>, <Element a at 0x1e84c5d7240>, <Element a at 0x1e84c5d7180>, <Element a at 0x1e84c5d7300>, <Element a at 0x1e84c5d7380>]
result6输出结果为: ['item-1']
result7输出结果为: ['item-1']
result8输出结果为: [<Element li at 0x1e84c5d7140>, <Element li at 0x1e84c5d7340>]
result9输出结果为: ['fourth item']
result10输出结果为: ['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
result11输出结果为: ['first item', 'second item', 'third item', 'fourth item', 'fifth item']
result12输出结果为: [<Element li at 0x1e84c5d7140>]
result13输出结果为: [<Element li at 0x1e84c5d7140>, <Element li at 0x1e84c5d7200>]
result14输出结果为: [<Element li at 0x1e84c5d7340>]
result15输出结果为: [<Element html at 0x1e84c28a380>]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/809581.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

可视化大屏的应用(12):在智慧制造中的十大价值

一、什么是智慧制造 智慧制造是指通过信息技术、物联网、人工智能等先进技术的应用&#xff0c;实现生产过程的数字化、网络化、智能化&#xff0c;从而提高生产效率、降低成本、提高产品质量和灵活性的一种制造模式。 智慧制造的核心是将传统的制造过程与先进的信息技术相结合…

前端自动化测试-Jest

前端自动化测试 Jest官网&#xff1a;https://jestjs.io 安装方式 npm install --save-dev jest yarn add --dev jest cnpm add --save-dev jest 使用方法 所有以 .test.js 结尾的都是测试文件 基础用法示例 num.js&#xff1a; export function getSum (a, b) {return a b…

java下载网络上的文件、图片保存到本地 FileUtils

java下载网络上的文件、图片保存到本地 FileUtils 1. 引入FileUtils依赖2. 实现代码3. 输出结果 1. 引入FileUtils依赖 <!--FileUtils依赖--> <!-- https://mvnrepository.com/artifact/commons-io/commons-io --> <dependency><groupId>commons-io&l…

LightM-UNet:Mamba 辅助的轻量级 UNet 用于医学图像分割

文章目录 摘要1 简介2、方法论2.1、架构概述2.2、编码器块2.3、瓶颈块2.4、解码器块3、实验4、结论摘要 https://arxiv.org/pdf/2403.05246.pdf UNet及其变体在医学图像分割中得到了广泛应用。然而,这些模型,特别是基于Transformer架构的模型,由于参数众多和计算负载大,使…

uni-app + vue3实现input输入框保留2位小数的2种方案

首先说明输入框中的格式限制如下&#xff1a; &#xff08;1&#xff09;当第一位为0时&#xff0c;第二位只能输入小数点&#xff0c;且不能输入其他数字&#xff08;如00&#xff09; &#xff08;2&#xff09;当第一位不为0时&#xff0c;后边不限制 &#xff08;3&…

手把手教你从零搭建ChatGPT网站AI绘画系统,(SparkAi系统V6)GPTs应用、DALL-E3文生图、AI换脸、垫图混图、SunoAI音乐生成

一、系统前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统&#xff0c;支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美&#xff0c;那么如何搭建部署AI创作ChatGPT&#xff1f;小编这里写一个详细图文教程吧。已支持…

智能Java开发工具IntelliJ IDEA v2024.1震撼发布——让开发工作更简单!

IntelliJ IDEA&#xff0c;是java编程语言开发的集成环境。IntelliJ在业界被公认为最好的java开发工具&#xff0c;尤其在智能代码助手、代码自动提示、重构、JavaEE支持、各类版本工具(git、svn等)、JUnit、CVS整合、代码分析、 创新的GUI设计等方面的功能可以说是超常的。 立…

2024年第十四届MathorCup数学应用挑战赛B题思路分享(妈妈杯)

B题 甲骨文智能识别中原始拓片单字自动分割与识别研究 甲骨文是我国目前已知的最早成熟的文字系统&#xff0c;它是一种刻在龟甲或兽骨上的古老文字。甲骨文具有极其重要的研究价值&#xff0c;不仅对中国文明的起源具有重要意义&#xff0c;也对世界文明的研究有着深远影响。…

必须掌握的这4种缓存模式

概述 在系统架构中&#xff0c;缓存可谓提供系统性能的简单方法之一&#xff0c;稍微有点开发经验的同学必然会与缓存打过交道&#xff0c;起码也实践过。 如果使用得当&#xff0c;缓存可以减少响应时间、减少数据库负载以及节省成本。但如果缓存使用不当&#xff0c;则可能…

java 邮件发送表格

邮件发送表格 问题导入效果图 实现方案1. 拼接HTML文件&#xff08;不推荐&#xff09;2. excel 转HTML使用工具类来转化依赖工具类代码示例 使用已工具包 如 aspose-cells依赖代码示例 3.使用模板生成流程准备模板工具类代码示例 问题导入 在一些定时任务中&#xff0c;经常会…

C语言之位运算符

一、原码反码补码的转换 ①对于正数而言&#xff0c;它的原码反码补码 eg&#xff1a; 以8bit的数据存储为例讲解。 10 原码&#xff1a;00001010反码&#xff1a;00001010补码&#xff1a;00001010 在内存中以补码存储②对于负数而言 负数的反码&#xff1a;符号位不变&am…

【STM32G431RBTx】备战蓝桥杯嵌入式→省赛试题→第十四届

文章目录 前言一、题目二、模块初始化三、代码实现interrupt.h:interrupt.c:main.h:main.c: 四、完成效果五、总结 前言 无 一、题目 二、模块初始化 1.LCD这里不用配置&#xff0c;直接使用提供的资源包就行 2.KEY, 四个按键IO口都要配置&#xff0c;分别是PB0, PB1,PB2,PA…

Unity单个物体绑定多个相机在轨道上移动,录制不同角度视频

环境搭建 下载Cinemachine插件安装 打开包管理器 下载cinemachine插件 创建轨道 使用dolly track 创建轨道 右侧可以删减关键点&#xff0c;注意调整y坐标 创建cart 把前面的轨道拖到path中&#xff0c;注意这里的speed要设定不为0才会动 设置VItual Camera 根据需…

使用Code开发Django_模版和CSS

转到定义 和 查看定义 在使用Django或任何其他库的过程中,我们可能需要检查这些库中的代码。VS Code提供了两个方便的命令,可以直接导航到任何代码中的类和其他对象的定义: 转到定义 在Python开发环境中,我们可以轻松地对函数、类或者其他导入模块中的成员使用“Go to Def…

【C 数据结构】双向链表

文章目录 【 1. 基本原理 】【 2. 双向链表的 创建 】实例 - 输出双向链表 【 3. 双向链表 添加节点 】【 4. 双向链表 删除节点 】【 5. 双向链表查找节点 】【 7. 双向链表更改节点 】【 8. 实例 - 双向链表的 增删查改 】 【 1. 基本原理 】 表中各节点中都只包含一个指针&…

【算法练习】30:快速排序学习笔记

一、快速排序的算法思想 原理&#xff1a;快速排序基于分治策略。它的基本思想是选择一个元素作为“基准”&#xff0c;将待排序序列划分为两个子序列&#xff0c;使得左边的子序列中的所有元素都小于基准&#xff0c;右边的子序列中的所有元素都大于基准。这个划分操作被称为分…

2024年 最火的Python学习路线

写在前面&#xff1a;Python是一种广泛使用的高级编程语言&#xff0c;以其简洁易读的代码和强大的库支持而受到开发者的青睐。作为一名刚开始学习Python的新手&#xff0c;或许您会对如何系统地学习这门语言感到困惑。接下来&#xff0c;我将为您提供一个详细的Python学习路线…

Elasticsearch部署安装

环境准备 Anolis OS 8 Firewall关闭状态&#xff0c;端口自行处理 Elasticsearch&#xff1a;7.16.1&#xff08;该版本需要jdk11&#xff09; JDK&#xff1a;11.0.19 JDK # 解压 tar -zxvf jdk-11.0.19_linux-x64_bin.tar.gz# 编辑/etc/profile vim /etc/profile# 加入如下…

Halcon颜色抽取-多产品颜色(MLP)

前言 //颜色抽取&#xff0c;单产品多区域 https://blog.csdn.net/m0_51559565/article/details/135216905由于在颜色抽取上面&#xff0c;我已经发了一篇博客了&#xff0c;是单产品多区域的情况。所以对于细分原理上就不过多的描述了。 本文主要是针对多产品多颜色的情况进行…

VSCode 作者插件大全

01. Chinese (Simplified) (简体中文) 02. C/C Themes 03. GitHub Copilot 04. GitHub Copilot Chat 05. Remote - SSH 06. Remote - SSH: Editing Configuration Files 07. Remote Explorer 08. VS Code Speech 09. vscode-icons 10. C/C 11. C/C Extension Pack 1…