文章目录
- 1、Xpath
- 1.1 什么是xpath?
- 1.2 xpath的原理
- 1.3 xml介绍
- 1.3.1 什么是xml?
- 1.3.2 xml和html的区别?
- 1.3.3 xml文档的节点关系
- 1.4 xpath语法的使用
- 1.4.1 选取节点
- 1.4.2 选取未知节点
- 1.4.3 同时使用多个路径表达式
- 2、lxml库
- 2.1 介绍
- 2.2 基础使用
- 2.3 文件读取html文档
- 2.4 实例测试
- 2.5 扩展
1、Xpath
1.1 什么是xpath?
XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档对元素和属性进行遍历
XML Path Language : XML路径语言
1.2 xpath的原理
我们知道xpath就是一门对xml文档进行信息筛选的一门语言,而我们平常抓取的网页源码基本都是HTML格式的,所以我们需要
先将HTML文档转为XML文档,再用XPath语法查找HTML节点或元素
1.3 xml介绍
1.3.1 什么是xml?
1、XML指可扩展标记语言
2、XML是一种标记语言,类似于HTML
3、XML的设计宗旨是传输数据,而非显示数据
4、XML标签需要我们自己自定义
5、XML被设计为具有自我描述性