1.lxml是做什么的
是xml/html的解析器,主要是用来解析和提取html/xml数据
2.lxml语法
- 使用etree.HTML(html字符串),将字符串转换为Element对象
- 通过使用Element对象.xpath(语法)提取信息,返回的是一个列表的内存地址,需要通过使用索引获取信息
3.Xpath是什么
在HTML/xml文档中查找信息的语言,使用路径表达式来选取html/xml文档中的节点/节点集
4.常用节点选取工具
- 谷歌浏览器里面使用XPath Helper
5.XPath 语法
-
节点选择语法
-
节点分类 概念 举例 / 从根节点取 /html/head/div 获取的html节点下的head节点下所有的div节点内容信息 // 从匹配选择的当前节点选择文档中的节点,不考虑节点位置 //div 获取全html文档内的所有div节点的内容信息,返回列表 . 选取当前节点 .. 选取当前节点的父节点 @ 选取指定节点内的属性 //div[@class="map"] 获取全文档下的div节点中属性class的值为map的节点内容信息,返回的是列表
//img[@id="s_log"]/@scid获取img标签的id为s_log的scid
-
-
节点修饰语法