与bs4的区别
bs4有很多属性和方法,而xpath只有一个方法,是通过不同的xpath表达式实现很多功能的。
html例子
定位
tree.xpath(‘/html/head/title’)
返回列表。
开头的斜杠表示从根节点遍历。
中间的斜杠表示层级。(相当于bs4中的>)
如果直接打印:
返回的是一个element对象,其中存储的title标签对应的文本内容
tree.xpath(‘/html/body/div’)
分析例子,得知返回应该是三个element
tree.xpath(‘/html//div’)
两个杠,代表跨层。(相当于bs4中的空格)
输出与 tree.xpath(‘/html/body/div’) 相同
tree.xpath(‘//div’)
含义是定位全部div (理解:就是从任意位置开始定位)
tree.xpath(‘//div[@class=“song”]’)
属性定位。
返回的仍是列表。
想定位下面这个div,发现它有一个属性 class=song
tree.xpath(‘//div[@class=“song”]/p[3]’)
索引定位。
返回仍是列表。
如果定位苏轼那一行,就是在div的第三个p标签。
注意:索引从1开始,而不是0开始。
取文本
tree.xpath(‘//div[@class=“tang”]/ul/li[5]/a/text()’)
返回列表。
tree.xpath(‘//div[@class=“tang”]/ul/li[5]/a/text()’) [0]就是只有杜牧两个字了。
tree.xpath(‘//li[7]/i/text()’) [0]
如果要定位度蜜月,那么发现它是全文中第七个li标签。
/text()获取标签直系文本内容
tree.xpath(‘//li[7]//text()’) [0]
等价于上面。
//text()获取标签所有文本内容
取属性
tree.xpath(‘//div[@class=“song”]/img/@src’)