Xpath 是一个非常好用的解析方法,使用前需要安装对应的库,这个自行搜索,很简单!
示例代码
from lxml import etree
text = '''
<div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html">third item</a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a></ul></div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
result1 = html.xpath('//li/@class') # xpath表达式
print(result1)
print(result)
获取某标签的文本内容:text()
result_one = html.xpath('//html/body/div[2]/div[1]/div[2]/table/tbody/tr/td[2]/text()')
对于同一级多个同样的标签采用下图所示的方法获取对应的标签
其余的具体可阅读菜鸟教程:XPath 语法 | 菜鸟教程