1、从文件中读取html内容,然后xpath加载
with open('FilePath', 'r',encoding='utf8') as file:html = file.read()
tree = etree.HTML(html)
2、基本定位语法
/ 从根节点开始选取 /html/div/span
// 从任意节点开始选取 //input
. 选取当前节点
.. 选取当前节点的父节点
3、正则表达式匹配内容
CitedNames = item.xpath('.//a[re:test(text(),"[^View All]")]/text()',namespaces={"re": "http://exslt.org/regular-expressions"})
其中[^View All]是正则表达式部分,这里是text不等于View All的;需要注意的是,如果是等于,则不需要[],即直接用,如:
skill = tree.xpath('//div[@class="nova-c-card__body nova-c-card__body--spacing-inherit"]//b[re:test(text(),"Skills and Expertise")]/text()',namespaces={"re": "http://exslt.org/regular-expressions"})
xpath中的.是当前节点开始;item是我当前要处理的节点。
说明:这里我使用的是re:test,因为re:test比re:match更高效,因为test返回的是一个布尔值,而match返回的是满足条件的数组,随意根据自己的需求调整。
不包括的写法:not(contains(xx,"具体内容"),如:
#text中不包括[...]的
resInfo['authors'] = researchItem[3].xpath('.//span[not(contains(text(),"[...]"))]/text()')
#如果是属性中不包括的则,如,a中href不包含more的
resInfo['authors'] = researchItem[3].xpath('.//a[not(contains(@href,"more"))]/text()')
4、当前节点的父节点的父节点
..为当前节点的父节点的选择,父节点的父节点即是../../;如:
skill[0].xpath('../..//a[re:test(text(),"[^Show more]")]/text()',namespaces={"re": "http://exslt.org/regular-expressions"})
5、根据id或class检索
#从根节点开始找id为xxx的div
researchItemDiv = tree.xpath('//div[@id="research-items"]')#从根节点出发找class为xxx的div内的文本
aboutArr = tree.xpath('//div[@class="nova-c-card__body nova-c-card__body--spacing-inherit"]//text()')