以爬取豆瓣影评的电影名称为例。
第一步 鼠标右键单击,选择【检查】
第二步 切换到【元素】标签,展示源代码
选择下图的小箭头,再选择想要定位的文本,源代码会自动定位到该文本。
第三步 鼠标放在该文本的源代码上,右击选择【复制】-【复制XPath】或【复制完整XPath】
第四步 删除掉前面的内容和多余的索引
以电影名字为例。复制到的XPath如下
//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]
处理以后
ol/li/div/div/div/a/span
最后在代码里输的
movie_name=xp.xpath('//ol/li/div/div/div/a/span/text()')
附上打印出来的效果