例如,要获得一个类似以下内容的输出,需要什么
“现金和短期投资144841 169760 189252 86743 57379”?或者类似“物业、厂房和设备-总价值725104 632332 571467 538805 465493”?在
我已经通过siteshttp://www.techchorus.net/web-scraping-lxml介绍了Xpath的基本知识。然而,Xpath语法对我来说仍然是个谜。在
我已经成功地完成了这个任务。我喜欢这样一个事实,beauthoulsoup不需要我知道文件的结构-它只查找包含我搜索的文本的元素。不幸的是,beauthulsoup对于一个需要执行数千次的脚本来说太慢了。我在BeautifulGroup中任务的源代码是(title_input等于“现金和短期投资”):page = urllib2.urlopen (url_local)
soup = BeautifulSoup (page)
soup_line_item = soup.findAll(text=title_input)[0].parent.parent.parent
list_output = soup_line_item.findAll('td') # List of elements
那么在lxml中等价的代码是什么呢?在
编辑1:我第一次发布时,网址被隐藏了。我现在已经修好了。在
编辑2:我添加了基于beauthoulsoup的解决方案,以澄清我要做什么。在
编辑3:+10为您的解决方案添加根目录。为了将来有同样问题的开发人员的利益,我在这里发布了一个对我有用的快速而肮脏的脚本:
^{pr2}$