由于是初学者,业余学习,习惯使用windows,初次了解到pyspider写代码和调试代码非常简便;作者binux是在Ubuntu下部署测试的。在作者的博客看到windows下安装的讨论。windows直接安装失败主要是lxml、pycurl安装失败,需要用第三方的库安装
pycurl和lxml等第三方包可以在这里下载
http://www.lfd.uci.edu/~gohlke/pythonlibs
- 安装lxml-xx.whl、pycurl-xx.whl,先下载lxml-xx.whl,然后切换到下载目录,用pip安装,命令pip install xx.whl(xx.whl改为 实际文件名)
- pip install pyspider。如果遇到提示缺少依赖包,请到这里找 http://www.lfd.uci.edu/~gohlke/pythonlibs/,然后pip install xx.whl (xx.whl改为实际文件名),然后重试。
- 完成后,请耐心看作者博客和文档学习。
文档 http://doc.scrapy.org/en/latest/
作者博客 http://binux.me/
pyspider 爬虫教程(一):HTML 和 CSS 选择器
pyspider 爬虫教程(二):AJAX 和 HTTP
pyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面