scrapy爬取豆瓣书单存入MongoDB数据库
- 一、安装scrapy库
- 二、创建scrapy项目
- 三、创建爬虫
- 四、修改settings,设置UA,开启管道
- 五、使用xpath解析数据
- 六、完善items.py
- 七、在douban.py中导入DoubanshudanItem类
- 八、爬取所有页面数据
- 九、管道中存入数据,保存至csv文件
- 十、将数据写入MongoDB数据库
- 十一、完整代码:
一、安装scrapy库
爬取的目标url是https://www.douban.com/doulist/45298673/,完整代码放在最后,使用命令pip install scrapy
安装scrapy库。
二、创建scrapy项目
使用命令scrapy startproject doubanshudan
来创建scrapy项目,再通过命令cd doubanshudan
进入项目目录。
三、创建爬虫
使用命令scrapy genspider douban douban.com
创建名为douban的爬虫,起始域名是douban.com。
四、修改settings,设置UA,开启管道
打开settings.py,将ROBOTSTXT_OBEY改为False,LOG_LEVEL设置为ERROR,将User-Agent改为自己的User-Agen,如下图所示:
在settings.py文件中取消管道代码的注释,如下图所示: