文章目录
- 3.8 CrawlSpider介绍
- 3.9 CrawlSpider爬取读书网案例
- 3.9.1 创建项目
- 3.9.2 定义要爬取的数据结构
- 3.9.3 获取数据
- 3.9.4 保存数据到本地
- 3.9.5 保存数据到mysql数据库
- 3.9.6 完整项目下载
3.8 CrawlSpider介绍
CrawlSpider
是 Scrapy 框架中 最常用的高级爬虫类之一,用于构建“自动跟踪链接、层层爬取”的爬虫,尤其适用于爬取整站、分页、栏目等类型的网站。
相比普通的 Spider
,CrawlSpider
可以 自动根据规则跟随链接跳转页面,你只需要定义“从哪里来”、“去哪里”、“谁来处理”,它就会自己爬完整个站点,非常适合结构清晰的站点。
🛠 小贴士
- 所有的解析函数(如
parse_item
)的名字 必须是字符串形式写在callback='xxx'
中。CrawlSpider
默认不会使用parse()
方法,请使用自定义的callback
方法来处理页面内容。- 你可以设置多个
Rule()
,爬不同类型的链接。
使用方式: