一、scrapy库安装
pip install scrapy -i https://pypi.douban.com/simple
二、scrapy项目的创建
1、创建爬虫项目 打开cmd 输入scrapy startproject 项目的名字
注意:项目的名字不允许使用数字开头 也不能包含中文
2、创建爬虫文件 要在spiders文件夹中去创建爬虫文件
cd 项目的名字\项目的名字\spiders
cd scrapy_baidu_091\scrapy_baidu_091\spiders创建爬虫文件
scrapy genspider 爬虫文件的名字 要爬取网页
e.g.scrapy genspider baidu www.baidu.com
不需要添加http协议 因为start_urls的值是根据allowed_domains修改的
所以添加了http的话,那么start_urls就需要我们手动去修改
3、运行爬虫代码
scrapy crawl 爬虫名字
e.g.
scrapy crawl baidu
三、scrapy项目的基本使用
scrapy项目的结构
项目名字
项目名字
spiders文件夹(存储的是爬虫文件)
__init__
自定义的爬虫文件 核心功能文件
__init__
items 定义数据结构的地方
middlewares 中间件 代理
pipelines 管道 用来处理下载的数据
settings 配置文件 robots协议 user-agent定义等
四、scrapy文件里的response方法
1、response.text 获取响应的字符串
2、response.body 获取二进制数据
3、response.xpath 解析response中的内容
4、response.extract() 提取seletor对象的data属性
5、response.extract_first() 提取seletor列表的第一个数据