python怎么爬虫理数据_Python神技能 | 使用爬虫获取汽车之家全车型数据

2cb0e1ac7dfdbca4fa089fd407694300.png

最近想在工作相关的项目上做技术改进,需要全而准的车型数据,寻寻觅觅而不得,所以就只能自己动手丰衣足食,到网上获(窃)得(取)数据了。

汽车之家是大家公认的数据做的比较好的汽车网站,所以就用它吧。(感谢汽车之家的大大们这么用心地做数据,仰慕)

俗话说的好,“十爬虫九python”,作为一只java狗,我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。

在写这个爬虫之前,我用urllib2,BeautifulSoup写了一个版本,不过效率太差,而且还有内存溢出的问题,作为python小白感觉很无力,所以用scrapy才是正道。

嗯,开搞。

准备工作

1.安装python,版本是2.7

2.安装scrapy模块, 版本是1.4.0

参考

汽车之家车型数据爬虫[https://github.com/LittleLory/codePool/tree/master/python/autohome_spider]:这是我工程的代码,以下内容需要参照着代码来理解,就不贴代码在这里了。

Scrapy中文文档:这是Scrapy的中文文档,具体细节可以参照文档。感谢Summer同学的翻译。

Xpath教程:解析页面数据要用到xpath的语法,简单了解一下,在做的过程中遇到问题去查一下就可以了。

初始化工程

scrapy工程的初始化很方便,在shell中的指定目录下执行scrapy start startproject 项目名称,就自动化生成了。

执行这步的时候遇到了一个问题,抛出了异常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1",解决方法是执行sudo pip install twisted==13.1.0,应该是依赖库版本不兼容。

目录结构

工程初始化后,scrapy中的各个元素就被构建好了,不过构建出来的是一副空壳,需要我们往里边写入我们的爬虫逻辑。

初始化后的目录结构是这样的:

  • spiders:爬虫目录,爬虫的爬取逻辑就放在个目录下边
  • items.py:数据实体类,在这里定义我们爬到的数据结构
  • middlewares.py:爬虫中间件(我自己翻译的哈),在这里定义爬取前、爬取后需要处理的逻辑
  • pipelines.py:数据管道,爬取后的数据实体会经过数据管道的处理
  • settings.py:配置文件,可以在这里配置爬虫的爬取速度,配置中间件、管道是否开启和先后顺序,配置数据输出的格式等。

了解过这些文件的作用后就可以开始写爬虫了。

开始吧!

首先,确定要爬取的目标数据。

我的目标是获取汽车的品牌、车系、车型数据,先从品牌开始。

在汽车之家的页面中寻觅一番后,找到了一个爬虫的切入点,汽车之家车型大全。这个页面里有所有品牌的数据,正是我的目标。不过在观察的过程中发现,这个页面里的品牌数据是在页面向下滚动的过程中延迟加载的,这样我们通过请求这个页面不能获取到延迟加载的那部分数据。不过不要慌,看一下延迟加载的方式是什么样的。

打开浏览器控制台的网络请求面板,滚动页面来触发延迟加载,发现浏览器发送了一个异步请求:

1a563497dd8ecc54b11a82676a70fdee.png

复制请求的URL看看:

  • http://www.autohome.com.cn/grade/carhtml/B.html
  • http://www.autohome.com.cn/grade/carhtml/C.html
  • http://www.autohome.com.cn/grade/carhtml/D.html

找到规律了,每一次加载的URL,都只是改变了对应的字母,所以对A到Z分别请求一次就取到了所有的品牌数据。

打开http://www.autohome.com.cn/grade/carhtml/B.html看下,发现页面的数据很规整,是按照品牌-厂商-车系的层级组织的。嗯,正合我意,那就开爬吧。

编写Spider

在spiders目录下边,新建一个brand_spider.py文件,在文件中定义BrandSpider类,这个类继承了scrapy.Spider类,这就是scrapy的Spider类。在BrandSpider中,需要声明name变量,这是这个爬虫的ID;还需要声明start_urls,这是爬虫的起点链接;再定义一个parse方法,里面实现爬虫的逻辑。

parse方法的入参中,response就是对start_urls中的链接的请求响应数据,我们要爬取的品牌数据就在这里面,我们需要从response中提取出来。从response提取数据需要使用xpath语法,参考上边的xpath教程。

提取数据之前,需要先给品牌数据定义一个实体类,因为需要把品牌数据存到数据实体中并落地到磁盘。在items.py文件中定义一个BrandItem类,这个类继承了scrapy.Item类,类中声明了爬取到的、要落地的品牌相关数据,这就是scrapy的Item类。

定义好品牌实体后,在parse方法中声明一个BrandItem实例,然后通过reponse.xpath方法取到想要的品牌ID、品牌url、品牌名称、图标url等数据,并设置到BrandItem实例中,最后通过yield来聚合爬取到的各个品牌数据并返回,返回的数据会进入pipeline。

编写Pipeline

爬取到的数据接着被pipeline.py文件中定义的Pipeline类处理,这个类通常是对传入的Item实体做数据的清洗、排重等工作,可以定义多个Pipeline,依次对Item处理。由于暂时没有这方面的需要,就不改写这个文件,保持默认状态就好。经过pipeline的处理后,数据进入数据集。

输出csv格式数据

对于爬取到的车型数据,我想以csv的格式输出,并且输出到指定目录下,此时需要修改settings.py文件。

在settings.py中添加FEED_FORMAT = 'csv'FEED_URI = 'data/%(name)s_%(time)s.csv'两项,目的是指定输出格式为csv,输出到data目录下,以”爬虫名称_爬取时间.csv“格式命名。

执行爬虫

品牌数据的爬虫编写完成了,在项目根目录下执行scrapy crawl brand,不出意外的话,在执行了brand爬虫后,会在data目录下出现一个新的csv文件,并且装满了品牌数据。

小心被屏蔽

不过需要注意一个问题,就是当爬虫高频地请求网站接口的时候,有可能会被网站识别出来并且屏蔽掉,因为太高频的请求会对网站的服务器造成压力,所以需要对爬虫限速。

在settings.py中添加DOWNLOAD_DELAY = 3,限制爬虫的请求频率为平均3秒一次。

另外,如果爬虫发送的请求头中没有设置user agent也很容易被屏蔽掉,所以要对请求头设置user agent。

在项目根目录下新建user_agent_middlewares.py文件,在文件中定义UserAgentMiddleware类,继承了UserAgentMiddleware类。在UserAgentMiddleware中声明user_agent_list,存放一些常用的user agent,然后重写process_request方法,在user_agent_list中随机选取user agent写入请求头中。

车系、车型爬虫

车系爬虫与上边的品牌爬虫类似,实现在spiders/series_spider.py中。

车型爬虫稍微复杂一些,实现在spiders/model_spider.py中。车型爬虫要从页面中解析出车型数据,同时要解析出更多的URL添加到请求队列中。而且,车型爬虫爬取的页面并不像品牌数据页面那么规整,所以要根据URL的特征以及页面中的特征来调整解析策略。因此在这里用到了CrawlSpiderRules,具体参照Spider文档。

总结

以上就实现了一个简单的汽车之家的车型数据爬虫,其中用到了scrapy中的部分元素,当然还有很多元素没有涉及到,不过对于一个简单爬虫来说足矣。

Tip

在用xpath解析页面的时候,写出来的xpath语句很可能与预期不符,而且调试起来很麻烦,我是用以下方式来提高效率的:

  1. 使用chrome上的XPath Helper插件。安装好插件,打开目标页面,按command+shift+x(mac版的快捷键)打开插件面板,在面板里输入xpath语句,就能看到取到的结果了:

dcc07ca428c92aad2a3c7c46e3f57b21.png
  1. 使用scrapy shell调试。在工程目录下执行scrapy shell http://www.xxxxx.xx,之后就会进入python的交互终端,这时就可以进行调试了。执行print response.xpath('xxxxx')来验证xpath语句是否符合预期。
作者:littlelory
来源:http://www.jianshu.com/p/792e19ed9e1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/383048.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux运算_CentOS「linux」学习笔记22:算术运算符、逻辑运算符、关系运算符

​linux基础操作:主要介绍啦算术运算符、逻辑运算符、关系运算符1.算术运算符[主要用来计算数值]注意使用expr运算时运算符和数值之间需要有空格,其他方式运算时不能有空格。常用算术运算符号:表示相加,-表示相减&…

python实现小型搜索引擎设计_基于JAVA的中小型饭店餐饮管理系统的设计与实现...

好程序设计擅长JAVA(SSM,SSH,SPRINGBOOT)、PYTHON(DJANGO/FLASK)、THINKPHP、C#、安卓、微信小程序、MYSQL、SQLSERVER等,欢迎咨询今天将为大家分析一个中小型饭店餐饮管理系统(俗话说“民以食为天”,中国的饮食文化有着久远的历史。“吃”不仅仅指的是填饱肚子,它早…

评估报告有效期过期了怎么办_托福成绩过期了怎么办?

托福成绩是有期限的,考生申请美国大学的时候也只能在托福成绩有效期内。所以考托福的时候一定要关注一下托福成绩什么时候过期,以及大学申请的截止日期,提前做好安排。下面我们一起看看关于托福成绩有效期的相关问题。托福成绩有效期是多久&a…

装配组件_基于Haption力反馈系统的交互式装配仿真

在一个新工业产品的设计过程中,装配规划是非常重要的任务。如果规划不好将造成很大的资金浪费,致使组件不能正确地集成。例如典型问题:移动一个组件到指定位置但空间不足;使用工具够不到螺丝;操作者没有足够的视域以保…

作为唯一索引_Mysql什么情况下不走索引?

本文基于Mysql5.7版本和InnoDB存储引擎。1、InnoDB索引组织表在InnoDB引擎中,表都是按照主键顺序组织存放的,这种存放方式的表称为索引组织表。InnoDB存储引擎中的表,都有主键,如果没有显式声明主键,则采取以下措施&am…

r语言系统计算上是奇异的_R语言实现并行计算

Python作为多线程的编程语言在并行方面相对于R语言有很大的优势,然而作为占据统计分析一席之地的R语言自然不能没有并行计算的助力。那么我们来看下在R语言中有哪些并行的包:隐式并行:OpenBLAS,Intel MKL,NVIDIA cuBLA…

cansina 目录_dirmap - 一个高级web目录、文件扫描工具-华盟网

Dirmap一个高级web目录扫描工具,功能将会强于DirBuster、Dirsearch、cansina、御剑需求分析经过大量调研,总结一个优秀的web目录扫描工具至少具备以下功能:并发引擎能使用字典能纯爆破能爬取页面动态生成字典能fuzz扫描自定义请求自定义响应结…

唯有自己变得强大_物竞天择,适者生存,唯有强大自己,方能百毒不侵

物竞天择,适者生存,这是亘古不变的道理。面对生活中的困难,人生路上的挫折,我们只有足够坚强,足够勇敢,足够强大,才能战胜这一切。人活着要明白,你所有的负面,都源于你的…

树莓派c语言运行_树莓派完成简单的编程(四)

在上一篇文章中,我们学习了Vi文本编辑器,那么用它可以实现什么功能呢?树莓派python以及c语言编程这里我选择了最简单和很流行的两种编程语言:C语言和Python。实现最简单的功能,输出hello world。Python编程简介Python是…

python中的与或非_「Python基础」 While 循环语句

Python 编程中 while 语句用于循环执行程序,即在某条件下,循环执行某段程序,以处理需要重复处理的相同任务。其基本形式为:while 判断条件:执行语句……执行语句可以是单个语句或语句块。判断条件可以是任何表达式&…

go定时器 每天重复_Go语言学习基础-定时器、计时器

Timer计时器如果希望在将来的某个时间点执行Go代码,或者在某个时间间隔重复执行Go代码,使用Go内置的timer和ticker功能。先看定时器timer,然后再看计时器ticker。定时器代表未来的单个事件。告诉定时器需要等待多长时间,它返回一个…

html类名定义规则_HTML入门笔记1

HTML 是谁发明的?Tim Berners-LeeHTML起手式&#xff1a;HTML起手式 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0&q…

怎样检测mysql5.5安装成功_64位wiN7系统中装配MySQL5.5.17(测试安装成功哦!)

64位wiN7系统中安装mysql5.5.17(测试安装成功哦&#xff01;&#xff01;~~)下载地址&#xff1a;[url] http://www.mysql.com/downloads/mysql/[/url]下载的话需要登录,你只需按照要求注册一个账号,然后下载即可.我下载的是mysql-5.5.17-winx64.msi版本.安装步骤:Step 1. Mysq…

xcode 创建模拟器_Xcode编译WebKit

下载WebKit源码1)进入https://webkit.org/2)点击页面的 Get Started 进入新页面&#xff0c;如下图所示3)点击 Getting the code 进入新页面&#xff0c;如下图所示4)在源码下载页面&#xff0c;有多种下载方式&#xff0c;包括直接下载代码zip包&#xff0c;通过SVN下载&#…

mysql iscsi_iscsi共享存储的简单配置和应用

1、环境介绍SCSI(Small Computer System Interface)是块数据传输协议&#xff0c;在存储行业广泛应用&#xff0c;是存储设备最基本的标准协议。从根本上说&#xff0c;iSCSI协议是一种利用IP网络来传输潜伏时间短的SCSI数据块的方法&#xff0c;ISCSI使用以太网协议传送SCSI命…

request mysql 接口_TP5接口开发

开启debug调试模式(正式上线建议关闭)config.php// 应用调试模式app_debug > true,设置输出类型index.phpnamespace app\index\controller;class Index{public function index(){$data [name > steven, age > 24];return json([code > 0, msg > 操作成功, data…

命令行进入指定目录_VIM学习笔记 操作目录(Manipulate Directory)

在目录间移动使用以下命令&#xff0c;可以显示当前所在的目录&#xff1a;:pwd使用以下命令&#xff0c;在Linux下可以进入HOME目录&#xff0c;而在Windows下则显示当前所在目录&#xff1a;:cd使用以下命令&#xff0c;可以进入指定的目录&#xff1a;:cd D:tepm使用以下命令…

koa2 mysql 中间件_Koa2第二篇:中间件

第一篇介绍了生成器目录设计。xyzcoding&#xff1a;Koa2第一篇&#xff1a;详解生成器​zhuanlan.zhihu.com接下来学习Koa2的中间件。Koa2本身只能算一个极简的HTTP服务器&#xff0c;自身不内置中间件&#xff0c;但是提供中间件内核。中间件是Koa2的核心&#xff0c;因此需要…

rs485数据线接反_终于有人把RS485通讯的正确接线方式讲明白了,网友:这下好办了...

RS485是一个定义平衡数字多点系统中的驱动器和接收器的电气特性的标准,该标准由电信行业协会和电子工业联盟定义。使用该标准的数字通信网络能在远距离条件下以及电子噪声大的环境下有效传输信号。RS485使得廉价本地网络以及多支路通信链路的配置成为可能。那么RS485通讯的正确…

骑马与砍杀python代码_GitHub - yunwei1237/scottish-fold: 一个关于骑马与砍杀的剧本制作工具...

scottish-fold一个关于骑马与砍杀的剧本简单快速的制作工具前言​在很久以前的时候&#xff0c;也就是刚开始玩骑砍的时候就想着能够制作一个自己的剧本&#xff0c;用于书写自己想要的故事。当我怀着远大的梦想去这么做的时候才发现&#xff0c;原来制作剧本没有自己想象的那么…