python怎么爬虫理数据_Python神技能 | 使用爬虫获取汽车之家全车型数据

2cb0e1ac7dfdbca4fa089fd407694300.png

最近想在工作相关的项目上做技术改进,需要全而准的车型数据,寻寻觅觅而不得,所以就只能自己动手丰衣足食,到网上获(窃)得(取)数据了。

汽车之家是大家公认的数据做的比较好的汽车网站,所以就用它吧。(感谢汽车之家的大大们这么用心地做数据,仰慕)

俗话说的好,“十爬虫九python”,作为一只java狗,我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。

在写这个爬虫之前,我用urllib2,BeautifulSoup写了一个版本,不过效率太差,而且还有内存溢出的问题,作为python小白感觉很无力,所以用scrapy才是正道。

嗯,开搞。

准备工作

1.安装python,版本是2.7

2.安装scrapy模块, 版本是1.4.0

参考

汽车之家车型数据爬虫[https://github.com/LittleLory/codePool/tree/master/python/autohome_spider]:这是我工程的代码,以下内容需要参照着代码来理解,就不贴代码在这里了。

Scrapy中文文档:这是Scrapy的中文文档,具体细节可以参照文档。感谢Summer同学的翻译。

Xpath教程:解析页面数据要用到xpath的语法,简单了解一下,在做的过程中遇到问题去查一下就可以了。

初始化工程

scrapy工程的初始化很方便,在shell中的指定目录下执行scrapy start startproject 项目名称,就自动化生成了。

执行这步的时候遇到了一个问题,抛出了异常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1",解决方法是执行sudo pip install twisted==13.1.0,应该是依赖库版本不兼容。

目录结构

工程初始化后,scrapy中的各个元素就被构建好了,不过构建出来的是一副空壳,需要我们往里边写入我们的爬虫逻辑。

初始化后的目录结构是这样的:

  • spiders:爬虫目录,爬虫的爬取逻辑就放在个目录下边
  • items.py:数据实体类,在这里定义我们爬到的数据结构
  • middlewares.py:爬虫中间件(我自己翻译的哈),在这里定义爬取前、爬取后需要处理的逻辑
  • pipelines.py:数据管道,爬取后的数据实体会经过数据管道的处理
  • settings.py:配置文件,可以在这里配置爬虫的爬取速度,配置中间件、管道是否开启和先后顺序,配置数据输出的格式等。

了解过这些文件的作用后就可以开始写爬虫了。

开始吧!

首先,确定要爬取的目标数据。

我的目标是获取汽车的品牌、车系、车型数据,先从品牌开始。

在汽车之家的页面中寻觅一番后,找到了一个爬虫的切入点,汽车之家车型大全。这个页面里有所有品牌的数据,正是我的目标。不过在观察的过程中发现,这个页面里的品牌数据是在页面向下滚动的过程中延迟加载的,这样我们通过请求这个页面不能获取到延迟加载的那部分数据。不过不要慌,看一下延迟加载的方式是什么样的。

打开浏览器控制台的网络请求面板,滚动页面来触发延迟加载,发现浏览器发送了一个异步请求:

1a563497dd8ecc54b11a82676a70fdee.png

复制请求的URL看看:

  • http://www.autohome.com.cn/grade/carhtml/B.html
  • http://www.autohome.com.cn/grade/carhtml/C.html
  • http://www.autohome.com.cn/grade/carhtml/D.html

找到规律了,每一次加载的URL,都只是改变了对应的字母,所以对A到Z分别请求一次就取到了所有的品牌数据。

打开http://www.autohome.com.cn/grade/carhtml/B.html看下,发现页面的数据很规整,是按照品牌-厂商-车系的层级组织的。嗯,正合我意,那就开爬吧。

编写Spider

在spiders目录下边,新建一个brand_spider.py文件,在文件中定义BrandSpider类,这个类继承了scrapy.Spider类,这就是scrapy的Spider类。在BrandSpider中,需要声明name变量,这是这个爬虫的ID;还需要声明start_urls,这是爬虫的起点链接;再定义一个parse方法,里面实现爬虫的逻辑。

parse方法的入参中,response就是对start_urls中的链接的请求响应数据,我们要爬取的品牌数据就在这里面,我们需要从response中提取出来。从response提取数据需要使用xpath语法,参考上边的xpath教程。

提取数据之前,需要先给品牌数据定义一个实体类,因为需要把品牌数据存到数据实体中并落地到磁盘。在items.py文件中定义一个BrandItem类,这个类继承了scrapy.Item类,类中声明了爬取到的、要落地的品牌相关数据,这就是scrapy的Item类。

定义好品牌实体后,在parse方法中声明一个BrandItem实例,然后通过reponse.xpath方法取到想要的品牌ID、品牌url、品牌名称、图标url等数据,并设置到BrandItem实例中,最后通过yield来聚合爬取到的各个品牌数据并返回,返回的数据会进入pipeline。

编写Pipeline

爬取到的数据接着被pipeline.py文件中定义的Pipeline类处理,这个类通常是对传入的Item实体做数据的清洗、排重等工作,可以定义多个Pipeline,依次对Item处理。由于暂时没有这方面的需要,就不改写这个文件,保持默认状态就好。经过pipeline的处理后,数据进入数据集。

输出csv格式数据

对于爬取到的车型数据,我想以csv的格式输出,并且输出到指定目录下,此时需要修改settings.py文件。

在settings.py中添加FEED_FORMAT = 'csv'FEED_URI = 'data/%(name)s_%(time)s.csv'两项,目的是指定输出格式为csv,输出到data目录下,以”爬虫名称_爬取时间.csv“格式命名。

执行爬虫

品牌数据的爬虫编写完成了,在项目根目录下执行scrapy crawl brand,不出意外的话,在执行了brand爬虫后,会在data目录下出现一个新的csv文件,并且装满了品牌数据。

小心被屏蔽

不过需要注意一个问题,就是当爬虫高频地请求网站接口的时候,有可能会被网站识别出来并且屏蔽掉,因为太高频的请求会对网站的服务器造成压力,所以需要对爬虫限速。

在settings.py中添加DOWNLOAD_DELAY = 3,限制爬虫的请求频率为平均3秒一次。

另外,如果爬虫发送的请求头中没有设置user agent也很容易被屏蔽掉,所以要对请求头设置user agent。

在项目根目录下新建user_agent_middlewares.py文件,在文件中定义UserAgentMiddleware类,继承了UserAgentMiddleware类。在UserAgentMiddleware中声明user_agent_list,存放一些常用的user agent,然后重写process_request方法,在user_agent_list中随机选取user agent写入请求头中。

车系、车型爬虫

车系爬虫与上边的品牌爬虫类似,实现在spiders/series_spider.py中。

车型爬虫稍微复杂一些,实现在spiders/model_spider.py中。车型爬虫要从页面中解析出车型数据,同时要解析出更多的URL添加到请求队列中。而且,车型爬虫爬取的页面并不像品牌数据页面那么规整,所以要根据URL的特征以及页面中的特征来调整解析策略。因此在这里用到了CrawlSpiderRules,具体参照Spider文档。

总结

以上就实现了一个简单的汽车之家的车型数据爬虫,其中用到了scrapy中的部分元素,当然还有很多元素没有涉及到,不过对于一个简单爬虫来说足矣。

Tip

在用xpath解析页面的时候,写出来的xpath语句很可能与预期不符,而且调试起来很麻烦,我是用以下方式来提高效率的:

  1. 使用chrome上的XPath Helper插件。安装好插件,打开目标页面,按command+shift+x(mac版的快捷键)打开插件面板,在面板里输入xpath语句,就能看到取到的结果了:

dcc07ca428c92aad2a3c7c46e3f57b21.png
  1. 使用scrapy shell调试。在工程目录下执行scrapy shell http://www.xxxxx.xx,之后就会进入python的交互终端,这时就可以进行调试了。执行print response.xpath('xxxxx')来验证xpath语句是否符合预期。
作者:littlelory
来源:http://www.jianshu.com/p/792e19ed9e1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/383048.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux运算_CentOS「linux」学习笔记22:算术运算符、逻辑运算符、关系运算符

​linux基础操作:主要介绍啦算术运算符、逻辑运算符、关系运算符1.算术运算符[主要用来计算数值]注意使用expr运算时运算符和数值之间需要有空格,其他方式运算时不能有空格。常用算术运算符号:表示相加,-表示相减&…

python实现小型搜索引擎设计_基于JAVA的中小型饭店餐饮管理系统的设计与实现...

好程序设计擅长JAVA(SSM,SSH,SPRINGBOOT)、PYTHON(DJANGO/FLASK)、THINKPHP、C#、安卓、微信小程序、MYSQL、SQLSERVER等,欢迎咨询今天将为大家分析一个中小型饭店餐饮管理系统(俗话说“民以食为天”,中国的饮食文化有着久远的历史。“吃”不仅仅指的是填饱肚子,它早…

评估报告有效期过期了怎么办_托福成绩过期了怎么办?

托福成绩是有期限的,考生申请美国大学的时候也只能在托福成绩有效期内。所以考托福的时候一定要关注一下托福成绩什么时候过期,以及大学申请的截止日期,提前做好安排。下面我们一起看看关于托福成绩有效期的相关问题。托福成绩有效期是多久&a…

sql语句的经典练习

表结构 –1.学生表 Student(s_id,s_name,s_birth,s_sex) –学生编号,学生姓名, 出生年月,学生性别 –2.课程表 Course(c_id,c_name,t_id) – –课程编号, 课程名称, 教师编号 –3.教师表 Teacher(t_id,t_name) –教师编号,教师姓名 –4.成绩表 Score(s_id,c_id,s_score…

四阶龙格库塔法的基本思想_数值常微分方程-欧拉法与龙格-库塔法

大三时候在跳蚤市场闲逛,从一位数学院的学长那里买了一些闲书,最近翻出来刚好有李荣华、刘播老师的《微分方程数值解法》和王仁宏老师的《数值逼近》,结合周善贵老师的《计算物理》课程,整理一下笔记。本文整理常微分方程数值求解…

OC中的类

OC中类 OC中类的定义 在Xcode中创建一个新的类,会自动给你生成两个文件一个是.h另外一个是.m文件,你新创建的类默认继承了NSObject类,因为有一些方法都需要基类中的方法。比如alloc分配内存 OC中用来描述类的使用interface 类名:父类来进行…

装配组件_基于Haption力反馈系统的交互式装配仿真

在一个新工业产品的设计过程中,装配规划是非常重要的任务。如果规划不好将造成很大的资金浪费,致使组件不能正确地集成。例如典型问题:移动一个组件到指定位置但空间不足;使用工具够不到螺丝;操作者没有足够的视域以保…

OC中的基本容器和基本数据类型

基本数据类型 NSRange 是一个结构体,里面有两个数据成员数据类型都为NSUInteger 就是c语言中的无符号整形,一个是location表示集合的起始地址,另外一个变量是length表示从起始地址开始算多少个元素。 NSRange的三种创建方式 //1.NSRange r…

python程序开发总结_python开发总结

两本不错的书:《Python参考手册》:对Python各个标准模块,特性介绍的比较详细。《Python核心编程》:介绍的比较深入,关键是,对Python很多高级特性都有介绍。一个开源代码:openstack,关…

Centos7通过yum安装jsoncpp库

拒绝下载软件包 一堆网上下载安装包,为了编译暗转包又下载插件,是真麻烦 看看有没有jsoncpp的相关库 $ yum list | grep jsoncpp-devel然后执行这两句,就完了 yum install jsoncpp.x86_64 yum install jsoncpp.devel.x86-64多简单

作为唯一索引_Mysql什么情况下不走索引?

本文基于Mysql5.7版本和InnoDB存储引擎。1、InnoDB索引组织表在InnoDB引擎中,表都是按照主键顺序组织存放的,这种存放方式的表称为索引组织表。InnoDB存储引擎中的表,都有主键,如果没有显式声明主键,则采取以下措施&am…

python捕获全局异常统一管理_python中如何用sys.excepthook来对全局异常进行捕获、显示及输出到error日志中...

使用sys.excepthook函数进行全局异常的获取。1. 使用MessageDialog实现异常显示;2. 使用logger把捕获的异常信息输出到日志中;步骤:定义异常处理函数, 并使用该函来替换掉系统的内置处理函数;对于threading.py的异常捕…

r语言系统计算上是奇异的_R语言实现并行计算

Python作为多线程的编程语言在并行方面相对于R语言有很大的优势,然而作为占据统计分析一席之地的R语言自然不能没有并行计算的助力。那么我们来看下在R语言中有哪些并行的包:隐式并行:OpenBLAS,Intel MKL,NVIDIA cuBLA…

cansina 目录_dirmap - 一个高级web目录、文件扫描工具-华盟网

Dirmap一个高级web目录扫描工具,功能将会强于DirBuster、Dirsearch、cansina、御剑需求分析经过大量调研,总结一个优秀的web目录扫描工具至少具备以下功能:并发引擎能使用字典能纯爆破能爬取页面动态生成字典能fuzz扫描自定义请求自定义响应结…

唯有自己变得强大_物竞天择,适者生存,唯有强大自己,方能百毒不侵

物竞天择,适者生存,这是亘古不变的道理。面对生活中的困难,人生路上的挫折,我们只有足够坚强,足够勇敢,足够强大,才能战胜这一切。人活着要明白,你所有的负面,都源于你的…

树莓派c语言运行_树莓派完成简单的编程(四)

在上一篇文章中,我们学习了Vi文本编辑器,那么用它可以实现什么功能呢?树莓派python以及c语言编程这里我选择了最简单和很流行的两种编程语言:C语言和Python。实现最简单的功能,输出hello world。Python编程简介Python是…

mysql 读写引擎_揭秘MySQL存储引擎spider

转自:兴趣部落​buluo.qq.com导读: Spider是为MySQL/MariaDB开发的一个特殊引擎,具有内嵌分片功能。现在它已经被集成到MariaDB10.0及以上版本中,作为MariaDB的一个新的主要性。Spider的主要功能是将数据分散到多个后端节点&#…

python中的与或非_「Python基础」 While 循环语句

Python 编程中 while 语句用于循环执行程序,即在某条件下,循环执行某段程序,以处理需要重复处理的相同任务。其基本形式为:while 判断条件:执行语句……执行语句可以是单个语句或语句块。判断条件可以是任何表达式&…

lamp mysql大小限制_LAMP 调优之:MySQL 服务器调优

关于 MySQL 调优有 3 种方法可以加快 MySQL 服务器的运行速度,效率从低到高依次为:替换有问题的硬件。对 MySQL 进程的设置进行调优。对查询进行优化。替换有问题的硬件通常是我们的第一考虑,主要原因是数据库会占用大量资源。不过这种解决方…

go定时器 每天重复_Go语言学习基础-定时器、计时器

Timer计时器如果希望在将来的某个时间点执行Go代码,或者在某个时间间隔重复执行Go代码,使用Go内置的timer和ticker功能。先看定时器timer,然后再看计时器ticker。定时器代表未来的单个事件。告诉定时器需要等待多长时间,它返回一个…