基于
Python
的网络爬虫技术研究
王碧瑶
【摘
要】
摘要:专用型的网络爬虫能够得到想要的返回结果
,
本文就以拉勾网作
为例子
,
对基于
Python
的网络爬虫技术进行研究和分析。
【期刊名称】
数字技术与应用
【年
(
卷
),
期】
2017(000)005
【总页数】
1
【关键词】
Python
;网络爬虫技术;搜索引擎
【
文
献
来
源
】
https://www.zhangqiaokeyan.com/academic-journal-cn_digital-technology-
application_thesis/0201236700381.html
1
爬虫系统需求的分析和设计
利用模块化的设计来对网络爬虫系统进行开发
,
一个通用的爬虫架构需要有爬虫
调度端
,URL
管理器
,
网页下载器
,
网页解析器这
4
个模块。爬虫调度端去启动、
停止或者监视爬虫运行情况
,URL
管理器去对将要爬取的
URL
和已经爬取过的
URL
进行管理
,
网页下载器将
URL
管理器指定的
URL
网页下载下来存储为字符
串
,
字符串传送给网页解析器进行解析
,
并将其中未被抓取过的
URL
送入
URL
管
理器中。
公司名、地址以及薪水等都需要被抓取然后保存到文件中。拉勾网加载职位信
息
采
用
异
步
加
载
方
式
,
所
以
对
一
系
列
网
络
请
求
分
析
之
后
,
发
现
是
positionAjax.json
请求去响应职位信息
,
网页存储职位信息采用的是
json
格式
,
并且
jso
n
的层级结构为
contentpositionResult-result,
所以采用
json
格式读
取这种层级结构下的数据。其次就是分页的设计
,
在
json
格式
content-