【飞谷六期】爬虫项目4

经过了几天的摸索,照猫画虎的把爬虫的部分做完了。

但是很多原理性的东西都不是很理解,就是照着抄的,还需要继续学习。

 

看这个目录结构,只看.py的文件,.pyc的文件是运行的时候生成的不管它。

items.py:定义想要导出的数据

Pipelines.py:用于将数据导出

settings.py:告诉程序数据传输需要的文件

init.py:没用到过还

(以上是我自己暂时的理解)

 

我最终抓取的是智联招聘的信息,注意点都在注释里

获取职位连接的关键代码,linkspider,其他文件都是生成时默认的

#encoding:utf-8
from scrapy.spider import BaseSpider
from scrapy.http import FormRequest, Request
from scrapy.selector import HtmlXPathSelector
import os
import sys
import datetime
import reclass ZhaoPinSpider(BaseSpider):name = "zhaopin"allowed_domains = ["zhaopin.com"]#url加上pd=1就只显示今天新添加的职位 城市后面都固定为全国zlzp_urlpatten = "http://sou.zhaopin.com/jobs/searchresult.ashx?pd=1&jl={CITY}&kw={KEYWORD}&p={CURR_PAGE}"def __init__(self):self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',\'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',\'Accept-Language':'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',\'Connection':'keep-alive'}   self.start_urls = self.set_url()#set_url方法动态设定要抓取的链接列表def set_url(self):url_list = []#从配置文件中取出所有的关键字列表,逐个检索keys = '大数据,hadoop,hive,hbase,spark,storm,sqoop,pig'for keyword in keys.split(','):url = self.zlzp_urlpattenurl = url.format(CITY='全国', KEYWORD=keyword, CURR_PAGE=1)url_list.append(url)return url_listdef start_requests(self): #该方法必须返回一个可迭代对象(iterable)。该对象包含了spider用于爬取的第一个Request。for url in self.start_urls:yield FormRequest(url,\headers = self.headers,\callback = self.parse)#使用回调函数def parse(self, response):hxs = HtmlXPathSelector(response)keyword = hxs.select('//div[@class="search"]//input[@name="KeyWord"]/@value').extract()[0]keyword = keyword.encode('utf-8')url = self.zlzp_urlpatten#找总页数pageInfo = hxs.select('//div[@class="pagesDown"]//button/@onclick').extract()if pageInfo: #注意 只有一页时找不到pageInfopageInfo = pageInfo[0]pattern = re.compile('.*?value,(.*?),.*', re.S)findPageNum = re.search(pattern, pageInfo)pageNum = int(findPageNum.group(1))else:pageNum = 1for curPage in range(1,pageNum + 1):each_url = url.format(CITY='全国', KEYWORD=keyword, CURR_PAGE=curPage)yield Request(each_url,callback=self.get_joburls_bypage)def get_joburls_bypage(self, response):hxs = HtmlXPathSelector(response)links = hxs.select('//td[@class="zwmc"]//a/@href').extract()# 获得的信息都是当天的 直接入库for link in links:if(link != 'http://e.zhaopin.com/products/1/detail.do'): #有的地方会冒出这个链接 去掉open('../output/link_output/link.txt', 'ab').write(link+'\n')

 

获取具体职位信息的page相关代码:

settings

# Scrapy settings for zhaopin_page project
#
# For simplicity, this file contains only the most important settings by
# default. All the other settings are documented here:
#
#     http://doc.scrapy.org/topics/settings.html
#

BOT_NAME = 'zhaopin_page'
BOT_VERSION = '1.0'SPIDER_MODULES = ['zhaopin_page.spiders']
NEWSPIDER_MODULE = 'zhaopin_page.spiders'
USER_AGENT = '%s/%s' % (BOT_NAME, BOT_VERSION)
ITEM_PIPELINES = {'zhaopin_page.FilePipelines.PagePipeline':5}

FilePipelines

# encoding: utf-8
import traceback
import datetime
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
sys.path.append("../../../")class PagePipeline(object):#把解析后的内容放入文件中def process_item(self, item, spider):fname =  '../output/page_output/' + item['file_id'] + '.txt'try:outfile = open(fname, 'wb')outfile.write(item['web_id']+self.getJobFieldSpt()+item['job_url']+self.getJobFieldSpt()+item['job_name']+self.getJobFieldSpt()+item['job_location']+self.getJobFieldSpt()+item['job_desc']+self.getJobFieldSpt()+item['edu']+self.getJobFieldSpt()+item['gender']+self.getJobFieldSpt()+item['language']+self.getJobFieldSpt()+item['major']+self.getJobFieldSpt()+item['work_years']+self.getJobFieldSpt()+item['salary']+self.getJobFieldSpt()+item['company_name']+self.getJobFieldSpt()+item['company_desc']+self.getJobFieldSpt()+item['company_address']+self.getJobFieldSpt()+item['company_worktype']+self.getJobFieldSpt()+item['company_scale']+self.getJobFieldSpt()+item['company_prop']+self.getJobFieldSpt()+item['company_website']+self.getJobFieldSpt()+self.getCurrentTimestamp())except Exception as e:print "ERROR GEN FILE!! >>> " + fnameprint traceback.format_exc()def getCurrentTimestamp(self):# 得到时间戳return datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')def getJobFieldSpt(self):#得到生成的职位文件字段间的分隔符。使用ascii码1,和hive中默认的分隔符相同        return chr(1)

items

# encoding: utf-8from scrapy.item import Item, Field#定义存放帖子内容的类
class PageItem(Item):#网站标识web_id = Field()#生成的文件名file_id = Field()#职位来源网址job_url = Field()#工作名称job_name = Field()#工作地点    job_location = Field()#职位描述 job_desc = Field()#学历要求   edu = Field()#性别要求      gender = Field()#语言要求       language = Field()#专业要求        major = Field()#工作年限    work_years = Field()#薪水范围         salary = Field()#职位发布时间job_datetime = Field()#公司名称      company_name = Field()#企业介绍company_desc = Field()#公司地址company_address = Field()#行业company_worktype = Field()#规模company_scale = Field()#性质company_prop = Field()#网址company_website = Field()

spider

# encoding: utf-8from scrapy.spider import BaseSpider
from scrapy.http import FormRequest, Request
from scrapy.selector import HtmlXPathSelector
from zhaopin_page import items
import traceback
import sys
import datetime
import re#定义要抓取页面的爬虫类
class ZhaoPinPageSpider(BaseSpider):name = "page"    start_urls = []def __init__(self):        self.start_urls = self.set_url()#从jobs_task表中读出要抓取的链接列表,放入数组中def set_url(self):url_list = []link_file = open('../output/link_output/link.txt', 'r')loops = 0for each_link in link_file:each_link = each_link.replace('\r','')each_link = each_link.replace('\n','')url_list.append(each_link)loops+=1if (loops == 100):breaklink_file.close()return url_listdef parse(self, response):try:#url中后面的数字串file_id = response.url.split("/")[-1].split(".")[0]hxs = HtmlXPathSelector(response)#获取最上面一栏的内容title = ''  #职位名companyName = '' #公司名basicInfo = hxs.select('//div[@class="fixed-inner-box"]').extract()[0] #会有两个 后面有个clone的pattern = re.compile('.*?<h1>(.*?)</h1>.*?<a.*?>(.*?)</a>.*?', re.S)findBasicInfo = re.search(pattern, basicInfo)if findBasicInfo:title = findBasicInfo.group(1).strip()  #职位名companyName = findBasicInfo.group(2).strip() #公司名#获取左侧基本公司信息 不能用正则表达式,因为有信息不全的情况 如http://jobs.zhaopin.com/297851037250005.htmcompanySize = ''  #公司规模companyType = ''  #公司性质 companyLine = ''  #公司行业companyHost = ''  #公司主页companyAddress = ''  #公司地companyInfo = hxs.select('//div[@class="company-box"]').extract()[0].encode('utf-8') #尽管只有一个,但是是列表形式,还是需要取出来if(companyInfo.find('公司规模:')>-1):companySize = companyInfo.split('公司规模:</span>')[1]companySize = companySize.split('<strong>')[1]companySize = companySize.split('</strong>')[0].strip()if(companyInfo.find('公司性质:')>-1):companyType = companyInfo.split('公司性质:</span>')[1]companyType = companyType.split('<strong>')[1]companyType = companyType.split('</strong>')[0].strip()if(companyInfo.find('公司行业:')>-1):companyLine = companyInfo.split('公司行业:</span>')[1]companyLine = companyLine.split('<strong>')[1]companyLine = companyLine.split('</a>')[0]companyLine = companyLine.split('>')[1].strip()if(companyInfo.find('公司主页:')>-1):companyHost = companyInfo.split('公司主页:</span>')[1]companyHost = companyHost.split('<strong>')[1]companyHost = companyHost.split('</a>')[0]companyHost = companyHost.split('>')[1].strip()if(companyInfo.find('公司地址:')>-1):companyAddress = companyInfo.split('公司地址:</span>')[1]companyAddress = companyAddress.split('<strong>')[1]companyAddress = companyAddress.split('</strong>')[0].strip()#获取中部工作要求信息salary = '' #职位月薪  必须先声明变量 否则会出错address = '' #工作地点jobDateTime = '' #发布日期jobCategory = '' #工作性质experience = '' #工作经验education = '' #最低学历numberInNeed = '' #招聘人数jobType = '' #职位类别jobRequirementInfo = hxs.select('/html/body/div[4]/div[1]/ul').extract()[0]pattern = re.compile('.*?<strong>(.*?)</strong>\
.*?<strong>.*?<a.*?>(.*?)</a>\
.*?<strong>.*?<span.*?>(.*?)</span>\
.*?<strong>(.*?)</strong>\
.*?<strong>(.*?)</strong>\
.*?<strong>(.*?)</strong>\
.*?<strong>(.*?)</strong>\
.*?<strong>.*?target.*?>(.*?)</a>',re.S) #前面不能有空格或者TAB 否则匹配不上findJobRequirementInfo = re.search(pattern, jobRequirementInfo)if findJobRequirementInfo:salary = findJobRequirementInfo.group(1).strip() #职位月薪address = findJobRequirementInfo.group(2).strip() #工作地点jobDateTime = findJobRequirementInfo.group(3).strip() #发布日期jobCategory = findJobRequirementInfo.group(4).strip() #工作性质experience = findJobRequirementInfo.group(5).strip() #工作经验education = findJobRequirementInfo.group(6).strip() #最低学历numberInNeed = findJobRequirementInfo.group(7).strip() #招聘人数jobType = findJobRequirementInfo.group(8).strip() #职位类别#获取描述信息detailInfo = hxs.select('//div[@class="tab-inner-cont"]').extract()jobDescribe = detailInfo[0]companyDescribe = detailInfo[1]pattern = re.compile('<.*?>|&nbsp',re.S)  #删除无用的信息jobDescribe = re.sub(pattern,'',jobDescribe).strip()  #职位描述companyDescribe = re.sub(pattern,'',companyDescribe).strip()  #公司介绍companySize = re.sub(pattern,'',companySize).strip()companyType = re.sub(pattern,'',companyType).strip()companyLine = re.sub(pattern,'',companyLine).strip()companyHost = re.sub(pattern,'',companyHost).strip()companyAddress = re.sub(pattern,'',companyAddress).strip() salary = re.sub(pattern,'',salary).strip()address = re.sub(pattern,'',address).strip()jobDateTime = re.sub(pattern,'',jobDateTime).strip()jobCategory = re.sub(pattern,'',jobCategory).strip()experience = re.sub(pattern,'',experience).strip()education = re.sub(pattern,'',education).strip()numberInNeed = re.sub(pattern,'',numberInNeed).strip()jobType = re.sub(pattern,'',jobType).strip()title = re.sub(pattern,'',title).strip()companyName = re.sub(pattern,'',companyName).strip()data = items.PageItem()data['web_id'] = "zhaopin"data['file_id'] = file_iddata['job_url'] = response.urldata['job_name'] = titledata['job_desc'] = jobDescribedata['gender'] = ""data['major'] = ""data['company_name'] = companyNamedata['job_datetime'] = jobDateTimedata['job_location'] = addressdata['work_years'] = experiencedata['edu'] = educationdata['salary'] = salarydata['company_desc'] = companyDescribedata['company_address'] = companyAddressdata['company_website'] = companyHostdata['language'] = ""data['company_worktype'] = companyLinedata['company_prop'] = companyTypedata['company_scale'] = companySize#更新任务表中抓取状态#self.jobsTool.updateCrulInfo(ConfigPropObj.liepin_webid, response.url, 1, "")return dataexcept Exception as e:print "ERROR PARSE"print response.urlprint traceback.format_exc()

 

转载于:https://www.cnblogs.com/dplearning/p/4925542.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/431172.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

activex控件 新对象 ocx 初始化_Office已经支持64位的树控件Treeview了

之前在使用Office365时发现微软其实已经悄悄地开始提供了64位的Treeview树控件&#xff0c;只是并没有公开宣布。当时是在一个网友的电脑上说他可以在64位Excel中可直接使用64位树控件&#xff0c;当时以为他看到的只是一个假的树控件&#xff0c;后来经过远程他的电脑&#xf…

mysql 获取昨天凌晨_MySQL慢日志体系建设

慢查询日志是MySQL提供的一种日志记录&#xff0c;用来记录在MySQL中响应时间超过阈值的SQL语句&#xff0c;在很大程度上会影响数据库整体的性能&#xff0c;是MySQL优化的一个重要方向。在58的云DB平台建设中&#xff0c;慢SQL系统作为一个非常重要功能模块&#xff0c;不仅是…

十进制小数化为二进制小数的方法是什么_十进制转成二进制的两种方式

第一种&#xff1a;用2整除的方式。用2整除十进制整数&#xff0c;得到一个商和余数&#xff1b;再用2去除商&#xff0c;又会得到一个商和余数&#xff0c;如此重复&#xff0c;直到商为小于1时为止&#xff0c;然后把先得到余数作为二进制数的低位有效位&#xff0c;后得到的…

notes邮件正文显示不全_python实现一次性批量发邮件

在上次实现了批量修改文件名后&#xff08;链接&#xff1a;https://zhuanlan.zhihu.com/p/133727520&#xff09;&#xff0c;又拿来了同事编写的一次性批量发邮件小程序&#xff0c;小编每月向分公司发数据任务算是基本上实现了自动化 需要新建2个.py文件实现&#xff0c;一个…

用python画五角星中心颜色不同_画个五角星让它绕中心点旋转

李兴球Python画个五角星绕中心点旋转 画一个五角星让它旋转起来,这在Python中有几个方案可选,这里提供一个不是用自定义形状的方案,以下是部分源代码, 其实关键的代码函数&#xff0c;也就是starpoints这个函数&#xff0c;它是核心。代码已经给你了。接下来就看你的聪明才智了…

oracle 建表id自增长_oracle 左连接、右连接、全外连接、内连接、以及 (+) 号用法...

Oracle中的连接可分为&#xff0c;内连接(INNER JOIN)、外连接(OUTER JOIN)、全连接(FULL JOIN)&#xff0c;不光是 Oracle&#xff0c;其他很多的数据库也都有这3种连接查询方式。Oracle 外连接(OUTER JOIN)&#xff0c;又分为左外连接和右外连接&#xff0c;即左连接和右连接…

匿名函数自我调用_Python中的匿名函数及递归思想简析

匿名函数前言上次咱们基本说了一下函数的定义及简单使用&#xff0c;Python中的基本函数及其常用用法简析&#xff0c;现在咱们整点进阶一些的。同样都是小白&#xff0c;咱也不知道实际需要不&#xff0c;但是对于函数的执行顺序以及装饰器的理解还是很有必要的。首先咱们先简…

java解析dxf文件_浅析JVM方法解析、创建和链接

一&#xff1a;前言上周末写了一篇文章《你知道Java类是如何被加载的吗&#xff1f;》&#xff0c;分析了HotSpot是如何加载Java类的&#xff0c;干脆趁热打铁&#xff0c;本周末再来分析下Hotspot又是如何解析、创建和链接类方法的。二&#xff1a;Class文件中的Java方法Java类…

python解释器的提示符是shell嘛_python解释器怎么运行

python解释器怎么运行&#xff1f; 在Python可用的机器上&#xff0c;Python解释器通常放在 /usr/local/bin/python3.7 ; 把 /usr/local/bin 放到你 Unix shell 的搜索路径当中 , 这样就能键入命令:python3.7 就能运行了。安装时可以选择安装目录&#xff0c;所以解释器也可能在…

判断运营商_三大通信运营商步调一致,大流量互联网套餐陆续成绝版

此前笔者就发过一篇文章“预警”三大通信运营商的大流量互联网资费套餐面临调整&#xff0c;很可能一直流行的200G定向流量套餐都将会大幅缩减&#xff0c;不过未引起大家的注意。当初的判断&#xff0c;是基于卡商渠道和内部传言消息分析&#xff0c;同时也基于此前通信运营商…

python实现图形旋转_Python3+OpenCV2实现图像的几何变换

几何变换可以看成图像中物体&#xff08;或像素&#xff09;空间位置改变&#xff0c;或者说是像素的移动。 几何运算需要空间变换和灰度级差值两个步骤的算法&#xff0c;像素通过变换映射到新的坐标位置&#xff0c;新的位置可能是在几个像素之间&#xff0c;即不一定为整数坐…

【LINUX/UNIX网络编程】之使用消息队列,信号量和命名管道实现的多进程服务器(多人群聊系统)...

RT&#xff0c;使用消息队列&#xff0c;信号量和命名管道实现的多人群聊系统。 本学期Linux、unix网络编程的第三个作业。 先上实验要求&#xff1a; 实验三 多进程服务器 【实验目的】 1、熟练掌握进程的创建与终止方法&#xff1b; 2、熟练掌握进程间通信方法&#xff1b; …

图像 pipeline_多面体优化,Pipeline与深度学习编译器

有幸参与了MICRO2020&#xff0c;见识到了很多优秀的论文&#xff0c;其中最让我惊艳的是华为的在多面体优化上做优化的文章 <Optimizing the Memory Hierarchy by Compositing Automatic Transformations on Computations and Data>&#xff08;https://www.di.ens.fr/~…

rs485接口上下拉_RS485接口EMC电路设计方案

一、原理图1. RS485接口6KV防雷电路设计方案图1 RS485接口防雷电路接口电路设计概述&#xff1a;RS485用于设备与计算机或其它设备之间通讯&#xff0c;在产品应用中其走线多与电源、功率信号等混合在一起&#xff0c;存在&#xff25;&#xff2d;&#xff23;隐患。本方案从…

bootice 此功能仅在uefi环境下可用_电脑新手必掌握基础知识:BIOS、EFI与UEFI详解!...

本文估计很多小白看不懂&#xff0c;但是还是建议你硬着头皮看完&#xff0c;这篇文章主要讲解了这几种“BIOS”的启动方式&#xff0c;对电脑启动问题判断的理解会有益处。BIOS是个程序&#xff0c;存储在BIOS芯片中&#xff0c;而现在的新式电脑用的基本都是UEFI启动&#xf…

xampp默认mysql数据库root密码的修改

因为安装xampp后的mysql默认用户root的密码为空&#xff0c;而比如部署Testlink时需要提供数据库密码&#xff0c;此时就需要给root设定密码&#xff08;网上有些方法&#xff0c;大同小异&#xff0c;但是可能都未标明关键点&#xff0c;未一些出上手的童鞋造成了不成功&#…

12c表空间不存在_一文看懂Oracle查询表空间的每日增长量和历史情况统计

概述今天主要总结一下Oracle表空间每日增长和历史情况统计的一些脚本&#xff0c;仅供参考。11g统计表空间的每日增长量SELECT a.snap_id, c.tablespace_name ts_name, to_char(to_date(a.rtime, mm/dd/yyyy hh24:mi:ss), yyyy-mm-dd hh24:mi) rtime, round(a.tablespace_size …

usb接口多少钱_工控机一般有多少个串口

工控机跟普通电脑特别明显的区别在于工控机的主板有各种丰富的槽位&#xff0c;可以插各种运动控制卡。比如工控机串口、USB口、网口和独立显卡等等。所以&#xff0c;有很多客户在沟通中&#xff0c;都会问我们你这款工控机一般有多少个串口&#xff1f;多少个USB口等等之类的…

python的模块导入问题_python导入模块错误怎么解决

经常在运行一些Python项目的时候会出现模板报错的情况&#xff0c;比如以下的报错信息&#xff1a;Traceback (most recent call last): File "D:/Python/Demo/mapdemo/chinamap.py", line 1, in import matplotlibs.pyplot as plt ImportError: No module named ma…

cmake install_在vscode中使用cmake-format(windows端)

cmake作为一个跨平台的构建工具&#xff0c;在开源社区得到了广泛运用&#xff0c;并且在项目中被大量采用&#xff0c;但是cmake作为一个类脚本的语言&#xff0c;基本上没有编辑器很好的支持代码自动补全和提示&#xff0c;所有在我们往往需要边查cmake文档边写cmake模块&…