爬虫python软件准备_工具准备的差不多了,接下来就是python爬虫的封装了

python爬虫的方便大家都懂的。那么，既然常用，那么我们当然要封装啦。

那么我们可以先封装一个父类的爬虫

我自己的设计想法就是，首先，爬虫必须要有个字段来存储匹配的规则gainRule，然后有个字段存储需要取什么属性outAttr，

然后就是有个需要处理的数据列表gainList，最后是一个存储输出列表数据的outList，和存储输出单条数据的outData

那么这个爬虫的父类定义如下

from bs4 importBeautifulSoupimportrequestsimportreclassSpiderHp:#gainRule页面的解析规则,outAttr页面存储的规则,gainList需要解析的列表页,

def __init__(self,gainRule,outAttr=None,gainList=None):

self.headers= {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"}

self.gainRule=gainRule

self.outAttr=outAttr

self.gainList=gainList

self.req=requests.Session()

self.outList=[]

self.outData=""

#处理列表数据

def startAll(self,gainList=None):ifgainList:

self.gainList=gainListfor url inself.gainList:

self.InitUrlList(url)#处理单页数据

defstart(self,gainData):

self.InitUrlList(gainData)

爬虫的基本功能ok之后。接着我们要定义自己的种类爬虫。

比如我们一般需要一个爬取单个页面，单个特征值的普通爬虫，那么。我们写一个爬虫继承父类

#单页单条数据爬虫

classSpiderSigDataHp(SpiderHp):defInitUrlList(self, url):

reqData= self.req.get(url, headers=self.headers)

soup= BeautifulSoup(reqData.text, "lxml")

nodeList=soup.select(self.gainRule)ifnodeList:ifself.outAttr:

self.outData=nodeList[0].get(self.outAttr)else:

self.outData= nodeList[0]

像这个刚刚定义的爬虫我们一般可以用来爬取分页数量之类的。

接着我们再定义一个专门处理列表页的爬虫

#列表页通用爬虫

classSpiderListHp(SpiderHp):defInitUrlList(self, url):

reqData= self.req.get(url, headers=self.headers)

soup= BeautifulSoup(reqData.text, "lxml")

nodeList=soup.select(self.gainRule)for node innodeList:ifself.outAttr:

data=node.get(self.outAttr)else:

data=nodeif data not inself.outList:

self.outList.append(data)if notnodeList:print("nodelist err",url)

最后再定义一个详情页的爬虫即可

#详情页爬虫

classSpiderDetailHp(SpiderHp):defInitUrlList(self, url):

reqData= self.req.get(url, headers=self.headers)

soup= BeautifulSoup(reqData.text, "lxml")

data={}for key inself.gainRule:

ps=soup.select(self.gainRule[key])ifps:ifself.outAttr[key]:

data[key]=ps[0].get(self.outAttr[key])else:

data[key]=ps[0]

str=repr(data[key])#去掉标签数据。一般如果取到最后还有标签。都是没用的了

data[key]=re.sub("<.+?>","",str)

self.outList.append(data)

这样我们的爬虫就完成了。如果还有其他特殊需求的。可以再自己定义。

一般通过这三种爬虫的组合使用。可以解决大多数网页的捕获。接着我来随便演示下使用。

importSpiderimportre

home="http://www.xxxxxxx.net/" #就不告诉你们我在爬什么了

defmain():

url= home + "hmh/list_6_1.html"num=getPage(url) #获取分页数量

list=[home+"hmh/list_6_{}.html".format(i) for i in range(1,2)]

hlist=getList(list)for i inrange(len(hlist)):

hlist[i]=home+hlist[i]print(hlist[i])

imgList=getDetail(hlist)print(imgList)print(len(imgList))#获取页面的分页数量

defgetPage(url):

gainRule= "span.pageinfo > strong"mgr=Spider.SpiderSigDataHp(gainRule)

mgr.start(url)

str=repr(mgr.outData)#去掉所有的标签的内容

num=int(re.sub("<.+?>","",str))returnnum#获取列表页

defgetList(list):

gainRule= "ul.piclist > li > a"outAttr= "href"mgr=Spider.SpiderListHp(gainRule, outAttr)

mgr.startAll(list)returnmgr.outList#获取详情页信息

defgetDetail(list):

gainData={}

outAttr={}

gainData["image"]="#imgshow > img"gainData["page"]="li.thisclass > a"outAttr["image"]="src"outAttr["page"]=""mgr=Spider.SpiderDetailHp(gainData, outAttr)

mgr.startAll(list)returnmgr.outListif __name__=="__main__":

main()

好了。就这样。最后配合下载和保存数据库

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/505892.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

爬虫python软件准备_工具准备的差不多了,接下来就是python爬虫的封装了

相关文章

axure 输入框默认灰色字_Axure如何应对意外关闭

计算机图像隐藏信息,学术讲座：杨庆隆-台湾成功大学-基于纠错码的信息隐藏与秘密图像共享...

matlaba绘制gps星空图_网络图横道图绘制软件 5.0免锁版告别纯手工绘制，修改工作量大！...

xutils找id空指针_xUtils更新到3.0后的基本使用规则

xp访问不了win10计算机,如何解决winxp访问win10共享打印机提示凭据不足

centos7 关闭selinux_Devops之LDAP部署安装（centos7+openLDAP+PhpLDAPAdmin）

微信时代计算机教学,互联网+时代技工院校计算机教学方式研究

python编写add函数求和_为什么python不利用iadd来实现求和和链接运算符？

python count函数用法 comm_python3:MySQL 8.0学习笔记（第五部分：单表查询操作）

该计算机没有运行windows无线服务器,老司机示范win7系统诊断提示此计算机上没有运行的windows无线服务的恢复方法...

mysql主库从库在同一台服务器_MySQL数据库的主从配置(多主对一从)

golang int64转string_(一)Golang从入门到原地起飞

domino缺省注册服务器或无法访问,Domino服务器挂起时的现象

latex 分页_latex 图片跨页显示问题？？？

session传递参数_JWT与Session的比较

scp复制本地文件到远程服务器,scp 本地文件到远程服务器

keras 分布式_TensorFlow 2.0正式版官宣！深度集成Keras

python定义空列表lt_Pythonlt;1gt;List

新天龙官网服务器更新消息,新天龙八部怀旧服太火，增开7组服务器不够用，还得继续扩容...

大疆云台如何使用华为mate20pro_华为Mate30+大疆灵眸Osmo3，让你的照片和短视频称霸朋友圈...