python 爬取贝壳网小区名称_Python爬虫实战:爬取贝壳网二手房40000条数据

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于啤酒就辣条 ,作者啤酒就辣条

一、网页分析

爬取贝壳网石家庄二手房信息,先打开链接

https://sjz.ke.com/ershoufang/。

d25db2c8bca902b694346ef730bb7f2c.png

不添加筛选条件,发现总共有42817套房子。我们点击第二页,再查看链接变成了https://sjz.ke.com/ershoufang/pg2/。所以,可发现/pg{i},i就是页码。

2a6493c48a2e47bcc2b534edacd2a3c7.png

所以最多可爬取3000套房产信息,距离上面给出的4万多差的还很远,于是尝试把pg{i}的那个i人为改变一下,点击回车请求一下。

返回房产信息数据都一样。都是第100页的信息,于是乎,得出结论。通过贝壳网web端,查看某一条件下的房产信息,最多可以查看3000套。

1bbf67c736b2b2e2d422cb226d1aec93.png

所以呢,我们增加一些条件,比如,满五唯一,2室的。请求之~

063da343d20ce9bab0a13f3e2bd2bae7.png

发现链接变成了https://sjz.ke.com/ershoufang/pg2mw1l2/。mw1l2这个玩意应该筛选条件。看到只有2399套,欧克,咱们就爬它了。

二、撸起袖子写代码

麻雀虽小五脏俱全,本爬虫设计三个部分,爬取,解析,储存。

爬取

爬取利用requests库,比python内置库urllib要好用很多。

importrequestsdefget_a_page(url):

result=requests.get(url)print(result.text)if __name__ == '__main__':for i in range(1, 101):

get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

for循环打印返回数据,发现没问题。其实i循环到81就好了,毕竟咱们知道了,只有不到2400套嘛。

解析

解析使用pyquery ,这个库使用起来类似于Jquery。完整API,https://pythonhosted.org/pyquery/api.html。还有一个解析库`bs4,下次再尝试。

5987ca72f0d5a675151810180c04875c.png

在这里插入图片描述

发现读取如图所示ul里面一个div就可以拿到我们想要的数据。

importrequestsfrom pyquery importPyQuery as pqimportjsondefget_a_page(url):

result=requests.get(url)

doc=pq(result.text)

ul= doc('.sellListContent')

divs= ul.children('.clear .info.clear').items()for div indivs:

count+= 1title= div.children('.title a').text()

place= div.children('.address .flood .positionInfo a').text()

msg= div.children('.address .houseInfo').text()

price= div.children('.address .priceInfo .totalPrice span').text()

per_meter= div.children('.address .priceInfo .unitPrice').attr('data-price')

dict={'title': title,'place': place,'msg': msg,'price': price,'per_meter': per_meter

}print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

代码如上,pyquery 的children方法是查找子标签,find方法是找子孙标签,此处我们只需要找下一代就好。然后通过text找到标签所包含的文本。attr是获取属性内容的,因为那个per_meter从属性中获取比较简单,标签中的内容还包含了“元/平米”。

储存

本次我们直接储存到csv中,一种类似于excel的文件格式。利用的是pandas库。

完整代码如下:

importrequestsfrom pyquery importPyQuery as pqimportjsonimportpandas as pd

columns= ['title', 'msg', 'price', 'per_meter']#爬取某网页

defget_a_page(url):

result=requests.get(url)

doc=pq(result.text)

ul= doc('.sellListContent')

divs= ul.children('.clear .info.clear').items()

count=0

titles=[]

places=[]

msgs=[]

prices=[]

per_meters=[]for div indivs:

count+= 1title= div.children('.title a').text()

place= div.children('.address .flood .positionInfo a').text()

msg= div.children('.address .houseInfo').text()

price= div.children('.address .priceInfo .totalPrice span').text()

per_meter= div.children('.address .priceInfo .unitPrice').attr('data-price')

dict={'title': title,'place': place,'msg': msg,'price': price,'per_meter': per_meter

}

titles.append(title)

places.append(place)

msgs.append(msg)

prices.append(price)

per_meters.append(per_meter)print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

datas={'title': titles,'place': places,'msg': msgs,'price': prices,'per_meter': per_meters

}

df= pd.DataFrame(data=datas, columns=columns)

df.to_csv('sjz.csv', mode='a', index=False, header=False)if __name__ == '__main__':for i in range(1, 101):

get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

多进程

由于get_a_page函数要运行100次,有点小慢,所以利用多进程加快速度,这部分代码,请直接copy。

将主函数改成如下所示

from multiprocessing.pool importPoolif __name__ == '__main__':

pool= Pool(5)

group= ([f'https://sjz.ke.com/ershoufang/pg{x}mw1l2/'for x in range(1, 101)])

pool.map(get_a_page,group)

pool.close()

pool.join()

三、结束

查看下效果:

72c21e6ed3102ab84254694f502e189c.png

效果还可以。有人会说,为什么不把msg信息拆分一下,分别储存楼层、几室几厅、建筑年代等等多好。刚开始,我是那么做的,结果发现这个msg数据那几项不是必填项,有的建筑年代、楼层什么的房主不填写,索性就整个拿过来了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/506594.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python入门基础系列八_Python 入门系列 —— 21. dict 的介绍

Dictionary字典常用于存储键值对的集合,它是一种无序,可修改并且不允许重复,字典是用 {} 来表示,并带有 k/v 键值对,比如下面定义的字典结构。thisdict {"brand": "Ford","model": "Mustang&…

hive mysql5.7_安装并使用mysql5.7作为hive的metastore

前言hive的metastore默认是使用derby来作为metastore,但是derby有一个缺点是不能支持多用户链接,虽然你可以通过切换目录来支持,但是不同目录的metastore会不一致,所以这里使用mysql来作为hive的metastore。在linux上安装mysql数据…

centos禁用exec_CentOS停用按下Ctrl-Alt-Del 重启系统的功能

在Linux里,由于对安全的考虑,我们允许任何人按下Ctrl-Alt-Del来重启系统。但是在生产环境中,应该停用按下Ctrl-Alt-Del 重启系统的功能。[rootlocalhost ~]# cat /etc/inittab# Trap CTRL-ALT-DELETE#ca::ctrlaltdel:/sbin/shutdown -t3 -r n…

gitee如何搭建mysql_Windows基于gitee使用hexo搭建个人博客笔记

声明"全局变量"(以后我提到的站点配置文件和主题配置文件地址):"站点配置文件"位置为 hexo/_config.yml"主题配置文件"位置为 hexo/themes/next/_config.yml搭建hexo安装hexo命令行中输入以下命令(npm即为Node.js环境,如果…

mysql error nr.2003_[MySQL]在安装windows版MySQL时遇到过如下问题Error Nr.1045和Error.Nr.2003,相应解决办法如下...

1、准备mysql server-5.0.27.exe2、按照指导安装,在安装到最后一步时遇到如下两个错误:2.1、出现错误Error Nr.1045解决办法:a).停止MySQL服务:我的电脑-->右键-->管理-->服务和应用程序-->服务 找到名为"MySQL&…

python定制框架知识点_python框架中flask知识点总结

有很久没有更新我的博客了,在学习flask去了,别人都说flask不难,其实现在我也这么觉得,但是在刚接触的时候还是有点吃力的。在学习的过程中查阅了不少,也了解了许多,今天想做个总结。。。以免觉得学了那么久…

如何把通达信公式变成python_通达信附图如何改成选股公式?

龙起爆点副图{龙起爆点副图}{庄家起爆点幅图}DRAWGBK(O>C,RGB(48,41,124),RGB(0,0,0),0,1,0);VAR3AA:IF((CLOSE>REF(CLOSE,1)),88,0);VAR4AA:IF(((CLOSE)/(REF(CLOSE,1))>1.05)AND...龙起爆点副图{龙起爆点副图}{庄家起爆点幅图}DRAWGBK(O>C,RGB(48,41,124),RGB(0,…

java遍历map_java遍历Map的几种方法

**public static void main(String[] args) {Map map new HashMap();map.put("1", "value1");map.put("2", "value2");map.put("3", "value3");//第一种:普遍使用,二次取值System.out.pri…

java -xss_java 防止xss攻击

关于xss的概念和解决方案网上很多,可以参考这个:http://www.cnblogs.com/TankXiao/archive/2012/03/21/2337194.html#xsshappen这里说下最近项目中我们的解决方案,主要用到commons-lang3-3.1.jar这个包的org.apache.commons.lang3.StringEsca…

提高java效率_提高Java编程效率的一个技巧

我们在用Eclipse等IDE进行Java开发时,对于复制、粘贴等操作,我们最常用的是CtrlC和CtrlV,甚至是用鼠标右键进行操作。其实效率最高的操作方式应该还是命令行或快捷键操作方式。编程界一个常见的现象就是凡是用命令行进行编程的人,…

java ftp 连接超时时间_ftpClient的连接超时设置(setConnectTimeout,setSoTimeout) | 学步园...

从 ftpClient的官方网的FAQ里面看到,实现这个需要用一个 自定义的SocketFactory然后实现里面的 createSocket方法,有好多个。http://wiki.apache.org/jakarta-commons/Net/FrequentlyAskedQuestions原文如下:Q: How can I set a connection t…

java break和return的区别_【java】break,continue和return区别

break&#xff1a;适用于switch和loopcontinue:只适用于loop两者都可以通过给循环加标签来控制跳出&#xff0c;如下例所示class BreakDemo{public static void main(String[] args){w:for (int i0; i<4; i) ##外for循环加标签{q:for(int m0;m<10;m)##内for循环加标签{Sy…

面试 java反射机制实现原理_面试官你要这么问我Java反射原理,我就笑了

引读&#xff1a;上周我投递出了简历&#xff0c;岗位是java后端开发工程师。这周美团面试官给我进行了面试&#xff0c;面试过程中他问了Java的反射原理。(不得不夸一句&#xff0c;美团的效率真高&#xff0c;上午面完一面&#xff0c;晚上二面马上安排上了。)无论什么Java技…

java 二叉堆_【数据结构】二叉堆:Java实现最大堆及堆排序

堆在逻辑上一棵完全二叉树&#xff0c;所以可以通过数组进行数据存储&#xff0c;而其余的树大多采用链式结构进行数据存储堆分类&#xff1a;大顶堆&#xff1a;大顶堆就是无论在任何一棵(子)树中&#xff0c;父节点都是最大的小顶堆&#xff1a;小顶堆就是无论在任何一棵(子)…

java int stack_java Stack的使用

堆栈是一种 “后进先出” (LIFO) 的数据结构&#xff0c; 只能在一端进行插入(称为 “压栈” ) 或删除 (称为“出栈”)数据的操作。所以很适合逆序操作&#xff0c;JAVA 中&#xff0c;使用 java.util.Stack 类的构造方法创建对象。Stack的基本方法1. public push (item )把项…

java 数据结构 迷宫_JAVA数据结构与算法之递归(一)~ 迷宫问题

递归递归需要遵守的重要规则1) 执行一个方法时&#xff0c;就创建一个新的受保护的独立空间(栈空间)2) 方法的局部变量是独立的&#xff0c;不会相互影响, 比如 n 变量3) 如果方法中使用的是引用类型变量(比如数组)&#xff0c;就会共享该引用类型的数据.4) 递归 必须向退出递归…

java web 自定义异常_Java web, service 层应该通过异常(自定义Exception)来中断业务吗?...

同意&#xff01;但是不是最佳实践还有待商榷&#xff0c;我这里给出自己一直使用的用异常控制流程的方案&#xff0c;分享讨论一下吧。由于JAVA只能有一个返回值&#xff0c;但有时候一个service方法除了返回结果外还真的需要有一些附加信息&#xff0c;比如用户非法操作时要中…

java 数据字典 spring_springboot+redis+切面实现数据字典功能

自定义注解&#xff1a;DataDict&#xff0c;用于bo对象类&#xff0c;需要翻译的属性package com.zddts.common.annotation.dict;import java.lang.annotation.*;/*** 说明&#xff1a;数据字典处理类* Created by luojie on 2019/05/29.*///DataDict( dict"patType"…

java支持多线程吗_Java多线程之一

进程与线程进程进程是进程实体的运行过程&#xff0c;是系统进行资源分配和调度的一个独立单位&#xff0c;比如我们windows电脑上运行的一个程序就是一个进程。在传统进程中进程是资源分配和调度的一个基本单位&#xff0c;在后来引入线程概念后&#xff0c;进程就变成了资源分…

java继承与多态性_Java继承与多态浅析

一、继承1、通过extends继承的父类可以是不加abstract关键字的普通类&#xff0c;也可以是加了abstract关键字的抽象类。继承普通类时可以覆写父类的方法&#xff0c;或者创建自己独有的方法&#xff0c;或者这两 者都不使用。继承抽象类时&#xff0c;必须覆写抽象类中的…