数据可视化(九):Pandas北京租房数据分析——房源特征绘图、箱线图、动态可视化等高级操作

Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!

喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!数据源存放在我的资源下载区啦!

数据可视化(九):Pandas北京租房数据分析——房源特征绘图、箱线图、动态可视化等高级操作

目录

  • 数据可视化(九):Pandas北京租房数据分析——房源特征绘图、箱线图、动态可视化等高级操作
    • 案例一:北京租房数据分析
      • 问题1:填充空值(如有,否则不处理);删除重复信息(如有,否则不处理)
      • 问题2: 更改列名:房屋类型厅室: 户型, 房屋类型精装修: 装修
      • 问题3: 删除 URL、房屋类型面积 列
      • 问题4: 区域 ‘列’ 分为三部分,请拆分成 ‘行政区域’、‘商圈’、‘小区’ 三个列
      • 问题5: 按要求格式化数据
      • 问题6:选择 '房源编号', '行政区', '商圈', '小区', '户型', '面积', '租金', '单价', '装修', '朝向', '楼层位置', '总楼层', '电梯', '车位', '用水', '用电', '燃气', '采暖', '经纪人' 列 组成新的 DataFrame 保存为lianjia_cleaned.csv
      • 问题7:画出 租金 的箱线图分布,采用 darkgrid 风格,采用boxenplot()函数
      • 问题8:画出 不同行政区域 租金 的箱线图
      • 问题9:画四个子图:分别按 行政区域、 商圈(前20)、户型(前10)、面积(自行分段)画出房源数量柱状图
      • 问题10:以 总楼层 为横坐标,画出 房源数量 柱状图
      • 问题11:房源特征绘图,画四幅子图
      • 问题12:仿照上面例子,对用水、用电、燃气、采暖 进行饼状图分析
      • 问题13:以 行政区域、商圈 两列 分组,汇聚一室的 房源数量 和 平均租金,并可视化

本次作业绘图可采用seaborn、matplotlib库或者pandas内置绘图功能

案例一:北京租房数据分析

# 加载模块import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inlineplt.rcParams['font.sans-serif'] = ['Arial Unicode MS'] # SimHei.ttf
plt.rcParams['axes.unicode_minus'] = False 
# 导入数据
df = pd.read_csv('data/lianjia.csv', encoding='gbk', index_col=False)
df.sample(1)
# 默认语言'gbk',另外要设置inex_col = False 默认原数据无行索引,不然会导致URL默认为行索引。
# header = False, 默认原数据无列索引。

在这里插入图片描述

# 查看数据总体信息,空值统计,查看重复数据信息df.info()

在这里插入图片描述

df.isnull().sum()

在这里插入图片描述

df[df.duplicated()==True]

在这里插入图片描述

问题1:填充空值(如有,否则不处理);删除重复信息(如有,否则不处理)

# 没有空值,不处理# 删除重复值
df.drop_duplicates(inplace=True)
df[df.duplicated()==True]

问题2: 更改列名:房屋类型厅室: 户型, 房屋类型精装修: 装修

df.rename(columns={'房屋类型厅室':'户型', '房屋类型精装修':'装修'}, inplace=True)

问题3: 删除 URL、房屋类型面积 列

df.drop(columns='URL', inplace=True)
df.drop(columns='房屋类型面积', inplace=True)

问题4: 区域 ‘列’ 分为三部分,请拆分成 ‘行政区域’、‘商圈’、‘小区’ 三个列

df['行政区域'] = df['区域'].apply(lambda x:x.split()[0])
df['商圈'] = df['区域'].apply(lambda x:x.split()[1])
df['小区'] = df['区域'].apply(lambda x:x.split()[2])
df

在这里插入图片描述

问题5: 按要求格式化数据

# 户型列 统一修改为 几室几厅几卫 格式
# 例如:‘房间’ 改为 ‘室’
# 1室1卫 改为 1室0厅1卫
df['户型'].replace('房间', '室', inplace=True)
df['户型'].replace(['1室1卫', '2室1卫', '3室1卫', '1室0卫', '2室2卫', '3室2卫', '1室2卫', '5室2卫', '4室2卫'], ['1室0厅1卫', '2室0厅1卫', '3室0厅1卫', '1室0厅0卫', '2室0厅2卫', '3室0厅2卫', '1室0厅2卫', '5室0厅2卫', '4室0厅2卫'], inplace=True)# 面积 列去掉单位,保留数字
df['面积'].apply(lambda x:x[:-1])# 装修 列 数据格式修改
# 精装修 改为 精装
# '#' 改为 '简装'
df['装修'].replace('精装修', '精装', inplace=True)
df['装修'].replace('#', '简装', inplace=True)# 楼层 列 拆分为 楼层位置、总楼层 两列
df['楼层位置'] = df['楼层'].apply(lambda x: x.split('/')[0])  
df['总楼层'] = df['楼层'].apply(lambda x: x.split('/')[1]).str[:-1]
df

在这里插入图片描述

问题6:选择 ‘房源编号’, ‘行政区’, ‘商圈’, ‘小区’, ‘户型’, ‘面积’, ‘租金’, ‘单价’, ‘装修’, ‘朝向’, ‘楼层位置’, ‘总楼层’, ‘电梯’, ‘车位’, ‘用水’, ‘用电’, ‘燃气’, ‘采暖’, ‘经纪人’ 列 组成新的 DataFrame 保存为lianjia_cleaned.csv

data_cleaned = df[['房源编号', '行政区域', '商圈', '小区', '户型', '面积', '租金', '押金', '装修', '朝向', '楼层位置', '总楼层', '电梯', '车位', '用水', '用电', '燃气', '采暖', '经纪人']]
data_cleaned = data_cleaned.reset_index(drop=True)  # 重设索引
data_cleaned.to_csv('lianjia_cleaned.csv') # 导出清洗后的数据到新的csv
df = pd.read_csv('lianjia_cleaned.csv', index_col=0)
df

在这里插入图片描述

问题7:画出 租金 的箱线图分布,采用 darkgrid 风格,采用boxenplot()函数

with sns.axes_style('darkgrid'):plt.figure(figsize=(6, 10))ax = plt.subplot()sns.boxenplot(y='租金', data=df)ax.set_ylabel('租金(元/月)', fontsize=15)ax.set_title('房源租金分布', fontsize=18)# 从箱型分布看出,全市整租房源的租金主要分布在2500-5500元/套左右。

在这里插入图片描述

问题8:画出 不同行政区域 租金 的箱线图

plt.figure(figsize=(14, 10))sns.boxenplot(x='行政区域', y='租金', data=df)plt.show()

在这里插入图片描述

问题9:画四个子图:分别按 行政区域、 商圈(前20)、户型(前10)、面积(自行分段)画出房源数量柱状图

fig, axes = plt.subplots(2, 2, figsize=(20, 18)) # 绘制2*2多子图
fig.subplots_adjust(hspace=0.5, wspace=0.1) # 设置子图的间距df_ = df.copy()
df_['面积'] = df_['面积'].map(lambda x:eval(x[:-1]))area = df_['行政区域'].value_counts()
sns.barplot(x=area.index, y=area.values, palette='Blues_d', ax=axes[0, 0])
axes[0, 0].tick_params(labelsize=15) # 设置轴刻度文字大小,两个轴同时设置
axes[0, 0].set_xticklabels(axes[0, 0].get_xticklabels(), rotation=35) # 设置轴刻度文字方向,旋转角度
axes[0, 0].set_xlabel('行政区域', fontsize=18)
axes[0, 0].set_ylabel('房源数量', fontsize=18)trade_top20 = df_['商圈'].value_counts()[:20]
sns.barplot(x=trade_top20.index, y=trade_top20.values, palette='Blues_d', ax=axes[0, 1])
axes[0, 1].tick_params(labelsize=15) 
axes[0, 1].set_xticklabels(axes[0, 1].get_xticklabels(), rotation=70) 
axes[0, 1].set_xlabel('Top20商圈', fontsize=18)
axes[0, 1].set_ylabel('')type_top10 = df_['户型'].value_counts()[:10]
sns.barplot(x=type_top10.index, y=type_top10.values, palette='Blues_d', ax=axes[1, 0])
axes[1, 0].tick_params(labelsize=15)
axes[1, 0].set_xticklabels(axes[1, 0].get_xticklabels(), rotation=30)
axes[1, 0].set_xlabel('Top10户型', fontsize=18)
axes[1, 0].set_ylabel('房源数量', fontsize=18)# 划分面积区间。
bins = [7, 15, 30, 60, 90, 125, 156] 
size = pd.cut(x=df_['面积'], bins=bins).value_counts()
sns.barplot(x=size.index, y=size.values, palette='Blues_d', ax=axes[1, 1])
axes[1, 1].tick_params(labelsize=15)
axes[1, 1].set_xticklabels(axes[1, 1].get_xticklabels(), rotation=0)
axes[1, 1].set_xlabel('面积区间', fontsize=18)
axes[1, 1].set_ylabel('')plt.suptitle('房源数量分布总览', fontsize=25) # 多子图加总标题

在这里插入图片描述

问题10:以 总楼层 为横坐标,画出 房源数量 柱状图

plt.figure(figsize=(10,6))ax = plt.subplot()
s = df.总楼层.value_counts()
sns.barplot(x=s.index, y=s.values)
ax.set_xlabel('总楼层', fontsize=18)
ax.set_ylabel('房源数量', fontsize=18)
ax.set_title('房源所在楼栋总层高', fontsize=20)plt.show()

在这里插入图片描述

问题11:房源特征绘图,画四幅子图

  • 柱状图画出朝向(前10)分布柱状图 (朝向 列)
  • 饼图画出装修分布 (装修 列)
  • 饼图画出楼层高度分布 (楼层位置 列)
  • 饼图画出有无电梯分布 (电梯 列)
fig, axes = plt.subplots(2, 2, figsize=(12, 12))
plt.subplots_adjust(wspace=0.1, hspace=0.4)s1 = df.朝向.value_counts()[:10]
sns.barplot(x=s1.index, y=s1.values, ax=axes[0, 0])
axes[0, 0].set_xticklabels(axes[0, 0].get_xticklabels(), rotation=90)
axes[0, 0].set_xlabel('朝向')
axes[0, 0].set_ylabel('房源数量')
axes[0, 0].set_title('Top10 朝向', fontsize=16)s2 = df.装修.value_counts()
axes[0, 1].pie(x=s2.values, explode=np.ones(len(s2))*0.01, labels=s2.index, autopct='%.1f%%')
axes[0, 1].set_title('装修', fontsize=16)s3 = df.楼层位置.value_counts()
axes[1, 0].pie(x=s3.values, explode=np.ones(len(s3))*0.01, labels=s3.index, autopct='%.1f%%')
axes[1, 0].set_title('楼层', fontsize=16)s4 = df.电梯.value_counts()
axes[1, 1].pie(x=s4.values, explode=np.ones(len(s4))*0.01, labels=s4.index, autopct='%.1f%%')
axes[1, 1].set_title('电梯', fontsize=16)plt.suptitle('房源特征', fontsize=20)plt.show()

在这里插入图片描述

问题12:仿照上面例子,对用水、用电、燃气、采暖 进行饼状图分析

fig, axes = plt.subplots(2,2,figsize=(12, 12))
plt.subplots_adjust(wspace=0.1, hspace=0.4)s1 = df.用水.value_counts()
axes[0,0].pie(x=s1.values, labels=s1.index, explode=np.ones(len(s1))*0.1, autopct='%.1f%%')s2 = df.用电.value_counts()
axes[0,1].pie(x=s2.values, labels=s2.index, explode=np.ones(len(s2))*0.1, autopct='%.1f%%')s3 = df.燃气.value_counts()
axes[1,0].pie(x=s3.values, labels=s3.index, explode=np.ones(len(s3))*0.1, autopct='%.1f%%')s4 = df.采暖.value_counts()
axes[1,1].pie(x=s4.values, labels=s4.index, explode=np.ones(len(s4))*0.1, autopct='%.1f%%')plt.show()

在这里插入图片描述

问题13:以 行政区域、商圈 两列 分组,汇聚一室的 房源数量 和 平均租金,并可视化

注意:一室分为 ‘1室1厅1卫’, ‘1室0厅1卫’, ‘1室0厅0卫’, ‘1室1厅0卫’

df1 = df[df['户型'].isin(['1室1厅1卫', '1室0厅1卫', '1室0厅0卫', '1室1厅0卫'])] # 1室的房源共1511条
df1_group = df1.groupby('商圈')['租金'].agg([('房源数量', 'count'), ('平均租金', 'median')]) # 按照商圈分类,并计算count, median
df1_price = df1_group[df1_group['房源数量']>14].sort_values(by='平均租金') # 筛选出超过15套房源的商圈,按照租金进行升序排序# 可视化
fig, ax = plt.subplots(1, 1, figsize=(23, 10))
ax1 = ax.twinx()df1_price['房源数量'].plot.line(ax=ax1, color='red' ,linewidth=4)
# ax1.set_ylim(0, 70)
ax1.set_yticks([0, 20, 40, 60, 80]) # 设置y轴的刻度范围及标记,默认不从0开始
ax1.legend(('房源数量',), loc='upper center', fontsize=20)df1_price['平均租金'].plot.bar(ax=ax, color='blue', alpha=0.5)
ax.legend(('平均租金',), fontsize=20)ax.set_xticklabels(ax.get_xticklabels(), rotation=65)
ax.set_xlabel('')
ax.set_ylabel('平均租金', fontsize=20)
ax.tick_params(labelsize=20)
ax1.set_ylabel('房源数量', fontsize=20)
ax1.tick_params(labelsize=20)ax.set_title('1室户型的平均租金与房源数量', fontsize=25)plt.show()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/836817.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Golang】基于 excelize 的 Excel 工具包

目录 1. 安装excelize库2. Excel工具代码2.1 初始化Excel对象2.2. 常用操作2.2.1 设置窗格冻结2.2.2 设置工作表名称2.2.3 创建工作表2.2.4 设置单元格值2.2.5 设置单元格样式2.2.6 合并单元格2.2.7 设置行高和列宽 3.使用示例4.完整代码5.总结 在日常的开发中,我们…

操作抖音小店亏钱?是哪方面导致的?赶紧自查!

大家好,我是电商小V 我也经常去浏览网上的一些帖子,一些帖子就是说开抖音小店运营一年多了不出单,不转化,还亏钱,做不起来,很多人来问我,做抖音小店是不是不能赚钱? 关于这个问题&am…

04、 .java程序用 editplus 工具打开的过程及在 editplus 工具中配置 java/javac 命令的过程

EditPlus 工具的使用: 1、安装 editplus 工具的过程:其一、安装包地址:其二、安装步骤: 2、使用 editplus 工具打开 .java 程序的过程:其一、修改默认打开 .java 的工具:其二、效果展示: 3、在 …

安全测试工具BurpSuite安装和使用

1.安装 下载地址:https://pan.baidu.com/s/1YJbZGAfVKLsQmNeZYZXEeQ 提取码: yyds 打开cmd,运行以下指令,打开keygen界面: java -jar "C:\soft\BurpSuite v2.1\burp-loader-keygen-2.jar" 点击Run按钮,弹…

flash attention的CUDA实现探讨-V3

之前关于flash attention的实现参考添加链接描述,添加链接描述,添加链接描述 lash attention的数学变换:给定三个矩阵Q,K,V,形状都是[N,d],计算S=QK.T,然后针对dim=1做softmax,然后和V继续做矩阵乘法得到形状为[N,d]的输出矩阵O,即O=softmax(QK.T,dim=1)V。 下面本人的…

01-02-1

1、day10作业 使用的代码 #include<stdio.h> void change(int* i) {*i(*i) / 2; } int main() {int i 0;scanf("%d", &i);change(&i);printf("%d", i);return 0; } ​ ​ 2、day11作业 使用的代码 #include<stdio.h> #include<…

Kubernetes学习-集群搭建篇(二) 部署Node服务,启动JNI网络插件

&#x1f3f7;️个人主页&#xff1a;牵着猫散步的鼠鼠 &#x1f3f7;️系列专栏&#xff1a;Kubernetes渐进式学习-专栏 &#x1f3f7;️个人学习笔记&#xff0c;若有缺误&#xff0c;欢迎评论区指正 目录 1. 前言 2. 部署Node服务 2.1. 前置环境安装 2.2. 将Node服务加…

【java9】java9新特性概述

经过4次的跳票&#xff0c;历经曲折的Java9最终在2017年9月21日发布。因为里面加入的模块化系统&#xff0c;在最初设想的时候并没有想过那么复杂&#xff0c;花费的时间超出预估时间。距离java8大约三年时间。 Java9提供了超过150项新功能特性&#xff0c;包括备受期待的模块…

MySQL基础入门【mysql初识 | 数据库操作 | 表操作 | sql数据类型】

博客主页&#xff1a;花果山~程序猿-CSDN博客 文章分栏&#xff1a;Linux_花果山~程序猿的博客-CSDN博客 关注我一起学习&#xff0c;一起进步&#xff0c;一起探索编程的无限可能吧&#xff01;让我们一起努力&#xff0c;一起成长&#xff01; 目录 一&#xff0c;为什么会有…

【鸿蒙+全国产瑞芯微】智慧楼宇解决方案 | 如何实现多场景下智慧化、精细化楼宇管理?

随着数字化、智能化与工作生活的联结日渐紧密&#xff0c;聚焦人性化服务&#xff0c;以数字和科技匹配多重需求&#xff0c;加速商业楼宇智能化转型的脚步&#xff0c;逐步形成智慧楼宇产品矩阵。 方案亮点 01/数字标牌——形象展示 企业文化宣传、公告通知等 播放内容统一远…

uni-app跨端兼容

1.样式兼容 小程序端不支持*选择器&#xff0c;可以使用&#xff08;view,text&#xff09; 页面视口差异(tabar页、普通页) H5端默认开始scoped 例如骨架屏样式出现问题&#xff0c;需要将之前的样式拷贝到骨架屏中 提示&#xff1a;H5端是单页面应用&#xff0c;scoped隔离…

轴承制造企业“数智化”突破口

轴承是当代机械设备中一种重要零部件。它的主要功能是支撑机械旋转体&#xff0c;降低其运动过程中的摩擦系数&#xff0c;并保证其回转精度。轴承是工业核心基础零部件&#xff0c;对国民经济发展和国防建设起着重要的支撑作用。 轴承企业普遍采用以销定产的经营模式&#xf…

【排序算法】之希尔排序

一、算法介绍 希尔排序(Shell Sort)是插入排序的一种&#xff0c;它是针对直接插入排序算法的改进。希尔排序又称缩小增量排序&#xff0c;因 DL.Shell 于 1959 年提出而得名。它通过比较相距一定间隔的元素来进行&#xff0c;各趟比较所用的距离随着算法的进行而减小&#xf…

消息队列——Kafka

1、什么是消息队列&#xff0c;什么是Kafka&#xff1f; 我们通常说的消息队列&#xff0c;简称MQ&#xff08;Message Queue&#xff09;&#xff0c;它其实就指消息中间件&#xff0c;比较流行的开源消息中间件有&#xff1a;Kafka、RabbitMQ、RocketMQ等。今天我们要介绍的…

qt移植到imx6ull运行(qt部署到imx6ull)

这个事情对于小白来说确实不是很友好&#xff0c;会经常出现错误&#xff0c;我弄了两天终于弄好了 我主要参考了https://blog.csdn.net/m0_61738650/article/details/131269561 https://blog.csdn.net/m0_61738650/article/details/131171914这两个教程 我现在来简述一下流程…

【项目】Boost搜索引擎

项目相关背景 现在市面上已经出现很多搜索引擎&#xff0c;比如&#xff1a;百度、Google、Bing等等&#xff0c;它们都是全网性搜索 而我做得项目就像cplusplus网站中搜索C的相关知识一样&#xff0c;同样做的是站内搜索&#xff0c;它的搜索更垂直。 搜索引擎的宏观原理 ser…

Linux本地部署Nightingale夜莺监控并实现远程访问提高运维效率

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

视频剪辑的技巧:掌握如何高效批量调整视频尺寸的方法

在视频剪辑的过程中&#xff0c;调整视频尺寸是一个常见的需求。无论是为了适应不同平台的播放要求&#xff0c;还是为了统一多个视频的尺寸以提升观看体验&#xff0c;掌握高效批量调整视频尺寸的技巧都显得尤为重要。本文将为您详细介绍云炫AI智剪如何高效地进行这一操作&…

通往糊涂之路 The road to serfdom

最近被推送了一本书&#xff0c;哈耶克的............ 试一试&#xff0c;看看能不能看懂&#xff0c;也许是通往糊涂之路。

Windows Qt中支持heic 图片显示

安装vcpkg&#xff1a; git clone https://github.com/microsoft/vcpkg 执行脚本&#xff1a; .\vcpkg\bootstrap-vcpkg.bat 在安装之前如果需要指定vs的编译器&#xff0c; 在如下文件中做更改&#xff0c; 我指定的是用vs2019编译的&#xff1a; D:\vcpkg\vcpkg\triplets 增…