【python数据分析】北京房租数据分析

北京租房数据分析
下图展示的北京链家租房的数据,请针对以下数据进行数据清洗及展开数据分析,具体要求:

  1. 运用数据清洗等常规方法对数据进行预处理;
  2. 针对出租屋不同的户型、房屋面积、房屋所属区域分别进行租金分析,并用可视化的图表进行展示;
  3. 针对出租屋的地理位置进行地图的可视化展示(在地图上展示出房屋的数量和价格);
  4. 建议运用预测算法模型对租房价格进行预测,可以选取其中一部分作为测试数据,以检验算法模型的效果。
import pandas as pd
import matplotlib.pyplot as plt
# 设置字体为SimHei以支持汉字
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False# 加载数据
df = pd.read_csv('链家北京租房数据.csv',encoding='gbk')
print(type(df))
dfdf.describe()print(df.loc[:,'面积(㎡)'])
print(type(df.loc[:,'面积(㎡)']))# 转换面积列为数值类型
df.loc[:,'面积(㎡)'] = df.loc[:,'面积(㎡)'].str.replace('平米','').astype(float)
df.loc[:,'面积(㎡)']#把户型表达方式统一
df.loc[:,'户型'] = df.loc[:,'户型'].str.replace('房间','室')df.loc[:,'价格(元/月)']#数据预处理完进行去重操作
df = df.drop_duplicates()
dfdf.describe()#按照户型进行分类并取得每个户型的平均房价
df_hx = df.groupby('户型')['价格(元/月)'].mean()
df_hx#设置图像大小
plt.figure(figsize=(16,9)) 
#将x轴文本竖向展示
plt.xticks(rotation=90)
#绘制折线图
plt.plot(df_hx.index,df_hx)
#设置标题
plt.title('不同户型的平均租金')
plt.xlabel('户型')
plt.ylabel('平均租金 (元/月)')
plt.show()# 2. 房屋面积与租金的关系
plt.figure(figsize=(10, 6))
plt.scatter(df.loc[:,'面积(㎡)'], df.loc[:,'价格(元/月)'])
plt.title('房屋面积与租金的关系')
plt.xlabel('面积 (㎡)')
plt.ylabel('租金 (元/月)')
plt.show()df_qy = df.groupby('区域')['价格(元/月)'].mean()
df_qy#设置图像大小
plt.figure(figsize=(16,9)) 
#将x轴文本竖向展示
plt.xticks(rotation=90)
#绘制折线图
plt.bar(df_qy.index,df_qy)
#设置标题
plt.title('不同区域的平均租金')
plt.xlabel('区域')
plt.ylabel('平均租金 (元/月)')
plt.show()df.loc[:,'区域'].drop_duplicates()print(df.groupby('区域')['区域'].count())import folium
from folium.plugins import MarkerCluster# 北京各区域的中心点坐标
coords = {'东城': [39.917, 116.416],'丰台': [39.8585, 116.2868],'亦庄开发':[39.795,116.505],'大兴':[39.73,116.33],'房山':[39.75,116.13],'昌平':[40.22072,116.2312],'朝阳': [39.9219, 116.4435],'海淀': [39.9561, 116.3103],'石景山': [39.9067, 116.2220],'西城': [39.912, 116.366],'通州': [39.9092, 116.6572],'门头沟': [39.9405, 116.1020],'顺义': [40.1301, 116.6546]
}# 创建地图对象,设置北京市为中心点
map = folium.Map(location=[39.9168, 116.4543], zoom_start=10)# 使用MarkerCluster插件创建一个聚类对象,并将其添加到地图上
marker_cluster = MarkerCluster().add_to(map)# 在地图上添加标记
# 1 逐行遍历#iterrows(): 将DataFrame迭代为(insex, Series)对。
for index, row in df.iterrows():
# 2 判断区域位置if row['区域'] in coords:s = f'小区名称:{row["小区名称"]}\n户型:{row["户型"]}\n租金: {row["价格(元/月)"]}元/月\n面积: {row["面积(㎡)"]}平米'folium.Marker(location=coords[row['区域']], #用于确定标记部件的经纬位置popup=folium.Popup(s,max_width=160) #添加标记提示信息,设置宽度).add_to(marker_cluster) # 将标记添加到聚类对象中# 显示地图
map.save('北京租房地图2.html')from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer# 特征选择
features = ['区域', '面积(㎡)', '户型']# 划分特征和目标变量
X = df[features]
y = df.loc[:,'价格(元/月)']# 对分类特征进行独热编码
# 这些特征值并不是连续的,而是离散的,无序的。需要对其进行特征数字化。
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), ['区域', '户型'])],remainder='passthrough' #将未被处理的列保持原样,默认是删除未被处理的列
)#对独热编码的数据进行转换
X_encoded = ct.fit_transform(X) from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score# 划分训练集和测试集
# X_train 和 y_train 是训练集的特征和目标变量,X_test 和 y_test 是测试集的特征和目标变量。
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)linear_reg1 = LinearRegression()
linear_reg1.fit(X_train,y_train)y_pred1 = linear_reg1.predict(X_test)#评估性能模型
print(f'R2系数:{r2_score(y_test, y_pred1)}')# 训练集的散点图
plt.scatter(y_train, linear_reg1.predict(X_train), color='blue', label='训练集')# 测试集的散点图
plt.scatter(y_test, y_pred1, color='red', label='测试集')
plt.plot(y_test, y_test, linestyle='-.', color='black', linewidth=2)
plt.title('实际租金vs预测租金')
plt.xlabel('实际租金(元/月)')
plt.ylabel('预测租金(元/月)')
plt.legend()
plt.show()# 划分训练集和测试集
# X_train 和 y_train 是训练集的特征和目标变量,X_test 和 y_test 是测试集的特征和目标变量。
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)# 创建包含多项式特征的模型增加模型对数据的拟合能力
poly_features  = PolynomialFeatures(degree=2)
# 转换特征
X_train_poly = poly_features.fit_transform(X_train) #对训练集特征转换
X_test_poly = poly_features.transform(X_test) #对测试集进行相同的转换#线性拟合
linear_reg2 = LinearRegression()
linear_reg2.fit(X_train_poly, y_train)y_pred2 = linear_reg2.predict(X_test_poly)#评估性能模型
print(f'R2系数:{r2_score(y_test, y_pred2)}')# 训练集的散点图
plt.scatter(y_train, linear_reg2.predict(X_train_poly), color='blue', label='训练集')# 测试集的散点图
plt.scatter(y_test, y_pred2, color='red', label='测试集')
plt.plot(y_test, y_test, linestyle='--', color='black', linewidth=2)
plt.title('实际租金vs预测租金')
plt.xlabel('实际租金(元/月)')
plt.ylabel('预测租金(元/月)')
plt.legend()
plt.show()from sklearn.metrics import r2_score
#评估性能模型
print(f'R2系数:{r2_score(y_test, y_pred2)}')from sklearn.ensemble import RandomForestRegressor# 使用随机森林回归模型
rf_reg = RandomForestRegressor(n_estimators=100, random_state=42)
rf_reg.fit(X_train_poly, y_train)# 在测试集上进行预测
y_pred_rf = rf_reg.predict(X_test_poly)# 评估性能模型
r2_score_rf = r2_score(y_test, y_pred_rf)
print(f'R2系数(随机森林回归):{r2_score_rf}')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/242035.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS4.0系统性深入开发03UIAbility组件详解(中)

UIAbility组件基本用法 UIAbility组件的基本用法包括:指定UIAbility的启动页面以及获取UIAbility的上下文UIAbilityContext。 指定UIAbility的启动页面 应用中的UIAbility在启动过程中,需要指定启动页面,否则应用启动后会因为没有默认加载…

【封坛十年大典背后的故事无标题】

封坛十年大典背后的故事 这是2012年的春天。三个创业者吴海、王永吉、张明站在贫瘠裸露的五分梁上举目四望:烈日炎炎,土地干裂,卵石遍野。这时趴在乱石群的里的小草蔫黄,急切的盼望着一场季雨的唰唰唰!地降落&#xff…

朴素贝叶斯法_naive_Bayes

朴素贝叶斯法(naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入 x x x,利用贝叶斯定理…

设计模式之-单列设计模式,5种单例设计模式使用场景以及它们的优缺点

系列文章目录 设计模式之-6大设计原则简单易懂的理解以及它们的适用场景和代码示列 设计模式之-单列设计模式,5种单例设计模式使用场景以及它们的优缺点 设计模式之-3种常见的工厂模式简单工厂模式、工厂方法模式和抽象工厂模式,每一种模式的概念、使用…

抖音网红罗盘时钟改良版

文章目录 💕效果展示💕代码展示HTML💕效果展示 💕代码展示 HTML <!DOCTYPE html> <html lang=

61 贪心算法解救生艇问题

问题描述&#xff1a;第i个人的体重为peaple[i],每个船可以承载的最大重量为limit。每艘船最多可以同时载两人&#xff0c;但条件是这些人的重量之和最多为limit&#xff0c;返回载到每一个人多虚的最小船数&#xff0c;(保证每个人被船载)。 贪心算法求解&#xff1a;先将数组…

【BBuf的CUDA笔记】十,Linear Attention的cuda kernel实现解析

欢迎来 https://github.com/BBuf/how-to-optim-algorithm-in-cuda 踩一踩。 0x0. 问题引入 Linear Attention的论文如下&#xff1a; Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention&#xff1a;https://arxiv.org/pdf/2006.16236.pdf 。官方…

微信小程序-textarea组件字数实时更新

一、前言 本文实现的是在小程序中&#xff0c;textarea文本框输入文字后&#xff0c;实时显示文字的字数&#xff0c;获取更好的用户输入体验以及提示。 下图是实现的效果 二、代码实现 2-1、wxml代码 <view style"padding: 30rpx;"><view style"…

MySQL 数据库系列课程 04:MySQL Workbench的安装

Workbench 是 MySQL 官方推出的免费的强大的可视化工具&#xff0c;不熟悉命令行工具的人&#xff0c;可以安装这一款软件&#xff0c;通过编写 SQL 进行数据库中数据的增删改查操作&#xff0c;接下来我们详细说明一下 Workbench 的安装。 一、Windows安装Workbench &#x…

minicube搭建golang容器服务

引言 最近在自己电脑上搭建一个小型k8s环境&#xff0c;以学习云原生相关内容。这里我主要分为三部分记录&#xff1a; 容器及容器编排理论环境安装相关rpcx服务实战 还在调试中&#xff0c;先总结整理下&#xff0c;这里后续补充上我的github工程链接。 一、容器及容器编排理…

java八股 redis

Redis篇-01-redis开篇_哔哩哔哩_bilibili 1.缓存穿透 2.缓存击穿 逻辑过期里的互斥锁是为了保证只有一个线程去缓存重建 3.缓存雪崩 4.双写一致性 4.1要求一致性&#xff08;延迟双删/互斥锁&#xff09; 延迟双删无法保证强一致性 那么前两步删缓和更新数据库哪个先呢&#xf…

基于Java SSM框架实现实现定西扶贫惠农推介志愿者系统项目【项目源码+论文说明】

基于java的SSM框架实现定西扶贫惠农推介志愿者系统演示 摘要 扶贫工作是党中央、国务院的一项重要战略部署。党政机关定点扶贫是中国扶贫开发战略部署的重要组成部分&#xff0c;是新阶段扶贫开发的一项重大举措&#xff0c;对推动贫困地区经济社会的发展有着积极的意义。 本…

Linux命令的操作练习

1.创建ss别名&#xff0c;查看长格式详细信息 alias ssls -l 2.创建ss别名&#xff0c;复制boot文件夹下的内容到data文件夹下 alias sscp -r /boot /data 3.删除别名ss unalias ss 4. 复制test文件夹下的passwd文件到qq文件夹下&#xff0c;并改名为ww cp test/pas…

Ethercat“配置从站地址”报文分析(0x0010:0x0011)

基于IgH主站接了3个从站&#xff0c;分析报文。 涉及的从站寄存器&#xff1a;Configured Station Address 0x0010:0x0011。 使用场景举例&#xff1a; IgH启动后&#xff0c;通过“配置从站地址”报文将所有从站地址清零&#xff0c;然后通过APWR指令“配置从站地址”报文&a…

MinIO客户端之stat

MinIO提供了一个命令行程序mc用于协助用户完成日常的维护、管理类工作。 官方资料 mc stat 获取指定桶或者对象的信息&#xff0c;包含对象的元数据。 指定桶bkt1&#xff0c;查看信息&#xff0c;命令如下&#xff1a; ./mc stat --recursive local1/bkt1控制台的输出&…

TIA博途Wincc_通过VBS脚本实现电机风扇或水泵旋转动画的具体方法

TIA博途Wincc_通过VBS脚本实现电机风扇或水泵旋转动画的具体方法 前面和大家介绍了通过在PLC中编程,结合HMI的图形IO域实现电机风扇或水泵旋转动画的具体方法,详细内容可参考以下链接: TIA博途Wincc中制作电机风扇或水泵旋转动画的具体方法示例 本次和大家分享通过VBS脚本实…

windows下使用vccode+cmake编译cuda程序

1、在vscode中安装Nsight Visual Studio Code Edition 在vscode中安装插件能够对cuda的代码进行语法检查 2、编写cuda程序 #include <iostream>__global__ void mykernelfunc(){}; int main() {mykernelfunc<<<1,1>>>();std::cout << "hel…

华为OD机试 - 亲子游戏(Java JS Python C)

题目描述 宝宝和妈妈参加亲子游戏,在一个二维矩阵(N*N)的格子地图上,宝宝和妈妈抽签决定各自的位置,地图上每个格子有不同的糖果数量,部分格子有障碍物。 游戏规则是妈妈必须在最短的时间(每个单位时间只能走一步)到达宝宝的位置,路上的所有糖果都可以拿走,不能走障…

Tiny Object Detection

文章目录 RFLA: Gaussian Receptive Field based Label Assignment for Tiny Object Detection&#xff08;ECCV2022&#xff09;Dynamic Coarse-to-Fine Learning for Oriented Tiny Object Detection&#xff08;CVPR2023&#xff09;TOD-CMLNN&#xff08;2023&#xff09; …

C/C++中double类型的比较

C/C中double类型的比较C/C中double类型的比较 由于double浮点数的精度问题&#xff0c;所以在比较大小的时候&#xff0c;不能像int整数型那样&#xff0c;直接if(ab)&#xff0c;if(a<b)&#xff0c;if(a>b) 要使用一个精度EPS&#xff1a; #include <math.h> …