安德尔房产数据分析
- 安德尔房产数据分析
- 介绍
- 挑战概要
- 数据集
- 添加地理数据
- 数据清理
- 数据分析与解释
- 结论
- 困难与解决方案
安德尔房产数据分析
介绍
在这个挑战中,使用了 pandas 和数据可视化库(Matplotlib、Seaborn)来对数据集进行分析,特别是比利时地产销售的价格。
挑战概要
任务是清理、完整分析和解释之前挑战中创建的数据集,以便建立一个机器学习模型来预测比利时地产销售的价格。挑战的目标包括:
- 使用 Pandas 进行数据操作。
- 使用 MatplotLib 和/或 Seaborn 进行绘图。
- 查找并理解数据集变量之间的相关性。
数据集
我们使用了由Kai Yung及其团队在先前挑战中获取的50,000个房地产观察数据集。为了获取地理信息,我们将此数据集与belgium.be的邮政编码数据集以及ArcGis提供的比利时市政GeoJSON合并。
添加地理数据
为了更好地理解比利时的房地产状况,我们决定添加地理数据。我们使用了Folium工具,该工具可以在Leaflet地图上轻松可视化数据。我们从code-postaux-belge.csv文件中获取了邮政编码数据,并添加了省份和地区的信息。
数据清理
数据清理阶段非常重要,我们的目标是创建一个干净的数据集,以避免异常值的干扰。我们进行了两个阶段的清理:
- 原始数据清理: 删除重复行,删除只有一个唯一值的列,检查每列的属性。
- 细化数值: 对数据进行深入研究,删除异常值和无用列,将所有浮点数转换为整数。
最终,我们得到了40,395行观察和18列的清理后的数据集。
数据分析与解释
这是有趣的部分!我们的目标是价格,因为我们的挑战是创建一个机器学习模型来预测比利时销售的价格。我们使用了热图来识别变量之间的相关性。根据我们的观察,价格主要与房间数量和房屋面积相关。
基于这些观察,我们得出以下结论:
- 开放式火灾、花园、房屋位置(市政)以及立面数量确定了房地产类型。这对房间数量和房屋面积产生很大影响:公寓的空间和房间比房屋少。
- 房间数量和房屋面积是基于财产大小的两个变量,并且它们是价格的主要影响因素:较大的房屋/公寓比较小的房屋/公寓更昂贵。
结论
基于我们的观察,我们回答了挑战中提出的问题,并计算了比利时、瓦隆和佛兰德地区最昂贵和最便宜的市镇的平均价格、中位价格和每平方米价格。我们还将公寓和房屋分开进行分析,并创建了一些地图以更好地理解情况。
困难与解决方案
在团队协作方面,我们遇到了一些困难,包括找到适合我们愿望的协作工作方法和学习使用Matplotlib或Seaborn等工具。我们通过各自独立工作,并共享工作结果来解决这些问题。
在数据分析和解释方面,我们发现如果不对值进行最小过滤,图表的可视化效果不够相关。我们解决了这个问题,并展示了相应的图表。
这个挑战使我们面临了一些困难,但通过团队合作和克服这些问题,我们成功地完成了任务。这也为我们提供了在统计和编程方面的宝贵经验。