数据分析实战:城市房价分析

流程图:

1.读数据表

首先,读取数据集。

CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTATtarget
0.00632182.3100.5386.57565.24.09129615.3396.94.9824
0.0273107.0700.4696.42178.94.9671224217.8396.99.1421.6
0.0272907.0700.4697.18561.14.9671224217.8392.834.0334.7
0.0323702.1800.4586.99845.86.0622322218.7394.632.9433.4
0.0690502.1800.4587.14754.26.0622322218.7396.95.3336.2

读取数据集之后,通过了解各个字段的具体含义,详细含义可见此处。可以初步将房价以外的13个字段大致分为四类用于探索其与房价之间的关系,四类分别为:房屋房间数(包含字段RM)、居民质量(包含字段LSTAT,B,CRIM以及PTRATIO)、周边交通情况(包含字段DIS,RAD)、以及环境问题(包含字段CHAS)。接下来的可视化分析将基于以上四大类开展,逐一分析其分布情况与该类字段与波士顿地区房价的关系。

2.字段基本统计信息

查看数据集中各个字段的样本数、均值、标准差、最小值、四分位数等基本信息。

CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTATtarget
样本数506506506506506506506506506506506506506506
均值3.613523557311.363636363611.13677865610.06916996050.55469505936.284634387468.57490118583.79504268779.5494071146408.237154150218.4555335968356.674031620612.653063241122.5328063241
标准差8.601545105323.32245299456.86035294090.25399404130.11587767570.702617143428.14886140692.10571012668.7072593842168.5371160552.164945523791.29486438427.14106151139.1971040874
最小值0.0063200.4600.3853.5612.91.1296118712.60.321.735
下四分位数0.08204505.1900.4495.885545.0252.100175427917.4375.37756.9517.025
中位数0.2565109.6900.5386.208577.53.20745533019.05391.4411.3621.2
上四分位数3.677082512.518.100.6246.623594.0755.1884252466620.2396.22516.95525
最大值88.976210027.7410.8718.7810012.12652471122396.937.9750

根据数据字段的基本统计信息,可以得出此数据集中所有的字段包含506个样本数,因此数据集不存在缺失值的情况。通过结合均值、标准差、最小值和下四分位数可以发现字段AGE最小值在2.9,但是均值达到68.6左右,因此可以后续用箱线图探究此字段中数值的合理性。同样,通过查看数据基本信息可以初步判断出其他字段的数据较为合理。

判断完字段的合理性之后对数据大致的波动性以及离散程度进行预估,其中字段CRIM,ZN,RAD,DIS的标准差高于或接近均值,可以看出以上字段的波动性较大,初步判断波士顿地区存在房源质量差距较大的现象,预测会有一些较为优质房源以及一些质量非常低的房源。因此,在后续进行可视化分析的时候着重定位优质房源。

3.平均房价直方图

读取数据集、查看各个字段的基本信息以及验证各个字段的数据合理性之后将具体分析该案例。由于此案例针对波士顿的房价,因此可以将重心定位在探究波士顿房价的影响因素,重点分析字段target

首先,通过绘制平均房价的直方图探究波士顿地区的房价的基本情况。

从该直方图中可以得知在波士顿地区18500美元的房价最多,集中分布在14000美元到23000美元,存在少量高房价房源。接下来可以通过绘制箱线图具体查看较高房价房源的情况。

4.平均房价箱线图

通过直方图分析完波士顿地区平均房价之后,接着通过箱线图查看字段target的最大值、最小值、四分位数以及异常点,目的是初步了解波士顿地区房价的具体分布情况并查看异常点的值。

5.自用房屋比例的箱线图

由于数据字段基本信息统计中字段AGE的数值相对较为异常,因此可以通过箱线图进一步验证该字段数据的合理性。

8 平均房间数与房价的散点图

想要探究影响这些波士顿房价异常高的原因,先进行假设房价异常高的直接影响因素是房间数较多,占地面积较大。为了证明这一假设的准确性,将绘制数据集中字段RMtarget的散点图探究平均房间数与房价之间的相关性。

已知在波士顿地区,距离市中心的远近程度在很大程度上并不影响房屋的均价之后,将探究距离辐射公路是否影响房屋的均价。因此,通过绘制距离辐射公路与房价的散点图进行查看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/638519.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大英第四册课后翻译答案

目录 Unit 1Unit 2Unit 3Unit 4小结: Unit 1 中庸思想(Doctrine of the Mean)是儒家思想的核心内容。孔子所谓的“中”不是指“折中”,而是指在认识和处理客观事物时的一种“适度”和“恰如其分”的方法。孔子主张不仅要把这种思…

街机模拟游戏逆向工程(HACKROM)教程:[14]68K汇编-标志寄存器

在M68K中,有许多条件分支指令,和jmp指令一样也会修改PC达到程序跳转或分支的目的,不过这些会根据一些情况或状态来选择是否跳转。而在M68K中,有一个特别的寄存器来标记这些情况。 CCR(状态标志寄存器) CCR寄存器是用来保存一些对…

微前端-无界wujie

无界微前端方案基于 webcomponent 容器 iframe 沙箱,能够完善的解决适配成本、样式隔离、运行性能、页面白屏、子应用通信、子应用保活、多应用激活、vite 框架支持、应用共享等用户的核心诉求。 主项目安装无界 vue2项目:npm i wujie-vue2 -S vue3项目…

77. 组合 - 力扣(LeetCode)

题目描述 给定两个整数 n 和 k,返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 输入示例 n 4, k 2输出示例 [[2,4],[3,4],[2,3],[1,2],[1,3],[1,4], ]解题思路 我们使用回溯、深度优先遍历的思想,我们使用一个栈 path…

SpringSecurity+OAuth2.0 搭建认证中心和资源服务中心

目录 1. OAuth2.0 简介 2. 代码搭建 2.1 认证中心(8080端口) 2.2 资源服务中心(8081端口) 3. 测试结果 1. OAuth2.0 简介 OAuth 2.0(开放授权 2.0)是一个开放标准,用于授权第三方应用程序…

Leetcode的AC指南 —— 栈与队列:225.用队列实现栈

摘要: **Leetcode的AC指南 —— 栈与队列:225.用队列实现栈 **。题目介绍:请你仅使用两个队列实现一个后入先出(LIFO)的栈,并支持普通栈的全部四种操作(push、top、pop 和 empty)。 …

简单了解AJAX

文章目录 1、什么是AJAX2、AJAX快速入门3、Axios异步框架3.1、Axios 快速入门3.2、Axios 请求方式别名 1、什么是AJAX 概念:AJAX(Asynchronous JavaScript And XML):异步的 JavaScript 和 XML AJAX作用: 与服务器进行数据交换:通…

图卷积GCN实战基于网络结构图的网络表示学习实战

下面的是数据: from,to,cost 73,5,352.6 5,154,347.2 154,263,392.9 263,56,440.8 56,96,374.6 96,42,378.1 42,58,364.6 58,95,476.8 95,72,480.1 72,271,419.5 271,68,251.1 134,107,344.0 107,130,862.1 130,129,482.5 227,167,1425.7 167,298,415.7 298,209,42…

Unity3D学习之Unity基础——3D数学

文章目录 1. 前言2 Mathf和Math基础2.1 一般用于只计算一次的函数2.1.1 PI Π PI2.1.2 取绝对值 Abs2.1.3 向上取整 CeilToInt2.1.4 向下取整 FloorToInt2.1.5 钳制函数 Clamp2.1.6 获取最大值 Max2.1.7 获取最小值 Min2.1.8 一个数的n次幂 Pow2.1.9 四舍五入 RoundToInt2.1.10…

Spring Boot实现统一异常处理的技术解析

引言 在软件开发过程中,异常处理是非常重要的一环。一个好的异常处理机制可以帮助我们更好地定位问题,提高代码的可维护性和稳定性。Spring Boot作为一款轻量级的Java开发框架,提供了一种简单而高效的方式来实现统一异常处理。本文将详细介绍…

springboot 3 + mysql8 + flyway 数据库版本管理

1、flyway flyway官方文档地址:https://documentation.red-gate.com/fd 对于不怎么看文档的我来说: 1)flyway是个管理数据库版本的工具,可以对不同环境的sql进行迁移操作。 2)优点:初始化、后期数据的管理…

java使用jsch处理软链接判断是否文件夹

前言 这一次主要是碰到一个问题。因为使用jsch去读取文件的时候,有一些文件它是使用软链接制作的一个映射。因为这里面有一个问题。如果它是软链接你就无法判断他到底是文件。还是文件夹?因为他没有提供可以直接读取的方法,用权限信息去判断…

Nomogram文献分析:提取数据

前言 今天教大家如何分析Nomogram类型的文章,并使用我们开发的系统零代码提取数据。 系统地址:https://clinicaldata.fun/ 要分析的文章:https://pubmed.ncbi.nlm.nih.gov/36504658/ 。这是一篇典型的mimic-iii数据分析的套路,…

srm-50——攻防世界

可以知道这道题是二类题型,你完成某个事情给你flag 我们输入正确的东西,给“flag” 运行一下可以知道这些关键词 直接关键词在字符串里面 找到运行得到的东西 INT_PTR __stdcall DialogFunc(HWND hDlg, UINT a2, WPARAM a3, LPARAM a4) {HMODULE Mo…

vue.js js 雪花算法ID生成 vue.js之snowFlake算法

随着前端业务越来越复杂,自定义表单数据量比较大,每条数据的id生成则至关重要。想到前期IOS中实现的雪花算法ID,照着其实现JS版本,供大家学习参考。 一、库的建立引入 在你项目中创建一个snowFlake.js的文件:拷贝以下…

【2020】百度校招Java研发工程师笔试卷(第二批)算法题

贴一下我去年9月份写的博客 三道编程题,一道数学题,两道图论,哎嘿嘿,我就是不会做,哎嘿嘿,哭了。。。 一.最小值 牛牛给度度熊出了一个数学题,牛牛给定数字n,m,k,希望度度熊能找到…

Python使用graphviz绘制模块间数据流

graphviz官方参考链接: http://www.graphviz.org/documentation/ https://graphviz.readthedocs.io/en/stable/index.html 文章目录 需求描述环境配置实现思路代码实现 需求描述 根据各模块之间的传参关系绘制出数据流,如下图所示: 并且生成…

【SpringBoot】SpringBoot 项目初始化方法

github 搜索 springboot 模板 github 搜索 springboot 模板,拉取现成代码。 SpringBoot 官方的模板生成器 SpringBoot 官方的模板生成器(https://start.spring.io/) 在 IDEA 开发工具中生成 这里我修改成阿里的镜像主要是要使用 Java8。 …

YOLOv8 更换主干网络之 HGNetV2

论文地址:https://arxiv.org/abs/2304.08069 代码地址:https://github.com/PaddlePaddle/PaddleDetection 中文翻译:https://blog.csdn.net/weixin_43694096/article/details/131353118 YOLOv8 更换方式 YOLOv8 想用这个主干直接换就行了,因为项目里面已经集成了,写一个…

[python]使用pyqt5搭建yolov8钢筋计数一次性钢材计数系统

【官方框架地址】 github地址:https://github.com/ultralytics/ultralytics 【算法介绍】 Yolov8是一种先进的深度学习模型,用于目标检测和识别。在钢筋计数任务中,Yolov8可以有效地识别和计数图像中的钢筋。下面是对如何使用Yolov8实现钢筋…