预测房屋价格(使用SGDRegressor随机梯度下降回归)

线性回归:预测未来趋势01(预测房屋价格)


文章目录

  • 线性回归:预测未来趋势01(预测房屋价格)
  • 前言
  • 一、案例介绍:
  • 二、架构图:(流程图)
  • 三、使用了什么技术:(知识点)
    • (1)标准化数据:(有3种方式)
    • (2)预测准确率得分:Score
    • (3)均方误差:MSE
    • (4)SGDRegressor:随机梯度下降回归
  • 四、结果示意图:
  • 五、具体代码与分析:
    • 导库
    • 任务1:可视化房屋数据
      • 执行结果:(使用散点图进行可视化)
      • 补充:(house.txt里面的数据展示)
    • 任务2:训练线性回归模型
      • 执行结果:
      • 补充:(x_test 和 y_test的结果展示)
    • 任务3:测试以及评估线性回归模型
      • 执行结果:
  • 六、总结:须要注意的地方 && 改进之处:(个人思考)
  • 七、附录:完整代码
  • 总结


前言

使用SGDRegressor随机梯度下降回归


提示:以下是本篇文章正文内容:

一、案例介绍:

从房屋交易的历史记录中发现某种规律,来预测房屋价格的走势。(极其简略的版本)

划分为3个任务:
任务1:可视化房屋数据
任务2:训练线性回归模型
任务3:测试以及评估线性回归模型


二、架构图:(流程图)

1.通过观察散点图来确定是否可以使用线性回归。
2.不可就要寻找其他方法。否则进行下一步。(判断是否使用线性回归方法来预测)
3.数据预处理(合并、清洗、标准化、转换),在这里使用离差标准化的方式对数据进行标准化处理
4.训练模型fit
5.评估模型的性能score(判断模型是否合适)
6.使用模型预测房屋价格predict



三、使用了什么技术:(知识点)

(1)标准化数据:(有3种方式)

在这里插入图片描述



(2)预测准确率得分:Score

# 训练集 和 测试集的预测准确率得分
model.score(x_train,y_train)
model.score(x_test,y_test)

预测准确率得分score又叫做判定系数,
返回值反映了因变量y的波动有多少可以被自变量x的波动所描述,
就是y的波动中有多少可以由控制x来解释。
得分越高,线性回归方程的拟合程度越高。


(3)均方误差:MSE

MSE = np.mean((y_test - y_pred)**2)

均方误差(Mean Squared Error, MSE)是一种在回归分析中常用的损失函数,
用于衡量模型预测值与实际观测值之间的差异。
MSE 提供了预测错误的量化度量,帮助我们评估模型的性能。
较小的MSE值通常意味着模型的预测能力更强,即模型的预测值更接近实际观测值。


(4)SGDRegressor:随机梯度下降回归

SGDRegressor:实现随机梯度下降回归,
随机梯度下降是一种优化算法,常用于大规模数据集的线性回归问题。
Stochastic Gradient Descent:随机梯度下降


四、结果示意图:

在这里插入图片描述



在这里插入图片描述



在这里插入图片描述



五、具体代码与分析:

导库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 导入随机梯度下降回归模型函数
from  sklearn.linear_model import SGDRegressor

任务1:可视化房屋数据

df=pd.read_csv('data\house.txt',sep=',',header=0)# 读取文件
plt.scatter(df['area'],df['price'],c='b')# 指定散点图的颜色为蓝色
plt.show()

header=0:表示以第0行数据为列名
df是数据框,df[‘area’]是单列数据Series,通过字典的方式进行访问
c:接收color或数组,这里接收的是‘blue蓝色;
如果接收的是一个数组,按照数组的值分配颜色,有多少种值,就有多少种颜色。(在分类里面常用到)


执行结果:(使用散点图进行可视化)

在这里插入图片描述



补充:(house.txt里面的数据展示)

在这里插入图片描述



任务2:训练线性回归模型

# 1.数据的归一化处理:min-max标准化
df=(df-df.min())/(df.max()-df.min())# 2.产生训练集和测试集
train_data=df.sample(frac=0.8,replace=False)# 训练集
test_data=df.drop(train_data.index)# 测试集
#转换数据:将数据转换为二维数组的形式:行自适应,1列
x_train=train_data['area'].values.reshape(-1, 1)
y_train=train_data['price'].values
x_test=test_data['area'].values.reshape(-1, 1)
y_test=test_data['price'].values# 3.构建并训练模型
model=SGDRegressor(max_iter=500,learning_rate='constant',eta0=0.01)# 构建线性回归模型
model.fit(x_train,y_train)# 训练模型
# 输出训练结果:准确率得分 和 模型的自变量系数、截距
pre_score=model.score(x_train,y_train)
print('score=',pre_score)
print('coef=',model.coef_,'intercept=',model.intercept_)

sample:用于从df中随机抽取样本
frac:表示抽取的比例
replace=False:表示每个样本只能被选中一次,不允许被替换???
使用sample的好处:有一定的随机性,是结果更加可靠。
train_data.index:获取train_data的行索引
reshape(-1, 1) :将一维数组转换为二维数组,其中每一行只有一个元素。用于某些函数或方法期望输入是一个二维数组时。
max_iter=500 :最大迭代次数为500次。
learning_rate=‘constant’:学习率策略是常数,即在整个训练过程中学习率保持不变。
eta0=0.01 :初始学习率是0.01。


执行结果:

在这里插入图片描述

补充:(x_test 和 y_test的结果展示)



在这里插入图片描述



在这里插入图片描述



任务3:测试以及评估线性回归模型

# 1.计算均方误差
y_pred=model.predict(x_test)
print('测试集准确性得分=%.5f'%model.score(x_test,y_test))
#计算测试集的损失(用均方差)
MSE=np.mean((y_test - y_pred)**2)# 误差的平方的均值
print('损失MSE={:.5f}'.format(MSE))# 2.绘制效果预测图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.figure(figsize=(10,4))
ax1=plt.subplot(121)
# (1)先后绘制出 真实样本散点图 和 预测回归线
plt.scatter(x_test,y_test,label='测试集')
plt.plot(x_test,y_pred,'r',label='预测回归线')
ax1.set_xlabel('面积')
ax1.set_ylabel('价格')
plt.legend(loc='upper left')
# (2)先后绘制出 真实值 和 预测值 的分布折线图
ax2=plt.subplot(122)
x=range(0,len(y_test))
plt.plot(x,y_test,'g',label='真实值')
plt.plot(x,y_pred,'r',label='预测值')
ax2.set_xlabel('样本序号')
ax2.set_ylabel('价格')
plt.legend(loc='upper right')
plt.show()

误差:真实值-预测值(test-pred)
plt.plot(x_test,y_pred,‘r’,label=‘预测回归线’):由于是线性回归预测,所以虽然是画折线图,但最终的结果是以“直线”的形式呈现的。
upper left:左上
upper right:右上



执行结果:

在这里插入图片描述



六、总结:须要注意的地方 && 改进之处:(个人思考)

1.如何用其他的方法实现“标准化数据”???

2.如何使用其他的方法产生“训练集和测试集”???
比如:train_test_split(data, target, test_size=0.2, random_state=42)

3.为什么会有“model.coef_”这样以下划线结尾的属性???

4.可视化数据,可以看得懂,但是自己写就总是差点意思。
自己要去整理一套模版。



七、附录:完整代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 导入随机梯度下降回归模型函数
from  sklearn.linear_model import SGDRegressordf=pd.read_csv('data\house.txt',sep=',',header=0)# 读取文件
plt.scatter(df['area'],df['price'],c='b')# 指定散点图的颜色为蓝色
plt.show()# 1.数据的归一化处理:min-max标准化
df=(df-df.min())/(df.max()-df.min())# 2.产生训练集和测试集
train_data=df.sample(frac=0.8,replace=False)# 训练集
test_data=df.drop(train_data.index)# 测试集
#转换数据:将数据转换为二维数组的形式:行自适应,1列
x_train=train_data['area'].values.reshape(-1, 1)
y_train=train_data['price'].values
x_test=test_data['area'].values.reshape(-1, 1)
y_test=test_data['price'].values# 3.构建并训练模型
model=SGDRegressor(max_iter=500,learning_rate='constant',eta0=0.01)# 构建线性回归模型
model.fit(x_train,y_train)# 训练模型
# 输出训练结果:准确率得分 和 模型的自变量系数、截距
pre_score=model.score(x_train,y_train)
print('score=',pre_score)
print('coef=',model.coef_,'intercept=',model.intercept_)# 1.计算均方误差
y_pred=model.predict(x_test)
print('测试集准确性得分=%.5f'%model.score(x_test,y_test))
#计算测试集的损失(用均方差)
MSE=np.mean((y_test - y_pred)**2)# 误差的平方的均值
print('损失MSE={:.5f}'.format(MSE))# 2.绘制效果预测图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.figure(figsize=(10,4))
ax1=plt.subplot(121)
# (1)先后绘制出 真实样本散点图 和 预测回归线
plt.scatter(x_test,y_test,label='测试集')
plt.plot(x_test,y_pred,'r',label='预测回归线')
ax1.set_xlabel('面积')
ax1.set_ylabel('价格')
plt.legend(loc='upper left')
# (2)先后绘制出 真实值 和 预测值 的分布折线图
ax2=plt.subplot(122)
x=range(0,len(y_test))
plt.plot(x,y_test,'g',label='真实值')
plt.plot(x,y_pred,'r',label='预测值')
ax2.set_xlabel('样本序号')
ax2.set_ylabel('价格')
plt.legend(loc='upper right')
plt.show()

总结

提示:这里对文章进行总结:

💕💕💕

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/3167.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录:二叉树18(Java)

目录 105.从前序与中序遍历序列构造二叉树 题目 代码 106.从中序与后序遍历序列构造二叉树 题目 代码 105.从前序与中序遍历序列构造二叉树 题目 给定两个整数数组 preorder 和 inorder ,其中 preorder 是二叉树的先序遍历, inorder 是同一棵树的…

利用Django中的缓存系统提升Web应用性能

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 在构建现代Web应用时,性能通常是至关重要的考虑因素之一。为了提高用户体验和应…

设计模式(六):原型模式

设计模式(六):原型模式 1. 原型模式的介绍2. 原型模式的类图3. 原型模式的实现3.1 创建一个原型接口3.2 创建具体原型3.3 创建一个数据缓存类3.4 测试 1. 原型模式的介绍 原型模式(Prototype Pattern)属于创建型模式&…

人工智能(AI)与地理信息技术(GIS)的融合:开启智能地理信息时代

随着科技的不断发展,人工智能(AI)和地理信息技术(GIS)的应用越来越广泛,两者的结合更是为许多行业带来了前所未有的变革。本文将以“人工智能(AI)地理信息技术(GIS&#…

【八股】Spring篇

why Spring? 1.使用它的IOC功能,在解耦上达到了配置级别。 2.使用它对数据库访问事务相关的封装。 3.各种其他组件与Spring的融合,在Spring中更加方便快捷的继承其他一些组件。 IoC和DI 👉IOC是Inversion of Control的缩写,“…

德语口语学习的8种练习方法

简洁明了一点,方便大家理解,我总结了以下8点: 1.模拟对话: 创造实际生活场景,例如购物、问路、餐厅点餐等,并自言自语或者与伙伴一起模拟这些对话。 参加角色扮演活动,通过不同情境练习口语。…

文末送资料|跟着开源学技术-ChatGPT开源项目-chatgpt-java

目录 功能特性 最简使用 进阶使用 函数调用(Function Call) 流式使用 流式配合Spring SseEmitter使用 多KEY自动轮询 大家好,我是充电君 今天带着大家来看个Java版本的ChatGPT。这个开源项目就是chatgpt-java。 Github: h…

Django与mysqlclient链接不成功

先检查自己的python是什么版本,是64位还是32位,这个自己去网上查。 我的是32位的,因为直接pip下载不了,网上也没有32位的whl,所以卸载重装一个64位的3.9.6的python 网上直接搜mysqlclient,找到对应py39也…

Excel vlookup函数的使用教程 和 可能遇到的错误解决方法

使用VLOOKUP示例 被查询的表格 表一 A列B列C列A1aB2bC3c 要匹配的列 表二 F列G列H列ACBDA 要G列匹配字母,H列匹配数字 G 使用公式VLOOKUP(F5,A:D,3,0) 参数说明 F5 是表二 F列第五行的A A:D表是要匹配的数据列表在A到D列,就是表一 (注意…

什么样的汽车制造供应商管理平台 可以既高效又安全?

汽车制造供应商管理是汽车制造商最基础的工作项,因为在汽车制造环节,与供应商间存在着必不可少又高频的业务往来,而在汽车制造供应商之间,文件往来是确保业务顺利进行、沟通协作和质量控制的重要环节。这些文件往来涵盖了多个方面…

网络爬虫之爬虫原理

** 爬虫概述 Python网络爬虫是利用Python编程语言编写的程序,通过互联网爬取特定网站的信息,并将其保存到本地计算机或数据库中。 """ 批量爬取各城市房价走势涨幅top10和跌幅top10 """ ​ from lxml import etree impor…

通过本机端口映射VMware中虚拟机应用(例如同一局域网别人想远程连接你虚拟机中的数据库)

需要 虚拟机中安装一下达梦数据库,并且以后大家都连接你虚拟机中达梦数据库进行开发。。。。。。在不改动自己虚拟机配置,以及本地网卡任何配置的情况下如何解决?本虚拟机网络一直使用的NAT模式。 解决 找到NAT设置添加端口转发即可解决。…

高级IO—多路转接

🎬慕斯主页: 修仙—别有洞天 ♈️今日夜电波:Cupid - Twin Ver. (FIFTY FIFTY) - Sped Up Version 0:20━━━━━━️💟──────── 2:25 🔄 …

【FFmpeg】视频与图片互相转换 ( 视频与 JPG 静态图片互相转换 | 视频与 GIF 动态图片互相转换 )

文章目录 一、视频与 JPG 静态图片互相转换1、视频转静态图片2、视频转多张静态图片3、多张静态图片转视频 二、视频与 GIF 动态图片互相转换1、视频转成 GIF 动态图片2、 GIF 动态图片转成视频 一、视频与 JPG 静态图片互相转换 1、视频转静态图片 执行 ffmpeg -i input.mp4 …

《浪潮之巅》:时代的巨轮与公司的兴衰

《浪潮之巅》是一部引人深思的作品,作者吴军通过对AT&T等公司的兴衰历程的叙述,展现了在科技浪潮之巅,公司如何成长、兴盛,并最终可能面临困境或转型。读完这部作品,我对公司的发展、企业经营者的战略眼光以及硅谷…

保姆级银河麒麟V10高级服务器离线安装mysql5.7数据库

离线在银河麒麟高级操作系统v10安装mysql5.7 下载mysql5.7 MySQL :: Download MySQL Community Server (Archived Versions) 2、把下载好的包上传到服务器 3、解压 [root1-0001 ~]# cd /data/mysql[root1-0001 mysql]# tar -zxvf mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz…

artifactory配置docker本地存储库

​一、概述 本地 Docker 存储库是我们部署和托管内部 Docker 镜像的位置。实际上,它是一个 Docker 注册表,能够托管的 Docker 镜像的集合。通过本地存储库,你可以保存、加载、共享和管理自己的 Docker 镜像,而无需依赖于外部的镜像…

Mac和VScode配置fortran

最近更换了mac电脑,其中需要重新配置各类软件平台和运行环境,最近把matlab、gmt、VScode、Endnote等软件全部进行了安装和配置。但是不得不说,mac系统对于经常编程的人来说还是非常友好的! 由于需要对地震位错的程序进行编译运行…

【继承和多态】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 提示:这里可以添加本文要记录的大概内容: 例如:…

KEITHLEY(吉时利)2440源测量单位(SMU)数字源表

KEITHLEY(吉时利)2440源测量单位(SMU)数字源表 主要特性 50W 时性能高达 5A / 40V0.012% 基本测量精度,具有 6 位分辨率10pA / 100nV 测量分辨率与 KickStart 软件结合使用美国2440吉时利keithley数字源表特点 2400系列提供宽动…