回归问题波士顿房价预测

线性回归API

sklearn.linear_model.LinearRegression(fit_intercept=True)

  • 正规方程优化
  • 参数:fit_intercept,是否计算偏置
  • 属性:LinearRegression.coef_ (回归系数) LinearRegression.intercept_(偏置)

 sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='constant', eta0=0.01)

  • SGDRegressor类实现了随机梯度下降学习,它支持不同的 损失函数和正则化惩罚项 来拟合线性回归模型。
  •  参数:loss(损失函数类型),fit_intercept(是否计算偏置)learning_rate (学习率)
  • 属性:SGDRegressor.coef_ (回归系数)SGDRegressor.intercept_ (偏置)

案例背景介绍 

波士顿房价预测数据集来源于1978年美国某经济学杂志,共包含506个数据点,涵盖了麻省波士顿不同郊区房屋13种特征的信息。这些特征包括: 

  1. CRIM:每个城镇人均犯罪率。
  2. ZN:占地面积超过25,000平方英尺的住宅用地比例。
  3. INDUS:非零售商用地百分比。
  4. CHAS:是否靠近查尔斯河(虚拟变量,1表示靠近,0表示不靠近)。
  5. NOX:氮氧化物浓度(百万分之一)。
  6. RM:住宅平均房间数目。
  7. AGE:1940年前建成自用单位比例。
  8. DIS:到5个波士顿就业服务中心的加权距离。
  9. RAD:无障碍径向高速公路指数。
  10. TAX:每万元物业税率。
  11. PTRATIO:小学师生比例。
  12. B:黑人比例指数。
  13. LSTAT:下层经济阶层比例。

需要注意的是从 scikit-learn 1.2 版本开始,波士顿房价数据集(Boston housing prices dataset)已被移除 ,可以使用较低版本的scikit-learn库。

 回归性能评估,均方误差(Mean Squared Error, MSE):

MSE = (1/n) * Σ(y_i - ŷ_i)^2

其中,n 表示样本数量,y_i 表示第 i 个样本的真实值,ŷ_i 表示第 i 个样本的预测值,Σ 表示求和。MSE 的值越小,表示模型的预测效果越好。MSE 的单位与预测值和真实值的单位相同,因此可以直接比较不同模型之间的性能。

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import SGDRegressor
from sklearn.linear_model import LinearRegression
def linear_model():"""线性回归:梯度下降法"""data = load_boston()x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)transfer = StandardScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.fit_transform(x_test)estimator = SGDRegressor(max_iter=1000)estimator.fit(x_train, y_train)y_predict = estimator.predict(x_test)print("预测值为:\n", y_predict)print("模型中的系数为:\n", estimator.coef_)print("模型中的偏置为:\n", estimator.intercept_)# 5.2 评价# 均方误差error = mean_squared_error(y_test, y_predict)print("误差为:\n", error)return None

 模型的保存和加载

 sklearn模型的保存和加载API import joblib

  • 保存:joblib.dump(estimator, 'test.pkl')
  • 加载:estimator = joblib.load('test.pkl')
joblib.dump(estimator, 'test.pkl')
estimator = joblib.load('test.pkl')
y_predict = estimator.predict(x_test)
print("预测值为:\n", y_predict)
print("模型中的系数为:\n", estimator.coef_)
print("模型中的偏置为:\n", estimator.intercept_)

总结:

  1. 导入所需的库和数据集:我们导入了 scikit-learn 的线性回归模型、SGD 优化器、数据集和其他辅助库。

  2. 加载波士顿房价数据集:我们使用 scikit-learn 的 load_boston 函数加载了波士顿房价数据集。

  3. 数据预处理:我们对数据集进行了预处理,包括将数据集分为训练集和测试集,以及对特征进行标准化。

  4. 创建线性回归模型:我们使用 scikit-learn 的 SGDRegressor 类创建了一个线性回归模型,并设置了优化器为随机梯度下降(SGD)。

  5. 训练模型:我们使用训练集对模型进行训练。

  6. 评估模型:我们使用测试集评估模型的性能,计算了均方误差(MSE)和均方根误差(RMSE)。

  7. 预测:我们使用训练好的模型对测试集进行预测,并与真实值进行比较。

 sklearn.linear_model.LinearRegression()和sklearn.linear_model.SGDRegressor()

都是线性回归模型,但它们的训练方法和性能有所不同。

  • sklearn.linear_model.LinearRegression():使用最小二乘法(Ordinary Least Squares, OLS)进行线性回归。在训练过程中,它通过最小化损失函数(均方误差)来找到最佳的权重和截距。

  • sklearn.linear_model.SGDRegressor():使用随机梯度下降(Stochastic Gradient Descent, SGD)进行线性回归。在训练过程中,它通过逐步更新权重和截距来最小化损失函数。

 性能:

  • sklearn.linear_model.LinearRegression():在大型数据集上,它可能需要较长时间进行训练,因为它需要计算整个数据集的梯度。

  • sklearn.linear_model.SGDRegressor():在大型数据集上,它的训练速度通常比 LinearRegression 快,因为它每次只使用一个样本来更新权重。这使得它在处理大型数据集时更加高效。

LinearRegression 和 SGDRegressor 都是线性回归模型,但它们的训练方法和性能有所不同。在选择合适的模型时,需要根据数据集的大小、特征数量以及训练时间等因素进行权衡。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/643906.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STL第四讲

第四讲 万用Hash Function 左侧的是设计为类并重载调用运算符,右侧是一般函数的形势; 但是右侧形势在创建容器时更麻烦; 具体例子: 第三种形势:struct hash 偏特化形式 tuple 自C03引入; 关于源码解读的…

ASCB1系列一体式智能微型断路器 智慧空开-安科瑞 蒋静

1. 概述 ASCB1系列智能微型断路器(一体式)(以下简称智能微型断路器)应用于户内建筑物及类似场所的工业、商业、民用建筑及基础设施等领域低压终端配电网络。智能微型断路器对用电线路的关键电气参数,如电压、电流、功率、温度、漏电、能耗等…

北美“水务巨头”遭遇勒索软件攻击,账单支付系统被破坏

近日,威立雅北美公司披露了一起勒索软件攻击事件,此次攻击影响了其市政水务部门的部分系统,并破坏了其账单支付系统。 在发现攻击后,该公司立即采取了防御措施,并暂时关闭了部分系统,以避免漏洞造成更大的…

Broadcom交换芯片56620架构

文章目录 架构1.系统逻辑视图2.逻辑芯片视图3.芯片框图4.MIIM(Medium Independent Interface Management)5.交换结构6.CAP 架构 1.系统逻辑视图 Ingress Chip作用: 解析报文128字节的头部(MMU(Memory Management Uni…

JavaWeb之开发介绍 --黑马笔记

什么是 Web ? Web:全球广域网,也称为万维网(www World Wide Web),能够通过浏览器访问的网站。 Web 网站的工作流程 上图解释: 当你在浏览器中输入网址或点击一个链接时,浏览器会向前端服务器发起请求&…

C++进阶--哈希的应用之位图和布隆过滤器

哈希的应用之位图和布隆过滤器 一、位图1.1 位图(bitset)的提出1.2 位图的概念1.3 位图的模拟实现1.3.1 位图的底层结构1.3.2 位图的成员函数1.3.2.1 位图的构造1.3.2.2 位图的插入:set1.3.2.3 位图的删除:reset1.3.2.4 位图的查找…

头疼管理 Postgres Schema?开源工具大盘点!

Postgres 前不久荣获了 DB-Engines 2023 年度数据库的桂冠,其生态也在蓬勃发展,不过,迁移 Postgres 数据库 schema 仍旧令人头疼,不是一件好办的事儿。 本文中,我们盘点几个好用的用于 Postgres 的开源数据库 schema 迁…

UDS Flash刷写流程介绍

一、刷写流程介绍 1.1刷写包含以下三个步骤:预编程,编程,后编程 1.2预编程步骤 此步骤是保证能够正常进入编程(10 02)会话下。 (1)如果无特殊要求,只保证刷写能够正常进行&#x…

Fluent 技巧:查找并修改隐藏的设置

绝大部分 Fluent 设置可以通过图形界面或者命令行内置的命令按照提示处理。少部分设置因为种种原因被隐藏,需要在命令行中使用 scheme 语句进行处理。例如关闭温度的二阶梯度,需要在命令行中完整输入如下 scheme 语句(包括英文括号部分&#…

编译安装Nginx健康检查模块和echo模块

1、编译安装Nginx健康检查模块和echo模块 -rw-r--r-- 1 root root 482 1月 20 09:51 1.sh -rw-------. 1 root root 1060 11月 26 09:12 anaconda-ks.cfg -rw-r--r-- 1 root root 370929 1月 16 18:02 bash.txt drwxrwxr-x 5 root root 174 8月 1 2022 ec…

网站将http升级到https大概要多少费用

随着网络安全意识的不断提升,越来越多的网站正从传统的HTTP协议转向更安全的HTTPS协议。这一转变的核心在于部署SSL(Secure Sockets Layer)或TLS(Transport Layer Security)证书,以实现数据加密传输&#x…

【算法专题】动态规划之路径问题

动态规划2.0 动态规划 - - - 路径问题1. 不同路径2. 不同路径Ⅱ3. 珠宝的最高价值4. 下降路径最小和5. 最小路径和6. 地下城游戏 动态规划 - - - 路径问题 1. 不同路径 题目链接 -> Leetcode -62.不同路径 Leetcode -62.不同路径 题目:一个机器人位于一个 m …

srs5.0.205编译启动

官方有教程了,但是我编译的时候出了很多错误,记录一下。 官方文档:https://ossrs.net/lts/zh-cn/docs/v4/doc/getting-started-build 拉取源码 git clone -b 4.0release https://gitee.com/ossrs/srs.git进入文件夹 cd srs/trunk配置 ./c…

【STM32】STM32F4中USB的CDC虚拟串口(VCP)使用方法

文章目录 一、前言二、STM32CubeMX生成代码2.1 选择芯片2.2 配置相关模式2.3 设置时钟频率2.4 生成代码2.5 编译并下载代码2.6 结果2.7 问题 三、回环测试3.1 打开工程3.2 添加回环代码3.3 编译烧录并测试 四、出现问题和解决方法4.1 烧录总是要自己插拔USB4.2 自己生成的工程没…

【win】Windows下MSI Afterburner如何让其不在某个软件中显示帧数

本文首发于 慕雪的寒舍 Windows下MSI Afterburner如何让其不在某个软件中显示帧数 1.问题说明 总所周知,MSI Afterburner这个软件可以在游戏里面展示你当前电脑的各项生命体征,包括GPU/CPU功耗频率温度,内存占用,当前帧数等等数据…

OpenKruiseGame × KubeSphere 联合发布游戏服运维控制台,推动云原生游戏落地

作者:云原生游戏社区 近日,云原生游戏开源社区旗下 OpenKruiseGame(以下简称:OKG)基于 KubeSphere 4.0 LuBan 架构开发的游戏服运维控制台 OKG Dashboard 正式发布!现已上架 KubeSphere Marketplace 云原生…

32、WEB攻防——通用漏洞文件上传二次渲染.htaccess变异免杀

文章目录 一、点过滤二、文件删除三、二次渲染四、.htaccess五、过滤php关键函数 一、点过滤 不能写带文件后缀的文件名;IP转数字 二、文件删除 文件依据规则进行删除,删除有两种删除的类型: 什么文件都删除,条件竞争进行绕过…

宠物热潮席卷欧美:探秘宠物经济的蓬勃发展与增长动力

近年来,宠物经济在欧美地区蓬勃发展,成为经济体系中一股不可忽视的力量。从宠物食品到医疗护理,从宠物用品到服务业,整个产业链日益完善,呈现出多元化、高度专业化的趋势,不仅满足了宠物主人的需求&#xf…

Node.JS CreateWriteStream(大容量写入文件流优化)

Why I Need Node.JS Stream 如果你的程序收到以下错误,或者需要大容量写入很多内容(几十几百MB甚至GB级别),则必须使用Stream文件流甚至更高级的技术。 Error: EMFILE, too many open files 业务场景,我们有一个IntradayMissingRecord的补…

《WebKit 技术内幕》学习之十二(1):安全机制

第12章 安全机制 安全机制对于浏览器和渲染引擎来说至关重要。一个不考虑安全机制的HTML5规范体系肯定不会受到广泛地使用,同时一个不安全的浏览器也不会得到广大用户的青睐。本章介绍的安全机制分成两个不同的部分,第一个部分是网页的安全,…