线性模型--普通最小二乘法

线性模型

  • 一、模型介绍
  • 二、用于回归的线性模型
    • 2.1 线性回归(普通最小二乘法)

一、模型介绍

线性模型是在实践中广泛使用的一类模型,该模型利用输入特征的线性函数进行预测。

二、用于回归的线性模型

以下代码可以在一维wave数据集上学习参数w和b,w是斜率,b是截距。

import mglearn 
mglearn.plots.plot_linear_regression_wave()

在这里插入图片描述
我们在图中添加了坐标网格,便于理解直线的含义。w的值是0.39,b的值是-0.03。
用于回归的线性模型可以表示为这样的回归模型:对单一特征的预测结果是一条直线,两个特征时是一个平面,或者在更高维度(即更多特征)时是一个超平面。
对于有多个特征的数据集而言,线性模型可以非常强大。特别地,如果特征数量大于训练数据点的数量,任何目标y都可以(在训练集上)用线性函数完美拟合。
有许多不同的线性回归模型。这些模型之间的区别在于如何从训练数据中学习参数w和b,以及如何控制模型复杂度。下面介绍最常见的线性回归模型。

2.1 线性回归(普通最小二乘法)

线性回归,或者普通最小二乘法(ordinary least squares, OLS),是回归问题最简单也最经典的线性方法。线性回归寻找参数w和b,使得对训练集的预测值与真实的回归目标值y之间的均方误差最小。均方误差是预测值与真实值之差的平方和除以样本数。线性回归没有参数,这是一个优点,但也因此无法控制模型的复杂度。
以下代码可以生成一个简单的线性回归模型:

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
X, y = mglearn.datasets.make_wave(n_samples=60)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)model = LinearRegression()
model.fit(X_train, y_train)

“斜率”参数(w,也叫做权重或系数)被保存在coef_属性中,英文单词coef就是属性的意思,而截距(b)或偏移被保存在intercept_属性中,英文单词intercept的意思是拦截、阻截的意思。
在这里插入图片描述
intercept_属性是一个浮点数,而coef_属性是一个NumPy数组,每个元素对应一个输入特征。由于wave数据集中只有一个输入特征,所以model.coef_中只有一个元素。
再来看一下训练集和测试集的性能:
在这里插入图片描述
R²约为0.66,这个结果不是很好,但我们可以看到,训练集和测试集上的分数非常接近。这说明可能存在欠拟合,而不是过拟合。对于这个一维数据集来说,过拟合的风险很小,因为模型非常简单(或受限)。然而,对于更高维的数据集(即有大量特征的数据集),线性模型将变得更加强大,过拟合的可能性也会变大。我们来看一下LinearRegression在更复杂的数据集上的表现,比如波士顿房价数据集,这个数据集有506个样本和105个导出特征,代码如下:

X, y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
model = LinearRegression().fit(X_train, y_train)

在这里插入图片描述
线性回归模型在训练集上的预测非常准确,但测试集上的R²明显低一些。训练集和测试集之间的性能差异是过拟合的明显标志,因此我们应该试图找到一个可以控制复杂度的模型。标准线性回归最常用的替代方法之一就是岭回归,下篇博客中将详细介绍岭回归。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/16344.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于51单片机的超声波液位测量与控制系统

基于51单片机液位控制器 (仿真+程序+原理图PCB+设计报告) 功能介绍 具体功能: 1.使用HC-SR04测量液位,LCD1602显示; 2.当水位高于设定上限的时候,对应声光报警报警&am…

手机卡该地块

package demo; package demo; public class Phonetest { public static void main(String[] args) { Phone pnew Phone(); p.brand"小米"; p.price1998.98; System.out.println(…

在业务开发中使用ElasticSearch的指导手册

文章目录 该业务为什么需要ElasticSearch? / 该业务需要ElasticSearch的核心功能是哪些?正确示例错误示例 如何快速验证分词是否能够满足业务需求?分词不满足,如何自定义分词? 业务数据的字段类型映射是否合理?实践中…

MySQL设置表自增步长

在MySQL数据库管理中,自增字段(AUTO_INCREMENT)是一种常见且重要的功能,通常用于生成唯一的标识符(如主键)。然而,在多种应用场景下,默认的自增步长(1)可能无…

【InternLM实战营第二期笔记】02:大模型全链路开源体系与趣味demo

文章目录 00 环境设置01 部署一个 chat 小模型02 Lagent 运行 InternLM2-chat-7B03 浦语灵笔2 第二节课程视频与文档: https://www.bilibili.com/video/BV1AH4y1H78d/ https://github.com/InternLM/Tutorial/blob/camp2/helloworld/hello_world.md 视频和文档内容基…

003 CentOS 7.9 mysql8.3.0安装及配置

文章目录 Windows PowerShell测试端口安装及配置1. 下载MySQL安装包2. 解压安装包3. 安装MySQL4. 启动MySQL服务5. 获取并设置MySQL root密码6. 创建数据库7. 配置远程连接(可选) 卸载mysql检查并卸载已有的MySQL或MariaDB: https://download…

云计算和大数据处理

文章目录 1.云计算基础知识1.1 基本概念1.2 云计算分类 2.大数据处理基础知识2.1 基础知识2.3 大数据处理技术 1.云计算基础知识 1.1 基本概念 云计算是一种提供资源的网络,使用者可以随时获取“云”上的资源,按需求量使用,并且可以看成是无…

AWS安全性身份和合规性之WAF(Web Application Firewall)

AWS WAF(Web Application Firewall)是一项AWS托管的网络安全服务,用于保护Web应用程序免受常见的Web攻击,如SQL注入、跨站脚本(XSS)、跨站请求伪造(CSRF)等。 应用场景:…

STM32应用开发进阶--IIC总线(SHT20温湿度+HAL库_硬件I2C)

实现目标 1、掌握IIC总线基础知识; 2、会使用软件模拟IIC总线和使用STM32硬件IIC总线; 3、 学会STM32CubeMX软件关于IIC的配置; 4、掌握SHT20温湿度传感器的驱动; 5、具体目标:(1)用STM32硬件IIC驱动S…

49 序列化和反序列化

本章重点 理解应用层的作用,初识http协议 理解传输层的作用,深入理解tcp的各项特性和机制 对整个tcp/ip协议有系统的理解 对tcp/ip协议体系下的其他重要协议和技术有一定的了解 学会使用一些网络问题的工具和方法 目录 1.应用层 2.协议概念 3. 网络计…

CSRF跨站请求伪造实战

目录 一、定义 二、与XSS的区别 三、攻击要点 四、实战 一、定义 CSRF (Cross-site request forgery,跨站请求伪造),攻击者利用服务器对用户的信任,从而欺骗受害者去服务器上执行受害者不知情的请求。在CSRF的攻击场景中,攻击…

Django模板层——模板引擎配置

作为Web 框架,Django 需要一种很便利的方法以动态地生成HTML。最常见的做法是使用模板。 模板包含所需HTML 输出的静态部分,以及一些特殊的语法,描述如何将动态内容插入。 模板引擎配置 模板引擎使用该TEMPLATES设置进行配置。这是一个配置列…

C++数据结构——哈希桶HashBucket

目录 一、前言 1.1 闭散列 1.2 开散列 1.3 string 与 非 string 二、哈希桶的构成 2.1 哈希桶的节点 2.2 哈希桶类 三、 Insert 函数 3.1 无需扩容时 3.2 扩容 复用 Insert: 逐个插入: 优缺点比对: 第一种写法优点 第一种写法…

gfast:基于全新Go Frame 2.3+Vue3+Element Plus构建的全栈前后端分离管理系统

gfast:基于全新Go Frame 2.3Vue3Element Plus构建的全栈前后端分离管理系统 随着信息技术的飞速发展和数字化转型的深入,后台管理系统在企业信息化建设中扮演着越来越重要的角色。为了满足市场对于高效、灵活、安全后台管理系统的需求,gfast应…

OpenUI 可视化 AI:打造令人惊艳的前端设计!

https://openui.fly.dev/ai/new 可视化UI的新时代:通过人工智能生成前端代码 许久未更新, 前端时间在逛github,发现一个挺有的意思项目,通过口语化方式生成前端UI页面,能够直观的看到效果,下面来给大家演示下 在现代…

SAP FS00如何导出会计总账科目表

输入T-code : S_ALR_87012333 根据‘FS00’中找到的总账科目,进行筛选执行 点击左上角的列表菜单,选择‘电子表格’导出即可

echarts-地图

使用地图的三种的方式: 注册地图(用json或svg,注册为地图),然后使用map地图使用geo坐标系,地图注册后不是直接使用,而是注册为坐标系。直接使用百度地图、高德地图,使用百度地图或高德地图作为坐标系。 用json或svg注…

C++中string类的初步介绍

C语言中的字符串 在C语言中,字符串是以\0结尾的一些字符的集合,C标准库中提供了一系列str系列的库函数,但这些库函数与字符串是分离的,不符合面向对象的编程思想。 string类的大致介绍 1.string是表示字符串的字符串类 2.stri…

GpuMall智算云:meta-llama/llama3/Llama3-8B-Instruct-WebUI

LLaMA 模型的第三代,是 LLaMA 2 的一个更大和更强的版本。LLaMA 3 拥有 35 亿个参数,训练在更大的文本数据集上GpuMall智算云 | 省钱、好用、弹性。租GPU就上GpuMall,面向AI开发者的GPU云平台 Llama 3 的推出标志着 Meta 基于 Llama 2 架构推出了四个新…

pycharm画图猫和老鼠

在PyCharm中,你可以使用turtle模块来画图。以下是一个简单的例子,展示如何使用turtle模块来绘制一个猫和一个老鼠。 import turtle # 设置窗口标题 turtle.title("画图猫和老鼠") # 创建两个turtle对象,一个用于绘制猫&#xf…