简单线性回归原理sklearn简单实现

1. 回归与分类

回归模型:针对于连续值的预测,即线性关系
分类模型:预测离散值,非线性,针对于分类问题

2. 回归

回归算法是相对分类算法而言的,与我们想要预测的目标变量y的值类型有关。

如果目标变量y是分类型变量,如预测用户的性别(男、女),预测月季花的颜色(红、白、黄……),预测是否患有肺癌(是、否),那我们就需要用分类算法去拟合训练数据并做出预测;如果y是连续型变量,如预测用户的收入(4千,2万,10万……),预测员工的通勤距离(500m,1km,2万里……),预测患肺癌的概率(1%,50%,99%……),
我们则需要用回归模型。

有时分类问题也可以转化为回归问题,例如的肺癌预测,我们可以用回归模型先预测出患肺癌的概率,然后再给定一个阈值, 例如50%,概率值在50%以下的人划为没有肺癌,50%以上则认为患有肺癌。

回归分析:寻找变量之间近似的函数关系
线性回归分析:寻找变量之间近似的线性函数关系

3. 一元线性回归

y=β0+β1x
当给定参数β0和β1的时候,画在坐标图内是一条直线(这就是“线性”的含义)
当我们只用一个x来预测y,就是一元线性回归,也就是在找一个直线来拟合数据。
线性回归就是要找一条直线,并且让这条直线尽可能地拟合图中的数据点。

4. 回归问题常用的损失函数

残差平方和(RSS/SSR,residual sum of squares/sum squared residual)
均方误差 (MSE,Mean Squared Error)

5. python实现

sklearn中封装好了线性回归模型的实现,直接实例化类LinearRegression即可,
一般分为以下几个步骤:
1)训练集准备
特征集X
特征集对应的标签集y
2) 实例化模型&模型拟合
model = LinearRegression()
model.fit(X_train,y_train)
3) 预测新数据
model.predict(…)
4)误差计算,sklearn对于常见的误差函数也已经封装好
from sklearn.metrics import mean_squared_error
mse= mean_squared_error(y_真实,y_预测)

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import pickle # 保存模型的包# 假设有特征矩阵X和目标变量y
X = [[1, 2], [2, 4], [3, 6], [4, 8], [5, 10]]
y = [3, 6, 9, 12, 15]# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建线性回归模型
model = LinearRegression()# 拟合模型
model.fit(X_train, y_train)print(model.intercept_)  # 常数项  0.0
print(model.coef_)  # 变量系数  [0.6 1.2]# 预测测试集
y_pred = model.predict(X_test)# 计算均方误差
mse = mean_squared_error(y_test, y_pred)print("线性回归模型的均方误差:", mse)# # load the saved model
# with open('my_model.pkl', 'rb') as f:
#     model = pickle.load(f)
#
# # predict using the loaded model
# model.predict(X)# # load the saved model
# with open('my_model.pkl', 'rb') as f:
#     model = pickle.load(f)
#
# # continue training the model
# model.fit(X_train, y_train)
#
# # save the updated model
# with open('my_updated_model.pkl', 'wb') as f:
#     pickle.dump(model, f)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/735872.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构:图及相关算法讲解

图 1.图的基本概念2. 图的存储结构2.1邻接矩阵2.2邻接表2.3两种实现的比较 3.图的遍历3.1 图的广度优先遍历3.2 图的深度优先遍历 4.最小生成树4.1 Kruskal算法4.2 Prim算法4.3 两个算法比较 5.最短路径5.1两个抽象存储5.2单源最短路径--Dijkstra算法5.3单源最短路径--Bellman-…

Dataset 读取数据

Dataset 读取数据 from torch.utils.data import Dataset from PIL import Image import osclass Mydata(Dataset):def __init__(self,root_dir,label_dir):self.root_dir root_dir #根目录 dataset/trainself.label_dir label_dir #标签的后面链接目录 ants_ima…

windows系统玩游戏找不到d3dx9_43.dll缺失,无法启动此程序的解决方法

今日,我们要深入讨论d3dx9_43.dll文件的重要性及其缺失问题。最近,我也遇到了这个文件丢失的困扰,因此想借此机会与大家分享如何解决d3dx9_43.dll缺失的问题。 一.电脑d3dx9_43.dll丢失会提示什么? 关于电脑提示d3dx9_43.dll丢失…

Django中的Cookie和Session

文章目录 cookie是什么Django中如何使用cookieCookie使用示例session是什么Django中如何使用会话sessionSession使用示例小结 HTTP协议本身是”无状态”的,在一次请求和下一次请求之间没有任何状态保持,服务器无法识别来自同一用户的连续请求。有了cooki…

神经网络实战前言

应用广泛 从人脸识别到网约车,在生活中无处不在 未来可期 无人驾驶技术便利出行医疗健康改善民生 产业革命 第四次工业革命——人工智能 机器学习概念 机器学习不等价与人工智能20世纪50年代,人工智能是说机器模仿人类行为的能力 符号人工智能 …

【环境配置】Linux MySQL8 忘记密码解决措施

本片博客介绍 Linux 操作系统 Ubuntu 下,MySQL8 忘记密码怎么重新设置,笔者亲测有效,分享给大家。 查看 MySQL 版本 $ mysql --version停止 MySQL 服务器,并查看状态是否变更为 Server shutdown complete # 等价命令sudo syste…

Django简易用户登入系统示例

Django简易用户登入系统示例 1)添加url和函数的对应关系(urls.py) urlpatterns [ path(login/, views.login), #login:url路径,views.login:对应的函数 ]2)添加视图函数(views.py) def login(req):if…

Rust 生命周期符号使用的方法和规律

一、生命周期符号使用的规律 在 Rust 中,生命周期(lifetimes)是用于处理引用和所有权问题的关键概念。生命周期符号(通常表示为 a、b 等)用于指定引用的有效时间范围。这有助于编译器确保在引用被使用时,所…

IDEA + Git + GitHub(保姆级教学)

文章目录 IDEA Git GitHub1.IDEA克隆远程仓库到本地仓库1.创建一个GitHub远程仓库test12.IDEA克隆仓库到本地1.复制远程仓库地址2.创建一个版本控制项目3.克隆到本地仓库4.克隆成功 2.IDEA将本地项目push到远程仓库1.在这个项目下新建一个java模块1.新建模块2.填写模块名3.在…

【CSP试题回顾】202006-1-线性分类器

CSP-202006-1-线性分类器 解题思路 线性分类问题,即根据给定的数据点和分类界限,判断是否存在一条线能够将属于不同类别的点完全分开。具体来说,数据点被分为两类,标记为A和B,我们要找出是否存在一个线性决策边界&…

js 保留小数点几位

涉及到计算时,可能存在小数点。 使用 toFixed()函数来保留小数点。 roFixed()方法把数值Number类型四舍五入为指定小数位数(0到20位)的数字 var num 1.4927 console.log(num.toFixed(0))//输出1 console.log(num.toFixed(1))//输出1.5 co…

gpt不能发送信息了?

文章目录 问题注意步骤解决后 问题 注意步骤 清理所有cookie和浏览数据,可保存密码 解决后

ETCD分布式缓存

一、ETCD简介 ETCD是一个高度可用的分布式键值存储系统,主要用于共享配置和服务发现。它基于Go语言实现,内部使用Raft一致性算法处理日志复制,保证多节点数据的强一致性。 ETCD的目标是构建一个高可用的分布式键值数据库,用于存…

linux循环之select

select结构是建立菜单的另一种工具,该结构是从ksh中引入的 1.select格式 select variable [ in list ] do commands done 如果忽略了in list列表,那么select命令将会使用传递到脚本的命令行参数($),或者是函数参数(当select是在函数中时…

Java开发理论知识记录

【JWT】 JWT是什么 JSON Web Token (JWT),它是目前最流行的跨域身份验证解决方案 例:jwt就相当于学校的出入证,只有持有出入证的人才能进行出入 为什么使用JWT JWT的精髓在于:“去中心化”,数据是保存在客户端的。…

C++的类与对象(五):赋值运算符重载与日期类的实现

目录 比较两个日期对象 运算符重载 赋值运算符重载 连续赋值 日期类的实现 Date.h文件 Date.cpp文件 Test.cpp文件 const成员 取地址及const取地址操作符重载 比较两个日期对象 问题描述:内置类型可直接用运算符比较,自定义类型的对象是多个…

虚拟 DOM:前端性能优化的秘密

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

【大厂AI课学习笔记NO.72】AI与云计算

AI项目依靠云计算,借助云的力量,快速的启动业务,是比较好的一种选择。 AI模型训练过程中,出现算力突增,云计算成本低。 云平台提供一站式解决方案,创业公司的选择。 云端AI和边缘端的AI,是我们…

OpenCV filter2D函数详解

OpenCV filter2D函数简介 OpenCV filter2D将图像与内核进行卷积,将任意线性滤波器应用于图像。支持就地操作。当孔径部分位于图像之外时,该函数根据指定的边界模式插值异常像素值。 该函数实际上计算相关性,而不是卷积: filter…

MacOS、ubuntu安装libssh、libssh2

libssh安装 libssh官方下载链接 mkdir build cd build cmake -DCMAKE_INSTALL_PREFIX/opt/libssh/ .. make -j6 sudo make installlibssh2安装 libssh2官方下载链接 ubuntu系统安装 ./configure --prefix/opt/libssh2 make -j6 sudo make installMacOS系统安装 首先安装op…