机器学习-线性回归(简单回归、多元回归)

这一篇文章,我们主要来理解一下,什么是线性回归中的简单回归和多元回归,顺便掌握一下特征向量的概念。

一、简单回归

简单回归线性回归的一种最基本形式,它用于研究**一个自变量(输入)与一个因变量(输出)**之间的线性关系。其数学表达形式为:

y= wx + b

其中:

  • y:因变量(输出),即我们要预测的目标值
  • x:自变量(输入),即影响因变量的已知因素
  • w(权重/斜率):表示自变量对因变量的影响程度
  • b(偏置/截距):表示当 x = 0 时,y 的取值

通俗举例 1:通过身高预测体重

假设我们想要建立一个简单的模型,根据一个人的身高来预测体重,我们有以下数据:

身高(cm)体重(kg)
15050
16060
17070
18080

建模思路:

  • 设身高 x,体重 y,假设两者之间有一个线性关系 y=wx+b。
  • 通过拟合这些数据,模型可能会得到类似的方程: 体重=0.5×身高−25, 在这里:
    • w=0.5(表示每增加 1 cm 身高,体重约增加 0.5 kg)
    • b=−25(表示身高为 0 时的理论体重,但在实际场景中无意义,仅为模型参数)

预测:
如果一个人的身高是 175 cm,则模型预测体重为:

y=0.5×175−25=62.5kg

通俗举例 2:学习时间与考试分数

假设我们想要研究学习时间(小时)对考试分数的影响,收集了一些数据:

学习时间(小时)考试分数(分)
150
255
365
470

建模思路:
我们尝试建立一个简单回归模型来预测分数:

考试分数=10×学习时间+45

在这里:

  • 斜率 w=10(表示每增加 1 小时学习时间,分数提高 10 分)
  • 截距 b=45(表示即使不学习,可能的最低分数是 45 分)

预测:
如果某人学习 5 小时,预测的考试分数为:

10×5+45=95

简单回归的特点

  1. 只涉及一个自变量(单输入)
  2. 假设变量之间是线性关系(如果关系复杂,可能需要更高级的回归方法)
  3. 易于解释和计算(适合初学者理解和使用)

简单回归的应用场景

  • 通过温度预测冰淇淋销量
  • 通过广告支出预测销售额
  • 通过年龄预测血压

二、多元回归

什么是多元回归?

多元回归(Multiple Linear Regression, MLR) 是线性回归的一种扩展,它用于研究**多个自变量(输入)一个因变量(输出)**之间的关系。简单来说,它是一种能同时考虑多个影响因素的回归模型。

多元回归的数学公式:

其中:

  • y:因变量(输出)
  • x1,x2,...,xn:自变量(输入特征)
  • w1,w2,...,wn:各特征的权重(回归系数),衡量每个特征对结果的影响程度
  • b:偏置项(截距),表示所有输入特征为 0 时的输出值

通俗举例 1:房价预测

假设我们想要预测一套房子的价格,影响房价的因素有:

面积(㎡)房龄(年)离市中心距离(km)价格(万元)
10053200
120105180
8022220
1501510150

在这里,我们可以建立一个多元回归模型:

通俗举例 2:学生考试成绩预测

假设某个学生的考试成绩可能受到上课时长、作业完成情况、睡眠时间等因素的影响,我们收集到以下数据:

上课时长(小时)作业完成率(%)睡眠时间(小时)考试成绩(分)
1090885
870670
1295990
650560

建立回归模型:

多元回归的特点

  1. 同时考虑多个因素,适合更复杂的现实场景
  2. 线性关系假设,适用于数据中存在一定的线性相关性
  3. 解释性强,可以分析每个变量对结果的贡献

多元回归的应用场景

  • 市场营销:影响销售额的因素可能包括广告投放、产品价格、品牌影响力等
  • 医学研究:预测患者的疾病风险,考虑年龄、体重、血压、运动习惯等
  • 商业分析:评估员工绩效,考虑工作时长、项目数量、经验等

三、特征向量

如何简单理解特征向量?

通俗来说,特征向量(Feature Vector) 就是用一组数字来描述一个对象的“特征”。在机器学习中,我们用特征向量来表示数据,使得计算机能够处理和学习这些数据的模式。

简单例子 1:水果分类

假设你要训练一个模型来识别不同的水果,比如苹果、橘子、香蕉。我们可以用以下特征来描述水果:

  • 重量(克)
  • 颜色(红色=1,橙色=2,黄色=3)
  • 大小(直径 cm)

如果你拿到一个水果,它的特征如下:

  • 重量:150 克
  • 颜色:1(红色,代表苹果)
  • 大小:8 cm

那么,这个水果可以表示成一个特征向量:

[150,1,8]

同样,橘子和香蕉的特征可能分别是:

[120,2,7](橘子)

[130,3,9](香蕉)

这些特征向量可以作为机器学习模型的输入,让模型学习如何区分不同的水果。

简单例子 2:学生成绩分析

假设你想分析学生的表现,考虑以下特征:

  • 上课时长(小时)
  • 作业完成率(%)
  • 考试成绩(分)

学生 A:

[10, 90, 85]

学生 B:

[8,70,78]

这些数据可以组成特征向量,让我们对学生的学习情况进行分析和预测。

特征向量的特点

  1. 数值化:将现实世界的特征转换为计算机可处理的数值形式。
  2. 多维度:可以同时包含多个属性,描述一个对象的多个方面。
  3. 通用性:适用于分类、回归、聚类等各种机器学习任务。

总结

特征向量就是用一组数字来表示事物的特征,它帮助计算机更好地理解和分析数据。你可以把它想象成一个“数据快照”,每个维度(数值)代表事物的一个属性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/66833.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git知识分享

一、理解git首先要理清楚下面五个概念: 1、工作区(git add 命令之前的样子) 2、stash 暂存(暂存工作区和暂存区的更改) 3、暂存区(git add 命令之后的存储区, 4、本地仓库(git commit提交的位置) 5、远程仓库(git push提交的位置) 二、git常用命令: 1、g…

2024年度技术总结——MCU与MEMS和TOF应用实践

引言 2024年对我来说是技术成长与突破的一年。在这一年里,我不仅在技术领域拓展了深度和广度,还通过与客户合作的实际项目,成功实现了从单一MCU到MCU、MEMS与TOF技术融合的跨越。这一过程中,我深刻认识到,技术的进步不…

一句话,我让 AI 帮我做了个 P 图网站!

每到过节,不少小伙伴都会给自己的头像 P 个图,加点儿装饰。 比如圣诞节给自己头上 P 个圣诞帽,国庆节 P 个小红旗等等。这是一类比较简单、需求量却很大的 P 图场景,也有很多现成的网站和小程序,能帮你快速完成这件事…

如何打造一个高并发系统?

今天和大家聊聊作为一个后端开发,在实际工作中,我们如何打造一个高并发的系统? 如下图所示,大概有六个层面,我们结合具体的场景直播间签到去一一细说。 一、前端 1、打散请求:即把用户的接口分散一点去请求…

996引擎 - 前期准备-配置开发环境

996引擎 - 前期准备 官网搭建服务端、客户端单机搭建 开发环境配置后端开发环境配置环境 前端开发环境配置环境 后端简介前端简介GUILayoutGUIExport 官网 996传奇引擎官网 所有资料从官网首页开始,多探索。 文档: 996M2-服务端Lua 996M2-客户端Lua 搭…

迅为RK3568开发板篇OpenHarmony实操HDF驱动控制LED-添加内核编译

编译内核时将该 HDF 驱动编译到镜像中,接下来编写驱动编译脚本 Makefile,代码如下所示: 加入编译体系,填加模块目录到 drivers/hdf_core/adapter/khdf/linux/Makefile 文件 更多内容可以关注:迅为RK3568开发板篇OpenHa…

生信软件管家——conda vs pip

pip vs conda: 安装过python包的人自然两种管理软件都用过, Pip install和Conda install在Python环境中用于安装第三方库和软件包,但它们在多个方面存在显著的区别 总的来说: pip是包管理软件,conda既是包管理软件&…

ubuntu 布暑python项目

在Ubuntu上部署Python项目通常包括以下几个步骤: 1 安装必要的软件: 确保系统已经安装了Python、pip(Python包管理工具)以及virtualenv(可选,用于创建独立的Python环境)。如果还没有安装&#…

RV1126画面质量一:视频基础

在聊视频画面调节之前,先来认识一下视频画面的有一些基础问题 如今我们所处的时代,是移动互联网时代,也可以说是 视频时代 。 从快播到抖音,从“ 三生三世 ” 到 “ 三十而已 ” ,我们的生活,被越来越多的 …

准备知识——波纹度和粗糙度区别与联系

在开始齿轮齿面波纹度开始前,先来学习一下基本概念——波纹度和粗糙度,废话不多说,直接开始: 什么是表面粗糙度? 表面粗糙度定义为实际表面相对于波谷的较短频率。如果去观察加工零件,会注意到它们的表面…

五、华为 RSTP

RSTP(Rapid Spanning Tree Protocol,快速生成树协议)是 STP 的优化版本,能实现网络拓扑的快速收敛。 一、RSTP 原理 快速收敛机制:RSTP 通过引入边缘端口、P/A(Proposal/Agreement)机制等&…

宝塔Linux+docker部署nginx出现403 Forbidden

本文主要讲述了宝塔docker部署nginx出现403 Forbidden的原因,以及成功部署前端的方法步骤。 目录 1、问题描述2、问题检测2.1 检测监听端口是否异常2.2 检测Docker容器是否异常2.2.1 打开宝塔Linux的软件商店,找到Docker管理器,查看前端容器是…

光交箱哑资源巡检过程中都要检查哪些设备,怎样实现智能化管理

一、光交箱哑资源管理现状 光交箱哑资源主要包括光纤、光缆、接头盒、配线架等设备。这些设备在通信网络中起着至关重要的作用,但由于缺乏智能化的监控和诊断能力,管理难度较大。 效率低下:人工巡检的频率和覆盖范围有限,资源清…

机器学习(5):支持向量机

1 介绍 支持向量机(Support Vector Machine,简称 SVM)是一种监督学习算法,主要用于分类和回归问题。SVM 的核心思想是找到一个最优的超平面,将不同类别的数据分开。这个超平面不仅要能够正确分类数据,还要使…

百度APP iOS端磁盘优化实践(上)

01 概览 在APP的开发中,磁盘管理已成为不可忽视的部分。随着功能的复杂化和数据量的快速增长,如何高效管理磁盘空间直接关系到用户体验和APP性能。本文将结合磁盘管理的实践经验,详细介绍iOS沙盒环境下的文件存储规范,探讨业务缓…

docker安装elk6.7.1-搜集java日志

docker安装elk6.7.1-搜集java日志 如果对运维课程感兴趣,可以在b站上、A站或csdn上搜索我的账号: 运维实战课程,可以关注我,学习更多免费的运维实战技术视频 0.规划 192.168.171.130 tomcat日志filebeat 192.168.171.131 …

SpringBoot的Swagger配置

一、Swagger配置 1.添加依赖 <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId><version>3.0.2</version> </dependency> 2.修改WebMvcConfig Slf4j Configurat…

【自动驾驶】4 智驾生态概述

目录 1 智驾生态概述 ▲ 关键组成部分 ▲ 概述 2 关键技术 ▲ 传感器 ▲ 感知 ▲ 数据闭环 3 未来市场 1 智驾生态概述 智能驾驶生态&#xff0c;简称智驾生态&#xff0c;是指围绕智能驾驶技术的开发、应用、服务和支持所形成的产业体系和合作网络。 涵盖了从硬件设…

2025.1.20——一、[RCTF2015]EasySQL1 二次注入|报错注入|代码审计

题目来源&#xff1a;buuctf [RCTF2015]EasySQL1 目录 一、打开靶机&#xff0c;整理信息 二、解题思路 step 1&#xff1a;初步思路为二次注入&#xff0c;在页面进行操作 step 2&#xff1a;尝试二次注入 step 3&#xff1a;已知双引号类型的字符型注入&#xff0c;构造…

RabbitMQ 在实际应用时要注意的问题

1. 幂等性保障 1.1 幂等性介绍 幂等性是数学和计算机科学中某些运算的性质,它们可以被多次应⽤,⽽不会改变初始应⽤的结果. 应⽤程序的幂等性介绍 在应⽤程序中,幂等性就是指对⼀个系统进⾏重复调⽤(相同参数),不论请求多少次,这些请求对系统的影响都是相同的效果. ⽐如数据库…