【小白学机器学习9】自己纯手动计算验证,EXCEL的一元线性回归的各种参数值

目录

0 目标

1 构造模型 

1.1 构造模型的思路

1.2 具体模型构造的EXCEL公式和过程

2 直接用EXCEL画图,然后生成趋势线的方式进行回归分析

2.1 先选择“观测值Y”的数据,用散点图或者折线图作图

2.2  然后添加趋势线和设置趋势线格式

2.3  生成趋势线

3 使用EXCEL的 数据/数据分析/回归功能

3.1 功能入口:数据/数据分析/回归功能

3.2 进行回归时,需要注意2个点

3.3 回归分析的结果

4 逐个手动重算“回归统计”里的几个指标

4.1 相关系数

4.1.1 公式

4.1.2  以下是详细计算过程

4.2  先求 SSE SSR SST 以及OLS,再求R2

 4.3 决定系数R**2

4.3.1 公式

4.3.2  R2具体计算

4.4 调整后的R2

4.5 标准误差  SEE

4.6 观测值

5  逐个手动重算“方差分析”里的几个指标

5.1 自由度 DF

5.2 关于SS离差的3个类型 SSR, SSE ,SST

5.3  均方MS

5.3.1 定义

5.3.2  公式

6 RESIDUAL OUTPUT

6.1 残差= y=y^= 观测值-预测值

7 多个模拟直线比较

8 未完成的部分 F检验的显著度 和 T检验的P值 (需要学习F检验,T检验的知识!)

9 未解决的问题

10 python 模拟实操,缺!


0 目标

  • 目标:用EXCEL做一元线性回归的各种参数,手动计算验证EXCEL计算的各个参数的值,自己重新算一遍,了解具体的公式计算过程。
  • 为什么要这么做
    • 看了这么多讲指标运算公式的,大多数都是推导。但很少见到有自己手动,完全验证一遍这些指标计算公式实操的,我自己试试。
  • 目的2个:
    • 还能验证自己整理的公式的对错。
    • 可以加深对公式的理解

1 构造模型 

1.1 构造模型的思路

  • 正常思路:(先有我们大脑里的理想值,也就是假设)→先有观测值 →再回归模型→预测值
  • 我的构造思路: 先作假一个理想数据(公式生成)→生造观测值(加rand扰动)→再回归模型→预测值
  • 为什么要这么搞?
  • 这样我自己相当于,先掌握了理想数据=“正确答案”,然后可以比较到底什么样的模拟更接近我这个预设的正确答案。

1.2 具体模型构造的EXCEL公式和过程

  • 理想数据
    • X:1,2 ...15
    • Y: Y=2x+3
  • 观测值
    • y=y~real+RANDBETWEEN(-3,3)

2 直接用EXCEL画图,然后生成趋势线的方式进行回归分析

见下图

2.1 先选择“观测值Y”的数据,用散点图或者折线图作图

作图格式

  • 可以选择连线的散点图,或者折线图

2.2  然后添加趋势线和设置趋势线格式

  • 因为做的是一元线性回归,这里记得选择直线

 

2.3  生成趋势线

生成一个一元函数的趋势线: 直线

  • 其中 y=ax+b,具体为y=2.33306x
  • a=2.33306
  • b=0
  • R**2=0.9749

3 使用EXCEL的 数据/数据分析/回归功能

  • 基本内容如下

3.1 功能入口:数据/数据分析/回归功能

3.2 进行回归时,需要注意2个点

  • 1 注意回归面板上,Y值在上面,X值在下面。容易选错
  • 2 下面哪些勾选项,做简单回归分析可以不勾
  • 3 详细的回归可以都勾选

 

3.3 回归分析的结果

4 逐个手动重算“回归统计”里的几个指标

4.1 相关系数

4.1.1 公式

4.1.2  以下是详细计算过程

  • 手动计算的和回归分析的R相等
  • 求和不要犯低级错误 Σ(x-ave(x))*(y-ave(y)) !=Σ(x-ave(x))*Σ(y-ave(y))
  • R=Σ((x-ave(x))*(y-ave(y))) /SQRT(Σ(x-ave(x))^2*Σ(y-ave(y))^2)

4.2  先求 SSE SSR SST 以及OLS,再求R2

  • SSE: 残差平方和, Σ(y-y^'')^2  
  • SSR:回归平方和 ,Σ(y^''-ave(y))^2  
  • SST:离差平方和,总体平方和, Σ(y-ave(y))^2
  • OLS最小二乘法的=SS=SSE=残差平方和

 4.3 决定系数R**2

4.3.1 公式

4.3.2  R2具体计算

4.4 调整后的R2

  • 修正的R2确实不适合一元线性回归
  • K=变量个数
  • 只有1个变量是,修正的R2会变小
  • 修正的R2看起来确实只适合多元线性回归

4.5 标准误差  SEE

  • 标准误差SEE
  • SEE = sqrt(Σ(y - y^'')^² / (n - k - 1))    
  • SEE = sqrt(SSE / (n - k - 1))
  • 并不是 /n

4.6 观测值

观测值=样本数量=15,没什么好说的。

5  逐个手动重算“方差分析”里的几个指标

  • df:degree of freedom  自由度
  • ss:离均差平方和
  • ms :均方

5.1 自由度 DF

详细内容看上次的关于自由度的文章

【小白学机器学习8】统计里的自由度DF=degree of freedom, 以及关于df=n-k, df=n-k-1, df=n-1 等自由度公式-CSDN博客文章浏览阅读698次,点赞13次,收藏12次。自由度通常用于抽样分布中。统计学中:在统计模型中,自由度指样本中可以自由变动的独立不相关的变量的个数,当有约束条件时,自由度减少。样本中独立或能自由变化的数据的个数,称为该统计量的自由度。自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。https://blog.csdn.net/xuemanqianshan/article/details/136643151?spm=1001.2014.3001.5502

  • 回归分析的df,y=a+bx,因为只有1个自变量,所以df=1
  • 残差SSE的df
    • 这里面需要确定a 和b两个参数,其中a是截距,而b 是x的参数。
    •  因为自由度=n-k, 而SSE=Σ(y-y^'')^2 = Σ(y-(a+bx))^2  ,所以df=n-k=n-2=15-2=13
    • 或者用多元线性回归的公式 df=n-k-1=15-1-1=13
  • 总计的df=方程的df+样本的df=1+13=14

5.2 关于SS离差的3个类型 SSR, SSE ,SST

见上面的分析

5.3  均方MS

5.3.1 定义


MS是均方
方差分析中的MS是均方(离差平方和除以自由度)
在这里具体是 均方误差

5.3.2  公式

  • Mean Square Error 均方误差
  • MSE = Σ(y - ŷ)²/n    这里n是自由度
  • MSE =  Σ(y - ŷ)²/df

6 RESIDUAL OUTPUT

6.1 残差= y=y^= 观测值-预测值

7 多个模拟直线比较

  • 暂时看略有差别,差别不大

8 未完成的部分 F检验的显著度 和 T检验的P值 (需要学习F检验,T检验的知识!)

  • Significance F:越小说明拟合越好
  • T检验的P-value:越小说明拟合越好

9 未解决的问题

比如一元线性回归模型中,关于y=ax+b,这里面a  和 b 的标准误差是怎么求出来的?

网上也有人提出了这样的问题,暂时我没看明白,留着

一元回归结果当中,斜率的标准误差是怎么计算出来的? - 知乎回归系数不是一个确定的值,相反它是一个随机变量,也就是说你不同样本回归得到的回归系数是不一样的,举…icon-default.png?t=N7T8https://www.zhihu.com/question/297956772/answer/1032593129?utm_id=0

一元回归结果当中,斜率的标准误差是怎么计算出来的? - 知乎深夜吃西瓜碰到回答一下!!首先,记住因为误差项的存在,所以参数的方差才不等于0,只要理解了回归的含…icon-default.png?t=N7T8https://www.zhihu.com/question/297956772/answer/1302721483

其他

RM

回归模型(regression model)对统计关系进行定量描述的一种数学模型。如多元线性回归的数学模型可以表示为y=β0+β1*x+εi,式中,β0,β1,…,βp是p+1个待估计的参数,εi是相互独立且服从同一正态分布N(0,σ2)的随机变量,y是随机变量;x可以是随机变量,也可以是非随机变量,βi称为回归系数,表征自变量对因变量影响的程度。

OLS,是 普通最小二乘回归模型

ols 全称ordinary least squares,是回归分析(regression analysis)最根本的一个形式

10 python 模拟实操,缺!


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/744080.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ttkefu如何更改头像

ttkefu头像如何更改: 第一种:可以直接点击头像-更改框就出来了

C语言(指针)单元练习二

1有以下程序&#xff1a; #include <stdio.h> void fun( int *a, int i, int j) { int t; if(i<j) { ta[i]; a[i]a[j]; a[j]t; fun(a,i,--j); } } main() { int a[]{1,2,3,4,5,6},i; fun(a,0,5); for(i0; i<6; i) printf("%d ",a[i]); retur…

前后端交互理解 简易表白墙(servlet)

前后端交互理解 简易表白墙&#xff08;servlet&#xff09; 文章目录 前后端交互理解 简易表白墙&#xff08;servlet&#xff09;后端核心内容前后端交互接口约定后端代码展示 上期介绍过 Servlet API &#xff0c;本篇文章目的是借助 servlet 做出一个完整的网站。在一个网站…

工作随记:oracle重建一张1T数据量的大表

文章目录 一、删除测试表二、重命名旧表&#xff1a;三、验证&#xff1a;四、检查alert日志和昨天到今天的统计信息任务收集是否正常 一、删除测试表 #xshell登录用户hthis用户连接登录处理&#xff1a; sqlplus ht/"123456" sqlplus ht/"123456"10.8.5.…

Docker 搭建 PaddleOCR

转自PaddleOCR docker模式 - 简书 目的: 公司要放弃第三方的ocr工具(日语),需要自己搭建训练一套,这篇是搭建 图片要标出文字的选取框 因为是日文所以ocr有专门的工具,只需要文字坐标就好如图 日文的账票需要加密一下 我得环境是 Ubuntu 22.04.1 LTS 1,下载代码 cd /hom…

AI-线性回归模型

线性回归应用场景 房价预测&#xff0c;通过分析房地产市场的历史数据&#xff0c;如房屋大小、位置、建造年份等因素&#xff0c;线性回归可以帮助预测未来房价的走势。 销售额预测&#xff0c;企业可以利用线性回归模型来预测产品的销售额&#xff0c;这通常涉及到产品价格、…

科研三维模型高精度三维扫描服务3d逆向测绘建模工业产品抄数设计

三维抄数技术在科研三维模型的应用已经日益广泛&#xff0c;其高精度、高效率的特点使得科研工作者能够更快速、更准确地获取和分析数据。这一技术的核心在于通过专业的三维扫描仪对实物进行高精度测量&#xff0c;再将这些数据转化为三维数字模型&#xff0c;为后续的研究提供…

QT c++ 双精度数拆分和组合 Tool

本文描述QT c的双精度数拆分和合并&#xff0c;即双精度浮点数拆为四个16位无符号整数以及将四个16位无符号整数组合为双精度浮点数。 开发平台&#xff1a;win10QT6.2.4 MSVC2019 64 bit 在本文的最好列出了代码和可执行文件打包下载链接&#xff08;可直接使用&#xff09;…

Challenge 4 - OSCP A

文章目录 wp141142140143144145wp 141 dirsearch扫描发现db目录,访问后得到一个sql文件。 里面可以看到用户名和密码 INSERT INTO `admin` (`id`, `username`, `password`, `firstname`, `lastname`, `photo`, `created_on`) VALUES (1, nurhodelta, $2y$10$fCOiMky4n5hCJx…

Mysql 死锁案例1-记录锁读写冲突

死锁复现 CREATE TABLE t (id int(11) NOT NULL,c int(11) DEFAULT NULL,d int(11) DEFAULT NULL,PRIMARY KEY (id),KEY c (c) ) ENGINEInnoDB DEFAULT CHARSETutf8;/*Data for the table t */insert into t(id,c,d) values (0,0,0),(5,5,5),(10,10,10) 事务1事务2T1 START…

linux 模拟shell

&#x1f493;博主CSDN主页:麻辣韭菜-CSDN博客&#x1f493;   ⏩专栏分类&#xff1a;http://t.csdnimg.cn/G90eI⏪   &#x1f69a;代码仓库:Linux: Linux日常代码练习&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学习更多Linux知识   &#x1f51d;&#x1f5…

BUU [FBCTF2019]RCEService

BUU [FBCTF2019]RCEService 开题&#xff0c;要求以json格式输入命令。 无任何信息泄露&#xff0c;源码如下&#xff1a; <?phpputenv(PATH/home/rceservice/jail);if (isset($_REQUEST[cmd])) {$json $_REQUEST[cmd];if (!is_string($json)) {echo Hacking attempt de…

阿里云第一次面试记录

java多态&#xff1f; 多态表示一个对象具有多种的状态&#xff0c;具体表现为父类的引用指向子类的实例 Fu f Zi z(); 多态是同一个行为具有多个不同表现形式或形态的能力。 多态就是同一个接口&#xff0c;使用不同的实例而执行不同操作 特点&#xff1a; 对象类型和引用类型…

Css基础——精灵图(sprites)和字体图标

1、精灵图 1.1、精灵图的由来 一个网页中往往会应用很多小的背景图像作为修饰&#xff0c;当网页中的图像过多时&#xff0c;服务器就会频繁地接收和发送 请求图片&#xff0c;造成服务器请求压力过大&#xff0c;这将大大降低页面的加载速度。 因此&#xff0c;为了有效地减…

搭建Hadoop集群

一、前言 虚拟机&#xff08;Virtual Machine&#xff09;指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。在实体计算机中能够完成的工作在虚拟机中都能够实现。 虚拟机是在一些开发测试工作中常常需要用到的功能&#xff0c;常见的虚拟机…

白话-MVCC如何工作

MySQL中的MVCC机制主要在以下情况下起作用&#xff1a; 使用支持MVCC的存储引擎&#xff1a;MVCC主要是MySQL的InnoDB存储引擎中实现并发控制的一种方式&#xff0c;只有当使用InnoDB作为表的存储引擎时&#xff0c;MVCC机制才会生效。 非串行化事务隔离级别&#xff1a;MVCC在…

一文掌握mysql中的查询语句

目录 1. 聚合查询1.1 聚合函数1.2 GROUP BY子句1.3 HAVING 2. 联合查询2.1 内连接2.2 外连接2.3 自连接2.4 子查询2.5 合并查询 1. 聚合查询 1.1 聚合函数 常见的统计总数、计算平局值等操作&#xff0c;可以使用聚合函数来实现&#xff0c;常见的聚合函数有&#xff1a; 函…

读书笔记:<<上瘾>>

上瘾的四个步骤: 第一个叫触发&#xff0c; 第二个叫行动 第三个叫多变的酬赏&#xff0c; 第四个叫投入 我们首先一定会提升用户的终身价值。一个用户用一次还是用一辈子&#xff0c;价值是完全不一样的。 第二个就是你能够获得这个完全不同的灵活收益。比如说像我们刚刚说的…

【构建部署_Docker介绍与安装】

构建部署_Docker介绍与安装 构建部署_Docker介绍与安装Docker介绍Docker安装CentOS安装DockerCompose 构建部署_Docker介绍与安装 Docker介绍 Docker 是一个基于go语言开发的开源的应用容器引擎&#xff0c;让开发者可以打包他们的应用以及依赖包到一个可移植的容器中&#x…

基于MPC模型的自动驾驶控制总结---参考学习链接以及常规知识--simulink mpc和adapter mpc的关系和区别

1&#xff0c;mpc 2&#xff0c;adapter mpc 3&#xff0c;参考链接&#xff1a; 微信文章&#xff1a;简析MPC及其实践&#xff08;二&#xff09;simulink实践 MPC模型预测控制&#xff08;6&#xff09;–MPC与无人驾驶轨迹跟踪&#xff0c;以及mpc和adapter mpc的区别