【小白学机器学习8】统计里的自由度DF=degree of freedom, 以及关于df=n-k, df=n-k-1, df=n-1 等自由度公式

目录

1 自由度 /degree of freedom / df

1.1 物理学的自由度

1.2 数学里的自由度

1.2.1 数学里的自由度

1.2.2 用线性代数来理解自由度(需要补充)

1.2.3 统计里的自由度

1.3 统计学里自由度的定义

2 不同对象的自由度

2.1 纯公式的自由度:纯公式,没采样无样本时

2.2 抽样分析时:纯样本的自由度

2.3 公式里某个特定变量的自由度

3 自由度的公式

3.1 自由度的基础公式 df=n-k

3.2 ESS 残差平方和的误差 df=n-k-1

3.3  回归方程的自由度,  df=n-k-1=n-1

3.3.1 一元线性回归

3.3.2 多元线性回归

4 参考

5 其他(未完成)


1 自由度 /degree of freedom / df

1.1 物理学的自由度

理论力学:(下面这段摘自网上)

  • 确定物体的位置所需要的独立坐标数称作物体的自由度,当物体受到某些限制时——自由度减少。
  • 一个质点在空间自由运动,它的位置由三个独立坐标就可以确定,所以质点的运动有三个自由度。
  • 假如将质点限制在一个平面或一个曲面上运动,它有两个自由度。
  • 假如将质点限制在一条直线或一条曲线上运动,它只有一个自由度。
  • 刚体在空间的运动既有平动也有转动,其自由度有六个,即三个平动自由度x、y、z和三个转动自由度a、b、q。如果刚体运动存在某些限制条件,自由度会相应减少。

1.2 数学里的自由度

1.2.1 数学里的自由度

  • 数学上,自由度是一个随机向量的维度数
  • 也就是一个向量能被完整描述所需的最少单位向量数

1.2.2 用线性代数来理解自由度需要补充

  • 从线性代数的角度理解
  • 自由度就是向量/矩阵/张量的维度,秩。最少需要用几个维度来现实就是自由度.

1.2.3 统计里的自由度

  • 样本容量越大,自由度就越高,就越趋近于正态分布,实验就更加合理
  • 下图时转载的,文章链接附在最后

1.3 统计学里自由度的定义

自由度通常用于抽样分布中。

统计学中:在统计模型中,自由度指样本中可以自由变动的独立不相关的变量的个数,当有约束条件时,自由度减少。

  • 样本中独立或能自由变化的数据的个数,称为该统计量的自由度。
  • 自由度指的是计算某一统计量时,取值不受限制的变量个数。

2 不同对象的自由度

  • 通用的自由度公式,都是n-k。但是不同对象下的DF的意义不同
    • 如果讲的是公式的自由度,是自变量的个数  df=n
    • 如果讲的是样本的自由度,是样本的数量减去约束条件个数,df=n-k
    • 如果讲的是某个公式里某个特定变量的自由度,是样本的数量减去约束条件个数,df=n-k

2.1 纯公式的自由度:纯公式,没采样无样本时

  • 抽象的公式的自由度:不受约束自变量的个数
  • 不受约束的自变量个数就是公式的自由度。

举例:

  • 一元线性回归:y=ax+b
    • x是自变量,自由度1
    • y是因变量,没有自由度
    • 总自由度1
  • 多元线性回归:y=a1X1+a2X2+......anXn
    • x是自变量,自由度n
    • y是因变量,没有自由度
    • 总自由度n

2.2 抽样分析时:纯样本的自由度

  • 样本的自由度=n-k
  • 样本数量n
  • 关于样本的约束条件k,比如用到了样本的均值,就少1个自由度

举例

  • a+b=1,其中a,b都是变量,那么总自由度为1,因为若a为变量,b会受到1-a的约束,所以不自由。自由度=2个自变量-1被限制的自变量=1
  • 总体平均数,u=average(x)。因为总体内,每个样本都是独立的,所以自由度就是总体的容量n
  • 样本平均数,average(xi) ,假设有10个样本,平均数=1,那只有前9个数可以自由取值,第10个数,一定得受到平均值得约束,因此自由度=n-1=10-1=9
  •  总体方差,公式为
  • 样本方差,公式为,因为本身是一个样本的约束,所以自由度=n-1

2.3 公式里某个特定变量的自由度

  • 如果讲的是公式里某个特定变量的自由度,是样本的数量减去约束条件个数,df=n-k
  • 通用的公式都是这个,df=n-k
  • 但是还可以细分,下面详细展开

3 自由度的公式

3.1 自由度的基础公式 df=n-k

自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)

  • df=n-k。
  • 自由度df:
    • 不受限制的变量个数 
    • 不受限制的样本个数
  • n:
    • 自变量个数 
    • 样本数量
  • k:
    • 被限制的条件数或变量个数
    • 或计算某一统计量时用到其它独立统计量的个数。
    • 这些变量之间的有公式关系等形成的约束个数(应该要减掉一些线性相关的约束)

3.2 ESS 残差平方和的误差 df=n-k-1 (比n-k多出的-1是指那个截距参数)

  • 需要考虑2方面
  • 模型中自变量的个数,+自由度
  • 模型中有几个未知数就要消耗几个自由度,-自由度

举例

  • 观测值y
  • 预测值y^
  • 一元线性回归模型 y=b0+b1X+ε,因为每个y^都是用这个模型估算出来的
  • y^-y的误差就是残差,也就是ε
  • b0 常数,截距
  • b1 自变量x的参数,未知,需要求
  • ε   残差,残差的均值=0

  • 另外,我们心中有一个理想模型y=b0+b1X (虽然不一定存在,不能能找到),但是我们相信我们的观测值符合一个这样的理想直线模型(否则我们也不会用线性回归,而是用曲线或者其他了^ ^)
  • y^观测值,记录下来
  • 理想模型的y观测值:y=b0+b1X 
  • ESS=Σ(y^-y)**2 =Σ(y^-b0+b1X)**2

  • 残差平方和  ESS 的自由度 
  • 残差平方和  ESS=Σ(y^-y)**2,因为因为每个y^=b0+b1X,包含2个参数b0,b1 因此需要确定这2个参数,就需要2个约束才能算出来
  • 为什么2个参数需要2个约束:因为解方程的需要,而且这2个约束还不能是线性相关的才行。因此有几个未知参数就消耗几个自由度
  • 所以:
    • 一元线性回归的ESS的自由度df = n-k-1=n-1-1=n-2
    • 多元线性回归的ESS的自由度 df =n-k-1
    • 其中k 是变量个数,1是截距常量个数。

3.3  回归方程的自由度,  df=n-k-1=n-1

3.3.1 一元线性回归

  • 回归方程 y=b0+b1X
  • 其中自变量X,只有1个,自由度+1
  • 而参数是2个,也就是2个未知数,b0 和b1,自由度-2
  • 如果有n个样本
  • 那么回归方程的自由度= n-2+1=n-1

3.3.2 多元线性回归

  • 回归方程 y=b0+b1X+b2X+....+bkX,
  • 其中自变量X,有k个自变量,自由度+k
  • 而参数是k+1个,所有x的参数,还一个一个截距。这些都是未知数。
  • 如果有n个样本
  • 那么回归方程的自由度= n+k-(k+1)=n-1


4 参考

【弱鸡版】什么回归中自由度(degrees of freedom),就是这么简单! - 知乎自由度是什么?我们先来百度一下: “自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。 其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/607458488

一元线性回归模型中残差平方和的自由度为什么是n-2 - 爱问频道 - 经管之家(原人大经济论坛)一元线性回归模型中残差平方和的自由度为什么是n-2,一元线性回归模型中残差平方和的自由度为什么是n-2?,经管之家(原人大经济论坛)icon-default.png?t=N7T8https://bbs.pinggu.org/thread-640905-1-1.html

下面这个解释了多种DF的定义,可惜我还没仔细看~~ 

统计学“自由度”详解 - 知乎本文皆为个人看法,才疏学浅,如果有不妥不准确的对方,还请指正。有些数学推导可能显得不严谨,主要是为了数学基础薄弱的同学能看懂。 “自由度”是统计学中一个很不好懂的概念,因为它的定义有好几个,而每个定…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/81099139

5 其他(未完成)

当想知道适不适合用回归分析时,最简单的方法是做散点图,对于方差分析则做箱线图或是条形图。

均方差:标准差SD

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/740844.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

xss.haozi.me靶场“0x0B-0x12”通关教程

君衍. 一、0x0B 实体编码绕过二、0x0C script绕过三、0x0D 注释绕过四、0X0E ſ符号绕过五、0x0F 编码解码六、0x10 直接执行七、0x11 闭合绕过八、0x12 闭合绕过 一、0x0B 实体编码绕过 我们首先构造payload进行测试: 这里我们可以看到全部转为了大写&#xff0c…

2024年3月份实时获取地图边界数据方法,省市区县街道多级联动【附实时geoJson数据下载】

首先,来看下效果图 在线体验地址:https://geojson.hxkj.vip,并提供实时geoJson数据文件下载 可下载的数据包含省级geojson行政边界数据、市级geojson行政边界数据、区/县级geojson行政边界数据、省市区县街道行政编码四级联动数据&#xff0…

一台GTX1080显卡的怪兽,我可不能错过这个机会!

标题:我花了30块钱买了一台电脑主机。 这个配置能赚钱吗? 1. 收购惊喜 那是一个阳光明媚的下午,我在水管修理店里闲逛。 突然,一位老顾客手里拿着一台旧电脑主机匆匆走了进来。 他说:“小王,你能帮我看看…

【算法训练营】周测3

清华大学驭风计划课程链接 学堂在线 - 精品在线课程学习平台 (xuetangx.com) 如果需要答案代码可以私聊博主 有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~ 考题11-3 题目描述 输入格式 输出格式 输出到标准输出。 若可以通关&…

STM32的GPIO初始化配置-学习笔记

简介: 由于刚开始没有学懂GPIO的配置原理,导致后面学习其它外设的时候总是产生阻碍,因为其它外设要使用前,大部分都要配置GPIO的初始化,因此这几天重新学习了一遍GPIO的配置,记录如下。 首先我们要知道芯片…

力扣701. 二叉搜索树中的插入操作

思路:往二叉搜索树中插入一个值,树的结构有多种符合的情况,那我们可以选一种最容易的插入方式,反正只需要插入一个值而已,我们不难发现,不管插入什么值,都可以安排插入到叶子节点上。 再利用二叉…

传统SessionID,Cookie方式与SringSecurity+JWT验证方式

在Spring Boot框架中,可以使用Spring Session来处理会话管理。Spring Session允许开发者在不同的存储后端(如Redis、数据库等)之间共享和管理会话状态。通过Spring Session,开发者可以轻松地实现会话管理、会话失效以及跨多个节点…

Redux Toolkit

本文作者为 360 奇舞团前端开发工程师 阅读本文章前,需要先了解下 redux 的基本概念与用法,Redux Toolkit 是建立在 Redux 基础之上的工具包,因此需要对 Redux 的基本概念有一定的了解,包括 Action、Reducer、Store、Middleware 等…

【C语言】如何规避野指针

✨✨ 欢迎大家来到莉莉的博文✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 目录 一、概念: 二、野指针成因: 2.1. 指针未初始化 2.2 指针越界访问 3. 指针指向的空间释放 三、如何规避野指针 3.…

专题二 - 滑动窗口 - leetcode 904. 水果成篮 | 中等难度

leetcode 904. 水果成篮 leetcode 904. 水果成篮 | 中等难度1. 题目详情1. 原题链接2. 基础框架 2. 解题思路1. 题目分析2. 算法原理3. 时间复杂度 3. 代码实现4. 知识与收获 leetcode 904. 水果成篮 | 中等难度 1. 题目详情 你正在探访一家农场,农场从左到右种植…

OpenResty使用Lua大全(一)Lua语法入门实战

文章目录 系列文章索引一、OpenResty使用Lua入门1、hello world2、nginx内部变量 二、Lua入门1、简介1、hello world2、基本语法(1)注释(2)数据类型(3)变量(4)函数(5&…

c++基础语法

文章目录 前言命名空间命名空间的使用 缺省参数缺省参数的使用 函数重载函数重载的作用函数重载的使用函数重载原理 引用引用的使用引用的使用场景引用和指针 extern Cinlineauto范围fornullptr 前言 大家好我是jiantaoyab,这篇文章给大家带来的是c语言没有的一些特…

【进阶五】Python实现SDVRP(需求拆分)常见求解算法——遗传算法(GA)

基于python语言,采用经典遗传算法(GA)对 需求拆分车辆路径规划问题(SDVRP) 进行求解。 目录 往期优质资源1. 适用场景2. 代码调整3. 求解结果4. 代码片段参考 往期优质资源 经过一年多的创作,目前已经成熟的…

Android 配置打包签名信息的两种方法

目录结构如下: 有2种方式: 第一种,直接配置: signingConfigs { debug { storeFile file("app/keystore.properties") storePassword "111111" keyAlias "key" keyPassword "111111" } …

2022-6 青少年软件编程(图形化) 等级考试试卷(一级)

第1题:【 单选题】 广场中有声控喷泉, 当声音的音量大于 60 的时候, 喷泉就会喷出水, 现在的音量为30,下列哪个选项可以让喷泉喷出水? ( ) A: B: C: D: 【正确答案】: B 【试题解析】 : 当前声音的音量为 30, 需要将声音增加到 60 以上就可以让喷泉喷出水, …

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的日常场景下的人脸检测系统(深度学习模型+PySide6界面+训练数据集+Python代码)

摘要:开发用于日常环境中的人脸识别系统对增强安全监测和提供定制化服务极为关键。本篇文章详细描述了运用深度学习技术开发人脸识别系统的全过程,并附上了完整的代码。该系统搭建在强大的YOLOv8算法之上,并通过与YOLOv7、YOLOv6、YOLOv5的性…

HTML5:七天学会基础动画网页12

“书接上回”继续对transition补充,在检查中找到ease后,鼠标放到ease前的紫色小方块就可以对运动曲线进行调整,这个曲线叫贝塞尔曲线,这里不做别的补充,不用了解,我们只要知道这个运动方式不只是有简单的匀…

.Net Core 中间件验签

文章目录 为什么是用中间件而不是筛选器?代码实现技术要点context.Request.EnableBuffering()指针问题 小结 为什么是用中间件而不是筛选器? 为什么要用中间件验签,而不是筛选器去验签? 1、根据上图我们可以看到,中间件在筛选器之…

MySQL--彻底解决Navicat备份时的报错

原文网址:MySQL--彻底解决Navicat备份时的报错_IT利刃出鞘的博客-CSDN博客 简介 本文介绍彻底解决Navicat备份时的报错。 正确的方法 见:MySQL命令--使用mysqldump导出导入数据库_IT利刃出鞘的博客-CSDN博客 错误的方法 方法1.转储SQL文件 这种方…

2.2 塑性力学——主应力、主方向、不变量

个人专栏—塑性力学 1.1 塑性力学基本概念 塑性力学基本概念 1.2 弹塑性材料的三杆桁架分析 弹塑性材料的三杆桁架分析 1.3 加载路径对桁架的影响 加载路径对桁架的影响 2.1 塑性力学——应力分析基本概念 应力分析基本概念 2.2 塑性力学——主应力、主方向、不变量 主应力、主…