【小白学机器学习22】 多变量分析,多变量回归(草稿)

目录

1 概念名词:

1.1 双变量分析与单因素分析

1.2 变化

1.3 相关分析 Correlation analysis

1.4 回归分析 Regression analysis

1.5 相干和相关

1.5.1 相干relevant 

1.5.2 相关Correlation

2  双变量分析,也就是单因素分析

3 相关分析

4 正态分布

4.1 正态分布的参数

4.2 标准化数值得目的

5  回归分析

5.1 定义:IV是否时DV的原因?

5.2  因果分析/回归分析,比正态分布的均值的预测更准

5.3 非标准回归 和标准回归系数

5.4 OLS

6 合力的影响

7 多因子回归‘

8 多变量分析,也就是多因子回归分析

关于数学

对数回归

K2检验

自由度

概率本身的乐趣

 什么叫显著

二维表

量化与数据


1 概念名词:

1.1 双变量分析与单因素分析

  • 双变量分析,和单因素分析有一定差别,包含下面2种情况
  1. 双变量分析:单自变量-单因变量的回归,两个变量的相关分析
  2. 单因素分析:单因素回归(单自变量-单因变量的回归)

1.2 变化

  • 变化 vary
  • 共变 convary
  • 共变得方式,共变得强度

1.3 相关分析 Correlation analysis

  • 目标:两个变量是否一起变化 convery
  • 不关心:谁先谁后,谁影响谁,谁是因果


1.4 回归分析 Regression analysis

  • 预设:有自变量,因变量
  • 目标: 看自变量的变化,是否能引起因变量的变化

1.5 相干和相关

1.5.1 相干relevant 

  • 辩证法
  • 1 万事万物普遍联系,
  • 可能并不直接联系,比如有些因素通过共线性得其他因素,对因变量产生影响。
  • 2 相干,只是一个终极本质上存在相干

1.5.2 相关Correlation

  • 相关,在理论上相关,模型上相关,数据上相关
  • Correlation
  • Correlated
  • 相关,不相关

2  双变量分析,也就是单因素分析

  • 从一个变量内部的分析变成2个变量,
  • 逻辑上是变了模型,2个变量,1个自变量,一个因变量

3 相关分析

  • 相关,在理论上相关,模型上相关,数据上相关
  • Correlation,Correlated
  • 相关,不相关
  • 相关得方向:
  • 相关系数:标准化后得系数。 因变量B/自变量A=相关系数,相当于以A为单位。
  1. 正相关:相关系数0-1之间。
  2. 负相关:相关系数0—1之间
  3. 不相关,没有系统得关系,只有看起来随机性得关系
  • 相关的强度:相关系数的值。-1 ~1 之间。0是不相关。
  • 相关的显著度: 是否有系统性,非随机的关联?

4 正态分布

4.1 正态分布的参数

  • 均值
  • 标准差(sqrt-方差)
  • 标准值=( x-u)/sd  即以sd为量纲
  • 标准值,其实就是概率了,或者可以一一对应为概率了
  • 标准值,就是用 标准差来横向每个数值与 均值得距离,是n个多少个标准差。
  • 标准正态分布,其实就是标准值得分布曲线。


4.2 标准化数值得目的

  • 是为了去除量纲得影响。
  • 标准值也是
  • 通过这种标准值得公式操作
  • 所有的数值,最后都是相关一套坐标系:标准正态分布的相同的量纲比较。

5  回归分析

5.1 定义:IV是否时DV的原因?

  • 自变量: DV  ,dependent variable
  • 因变量: IV,  Independent variable

5.2  因果分析/回归分析,比正态分布的均值的预测更准

  • 正态分布时,如果不引入其他因素,如何预测将来的值最准呢?
  • 用平均值预测,最终,总TSS误差和最小。
  • 总TSS=用每个值去预测将来,产生的误差,之SUM
  • 是否可以预测得更准?
  • 如果可以引入其他值,是否可以预测得更准?
  • 可以,OLS,就是干这个事情得

可以尝试画一个图

  • 就是
  • 横轴:自变量,
  • 纵轴:因变量,
  • 纵轴上画一条与横轴平行的线,就是均值线,应该是最小的TSS
  •       画多条与横轴平行的线,非均值线,应该总误差和TSS会变大
  • 一条斜线,线性预测,就是线性回归的结果,这个OLS的误差和变小。
  • 线性回归里, RSS/TSS,其实是以TSS均值的0因素分析为基础的。

5.3 非标准回归 和标准回归系数

  • Unstandardlized coefficients,  非标准化回归系数,够用。反应的就是 因变量/自变量的系数,自变量 每变化1单位变化(1就是单位变化,如果想是5作为单位变化,继续/5,最后再还原),因变量变化多少。
  • standardlized coefficients,以各种标准差为单位。就是自变量每变化1个单位的自己的标准差,因变量变化多少个单位的自己的标准差长度。
  • 建模,简单的来说,就是写函数,列方程等等。


5.4 OLS

  • O ordinary
  • Least 最小
  • Square  sum of squares
  • 回归系数的显著度检测,就是指 系统的 systematic,非随机的non-random
  • 因此才显著,值得研究去关注,是显著的自变量


著名图

  • 2个自变量 IV1  IV2
  • 1个因变量,DV
  • 3个圆交叉。

  • F是3者交叉的
  • 第1个模型方程:单因素回归分析1
  • D+F,是自变量1的回归系数

  • 第2个模型方程:单因素回归分析2
  • G+F,是自变量2的回归系数

  • 第3个模型方程:
  • 而如果是多因素回归
  • D,是自变量1的净影响,回归系数
  • G,是自变量2的净影响,回归系数
  • F,是自变量1和2共同作用的的影响,不计入各自的净影响
  • 所以,多因素线性回归里的,单个自变量的系数 != 单因素线性回归里的自变量的系数

1 拿平均值就可以来预测,但是误差是TSS
2 OLS,最小二乘回归法,预测后的总误差会下降,RSS ESS TSS
3 那个T值,其实就是做成标准正态分布之后的概率直接比较
4 后面是一个按比例比较
5 K2检验
6 LOG对数回归
7 最大似然估计,已经发生的发生的就是概率最大的

相关 correlate
相干 relevantLogit 是 把发生率α/(1-α) 然后取自然对数来做的 loge α/(1-α)=ln(α/(1-α))
把数值的范围,标准化了,变成了-9 -9之内

6 合力的影响


会有回归系数,R,R**2
这个判断系数,告诉我们的是多个因子合力的影响的评判
而不是某个因子的净影响。

7 多因子回归‘


还有一种社会学常用的方法
就是不能测试自变量,
而需要把自变量拆为多个更小的因子。进行因子分析。

旋转因子,就是假设认为是有关联的,旋转因子,让每个因子都互相正交/垂直/0相关/方差最大化。避免这些因子互相是共线的。

8 多变量分析,也就是多因子回归分析

研究
1因1果
多因1果

不研究
1因多果
保护函数,映射也是一样的,只看漫射,单射等等。

多元线性回归,多因子回归,多自变量回归,都一个意思

单因子回归分析差别
1 相同:还是有因果关系
2 不相同:几个自变量之间,必须是独立的影响因变量。
          也就是自变量之间,不存在共线性。

分析
1 每个因素的参数,偏回归系数,净回归系数
有点偏导数,净导数的意思了
Partial regression coefficient 


关于数学


1 乘法的本质是加法
2 积分的本质也是加法,连续内容的相加不能用乘法


对数回归


就是
发生率=某个事件发生的概率/此事件不发生的概率。
坐上时光机去回溯,或者就是思想试验
这个思想试验,是一个模型,就是认为现在往回去倒推,过去自变量和因变量的关系,现实应该是其中发生概率最大的可能对应的那个事件。如果推导不是这也,那就错了。
这个就是极大似然估计。


发生率的对然对数回归
Ln(α/(1-α))

现在的可能性—针对是未来,概率,probility
过去的可能性—针对是过去,使然,likehood


为什么要用对数回归
如果纯都是定量数据就没问题
但是一旦里面混入了定性/定类数据,就有了问题
用线性回归,会出现 负数系数,负数截距等,逻辑上不可能的情况

因为必须改成曲线回归
如何做曲线回归,很难
变换成其他直线回归
就是用对数
概率,转化为发生率,发生率的自然对数。Log of  it =p/(1-p)
发生率不对称,因为是比率,分母分子变化不对等
0.9/0.1=9            变化大,发生率变化小
0.99/0.01=99
0.999/0.001=999
0.9999/0.0001=9999  微量变化小,反而发生率变化很大。


E=2.718
所以用自然对数,变成稳定的-9~9之间了


K2检验

K2检验
查表
1 和自由度相关
2 和K2的值的大小有关系
自由度越大,单元格总数越多,K2的值得可能越大
看经典的K2的曲线。
自由度比较小的时候,单调下降
自由度比较大之后就开始接近正态分布的钟形曲线了,超过20接近正态
T值检验T值也和自由度有关系,但关系比较松散不用太关心。
因为T检验一般检验连续变量,连续变量自由度很容易超过20,一般不考虑这个限制。
一般自由度越大的K2曲线,K2的值,均值都会更大。

K2=Σ(观察值-预期值)^2/预期值
K2=(O1-E1)^2/E1+(O2-E2)^2/E2+…..+ (On-En)^2/En

K2值独立检验
先检验,算出来了确定的K2值的结果下,来判断,
   如果自由度小,K2一般越大,越表示发生的概率小。
因而根据最大似然估计,推测 现在不可能是小概率发生,从而用K2检验拒绝了原来的假设。
极大似然估计认为,现在一定是 在过去那个事件点发生的概率最大!


举得例子,
整体员工里,黑人和白人的比例,60:40
经理员工里,黑人和白人的比例,4:20

假设前提,55开
也就是,每个黑人和白人都是50%可能成为经理
那么
假设员工人数里,就是合理现状,往下推论
实然的世界:是经理的现状4/20,SUM=24
应然的世界:60*0.5=30 / 20*0.5=10=3:1 ,SUM里应该分布是18/6 黑人经理/白人经理
从而说明有问题,应然和实然差距太远

但是差距多远,算是远呢?


自由度


计算方法
(行数-1)*(列数-1)
理解
就是一个交叉表里,可以自由确定数值的格子的数量

交叉表
Cross tabulation 
经常展示定类变量和定勋变量的关系。
1个变量,行
1个变量,列
交叉,就是相乘,情况相乘= 组合的数量

比如2*2表
自由度=(2-1)*(2-1)=1*1=1
    变量1*T    变量1*F    SUM
变量2* T    α    1-α    1
变量2* F    1-α    α    1
SUM    1    1    

自由度=(2-1)*(3-1)=1*2=2
自由度,就是可以自由取值的交叉表里单元格的数量
    变量1*A    变量1*B    变量1*C    SUM
变量2* T    α    β    1-α-β    1
变量2* F    1-α    1-β    α+β    1
SUM    1    1    1    

概率本身的乐趣


钟形曲线,是天网恢恢,疏而不漏
负无穷-正无穷,中间是0

对应钟形曲线下围成的面积,概率是0到1之间
50%,五五开,是中间点
往高,接近1
往低,接近0,逼近0

在OLS里,平均值就是参照线。
对数回归中,五五开的概率是参照线

策略的
切实性,确实测量的方法够合适,不大不小,可测等等
可靠性,反复测试,结果要稳定

 什么叫显著


个体
二维表
横向,一个个体的多个属性(只挑一些)
纵向,一个属性的组成的线/

也就是结果的正确/正义无法保证
只能从过程的正确/正义上去保证


显著,只是说两者存在,非随机的关系。 
不等于重要,或者其他

二维表


个体两方面
1 多个个体
2 多个属性/特征,每个属性都有1 名字 2尺度
个体
二维表
横向,一个个体的多个属性(只挑一些)
纵向,一个属性的组成的线/

量化与数据


数据种类一,界面数据
数据种类2,时序类数据
也说明了,公平也一样,只有过程的公平,没有结果的公平。
但是这个又在变化,继续下一次的过程。

正态分布/自然分布也说了这个问题,一定是中间大,两头小。
而且钟形曲线是无限的,天网恢恢,苏而不漏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/57615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

The database mes could not be exclusively locked to perform the operation.

当你尝试更改数据库名字时,如果遇到错误消息 "The database [database_name] could not be exclusively locked to perform the operation",这意味着 SQL Server 无法获得对数据库的独占锁,因为该数据库当前正在被其他会话使用。这…

Hugging Face HUGS 加快了基于开放模型的AI应用的开发

在过去一年左右的时间里,开源人工智能模型在性能上已经明显赶上了 OpenAI、Google 和其他公司的流行闭源模型。 然而,由于在不同硬件上部署和维护这些模型所带来的开销,开发人员尚未广泛采用这些模型。为了解决这个问题,Hugging F…

驱动开发系列26 - Linux Graphics 调试 mesa 的 glDrawArrays (二)

目录 一:概述 二:Gallium3D 的工作流程 三:tc_draw_vbo 与 tc_call_draw_single 的关系: 四:tc_draw_vbo 与 tc_call_draw_single 的具体执行流程: 五:mesa中线程池设计介绍: 六:总结: 一:概述 众所周知,Mesa 的 Gallium3D 是一个图形驱动框架,它将图形管线…

【Unity】Unity中文本中插入超链接且可点击响应,TextMeshPro的进阶用法

一、需求和尝试 今天遇到这样一个需求:在文本中插入超链接,且这个链接可以点击跳转对应的url,具体形式如下图所示。 其实这个有一个简单粗暴的方法,就是把需要加超链接的文本单独拿出来,和其他文本进行拼接&#xf…

修改huggingface的缓存目录以及镜像源

执行以下语句查看当前配置 huggingface-cli env默认输出应该如下 (py39-transformers) PS D:\py_project\transformers_demo> huggingface-cli envCopy-and-paste the text below in your GitHub issue.- huggingface_hub version: 0.26.1 - Platform: Windows-10-10.0.22…

面向垂类场景的智能化低代码引擎

背景介绍 在通信领域中,不同客户的数字化场景存在多种个性化大屏的定制需求,常见业务范围涵盖政务、金融、教育、工业、传媒、互联网等行业领域。然而,面对如此巨大的产业痛点诉求,传统低代码领域却存在数据监控粒度不统一、定制化…

学习docker第三弹------Docker镜像以及推送拉取镜像到阿里云公有仓库和私有仓库

docker目录 1 Docker镜像dockers镜像的进一步理解 2 Docker镜像commit操作实例案例内容是ubuntu安装vim 3 将本地镜像推送至阿里云4 将阿里云镜像下载到本地仓库5 后记 1 Docker镜像 镜像,是docker的三件套之一(镜像、容器、仓库)&#xff0…

基于SpringBoot+Vue+MySQL的实践性教学系统

系统展示 用户前台界面 后台界面 系统背景 随着信息技术的快速发展,企业对于高效、智能的管理系统需求日益迫切。传统的管理系统大多采用单机版或C/S架构,存在操作复杂、维护困难、数据共享性差等问题。而基于SpringBootVueMySQL的全栈管理系统&#xff…

【10分钟本地部署大语言模型】借助1Panel、MaxKb、Ollama快速部署大语言模型(qwen、llama等)及知识库

前言: 本文介绍一种快速在Linux服务器(windows使用wsl也可以)上部署大语言模型(含知识库)的方式。 核心内容如下: 1Panel: 开源的Linux 服务器运维管理面板,通过该面板安装ollama和…

hivesql学习大纲

引言 - 简述Hive的用途和特点 - 为什么学习HiveSQL 第一部分:Hive基础 1.1 Hive简介 - 定义和架构 - Hive与传统数据库的区别 - Hive的应用场景 1.2 Hive环境搭建 - 所需环境和依赖 - 安装和配置Hive - 启动和停止Hive服务 1.3 Hive数据模型 - 数据库&#xff0…

STM32与ESP8266实现串口通信

在嵌入式系统设计中,经常需要将微控制器与Wi-Fi模块相结合,以实现无线通信功能。STM32是一款强大的微控制器,而ESP8266是一款流行的Wi-Fi模块。本文将详细介绍如何使用STM32通过串口与ESP8266实现通信,包括硬件连接、软件配置和代…

Serv00 免费虚拟主机 零成本搭建 PHP / Node.js 网站

本文首发于只抄博客,欢迎点击原文链接了解更多内容。 前言 Serv00 是一个提供免费虚拟主机的平台,包含了 3GB 的存储空间和 512MB 的内存空间,足够我们搭建一个 1IP 的小网站了。同时他还不限制每月的流量,并提供了 16 个数据库&…

进程间通信(一)管道

文章目录 进程间通信进程间通信概述进程间通信的方式管道通信示例--基于管道的父子进程通信示例--使用管道进程兄弟进程通信 管道的读写特性示例--不完整管道(读一个写端关闭的管道)示例--不完整管道(写一个读端关闭的管道) 标准库…

PyQt 入门教程(3)基础知识 | 3.1、使用QtDesigner创建.ui文件

文章目录 一、使用QtDesigner创建.ui文件1、创建.ui文件2、生成.py文件3、使用新生成的.py文件4、编辑新生成的.py文件 一、使用QtDesigner创建.ui文件 1、创建.ui文件 打开PyCharm,使用自定义外部工具QtDesigner创建mydialog.ui文件,如下: …

前端面试题-token的登录流程、JWT

这是我的前端面试题的合集的第一篇,后面也会更新一些笔试题目。秋招很难,也快要结束了。但是,不要放弃,一起加油^_^ 一、token的登录流程 1.客户端用账号密码请求登录 2.服务端收到请求,需要去验证账号密码 3.验证成…

大话网络协议:HTTPS协议和HTTP协议有何不同?为什么HTTPS更安全

大家现在访问网络,浏览网页,注意一下的话,网址前面基本上都是一个 https:// 的前缀,这里就是说明这个网址所采用的协议是 https 协议。那么具体应该怎么理解 https 呢? 本文我们就力争能清楚地解释明白这个我们目前应该最广的协议。 理解HTTP协议 要解释 https 协议,当…

[mysql]聚合函数GROUP BY和HAVING的使用和sql查询语句的底层执行逻辑

#GROUP BY的使用 还是先从需求出发,我们现在想求员工表里各个部门的平均工资,最高工资 SELECT department_id,AVG(salary) FROM employees GROUP BY department_id 我们就会知道它会把一样的id分组,没有部门的就会分为一组,我们也可以用其他字段来分组,我们想查询不同jb_id…

动力电池中的基础知识总结

动力电池基础 基本定义 电池的分类方式多样,按工作特性和储存方式分类 一次电池(Primary Battery):只能进行一次放电(disposable or single-use batteries),放电后不能通过充电的方式使其恢复…

Postgresql pgsql 插件之postgis 安装配置

相关链接: pgsql编译安装 一、说明 postgis是pgsql最强大的几个插件之一,可以用于地理信息系统(gis)的搭建 二、插件安装启动 由于我的pgsql是编译安装的,所以插件也是编译安装,更加灵活。 1.进入到源…

草地杂草数据集野外草地数据集田间野草数据集YOLO格式VOC格式目标检测计算机视觉数据集

一、数据集概述 数据集名称:杂草图像数据集 数据集是一个包含野草种类的集合,其中每种野草都有详细的特征描述和标记。这些数据可以包括野草的图片、生长习性、叶片形状、颜色等特征。 1.1可能应用的领域 农业领域: 农业专家和农民可以利用这一数据集来…