【小白学机器学习20】单变量分析 / 0因子分析 (只分析1个变量本身的数据)

目录

1 什么是单变量分析(就是只分析数据本身)

1.1 不同的名字

1.2 《戏说统计》这本书里很多概念和一般的书不一样

1.3 具体来说,各种概率分布都属于单变量分析

2 一维的数据分析的几个层次

2.1 数据分析的层次

2.2 一维的数据为什么可以画成二维,但不是二维的?

2.2.1 什么是一维数据,什么是二维的数据?

2.2.2 具体

3 多维数据分析

3.1 一维的数据分析

3.2 二维的数据分析

3.3 3维的面

4  典型的单变量分析

4.1 正态分布

5 多变量分析

5.1 分析方法分类

5.2 自变量的个数

5.3 为什么又了单因素分析,还需要多因素分析呢?


1 什么是单变量分析(就是只分析1个变量数据本身)

  • 本质:就是只分析1个变量数据本身
  • 就是只分析一个变量的数据,就是单变量分析。
  • 如果非要,统一说成是那种回归模型/因果分析模型/相关分析的话,这个就算是0因子分析。

1.1 不同的名字

  • 单变量分析:模型里只有1个变量,只分析这一个变量的数据
  • 纯单个变量分析
  • 0因子分析 :如果一定要把所有分析都看成是因果分析,那么单变量分析,就是没有因子的因变量分析,或者是0因子的单个因变量分布

1.2 《戏说统计》这本书里很多概念和一般的书不一样

书里说的(和一般的说法不一样,但是可以对应起来)

  • 单变量分析,由点到线-------→一般书里没有这个说法
  • 双变量分析,由线到面 ------→单变量回归
  • 多变量分析,由面到体-------→多变量回归

1.3 具体来说,各种概率分布都属于单变量分析

因为这些概率分布,只分析这个概率序列的内部情况,和其他因素无关。

  • 0-1分布
  • 几何分布
  • 二项分布
  • 超几何分布
  • 正态分布
  • 泊松分布等

2 一维的数据分析的几个层次

2.1 数据分析的层次

  • 层次1:看到一群数据,散点堆在一起,注意到数据有不同差异
  1. 完全散在一群,但是堆起来并不好看
  • 层次2:看到一群数据,注意到这些数据的数值是不同的,可分类的
  1. 有序的整理起来,比如每个数值的堆在一起可以数数量,分堆分类,生活里常见,
  • 层次3:定类:进行分类:
  1. 对数据进行分类,具体相同特征的在一起分堆。
  2. 本质上,这个类别只有数据本身序列的话,这个分类一定是不同数值/数值区间出现的次数,就是频度。
  3. (而频度本质就是概率)
  • 层次4:定类且组合图形为1维:
  1. 为了连续性,分类数据,类别全部首位相接,就是统计和机器学习里,都有的数据条
  2. 有序的排起来,比如动动脑筋,把这些首尾相接起来,这就是一条直线,且按区间划分,且区间也是按从小到大排列的
  3. 一根线,数据分类条,每个类别的长度代表频度,全部首位相接,可以比较了
  4. 定距数据。可比较互相的长度。
  • 层次5:把一维的数据,展开为2维进行展示
  1. 把频度展开为直方图:把一维的数据,展开为2维进行展示。
  2. 注意,因为只有一种数据,还是一维的,
  3. 是看起来形式展开像2维一样。
  4. 更巧妙的是把这一根直线,切分,切成多根直线,并着放. 这个是什么呢?不是正态分布啊,至少不一定是.,这个其实更通用的说是频度图
  5. 频度图,算是分布图吗?现在看起来就很像整体分布曲线了,看起来像也不一定就是,如果能代表概率,才是概率分布曲线(频度约等于权重,概率)
  6. 横轴,值的区间划分
  7. 纵轴,不同值的频度(频度就是概率)

2.2 一维的数据为什么可以画成二维,但不是二维的?

2.2.1 什么是一维数据,什么是二维的数据?

一维数据图:图上无论是画成1条轴,或者2条轴,实际只有1个变量的数据

二维数据图:有2条轴,且实际确实有2个变量!

2.2.2 具体

一维的线,也是可以画出2个维度的轴,比如一个变量的数据

  • 前面的数据分类条,从一根线变成一个二维表现形式的坐标轴
  • 横轴,不同的数据值(可以是离散的点,或者离散区间段,甚至连续的点组成的线)
  • 纵轴,每个数据值的发生次数/出现次数=频度
  • 频度的这个二维坐标,可以想象就是把 一根线的数据分类条,分别截断后,按左右的顺序摆在一起,且下面因为是地面,地面相当于一根起点相同的轴,X轴。

3 多维数据分析

3.1 一维的数据分析

  • 模型中只有一个变量
  • 单变量分析-----可以认为是0因素分析,只分析因变量本身,没有自变量。
  • 就是个体数据,扩展到样本数据,从1个到多个。但都还是属于同一个变量!

3.2 二维的数据分析

2维的线,直接是2个明确的轴,轴1,轴2,两个轴都有实际意义

  • 横轴:一般是自变量
  • 纵轴:一般是因变量Y

3.3 3维的面

  •    横轴:自变量1
  •    纵轴:自变量2
  •    Z轴:因变量
     

4  典型的单变量分析

4.1 正态分布

  • 1 第1层次,元素数据按频度展开,展示自然分布
  • 2 多次抽样的平均值符合
  • 3 正态分布,标准化后就是概率图,并且是100% 无限逼近两边的
     

5 多变量分析

就是至少包含了2个变量的分析

5.1 分析方法分类

  • 可能是相关性分析,不分因果
  • 可能是回归分析,有前因后果,有1个因子,2个因子等等。

5.2 自变量的个数

  • 也就是只分析1因1果,多因1果,而不直接分析1果多因的情况
  • 自变量1,因变量1
  • 自变量N,因变量1
  • 自变量1,因变量N---错误!
  • 实际上,1果多因不符合函数
  • 实际上,集合和函数的映射关系,也是这个规律
  • 单设,满射都满足才是双射
  • 而不能是一因多果,这也函数都不是,也不能有得因,果,缺乏映射关系。

5.3 为什么又了单因素分析,还需要多因素分析呢?

  • 自变量N,因变量1
  • 自变量1,因变量1
  • 已经有了自变量1,因变量1这种单变量分析了,理论上,即使有多个因素都可以拆成,多个:1个自变量--对应因变量,这样的关系,分别去分析,为什么还要搞多因素分析呢?
  • 因为虽然自变量1,因变量1,这种线性回归,有截距,斜率, 也可以列出函数表达式/方程。 但是这个是单个的。
  • 单因素分析(双变量分析),得出的公式只是一个变量的。这个无法预测结果。因为预测结果,大多数情况下是多因素的,我们已知多因素都影响因变量。所以,只知道一个因素的影响,不足于列出完整方程/建模来预测。
  • 只有多变量分析,才能出一个多自变量的综合方程,可以体现多变量一起变化的影响。虽然每个自变量系数,都是在假设其他变量不变时求出来的(也只能这么求出来),然后获得统一的包含多因子在场的表达式,这也才能求总公式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883650.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

011:软件卸载工具TotalUninstall安装教程

摘要:本文详细介绍软件卸载工具TotalUninstall安装流程。 一、软件介绍 TotalUninstall是一款功能强大的卸载与清理工具,它能够彻底卸载不需要的应用程序,并清除相关的注册表项、文件残留和临时文件,确保系统干净无残留&#xff…

每日一题之电话号码的字母组合

给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。 示例 1: 输入:digits "23" 输出&#…

2025选题|基于Hadoop的物品租赁系统的设计与实现

作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验,被多个学校常年聘为校外企业导师,指导学生毕业设计并参与学生毕业答辩指导,…

星海智算:用户如何使用公共存储

公共存储是平台下载好的一些模型、数据集,只读方便拷贝或者直接引入。 公共存储会由官方定时更新,更新内容来源于用户反馈,会将反馈的模型下载到公共存储,供用户拷贝到实例本地使用。 01 下载模型 直接从公共存储路径 /mnt/pub_data/ 下载所需模型。 02 复制…

五周年,继续破浪前行

五周年,TapData 再一次带着自己的“乘风破浪”大队,在一个阳光明媚的日子里,把生日过在了海上。 头顶日升日落,这条属于全体 Tap-pers 的航船,再次校准航向,在船长的带领下,驶向下一个晴好的明…

Mybatis-14.XML映射文件

一.XML映射文件 除了使用注解的方式完成mybatis基础的增删改查操作以外,还可以使用基于XML文件配置SQL语句。 二.配置XML映射文件 首先在resources中新建文件夹com/域名/mapper用来和java源代码中的包名保持一致,这是同包。 然后在mapper文件夹中新建x…

详解Pectra升级:如何影响以太坊价值及利益相关者

Pectra很可能是最后几个会直接影响用户和ETH持有者的升级之一。 原文:Galaxy Research;编译:Golem;编辑:郝方舟 出品 | Odaily星球日报(ID:o-daily) 编者按:以太坊 Pectr…

「C/C++」C++17 之 std::variant 安全的联合体(变体)

#1024程序员节|征文# ✨博客主页何曾参静谧的博客📌文章专栏「C/C」C/C程序设计📚全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计…

windows 训练yolov8官方数据集

第一步:安装Anaconda3-2024.06-1-Windows-x86_64.exe 下载地址:https://repo.anaconda.com/archive/ 第二步:创建环境 打开Anaconda Prompt 输入 conda info -e 打印: 已经安装了一些环境,然后我们创建新的环境&a…

Linux(kali)换源操作

apt换源 (切换到国内源) 阿里云Kali镜像源 deb http://mirrors.aliyun.com/kali kali-rolling main non-free non-free-firmware contrib deb-src http://mirrors.aliyun.com/kali kali-rolling main non-free non-free-firmware contrib 1.切换为root用…

springboot095学生宿舍信息的系统--论文pf(论文+源码)_kaic

学生宿舍信息管理系统 摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了学生宿舍信息管理系统的开发全过程。通过分析学生宿舍信息管理系统管理的不足,创建了一个计算机管理学生宿舍信息管理系统的方…

lstio微服务治理-概述

一、Service Mesh介绍 Service Mesh 的中文译为:服务网格,是一个用于处理服务和服务之间通信的基础设施层。它负责为构建复杂的云原生应用传递可靠的网络请求,并为服务通信实现了微服务所需要的基本组件功能,如:服务发…

哈尔滨银行难以摆脱低估值,不良贷款突破100亿元,何时回A?

撰稿 | 芋圆 来源 | 贝多财经 在经济缓慢恢复的步调中,多数理财者倾向于选择更为保守的资产分配策略,但部分银行在竞争加剧,净息差持续收窄的压力下,却将业务转型的矛头对准了风险更高的金融投资领域,哈尔滨银行就是…

基础知识-因果分析-daythree-独立性检验

我们经常需要观察一个事件的发生对另一个事件的发生是否有影响。有时候,我们可以观察到一个事件的发生对另一个事件发生的概率有影响。比如,你驾车超速这个事件的发生会增加你发生交通事故的概率。但是,有时候我们也可以观察到,一…

SpringMVC6-SpringMVC的视图

目录 ThymeleafView 转发视图 重定向视图 视图控制器view-controller SpringMVC中的视图是View接口,视图的作用:渲染数据,将模型Model中的数据展示给用户 SpringMVC视图的种类很多,默认有转发视图InternalResourceView 和重定…

【再谈设计模式】单例模式~唯一性的守护者

一、引言 在软件工程中,软件开发,设计模式是提高代码复用性和可维护性的有效工具。单例模式(Singleton Pattern)作为一种创建型设计模式,旨在确保一个类只有一个实例,并提供对该实例的全局访问。这一模式在…

Spring Boot 实现文件上传下载功能

文章目录 一、原理分析1.1 请求类型1.2 服务器解析 二、功能实现2.1 创建项目并导入依赖2.2 文件上传功能实现2.2.1 文件上传 Service2.2.2 文件上传 Controller 2.3 文件下载功能实现2.3.1 文件下载 Service2.3.2 文件下载 Controller 2.4 文件上传前端代码(可选)2.4.1 上传文…

HarmonyOS Next API12最新版 端云一体化开发-云函数篇

一、新建一个端云一体化项目 见文章: HarmonyOS NEXT API12最新版 端云一体化开发-创建端云一体化项目流程_鸿蒙appapi-CSDN博客 二、官方文档 使用限制-云函数 - 华为HarmonyOS开发者 (huawei.com) Cloud Foundation Kit简介-Cloud Foundation Kit&#xff0…

深度学习:SGD的缺点

首先看下述函数: 最小值为x0,y0处 先了解下它的梯度特征。了理解其梯度特征,我们需要计算其梯度向量。 梯度向量 ∇f 是函数 f 在每个变量方向上的偏导数组成的向量。具体来说: ∇f(∂f/∂x,∂f∂/y) 首先,我们计算 f …

【北京迅为】《STM32MP157开发板嵌入式开发指南》-第六十七章 Trusted Firmware-A 移植

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器,既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构,主频650M、1G内存、8G存储,核心板采用工业级板对板连接器,高可靠,牢固耐…