工业大数据分析算法实战-day04

文章目录

  • day04
    • 统计分析
      • 概率分布
      • 参数估计
      • 假设检验
    • 统计分布拟合
      • 1.基于核函数的非参数方法
      • 2. 单概率分布的参数化拟合
      • 3. 混合概率分布估计
    • 线性回归模型
      • 1. OLS模型(普通最小二乘法)
      • 2. OLS模型检验
      • 3. 鲁棒线性回归
      • 4. 结构复杂度惩罚(正则化)
      • 5. PLS、LOESS回归、Kernel方法

day04

今天是学习该书籍的第4天,昨日2章节毕,开启第3章节-机器学习算法。ML是一类自动分析数据并获取规律,利用规律对未知数据进行预测的算法,类别可分为:有监督(分类、回归问题)、无监督(聚类、关联规则问题)、半监督、强化学习。当然ML的理论基础是来源于统计学、最优化等基础算法学科,该章节只列举了典型的算法,并不是穷举。

统计分析

统计分析主要分为:

  • 描述性统计:使用图表和数值方法会在和描述数据
    • 数据的概括性度量指标:分布集中趋势(均数、中位数、众数、分位数)、分布离散(方差/标准差、变异系数、MAE/RMSE)、分布形态(偏度、峰度)、变量线性相关关系(协方差、相关系数)
    • 数据图形展示:数据分析(分类/顺序变量使用饼图、图形图,数值变量使用直方图、盒须图、茎叶图),比较/相关(分类/顺序变量使用side-by-side条形图、堆叠条形图,数值变量使用散点图、趋势线)
  • 推断统计:利用样本数据推断总体特征的统计方法,实际上就是抽样,对总体分布进行参数估计和假设检验

假设总体的概率分布为pθ,θ就是概率分布的参数集合,pθ称为统计模型,根据θ参数空间数学性质,可分为以下两种,

  • 参数统计模型:参数集属于有限维空间,维度称为该统计模型的自由度
  • 非参数统计模型:参数集属于无穷维空间,常见的思路有核函数(使用局部相似)、随机仿真(蒙特卡罗方法),举个例子:在时序预测的时候常常有上下预测的置信区间,就是通过分解误差项进行建模,与原始项相加生成新的序列

概率分布

参数统计模型中可以有很小的参数空间拟合数据分布,所以第一步就是通过观察统计实验样本的直方图,从众多概率分布图中选择一个有参数分布作为假设分布

  • 常见的离散分布:二项分布、泊松分布、几何分布
  • 常见的连续分布:均匀分布、正态分布、t分布、χ2分布、F分布、指数分布等

大概流程判断:数据离散还是连续—>数据是否对称,如果不对称是正偏斜还是负偏斜—>数据是否有上下界—>数据极端值的分布情况。

image-20241214201016738

参数估计

通过样本数据量估计总体参数,参数估计可采用参数化模型,单总体(关心单一总体的某个参数,例如平均值、比例或方差)和双总体参数估计(关心两个总体之间参数的差异,比如均值差、比例差或方差比)和使用分布如下

image-20241214202244870

非参数方法可以使用随机采用的方法,把当前样本作为总体,不放回的抽取一些样本来做统计分析,比如Bootstrap(自助法)、Jackknife(刀切法)

假设检验

和参数估计想法一致,也是样本对总体进行推断,但是假设检验是线提出假设,然后通过样本信息验证假设成立。按照总体是否已知,假设检验可分为参数检验和非参数检验

image-20241214202942595

方面参数估计假设检验
定义通过样本数据估计总体参数的值。对关于总体参数的假设进行检验。
目标估计总体参数(如均值、方差)。判断假设是否成立(接受或拒绝假设)。
结果给出参数的点估计或区间估计。给出是否接受或拒绝原假设的结论。
统计方法使用点估计公式或置信区间公式。使用统计检验方法(如z检验、t检验等)。
示例估计平均身高为170cm。检验“平均身高是否等于170cm”。
联系参数估计为假设检验提供统计量和基础信息。假设检验的过程通常会依赖参数估计的结果。

参数估计 侧重于“估计”总体参数的值,通过样本给出点估计或区间估计。假设检验 侧重于“判断”某个关于总体参数的假设是否成立,通过统计检验做出决策。

统计分布拟合

参数估计假设检验可以帮助你了解总体的参数值(如均值、方差等)和检验假设是否成立,但它们并没有告诉你数据的 分布特性统计分布拟合的作用是帮助你 识别数据的真实分布,这样你就可以选择正确的统计方法进行分析,确保你的结论更准确、更符合实际情况。

举个例子,假设你要研究某工厂的生产设备的寿命。你做了以下分析:

  1. 参数估计:你用样本数据计算了设备的平均寿命,估计了一个总体均值。
  2. 假设检验:你假设设备的寿命大于50天,然后进行假设检验。

到这里,你只是了解了设备寿命的均值以及是否超过50天,但你并不清楚 设备寿命的具体分布是什么,比如是否有些设备寿命极短,而有些设备寿命特别长。这些信息对于后续的决策和预测非常重要。

这时,你可以进行 统计分布拟合

  • 你通过分布拟合分析,发现设备寿命服从 指数分布
  • 那么,你就可以根据 指数分布 来进一步计算设备发生故障的概率、寿命的可靠性分析等。

1.基于核函数的非参数方法

非参数方法不假设数据服从任何特定的概率分布,而是通过数据本身进行建模。基于核函数的非参数方法是一种常用的非参数估计方法,它通过使用一个核函数(如高斯核、均匀核等)来估计数据的概率密度函数(PDF)。这种方法的优点是能够灵活地拟合各种形态的分布,不需要假设数据来自于某个特定分布。

案例:假设你收集了一组数据,想要估计数据的分布情况,但你不确定数据服从正态分布、指数分布等任何已知分布。你可以使用核密度估计(Kernel Density Estimation, KDE)来估计数据的概率密度函数。这种方法通过在每个数据点附近放置一个“核”(通常是高斯核),并将所有核的贡献加起来,得到数据的平滑概率密度曲线。

  • 应用场景:核密度估计广泛用于数据分析中的探索性数据分析(EDA)。例如,在对某个地区的收入数据进行分析时,可以通过核密度估计查看收入的分布形态,发现收入是否呈现偏态分布、双峰分布等。

2. 单概率分布的参数化拟合

单概率分布的参数化拟合是指通过样本数据来估计某个特定概率分布(如正态分布、指数分布、泊松分布等)的参数。通常,基于一些假设(如数据符合正态分布),你使用样本数据来估计该分布的参数(如均值、方差、率参数等)。这种方法假设数据来源于一个具体的概率分布,因此它的适用前提是你能够确认或合理假设数据的分布类型。

案例:假设你有一组产品的寿命数据,且根据先验知识,认为这些产品的寿命服从 正态分布。你可以使用最大似然估计(MLE)或最小二乘法来估计正态分布的均值方差。一旦你获得了这些参数,就可以利用这个已知的分布模型来进行进一步的推断,比如计算产品寿命超过一定时间的概率。

  • 应用场景:比如在金融领域,常假设股价收益服从正态分布。你可以根据历史数据估计收益率的均值和方差,以便进行风险管理和资产配置。

3. 混合概率分布估计

混合概率分布是指由多个不同的分布组成的模型。在实际数据中,可能存在多个子群体,每个子群体的数据都服从不同的分布(如正态分布、指数分布等)。混合分布方法通过将这些不同的分布组合起来,来更好地拟合和描述数据的复杂结构。混合分布估计可以使用最大似然估计(MLE)等方法来估计各个子分布的参数和它们的权重。

案例:假设你正在分析一组人的身高数据,这些人来自不同的年龄段(如儿童、青少年和成年人)。每个年龄段的身高可能服从不同的正态分布。如果你将所有年龄段的人混合在一起,你可能得到一个 混合正态分布,即数据的分布可以看作是多个正态分布的加权平均。

  • 应用场景:混合分布模型在很多实际应用中都很常见。例如,在市场细分中,不同消费者群体的行为模式可能不同,可以使用混合分布来对这些群体进行建模;或者在医学中,患者的症状可能来源于不同类型的疾病,混合分布可以帮助我们从多个潜在病因中估计数据。
方法类型特点适用场景例子
基于核函数的非参数方法不假设数据服从任何特定分布,通过核函数估计数据的密度函数适用于数据分布未知,且无需假设具体的分布类型核密度估计,估计收入分布
单概率分布的参数化拟合假设数据服从某个已知分布,估计该分布的参数适用于已知或假定数据服从某个已知分布的情况正态分布参数估计(如估计产品寿命的均值和方差)
混合概率分布估计数据来自多个子群体,每个子群体的数据服从不同的分布适用于数据存在多个子群体,每个子群体的分布不同混合正态分布(如儿童、青少年和成人的身高数据分析)

线性回归模型

1. OLS模型(普通最小二乘法)

普通最小二乘法(OLS)是最基本的回归分析方法,目的是通过最小化预测值和实际观测值之间的误差平方和,找到一个拟合数据的最佳线性关系。假设你有一组数据,想知道自变量(比如设备的运行参数)如何影响因变量(比如机房的温度)。

  • 参数的置信区间:在回归模型中,每个自变量都会有一个“参数”(比如,设备运行功率对温度的影响程度)。置信区间告诉你你对这个参数估计的精确程度。比如,你预测设备功率增加1千瓦,机房温度增加0.5℃,95%的置信区间是[0.4℃, 0.6℃],这就意味着你95%的信心温度增幅会在这个范围内。
  • 参数与模型的显著度:显著度检验(通常用p值)判断你估计的参数是不是有意义的。如果p值小于0.05,意味着该自变量(比如设备功率)对温度的影响是显著的,可以放心地将其纳入模型。
  • 模拟的拟合优度(决定系数)表示模型能够解释多少数据的波动。比如,R²=0.85意味着你用模型预测温度,能够解释85%的温度变化。

例子:假设你想了解机房内温度如何受到不同设备的运行状态(如运行功率、风扇转速等)影响。你可以使用OLS模型建立一个回归方程,来预测机房温度与设备参数之间的关系。如果你得到的回归系数表示设备功率增加1千瓦,温度上升0.3℃,并且这个系数的p值小于0.05,说明这个关系是显著的。

2. OLS模型检验

4个统计假设检验:

  • 正态性:回归模型的误差项应该服从正态分布。如果误差不正态,回归结果可能不可靠。在机房场景中,如果温度的变化误差不服从正态分布,可能说明模型的假设不成立。
  • 独立性:数据点之间应该是独立的。如果不同设备的故障数据或温度数据相互关联,回归结果也可能失真。在机房里,如果设备之间存在某种依赖关系(如中央空调温度波动会影响其他设备的温度),需要特别注意。
  • 线性:模型假设自变量与因变量之间是线性关系。如果设备的功率和温度之间不是简单的线性关系(比如温度变化呈现出非线性的增长),OLS模型可能不适用。
  • 同方差性:模型的误差应该有相同的波动范围。如果机房温度变化在不同时间段的波动范围不一致(比如高温期的温度变化大),则可能存在异方差,OLS结果会受到影响。

例子:假设你在回归模型中使用了设备功率和风扇转速来预测机房的温度。如果你发现模型的误差图形呈现出非正态分布,或者随着时间变化波动增大,那么你就需要对模型的假设进行检验并做相应调整。

多重共线性(VIF检验):

当多个自变量之间存在很强的相关性时,回归模型可能会不稳定。比如设备的功率和风扇转速有很强的相关性,如果同时将它们放入回归模型中,可能会导致多重共线性问题。

  • VIF(方差膨胀因子)是用来检测多重共线性的方法。如果VIF值过大,说明这些自变量之间相关性太强,需要做调整(例如去除某些变量)。

例子:假设你有设备功率和风扇转速两个变量,它们高度相关(风扇转速与设备功率直接相关),那么这两个变量一起进入回归模型时,可能导致共线性问题。通过VIF检验,如果发现VIF过高,就需要调整模型,去除其中一个变量。

3. 鲁棒线性回归

传统的OLS回归对异常值非常敏感(比如机房中某次极端的设备故障可能影响温度变化)。鲁棒回归通过一些方法减少这些异常值的影响,得到更稳健的结果。

  • 分位数回归:与OLS回归只关注平均值不同,分位数回归关注数据的中位数(50%分位数)或者其他百分位数。这对于处理存在异常值的数据非常有用。
  • M估计与MM估计:这些方法是鲁棒回归的技术,通过加权或者调整方法,减少异常点对回归结果的影响。M估计通过改变样本中某些点的权重来降低异常值的影响。
  • LMS与LTS算法:这些算法通过对数据集进行加权和优化,减少极端值的影响,使得回归模型更稳定。

例子:如果机房设备在某个时间段出现故障,导致温度异常高(例如40℃),而这些异常值可能会影响回归模型的拟合,导致结果不可靠。使用鲁棒回归方法(如分位数回归或者M估计),可以减少这些极端温度值的影响,得到更为准确的回归模型。

4. 结构复杂度惩罚(正则化)

正则化方法可以防止模型过拟合,即模型太过复杂,以至于“记住”了训练数据中的噪声。在机房温度预测中,正则化可以帮助你减少不必要的变量,从而避免过拟合。

  • L1正则化(Lasso回归):Lasso回归通过加上一个惩罚项,减少不重要的自变量系数,甚至将一些系数收缩为零,从而进行特征选择。
  • L2正则化(Ridge回归):Ridge回归通过加权自变量的平方,避免过度依赖某些变量,从而避免过拟合。

例子:如果你在回归模型中使用了很多设备参数(如功率、风速、温度、湿度等),但其中有些参数对预测机房温度影响很小。使用Lasso回归可以自动剔除这些不重要的参数,确保模型不复杂且更易于解释。

5. PLS、LOESS回归、Kernel方法

  • PLS回归:适用于自变量之间高度相关的情况。比如,如果设备功率和风速两者之间高度相关,使用PLS回归可以帮助你更好地建模。

    • 例子:假设你在预测机房温度时,设备功率和风速是高度相关的,使用PLS回归可以帮助你解决多重共线性问题。
  • LOESS回归:归是一种局部加权回归方法,适合于数据之间关系复杂或非线性的情况。如果你认为设备功率与温度之间的关系不是简单的线性关系,LOESS回归可以帮助你建立一个更加灵活的模型。

    • 例子:假设温度与风速之间的关系不是线性的,使用LOESS回归可以帮助你拟合非线性关系。
  • Kernel方法:用于非线性回归。比如,机房中某些设备的影响可能并不是线性的,可以使用支持向量回归(SVR)等Kernel方法来建立更加复杂的模型。

    • 如果设备的多种运行参数共同影响温度,且影响关系复杂,Kernel方法可以帮助你捕捉这些复杂的非线性关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/889568.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3-tp8-Element:对话框实现

效果 参考框架 Dialog 对话框 | Element Plus 具体实现 一、建立view页面 /src/views/TestView.vue 二、将路径写入路由 /src/router/index.js import { createRouter, createWebHistory } from vue-router import HomeView from ../views/HomeView.vueconst router create…

VMware ESXi上创建Ubuntu虚拟机并实现远程SSH访问全攻略

文章目录 前言1. 在VMware ESXI中创建Ubuntu虚拟机2. Ubuntu开启SSH远程服务3. 安装Cpolar工具4. 使用SSH客户端远程访问Ubuntu5. 固定TCP公网地址 前言 本文主要介绍如何在VMware ESXi上创建一台Ubuntu 22.04虚拟机,并通过Cpolar内网穿透工具配置公网地址&#xf…

HQChart使用教程30-K线图如何对接第3方数据42-DRAWTEXTREL,DRAWTEXTABS数据结构

HQChart使用教程30-K线图如何对接第3方数据42-DRAWTEXTREL,DRAWTEXTABS数据结构 效果图DRAWTEXTREL示例数据结构说明nametypecolorDrawVAlignDrawAlignDrawDrawTypeDrawDataFont DRAWTEXTABS示例数据结构说明nametypecolorDrawVAlignDrawAlignDrawDrawTypeDrawDataFont 效果图 …

【电子元器件】电感基础知识

本文章是笔者整理的备忘笔记。希望在帮助自己温习避免遗忘的同时,也能帮助其他需要参考的朋友。如有谬误,欢迎大家进行指正。 一、 电感的基本工作原理 1. 电感的基本工作原理如下: (1) 当线圈中有电流通过时&#…

大模型的文件有哪些?

在大模型仓库(如Hugging Face)中,例如:https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/files,通常会发现以下几类文件: 模型权重文件:存储训练好的模型参数,是模型推理和微调…

Python pyinstaller图形化打包工具

Python pyinstaller图形化打包工具 1.简介: 一个使用Python PYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的python打包体验。资源已打包,大家可自行下载。 相关功能: 识别…

canal安装使用

简介 canal [kənl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费 工作原理 canal 模拟 MySQL slave 的交互协议,伪装自己为 MySQL slave ,向 MySQL master 发送 dump 协议…

专业140+总分400+北京理工大学826信号处理导论考研经验北理工电子信息与通信工程,真题,大纲,参考书。

考研总分400,专业826信号处理导论(信号与系统和dsp)140,成功上岸北理工,虽然已经一段时间,但是后劲很大,每每回想还是昨日事,群里同学多次要求分享自己的一些经验,感谢大…

pdb调试器详解

文章目录 1. 启动 pdb 调试器1.1 在代码中插入断点1.2 使用命令行直接调试脚本 2. 常用调试命令2.1 基本命令2.2 高级命令2.3 断点操作 3. 调试过程示例4. 调试技巧4.1 条件断点4.2 自动启用调试4.2.1 运行程序时指定 -m pdb4.2.2在代码中启用 pdb.post_mortem4.2.3 使用 sys.e…

基于Spring Boot的同城宠物照看系统的设计与实现

一、摘要 在快节奏的现代生活中,宠物已成为许多家庭不可或缺的一部分。然而,宠物照看服务的需求也随之增长。为了满足这一需求,我们设计并实现了一款同城宠物照看系统,该系统利用Java技术和MySQL数据库,为用户提供一个…

【Qt】QWidget中的常见属性及其作用(一)

目录 一、 enabled 例子: 二、geometry 例子: window fram 例子 : 四、windowTiltle 五、windowIcon 例子: qrc机制 创建qrc文件 例子: qt中的很多内置类都是继承自QWidget的,因此熟悉QWidget的…

全栈开发:后台管理系统时代的技术破局之道

在当前的互联网发展阶段,许多二三线城市的互联网项目正在经历一个显著的转变。传统的To C项目逐渐减少,取而代之的是大量的企业级后台管理系统。在这样的背景下,全栈开发——特别是前端加Java的组合,正在成为一个备受关注的发展方…

【ubuntu24.04】PDFMathTranslate 本地PDF翻译GPU部署

https://huggingface.co/spaces/reycn/PDFMathTranslate-Docker排不上号官方都是要安装包,感觉可以本地试着源码部署一下, http://localhost:7860/官方是这个端口,但是我本地启动是:5000IDEA 里本地 backend启动效果 GUI 是监听7860的

挺详细的记录electron【V 33.2.0】打包vue3项目为可执行程序

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、直接看效果 二、具体步骤 1.安装配置electron 1.将 electron 包安装到应用的开发依赖中。 2.安装electron-packager依赖(打包可执行文件&#…

西瓜甜不甜

西瓜甜不甜?有人就会说了,这还不简单,拿把刀,把西瓜劈开,吃两口,你不就知道了。但这有几个问题,值得探讨,我们来看下面这副图: 如果西瓜是在货摊上,是卖主的西…

【sgFileLink】自定义组件:基于el-link、el-icon标签构建文件超链接组件,支持垃圾桶删除、点击预览视频/音频/图片/PDF格式文件

sgFileLink源代码 <template><div :class"$options.name"><el-link click.stop"clickFile(data)"><img :src"getSrc(data)" /><span>{{ getFileNameAndSize(data) }}</span></el-link><el-linkcl…

电容的哪些事儿

电容的串并连 电容并联&#xff0c;两电容电压相同&#xff0c;C并C1C2 耐压取较小的&#xff0c;然后再做降额处理 电容串联&#xff0c;两电容电量相同&#xff0c;1/C串1/C11/C2。根据两电容电量相同&#xff0c;Qmin{C1U1,C2U2}&#xff0c;耐压值Umin{C1U1/C2,U2}min{C2…

在 Kibana 中为 Vega Sankey 可视化添加过滤功能

作者&#xff1a;来自 Elastic Tim Bosman 及 Miloš Mandić 有兴趣在 Kibana 中为 Vega 可视化添加交互式过滤器吗&#xff1f;了解如何利用 “kibanaAddFilter” 函数轻松创建动态且响应迅速的 Sankey 可视化。 在这篇博客中&#xff0c;我们将了解如何启用 Vega Sankey 可视…

supervision - 好用的计算机视觉 AI 工具库

Supervision库是一款出色的Python计算机视觉低代码工具&#xff0c;其设计初衷在于为用户提供一个便捷且高效的接口&#xff0c;用以处理数据集以及直观地展示检测结果。简化了对象检测、分类、标注、跟踪等计算机视觉的开发流程。开发者仅需加载数据集和模型&#xff0c;就能轻…

Windows如何安装go环境,离线安装beego

一、安装go 1、下载go All releases - The Go Programming Language 通过网盘分享的文件&#xff1a;分享的文件 链接: https://pan.baidu.com/s/1MCbo3k3otSoVdmIR4mpPiQ 提取码: hxgf 下载amd64.zip文件&#xff0c;然后解压到指定的路径 2、配置环境变量 需要新建两个环境…