文章目录
- day04
- 统计分析
- 概率分布
- 参数估计
- 假设检验
- 统计分布拟合
- 1.基于核函数的非参数方法
- 2. 单概率分布的参数化拟合
- 3. 混合概率分布估计
- 线性回归模型
- 1. OLS模型(普通最小二乘法)
- 2. OLS模型检验
- 3. 鲁棒线性回归
- 4. 结构复杂度惩罚(正则化)
- 5. PLS、LOESS回归、Kernel方法
day04
今天是学习该书籍的第4天,昨日2章节毕,开启第3章节-机器学习算法。ML是一类自动分析数据并获取规律,利用规律对未知数据进行预测的算法,类别可分为:有监督(分类、回归问题)、无监督(聚类、关联规则问题)、半监督、强化学习。当然ML的理论基础是来源于统计学、最优化等基础算法学科,该章节只列举了典型的算法,并不是穷举。
统计分析
统计分析主要分为:
- 描述性统计:使用图表和数值方法会在和描述数据
- 数据的概括性度量指标:分布集中趋势(均数、中位数、众数、分位数)、分布离散(方差/标准差、变异系数、MAE/RMSE)、分布形态(偏度、峰度)、变量线性相关关系(协方差、相关系数)
- 数据图形展示:数据分析(分类/顺序变量使用饼图、图形图,数值变量使用直方图、盒须图、茎叶图),比较/相关(分类/顺序变量使用side-by-side条形图、堆叠条形图,数值变量使用散点图、趋势线)
- 推断统计:利用样本数据推断总体特征的统计方法,实际上就是抽样,对总体分布进行参数估计和假设检验
假设总体的概率分布为pθ,θ就是概率分布的参数集合,pθ称为统计模型,根据θ参数空间数学性质,可分为以下两种,
- 参数统计模型:参数集属于有限维空间,维度称为该统计模型的自由度
- 非参数统计模型:参数集属于无穷维空间,常见的思路有核函数(使用局部相似)、随机仿真(蒙特卡罗方法),举个例子:在时序预测的时候常常有上下预测的置信区间,就是通过分解误差项进行建模,与原始项相加生成新的序列
概率分布
参数统计模型中可以有很小的参数空间拟合数据分布,所以第一步就是通过观察统计实验样本的直方图,从众多概率分布图中选择一个有参数分布作为假设分布
- 常见的离散分布:二项分布、泊松分布、几何分布
- 常见的连续分布:均匀分布、正态分布、t分布、χ2分布、F分布、指数分布等
大概流程判断:数据离散还是连续—>数据是否对称,如果不对称是正偏斜还是负偏斜—>数据是否有上下界—>数据极端值的分布情况。
参数估计
通过样本数据量估计总体参数,参数估计可采用参数化模型,单总体(关心单一总体的某个参数,例如平均值、比例或方差)和双总体参数估计(关心两个总体之间参数的差异,比如均值差、比例差或方差比)和使用分布如下
非参数方法可以使用随机采用的方法,把当前样本作为总体,不放回的抽取一些样本来做统计分析,比如Bootstrap(自助法)、Jackknife(刀切法)
假设检验
和参数估计想法一致,也是样本对总体进行推断,但是假设检验是线提出假设,然后通过样本信息验证假设成立。按照总体是否已知,假设检验可分为参数检验和非参数检验
方面 | 参数估计 | 假设检验 |
---|---|---|
定义 | 通过样本数据估计总体参数的值。 | 对关于总体参数的假设进行检验。 |
目标 | 估计总体参数(如均值、方差)。 | 判断假设是否成立(接受或拒绝假设)。 |
结果 | 给出参数的点估计或区间估计。 | 给出是否接受或拒绝原假设的结论。 |
统计方法 | 使用点估计公式或置信区间公式。 | 使用统计检验方法(如z检验、t检验等)。 |
示例 | 估计平均身高为170cm。 | 检验“平均身高是否等于170cm”。 |
联系 | 参数估计为假设检验提供统计量和基础信息。 | 假设检验的过程通常会依赖参数估计的结果。 |
参数估计 侧重于“估计”总体参数的值,通过样本给出点估计或区间估计。假设检验 侧重于“判断”某个关于总体参数的假设是否成立,通过统计检验做出决策。
统计分布拟合
参数估计和假设检验可以帮助你了解总体的参数值(如均值、方差等)和检验假设是否成立,但它们并没有告诉你数据的 分布特性。统计分布拟合的作用是帮助你 识别数据的真实分布,这样你就可以选择正确的统计方法进行分析,确保你的结论更准确、更符合实际情况。
举个例子,假设你要研究某工厂的生产设备的寿命。你做了以下分析:
- 参数估计:你用样本数据计算了设备的平均寿命,估计了一个总体均值。
- 假设检验:你假设设备的寿命大于50天,然后进行假设检验。
到这里,你只是了解了设备寿命的均值以及是否超过50天,但你并不清楚 设备寿命的具体分布是什么,比如是否有些设备寿命极短,而有些设备寿命特别长。这些信息对于后续的决策和预测非常重要。
这时,你可以进行 统计分布拟合:
- 你通过分布拟合分析,发现设备寿命服从 指数分布。
- 那么,你就可以根据 指数分布 来进一步计算设备发生故障的概率、寿命的可靠性分析等。
1.基于核函数的非参数方法
非参数方法不假设数据服从任何特定的概率分布,而是通过数据本身进行建模。基于核函数的非参数方法是一种常用的非参数估计方法,它通过使用一个核函数(如高斯核、均匀核等)来估计数据的概率密度函数(PDF)。这种方法的优点是能够灵活地拟合各种形态的分布,不需要假设数据来自于某个特定分布。
案例:假设你收集了一组数据,想要估计数据的分布情况,但你不确定数据服从正态分布、指数分布等任何已知分布。你可以使用核密度估计(Kernel Density Estimation, KDE)来估计数据的概率密度函数。这种方法通过在每个数据点附近放置一个“核”(通常是高斯核),并将所有核的贡献加起来,得到数据的平滑概率密度曲线。
- 应用场景:核密度估计广泛用于数据分析中的探索性数据分析(EDA)。例如,在对某个地区的收入数据进行分析时,可以通过核密度估计查看收入的分布形态,发现收入是否呈现偏态分布、双峰分布等。
2. 单概率分布的参数化拟合
单概率分布的参数化拟合是指通过样本数据来估计某个特定概率分布(如正态分布、指数分布、泊松分布等)的参数。通常,基于一些假设(如数据符合正态分布),你使用样本数据来估计该分布的参数(如均值、方差、率参数等)。这种方法假设数据来源于一个具体的概率分布,因此它的适用前提是你能够确认或合理假设数据的分布类型。
案例:假设你有一组产品的寿命数据,且根据先验知识,认为这些产品的寿命服从 正态分布。你可以使用最大似然估计(MLE)或最小二乘法来估计正态分布的均值和方差。一旦你获得了这些参数,就可以利用这个已知的分布模型来进行进一步的推断,比如计算产品寿命超过一定时间的概率。
- 应用场景:比如在金融领域,常假设股价收益服从正态分布。你可以根据历史数据估计收益率的均值和方差,以便进行风险管理和资产配置。
3. 混合概率分布估计
混合概率分布是指由多个不同的分布组成的模型。在实际数据中,可能存在多个子群体,每个子群体的数据都服从不同的分布(如正态分布、指数分布等)。混合分布方法通过将这些不同的分布组合起来,来更好地拟合和描述数据的复杂结构。混合分布估计可以使用最大似然估计(MLE)等方法来估计各个子分布的参数和它们的权重。
案例:假设你正在分析一组人的身高数据,这些人来自不同的年龄段(如儿童、青少年和成年人)。每个年龄段的身高可能服从不同的正态分布。如果你将所有年龄段的人混合在一起,你可能得到一个 混合正态分布,即数据的分布可以看作是多个正态分布的加权平均。
- 应用场景:混合分布模型在很多实际应用中都很常见。例如,在市场细分中,不同消费者群体的行为模式可能不同,可以使用混合分布来对这些群体进行建模;或者在医学中,患者的症状可能来源于不同类型的疾病,混合分布可以帮助我们从多个潜在病因中估计数据。
方法类型 | 特点 | 适用场景 | 例子 |
---|---|---|---|
基于核函数的非参数方法 | 不假设数据服从任何特定分布,通过核函数估计数据的密度函数 | 适用于数据分布未知,且无需假设具体的分布类型 | 核密度估计,估计收入分布 |
单概率分布的参数化拟合 | 假设数据服从某个已知分布,估计该分布的参数 | 适用于已知或假定数据服从某个已知分布的情况 | 正态分布参数估计(如估计产品寿命的均值和方差) |
混合概率分布估计 | 数据来自多个子群体,每个子群体的数据服从不同的分布 | 适用于数据存在多个子群体,每个子群体的分布不同 | 混合正态分布(如儿童、青少年和成人的身高数据分析) |
线性回归模型
1. OLS模型(普通最小二乘法)
普通最小二乘法(OLS)是最基本的回归分析方法,目的是通过最小化预测值和实际观测值之间的误差平方和,找到一个拟合数据的最佳线性关系。假设你有一组数据,想知道自变量(比如设备的运行参数)如何影响因变量(比如机房的温度)。
- 参数的置信区间:在回归模型中,每个自变量都会有一个“参数”(比如,设备运行功率对温度的影响程度)。置信区间告诉你你对这个参数估计的精确程度。比如,你预测设备功率增加1千瓦,机房温度增加0.5℃,95%的置信区间是[0.4℃, 0.6℃],这就意味着你95%的信心温度增幅会在这个范围内。
- 参数与模型的显著度:显著度检验(通常用p值)判断你估计的参数是不是有意义的。如果p值小于0.05,意味着该自变量(比如设备功率)对温度的影响是显著的,可以放心地将其纳入模型。
- 模拟的拟合优度:R²(决定系数)表示模型能够解释多少数据的波动。比如,R²=0.85意味着你用模型预测温度,能够解释85%的温度变化。
例子:假设你想了解机房内温度如何受到不同设备的运行状态(如运行功率、风扇转速等)影响。你可以使用OLS模型建立一个回归方程,来预测机房温度与设备参数之间的关系。如果你得到的回归系数表示设备功率增加1千瓦,温度上升0.3℃,并且这个系数的p值小于0.05,说明这个关系是显著的。
2. OLS模型检验
4个统计假设检验:
- 正态性:回归模型的误差项应该服从正态分布。如果误差不正态,回归结果可能不可靠。在机房场景中,如果温度的变化误差不服从正态分布,可能说明模型的假设不成立。
- 独立性:数据点之间应该是独立的。如果不同设备的故障数据或温度数据相互关联,回归结果也可能失真。在机房里,如果设备之间存在某种依赖关系(如中央空调温度波动会影响其他设备的温度),需要特别注意。
- 线性:模型假设自变量与因变量之间是线性关系。如果设备的功率和温度之间不是简单的线性关系(比如温度变化呈现出非线性的增长),OLS模型可能不适用。
- 同方差性:模型的误差应该有相同的波动范围。如果机房温度变化在不同时间段的波动范围不一致(比如高温期的温度变化大),则可能存在异方差,OLS结果会受到影响。
例子:假设你在回归模型中使用了设备功率和风扇转速来预测机房的温度。如果你发现模型的误差图形呈现出非正态分布,或者随着时间变化波动增大,那么你就需要对模型的假设进行检验并做相应调整。
多重共线性(VIF检验):
当多个自变量之间存在很强的相关性时,回归模型可能会不稳定。比如设备的功率和风扇转速有很强的相关性,如果同时将它们放入回归模型中,可能会导致多重共线性问题。
- VIF(方差膨胀因子)是用来检测多重共线性的方法。如果VIF值过大,说明这些自变量之间相关性太强,需要做调整(例如去除某些变量)。
例子:假设你有设备功率和风扇转速两个变量,它们高度相关(风扇转速与设备功率直接相关),那么这两个变量一起进入回归模型时,可能导致共线性问题。通过VIF检验,如果发现VIF过高,就需要调整模型,去除其中一个变量。
3. 鲁棒线性回归
传统的OLS回归对异常值非常敏感(比如机房中某次极端的设备故障可能影响温度变化)。鲁棒回归通过一些方法减少这些异常值的影响,得到更稳健的结果。
- 分位数回归:与OLS回归只关注平均值不同,分位数回归关注数据的中位数(50%分位数)或者其他百分位数。这对于处理存在异常值的数据非常有用。
- M估计与MM估计:这些方法是鲁棒回归的技术,通过加权或者调整方法,减少异常点对回归结果的影响。M估计通过改变样本中某些点的权重来降低异常值的影响。
- LMS与LTS算法:这些算法通过对数据集进行加权和优化,减少极端值的影响,使得回归模型更稳定。
例子:如果机房设备在某个时间段出现故障,导致温度异常高(例如40℃),而这些异常值可能会影响回归模型的拟合,导致结果不可靠。使用鲁棒回归方法(如分位数回归或者M估计),可以减少这些极端温度值的影响,得到更为准确的回归模型。
4. 结构复杂度惩罚(正则化)
正则化方法可以防止模型过拟合,即模型太过复杂,以至于“记住”了训练数据中的噪声。在机房温度预测中,正则化可以帮助你减少不必要的变量,从而避免过拟合。
- L1正则化(Lasso回归):Lasso回归通过加上一个惩罚项,减少不重要的自变量系数,甚至将一些系数收缩为零,从而进行特征选择。
- L2正则化(Ridge回归):Ridge回归通过加权自变量的平方,避免过度依赖某些变量,从而避免过拟合。
例子:如果你在回归模型中使用了很多设备参数(如功率、风速、温度、湿度等),但其中有些参数对预测机房温度影响很小。使用Lasso回归可以自动剔除这些不重要的参数,确保模型不复杂且更易于解释。
5. PLS、LOESS回归、Kernel方法
-
PLS回归:适用于自变量之间高度相关的情况。比如,如果设备功率和风速两者之间高度相关,使用PLS回归可以帮助你更好地建模。
- 例子:假设你在预测机房温度时,设备功率和风速是高度相关的,使用PLS回归可以帮助你解决多重共线性问题。
-
LOESS回归:归是一种局部加权回归方法,适合于数据之间关系复杂或非线性的情况。如果你认为设备功率与温度之间的关系不是简单的线性关系,LOESS回归可以帮助你建立一个更加灵活的模型。
- 例子:假设温度与风速之间的关系不是线性的,使用LOESS回归可以帮助你拟合非线性关系。
-
Kernel方法:用于非线性回归。比如,机房中某些设备的影响可能并不是线性的,可以使用支持向量回归(SVR)等Kernel方法来建立更加复杂的模型。
- 如果设备的多种运行参数共同影响温度,且影响关系复杂,Kernel方法可以帮助你捕捉这些复杂的非线性关系。