常见概率分布介绍

介绍

概率分布是统计学中用于描述随机变量的概率特征的函数。以下是几种常用的概率分布:

  1. 均匀分布(Uniform Distribution):
  • 离散均匀分布: 每个结果发生的概率相等。
  • 连续均匀分布: 任意两个相同长度的区间内取值的概率相同。
  1. 二项分布(Binomial Distribution):
    描述了在固定次数的独立实验中,成功发生次数的概率分布,其中每次实验的成功概率是固定的。
  2. 泊松分布(Poisson Distribution):
    用于描述在一定时间或空间内,发生某个事件的次数的概率分布,适用于事件发生的平均率是已知的情况。
  3. 正态分布(Normal Distribution)或高斯分布:
    描述了自然界中许多随机变量的分布情况,呈钟形曲线,由两个参数确定:均值 μ μ μ和方差 σ 2 σ^2 σ2
  4. 指数分布(Exponential Distribution):
    描述了在泊松过程中,两个连续事件发生之间的时间间隔的概率分布。
  5. 伽马分布(Gamma Distribution):
    可以看作是若干个独立的指数分布变量之和,用于描述等待多个事件发生所需时间的概率分布。
  6. 贝塔分布(Beta Distribution):
    是定义在 [ 0 , 1 ] [0, 1] [0,1]区间上的连续概率分布,常用于估计概率的概率分布。
  7. 卡方分布(Chi-squared Distribution):
    当独立的标准正态分布变量的平方和时,其分布就是卡方分布。常用于假设检验。
  8. t分布(t-Distribution):
    当样本量较小,总体标准差未知时,用于估计总体均值的分布。
  9. F分布(F-Distribution):
    用于比较两个样本方差是否相等,以及多个样本均值是否相等的分析方差(ANOVA)等假设检验。

这些分布在各种统计分析和机器学习算法中都有着非常重要的作用。了解和使用这些分布,可以帮助我们在处理数据和进行推断时做出更准确的决策。

均匀分布(Uniform Distribution)

均匀分布(Uniform Distribution)是一个非常简单且重要的概率分布,它可以是离散的也可以是连续的。
离散均匀分布
离散均匀分布是指在有限个数的结果中,每个结果出现的概率相等。如果一个随机变量 X X X服从参数为n的离散均匀分布,记作 X ∼ U { 1 , 2 , . . . , n } X \sim U\{1, 2, ..., n\} XU{1,2,...,n},那么它取每个值的概率为 1 / n 1/n 1/n
例如,掷一个公正的六面骰子,每个面朝上的概率都是 1 / 6 1/6 1/6,这就是一个离散均匀分布的例子。
连续均匀分布
连续均匀分布是指在实数的某一区间内任意两点被取到的概率相等。其概率密度函数(probability density function,PDF)在区间 [ a , b ] [a, b] [a,b]内为常数,区间外为0。
数学上,连续均匀分布的概率密度函数可以表示为:
f ( x ) = { 1 b − a for  a ≤ x ≤ b 0 otherwise f(x) = \begin{cases} \frac{1}{b-a} & \text{for } a \le x \le b \\ 0 & \text{otherwise} \end{cases} f(x)={ba10for axbotherwise
其中, a a a 是分布的下界, b b b 是上界,且 b > a b > a b>a。在区间 [ a , b ] [a, b] [a,b] 内任意一点 x 的出现概率都相同。
相对应的,连续均匀分布的累积分布函数(cumulative distribution function,CDF)表达为:
F ( x ) = { 0 for  x < a x − a b − a for  a ≤ x ≤ b 1 for  x > b F(x) = \begin{cases} 0 & \text{for } x < a \\ \frac{x-a}{b-a} & \text{for } a \le x \le b \\ 1 & \text{for } x > b \end{cases} F(x)= 0baxa1for x<afor axbfor x>b
这个函数在区间外是平的,在区间 [ a , b ] [a, b] [a,b]内是线性增长的。
连续均匀分布的期望值(mean)和方差(variance)分别为:
Mean = a + b 2 \text{Mean} = \frac{a + b}{2} Mean=2a+b
Variance = ( b − a ) 2 12 \text{Variance} = \frac{(b - a)^2}{12} Variance=12(ba)2
这意味着分布的中心是区间的中点,且数据的离散程度随区间长度的增加而增加。
连续均匀分布常用于模拟等概率的随机事件,比如随机选择某个时间点或者在某段长度上随机取点。在实际应用中,当缺乏关于某个随机变量的信息时,也常常假设它服从均匀分布。

二项分布(Binomial Distribution)

二项分布(Binomial Distribution)是一种离散概率分布,它描述了在一系列相同的独立试验中,每次试验成功的概率相同,而成功次数的概率分布。这里的“成功”可以是任何感兴趣的结果,比如抛硬币时正面朝上,或者测试产品时发现是次品。
以下是二项分布的一些关键特征:

  • 试验次数 n n n:进行的独立试验总次数,这是一个固定的正整数。
  • 成功概率 p p p:在每次试验中“成功”的概率,这是一个在0和1之间的固定值。
  • 失败概率 q 或 1 − p q 或 1-p q1p:在每次试验中“失败”的概率,等于1减去成功概率。

二项分布的概率质量函数(Probability Mass Function,PMF)表示在n次独立试验中恰好有k次成功的概率:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} P(X=k)=(kn)pk(1p)nk
其中, ( n k ) \binom{n}{k} (kn) 是组合数,表示从n个不同元素中不重复地选取k个元素的方法数,计算公式为:
( n k ) = n ! k ! ( n − k ) ! \binom{n}{k} = \frac{n!}{k!(n-k)!} (kn)=k!(nk)!n!
这里的 n ! n! n! 表示n的阶乘,即 n × ( n − 1 ) × ( n − 2 ) × . . . × 1 n \times (n-1) \times (n-2) \times ... \times 1 n×(n1)×(n2)×...×1
二项分布的性质

  • 均值(期望值): E ( X ) = n p E(X) = np E(X)=np
  • 方差 V a r ( X ) = n p ( 1 − p ) Var(X) = np(1-p) Var(X)=np(1p)
  • 标准差 σ = n p ( 1 − p ) \sigma = \sqrt{np(1-p)} σ=np(1p)
  • 偏度:当p不是0.5时,分布是偏斜的;若p > 0.5,分布偏向左侧;若p < 0.5,分布偏向右侧。

二项分布的例子很常见,例如:

  • 抛掷10次硬币,计算正面朝上恰好6次的概率。
  • 在质量检测中,从30个产品中随机抽取样本,计算其中恰好有5个不合格产品的概率。

还有一点值得注意:当试验次数n为1时,二项分布简化为伯努利分布(Bernoulli Distribution)。
二项分布是统计学和概率论中非常关键的一个分布,因为它提供了只有两种结果的试验或事件(如是/非,成功/失败)的一个明确的概率框架。在实践中,二项分布广泛应用于质量控制、医学试验、投票行为分析等领域。

泊松分布(Poisson Distribution)

泊松分布(Poisson Distribution)是一种离散概率分布,它用于描述在固定时间间隔或空间范围内发生某随机事件的次数的概率。这个分布非常适合于那些事件独立发生,且平均发生率(即强度或者频率)是已知的情况。
泊松分布的典型特点和应用场合包括:

  • 在任意两次事件之间的时间间隔是独立的。
  • 事件在每个小的时间间隔内发生的概率是相同的。
  • 事件在很小的时间间隔内同时发生的概率是可以忽略的。
  • 平均发生率 λ , l a m b d a λ,lambda λlambda在考虑的时间段内保持不变。

泊松分布的概率质量函数(Probability Mass Function, PMF)给出了在给定的时间段内,事件发生k次的概率:
P ( X = k ) = λ k e − λ k ! P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λkeλ
其中:

  • k k k 是可能发生的次数(0, 1, 2, …)。
  • λ \lambda λ是单位时间(或单位空间)内事件的平均发生次数。
  • e e e是自然对数的底,大约等于2.71828。
  • k ! k! k! 是k的阶乘。

泊松分布的性质

  • 均值(期望值): E ( X ) = λ E(X) = \lambda E(X)=λ
  • 方差 V a r ( X ) = λ Var(X) = \lambda Var(X)=λ
  • 标准差 σ = λ \sigma = \sqrt{\lambda} σ=λ
  • 泊松分布是偏斜的,当λ增大时,分布变得更对称,当λ较大时,泊杽分布接近正态分布。

泊松分布的应用
泊松分布在许多领域都有应用,特别是那些事件随机且独立发生的情况。一些例子包括:

  • 在一定时间内到达呼叫中心的电话数。
  • 一定时间内网站的访问量。
  • 在一定时间内放射性物质衰变的粒子数。
  • 一定面积内发现的打字错误数。

泊松分布是研究稀有事件的强大工具,在数据分析、预测模型、保险数学、排队理论等领域都非常重要。

正态分布(Normal Distribution)

正态分布(Normal Distribution),也被称为高斯分布(Gaussian Distribution),是最重要的概率分布之一。在自然界和人类行为的很多现象可以用正态分布来模拟,特别是当某个变量受到许多小效应的影响时,这些效应相互独立且分布均匀(根据中心极限定理)。
正态分布的概率密度函数(Probability Density Function,PDF)是一个关于变量x的函数,其数学形式为:
f ( x ∣ μ , σ 2 ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x-\mu)2}{2\sigma2} } f(xμ,σ2)=2πσ2 1e2σ2(xμ)2
其中:

  • μ \mu μ 是分布的均值(mean),决定了分布的中心位置。
  • σ \sigma σ 是分布的标准差(standard deviation),表示分布的宽度,决定了分布的扁平或尖峰程度。
  • σ 2 \sigma^2 σ2是方差(variance),标准差的平方。

正态分布的图形是一个对称的钟形曲线,其中:

  • 曲线的峰值位于平均值 μ \mu μ
  • 曲线在 μ ± σ \mu \pm \sigma μ±σ处的点比峰值点低约37%。
  • 曲线在 μ ± 2 σ \mu \pm 2\sigma μ±2σ 处的点接近于水平轴。
  • 大约68.27%的数据值位于 μ ± σ \mu \pm \sigma μ±σ 范围内。
  • 大约95.45%的数据值位于 μ ± 2 σ \mu \pm 2\sigma μ±2σ 范围内。
  • 大约99.73%的数据值位于 μ ± 3 σ \mu \pm 3\sigma μ±3σ范围内。

正态分布的性质:

  • 它是对称的,关于均值对称。
  • 均值、中位数和众数在同一点。
  • 曲线的两端永远不会触及或交叉水平轴,即使是在无限远处。
  • 可以通过变换成标准正态分布来简化计算,标准正态分布是一个均值为0、方差(和标准差)为1的正态分布。

正态分布广泛应用于自然科学和社会科学领域,例如:

  • 在心理测验中,智力分数通常呈正态分布。
  • 测量误差通常假定为正态分布。
  • 生物特征如人的身高和血压通常近似于正态分布。

任何实际数据集合如果足够大,且不受极端值的影响,通常都会呈现出接近正态分布的模式。

指数分布(Exponential Distribution)

指数分布(Exponential Distribution)是一种连续概率分布,它经常用来表示独立随机事件发生的时间间隔。比如,某个服务设施中顾客的到达时间间隔、机器部件的寿命直至故障、或者放射性粒子的衰变时间等。指数分布是一种无记忆分布,意味着未来的概率分布不受过去结果的影响。
指数分布的概率密度函数(Probability Density Function,PDF)定义为:
f ( x ∣ λ ) = { λ e − λ x if  x ≥ 0 0 if  x < 0 f(x|\lambda) = \begin{cases} \lambda e^{-\lambda x} & \text{if } x \geq 0 \\ 0 & \text{if } x < 0 \end{cases} f(xλ)={λeλx0if x0if x<0
其中:

  • x x x是随机变量,表示事件发生的时间间隔。
  • λ \lambda λ是事件发生率,又称为率参数(rate parameter),它是单位时间内平均发生该事件的次数。 λ > 0 \lambda > 0 λ>0

指数分布的累积分布函数(Cumulative Distribution Function,CDF),即概率为:
F ( x ∣ λ ) = 1 − e − λ x F(x|\lambda) = 1 - e^{-\lambda x} F(xλ)=1eλx
它表示在时间x之前或者恰在时间x发生第一个事件的概率。
指数分布的几个重要性质包括:

  • 无记忆性(Memoryless):指数分布的一个关键特性是无记忆性,即未来的概率分布不依赖于已经经过的时间。形式上,这意味着对于所有的 s , t ≥ 0 s, t \geq 0 s,t0,有 P ( X > s + t ∣ X > s ) = P ( X > t ) P(X > s + t | X > s) = P(X > t) P(X>s+tX>s)=P(X>t)
  • 均值(Mean) 1 / λ 1/\lambda 1/λ
  • 方差(Variance) 1 / λ 2 1/\lambda^2 1/λ2
  • 标准差(Standard Deviation) 1 / λ 1/\lambda 1/λ

指数分布与泊松过程有着紧密的联系,实际上,如果事件以恒定平均率随机且独立地发生,则事件发生的时间间隔将遵循指数分布。对于泊松过程中的事件,如果其在单位时间内的平均事件数为 λ \lambda λ,那么时间间隔的分布就是参数为 λ \lambda λ 的指数分布。
指数分布在现实世界的应用包括:

  • 通信领域中消息的到来时间。
  • 高速公路上车辆之间的间隔时间。
  • 机械设备或电子系统的寿命分析。
  • 服务行业中顾客的到达时间分布。

伽马分布(Gamma Distribution)

伽马分布(Gamma Distribution)是一种连续概率分布,它涵盖了几种分布类型,包括指数分布和卡方分布。伽马分布是用来描述多个独立事件发生所需时间的总和,其中每个事件的发生时间都是指数分布的。这种分布常用于保险学、水文学、信号处理、生物学等领域,以及其他需要对等待时间进行建模的领域。
伽马分布有两个参数:

  • 形状参数 α \alpha α(有时也用 k k k 表示),必须是正数。
  • 尺度参数 β \beta β(有时也用 θ \theta θ 1 / λ 1/\lambda 1/λ 表示),也必须是正数。

伽马分布的概率密度函数(PDF)定义为:
f ( x ∣ α , β ) = x α − 1 e − x β β α Γ ( α ) for  x > 0 , α > 0 , β > 0 f(x|\alpha,\beta) = \frac{x^{\alpha-1}e^{-\frac{x}{\beta}}}{\beta^\alpha\Gamma(\alpha)} \quad \text{for } x > 0, \alpha > 0, \beta > 0 f(xα,β)=βαΓ(α)xα1eβxfor x>0,α>0,β>0
其中 Γ ( α ) \Gamma(\alpha) Γ(α) 是伽马函数,定义为:
Γ ( α ) = ∫ 0 ∞ t α − 1 e − t d t \Gamma(\alpha) = \int_{0}^{\infty} t^{\alpha-1}e^{-t} dt Γ(α)=0tα1etdt
伽马函数在整数参数上等价于阶乘,即如果 α \alpha α是一个正整数,那么 Γ ( α ) = ( α − 1 ) ! \Gamma(\alpha) = (\alpha-1)! Γ(α)=(α1)!
伽马分布的累积分布函数(CDF)没有简单的封闭形式,但可以通过下列不完全伽马函数计算:
F ( x ∣ α , β ) = γ ( α , x / β ) Γ ( α ) F(x|\alpha,\beta) = \frac{\gamma(\alpha, x/\beta)}{\Gamma(\alpha)} F(xα,β)=Γ(α)γ(α,x/β)
其中 γ ( α , x ) \gamma(\alpha, x) γ(α,x) 是下不完全伽马函数。
伽马分布的性质:

  • 均值(Mean) α β \alpha\beta αβ
  • 方差(Variance) α β 2 \alpha\beta^2 αβ2
  • α = 1 \alpha = 1 α=1 时,伽马分布简化为指数分布。
  • α \alpha α 是半整数时(即 α = n / 2 \alpha = n/2 α=n/2),伽马分布与卡方分布相关,此时,如果 β = 2 \beta = 2 β=2,伽马分布实际上是自由度为 2 α 2\alpha 2α 的卡方分布。

伽马分布广泛应用于需要建模操作时间或等待时间的场景,例如:

  • 保险公司用它来模拟索赔的大小。
  • 生物学家用它来模拟生物事件发生的时间间隔。
  • 工程师用它来预测系统或组件的寿命。
  • 水文学家用它来估计比某个值更大的降雨量。

伽马分布是一个灵活的分布族,可以通过调整形状和尺度参数来适应不同类型的数据。

贝塔分布(Beta Distribution)

贝塔分布(Beta Distribution)是定义在区间 ( [0, 1] ) 上的一种连续概率分布,它由两个正实数参数 α \alpha α β \beta β 控制,通常用来作为随机变量的先验分布,特别适用于表示有界区间的概率值、比率或者比例。
贝塔分布的概率密度函数(PDF)定义如下:
f ( x ∣ α , β ) = x α − 1 ( 1 − x ) β − 1 B ( α , β ) for  0 ≤ x ≤ 1 f(x|\alpha, \beta) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)} \quad \text{for } 0 \le x \le 1 f(xα,β)=B(α,β)xα1(1x)β1for 0x1
其中:

  • α > 0 \alpha > 0 α>0 β > 0 \beta > 0 β>0是形状参数。
  • B ( α , β ) B(\alpha, \beta) B(α,β) 是贝塔函数,它是一种特殊函数,定义为:

B ( α , β ) = ∫ 0 1 t α − 1 ( 1 − t ) β − 1 d t = Γ ( α ) Γ ( β ) Γ ( α + β ) B(\alpha, \beta) = \int_{0}^{1} t^{\alpha-1}(1-t)^{\beta-1} dt = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)} B(α,β)=01tα1(1t)β1dt=Γ(α+β)Γ(α)Γ(β)
这里的 Γ ( α ) \Gamma(\alpha) Γ(α) 表示伽马函数,它可以看作是阶乘在实数域的推广。
贝塔分布的属性包括:

  • 均值(Mean)
    α α + β \frac{\alpha}{\alpha + \beta} α+βα
  • 方差(Variance)
    α β ( α + β ) 2 ( α + β + 1 ) \frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)} (α+β)2(α+β+1)αβ
  • 模态(Mode)(当 α > 1 \alpha > 1 α>1 β > 1 \beta > 1 β>1 时):
    α − 1 α + β − 2 \frac{\alpha - 1}{\alpha + \beta - 2} α+β2α1
  • α = β = 1 \alpha = \beta = 1 α=β=1 时,贝塔分布简化为均匀分布。

由于贝塔分布定义在 [ 0 , 1 ] [0, 1] [0,1] 区间上,它可以用来模拟任何事物的不确定性,从而非常适合作为概率的先验分布。例如:

  • 贝叶斯统计:在贝叶斯统计分析中,贝塔分布经常用作二项分布中成功概率的先验分布。
  • 机器学习:在机器学习领域,特别是在强化学习中对代理的不确定性建模时,贝塔分布也十分常见。
  • 项目管理:在项目管理中,贝塔分布可以用来描述一个项目完成的可能进度。
  • 质量控制:在质量控制领域,它可以用来建模产品合格率的不确定性。

总之,贝塔分布提供了一种灵活的方法来表示一个区间上的随机变量,它的形状可以根据参数的不同,呈现出非常丰富的多样性。

卡方分布(Chi-squared Distribution)

卡方分布(Chi-squared Distribution)是一种特殊的伽马分布,广泛用于统计学中用于假设检验和置信区间估计。它是一个连续概率分布,通常用来评估一个统计模型的好坏,尤其是在方差分析和卡方检验中。
卡方分布仅有一个参数:

  • 自由度 ν \nu ν(nu),它通常是一个正整数,表示独立随机变量的数量。

卡方分布的概率密度函数(PDF)定义为:
f ( x ∣ ν ) = 1 2 ν / 2 Γ ( ν / 2 ) x ν 2 − 1 e − x 2 for  x > 0 f(x|\nu) = \frac{1}{2{\nu/2}\Gamma(\nu/2)}x{\frac{\nu}{2}-1}e^{-\frac{x}{2}} \quad \text{for } x > 0 f(xν)=2ν/2Γ(ν/2)1x2ν1e2xfor x>0
其中:

  • x x x 是随机变量,表示卡方统计量的值。
  • Γ ( ν / 2 ) \Gamma(\nu/2) Γ(ν/2) 是伽马函数,在自由度为整数时, Γ ( ν / 2 ) \Gamma(\nu/2) Γ(ν/2) 等于 ( ν / 2 − 1 ) ! (\nu/2 - 1)! (ν/21)!

卡方分布的几个重要性质包括:

  • 均值(Mean):等于其自由度 ν \nu ν
  • 方差(Variance):等于其自由度的两倍,即 2 ν 2\nu 2ν
  • 当自由度 ν \nu ν增加时,卡方分布的形状会逐渐接近正态分布。

卡方分布经常用在以下统计学场景中:

  • 卡方检验:在卡方检验中,主要是用来测试观察频数和期望频数之间的差异是否显著。比如,检验分类数据两个变量之间是否独立,或者一个变量的分布是否符合某种理论分布。
  • 方差分析:在方差分析(ANOVA)中,卡方分布可以用来确定组间的差异是否显著。
  • 置信区间估计:在构建方差的置信区间时,如果数据来自正态分布,那么样本方差乘以样本大小除以卡方分布的特定分位数可以给出方差的置信区间。
  • 似然比检验:在复杂的统计模型中,比如广义线性模型,似然比检验的检验统计量在一定条件下近似服从卡方分布。

在实际应用中,卡方分布常与其他统计量联合使用,例如在线性回归中的F检验,实际上是将两个卡方分布的比率进行比较,以判断模型中的解释变量是否对响应变量有显著的解释能力。

t分布(t-Distribution)

t分布(又称学生t分布)是一种概率分布,由威廉·戈塞特在1908年发表,因其匿名笔名“Student”而得名。这种分布在样本量较小(例如小于30)或总体标准差未知时,用于估计正态分布总体的均值非常有用。t分布是对正态分布的一种调整,用于考虑小样本量带来的不确定性。
t分布具有以下特性:

  • 对称,类似于标准正态分布,但其尾部更“厚”或更“重”,这意味着它比正态分布有更多的概率分布在远离均值的区域。
  • 当样本量趋于无穷大时,t分布逐渐趋于正态分布。

t分布的概率密度函数(PDF)定义如下:
f ( t ∣ ν ) = Γ ( ( ν + 1 ) / 2 ) ν π Γ ( ν / 2 ) ( 1 + t 2 ν ) − ( ν + 1 ) / 2 f(t|\nu) = \frac{\Gamma((\nu+1)/2)}{\sqrt{\nu\pi}\Gamma(\nu/2)} \left(1+\frac{t^2}{\nu}\right){-(\nu+1)/2} f(tν)=νπ Γ(ν/2)Γ((ν+1)/2)(1+νt2)(ν+1)/2
其中:

  • t t t 是t分布的随机变量。
  • ν \nu ν(nu)是自由度,与样本量有关。
  • Γ \Gamma Γ 是伽马函数,它在数学中用来广泛定义阶乘函数的推广。

t分布的性质:

  • 均值(Mean):对于自由度大于1的情况,t分布的均值为0。
  • 方差(Variance) ν ν − 2 \frac{\nu}{\nu-2} ν2ν 对于自由度大于2的情况。注意,随着自由度的增加,方差逐渐接近1,即接近正态分布的方差。
  • 尾部(Tails):t分布的尾部比正态分布更厚,这表明t值在尾部的概率比正态分布的z值高。

在统计分析中,t分布的应用包括:

  • 单样本t检验:当我们想要估计总体均值并且样本量较小或者总体标准差未知时。
  • 独立双样本t检验:用于比较两个独立样本的均值差异。
  • 配对样本t检验:当我们有配对的样本时(比如相同的受测对象在两种不同条件下的测量结果)。
  • 置信区间:在小样本数据分析中,用于估计总体均值的置信区间。

t分布是统计学中处理小样本数据分析的关键工具,特别是在总体标准差未知的情况下。随着样本量的增加,t分布越来越接近正态分布。在实际应用中,当样本量大于30时,t分布和正态分布之间的差异变得非常小,因此可以使用正态分布进行近似。

F分布(F-Distribution)

F分布(也称为斯涅德科尔(Snedecor)的F分布或方差比率分布)是一种连续概率分布,它经常用于方差分析(ANOVA),尤其是在处理两个独立估计的方差的比率时。F分布由两个不同自由度的卡方分布的比率得到。
F分布的概率密度函数(PDF)定义如下:
f ( x ∣ d 1 , d 2 ) = ( d 1 x ) d 1 d 2 d 2 ( d 1 x + d 2 ) d 1 + d 2 x B ( d 1 2 , d 2 2 ) f(x|d_1, d_2) = \frac{\sqrt{\frac{(d_1 x)^{d_1} d_2^{d_2}}{(d_1 x + d_2)^{d_1 + d_2}}}}{x B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)} f(xd1,d2)=xB(2d1,2d2)(d1x+d2)d1+d2(d1x)d1d2d2
这里:

  • x x x 是随机变量,表示两个方差比的值。
  • d 1 d_1 d1 d 2 d_2 d2 是两个独立方差估计的自由度。
  • B B B是贝塔函数。

F分布的一些性质包括:

  • 非对称,分布的形状取决于两个自由度参数 d 1 d_1 d1 d 2 d_2 d2
  • x x x的值总是正的,因为它表示方差的比率,而方差不能为负。
  • d 1 d_1 d1 d 2 d_2 d2 参数较大时(通常认为大于30),F分布接近正态分布。

在实际应用中,F分布主要用于以下几种统计检验和分析方法:

  • 方差分析(ANOVA):检验两个或多个总体均值是否相等。
  • 回归分析:评估线性回归模型中解释变量对响应变量影响的显著性。
  • F检验:比较两组数据的方差,来测试它们是否来自具有相同方差的总体。

由于F分布处理的是方差的比率,它在假设两个总体具有正态分布且方差相等的前提下尤其有用。当通过F检验确定两个总体的方差不等时,对应的假设被拒绝,这在设计实验和分析实验数据时非常重要。此外,在执行多重比较时,控制整体错误率也经常用到F分布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/709971.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无法调试MFC源码

VS无法调试MFC源码 起初 有时候就是这么无奈&#xff0c;MFC源码各种问题没有办法调试&#xff0c;可是又想看下代码如何调用&#xff0c;里面做了些什么&#xff0c;从哪儿调出&#xff0c;学习一下大神的思路什么的。整理一下有可能的原因。 检查生成代码设置 需要设置正…

[Java 基础] Java修饰符

Java修饰符详解 Java修饰符用于定义类、方法或者变量&#xff0c;修改其行为的关键字。Java语言主要提供了两类修饰符&#xff1a; 访问权限修饰符: default, public , protected, private非访问权限修饰符: final, abstract, static, synchronized&#xff0c; volatile等 …

04 Opencv图像操作

文章目录 读写像素修改像素值Vec3b与Vec3F灰度图像增强获取图像通道bitwise_not 算子对图像非操作 读写像素 读一个GRAY像素点的像素值&#xff08;CV_8UC1&#xff09; Scalar intensity img.at(y, x); 或者 Scalar intensity img.at(Point(x, y)); 读一个RGB像素点的像素值…

js【详解】数据类型原理(含变量赋值详解-浅拷贝)

JavaScript 中的数据按存储方式的不同&#xff0c;分为值类型和引用类型。 值类型&#xff08;共 6 种&#xff09;&#xff1a;赋值的时候传值 —— 数字、字符串、布尔值、null 、undefined&#xff0c;Symbol引用类型&#xff08;仅 1 种&#xff09;&#xff1a;赋值的时候…

虚拟机看不到共享文件夹

johnjohn-virtual-machine:/mnt/hgfs$ cat /etc/issue Ubuntu 20.04.6 LTS \n \l 看下是否挂载 johnjohn-virtual-machine:/mnt/hgfs$ vmware-hgfsclient FPGAs_AdaptiveSoCs_Unified_2023.2_1013_2256 xilinx 取消挂载 johnjohn-virtual-machine:/mnt/hgfs$ sudo umount /mn…

kvm虚拟机修改网络模式

kvm修改网络模式可以直接使用virsh命令进行修改 一、查看主机 virsh list --all 二、查看需要修改主机的网络模式 virsh domiflist mysql 三、vim进行修改 cd /etc/libvirt/qemu/ vim mysql.xml 四、找到要修改的网卡部分 五、重新定义虚拟机 virsh define mysql_install.xml…

java工具类之解析地址

输出 代码实现 import java.util.regex.Matcher; import java.util.regex.Pattern;public class AddressResolutionUtil {/*** 解析地址* author ys* param address* return*/public static String addressResolution(String address){String regex"(?<province>…

Java的编程之旅32——继承与多态的联合使用

模拟USB设备接入电脑 1.首先建立一个名为“USB”的抽象类 public abstract class USB {public abstract void On();public abstract void Off(); }这是一个抽象类USB&#xff0c;表示一个USB设备。 该类有两个抽象方法On()和Off()&#xff0c;分别表示打开和关闭USB设备。 由…

javaee教程郑阿奇,一线互联网架构师筑基必备技能之Java篇

一、什么情况下会发生栈内存溢出&#xff1f; 1、栈是线程私有的&#xff0c;栈的生命周期和线程一样&#xff0c;每个方法在执行的时候就会创建一个栈帧&#xff0c;它包含局部变量表、操作数栈、动态链接、方法出口等信息&#xff0c;局部变量表又包括基本数据类型和对象的引…

【GameFramework框架内置模块】6、实体(Entity)

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址 大家好&#xff0c;我是佛系工程师☆恬静的小魔龙☆&#xff0c;不定时更新Unity开发技巧&#xff0c;觉得有用记得一键三连哦。 一、前言 【GameFramework框架】系列教程目录&#xff1a; https://blog.csdn.net/q7…

K 个一组翻转链表 力扣

【玩转校招算法面试】第三天&#xff1a;链表中的节点每k个一组翻转&#xff08;动画演示、手写 Java 代码、详细注释、LeetCode 高频算法题&#xff09;_哔哩哔哩_bilibili 初始状态&#xff1a;1 -> 2 -> 3&#xff0c;pre null, cur 1保存当前节点的下一个节点&…

并查集基础,死去的回忆突然攻击我

并查集普及【模板】并查集 - 洛谷 #include<iostream> #include<cstring> #include<queue> #include<vector> #include<algorithm> using namespace std; #define int long long typedef pair<int,int> PII; #define xx first #define y…

TypeScript 中类的理解及应用场景

&#x1f469; 个人主页&#xff1a;不爱吃糖的程序媛 &#x1f64b;‍♂️ 作者简介&#xff1a;前端领域新星创作者、CSDN内容合伙人&#xff0c;专注于前端各领域技术&#xff0c;成长的路上共同学习共同进步&#xff0c;一起加油呀&#xff01; ✨系列专栏&#xff1a;前端…

瑞_23种设计模式_组合模式

文章目录 1 组合模式&#xff08;Composite Pattern&#xff09;1.1 介绍1.2 概述1.3 组合模式的结构1.4 组合模式的分类1.5 组合模式的优点1.6 组合模式的使用场景 2 案例一2.1 需求2.2 代码实现 3 案例二3.1 需求3.2 代码实现 &#x1f64a; 前言&#xff1a;本文章为瑞_系列…

C++11:atomic原子操作

文章目录 atomic概念atomic实例分析 atomic概念 std::atomic 是 C 中的一个类模板&#xff0c;用于提供原子操作的类型。它是为了在多线程环境下进行并发操作时保证数据的原子性而设计的。 原子操作是指不会被中断的操作&#xff0c;它们要么完全执行成功&#xff0c;要么完全…

TP6上传图片到OSS(记录贴)

1&#xff0c;先安装&#xff0c;我使用composer安装 在项目的根目录运行composer require aliyuncs/oss-sdk-php 2,安装成功以后vendor目录下可以看到如图&#xff1a; 3&#xff0c;上传图片代码如下&#xff1a; <?php namespace app\controller;use app\BaseControll…

React 模态框的设计(八)优化补充

在之前的弹窗的设计中&#xff0c;有两处地方现在做一点小小的优化&#xff0c;就是把_Draggable.jsx中的 onPointerEnter 事件 用 useLayoutEffect来规换&#xff0c;效果更佳&#xff0c;同样的&#xff0c;在_ModelContainer.jsx中也是一样。如下所示&#xff1a; _Draggabl…

1、docker入门

文章目录 1、tocker简介2、tocker的安装&环境配置2、配置阿里云镜像3、基本命令1、镜像命令2、docker基本命令3、镜像基本命令4、Docker 容器常用命令 1、tocker简介 新一代的虚拟化技术 2、tocker的安装&环境配置 uname -r1、首先查看liunx的内核 yum update -y2、更…

生成voc格式数据集

数据集存放格式&#xff1a;&#xff08;Annotations文件夹放标注的xml文件&#xff0c;JPEGImages文件夹放标注的图片&#xff09; 运行代码&#xff1a; import os import random import xml.etree.ElementTree as ETimport numpy as npdef get_classes(classes_path):with …

USACO 2024 Feb Bronze铜组题解

闲话:今天是4年一度的奇观——2月29日!(地球人都知道) 所以为了纪念这个特殊的日子&#xff0c;我决定倒着讲。这是什么奇怪的规矩&#xff1f;(雾 Maximizing Productivity: 二分即可。 #include <bits/stdc.h> using namespace std; const int maxn200005; int c[ma…