常见概率分布介绍

介绍

概率分布是统计学中用于描述随机变量的概率特征的函数。以下是几种常用的概率分布：

均匀分布（Uniform Distribution）:

离散均匀分布: 每个结果发生的概率相等。
连续均匀分布: 任意两个相同长度的区间内取值的概率相同。

二项分布（Binomial Distribution）:
描述了在固定次数的独立实验中，成功发生次数的概率分布，其中每次实验的成功概率是固定的。
泊松分布（Poisson Distribution）:
用于描述在一定时间或空间内，发生某个事件的次数的概率分布，适用于事件发生的平均率是已知的情况。
正态分布（Normal Distribution）或高斯分布:
描述了自然界中许多随机变量的分布情况，呈钟形曲线，由两个参数确定：均值 $μ$ 和方差 $σ^2$ 。
指数分布（Exponential Distribution）:
描述了在泊松过程中，两个连续事件发生之间的时间间隔的概率分布。
伽马分布（Gamma Distribution）:
可以看作是若干个独立的指数分布变量之和，用于描述等待多个事件发生所需时间的概率分布。
贝塔分布（Beta Distribution）:
是定义在 $[0, 1]$ 区间上的连续概率分布，常用于估计概率的概率分布。
卡方分布（Chi-squared Distribution）:
当独立的标准正态分布变量的平方和时，其分布就是卡方分布。常用于假设检验。
t分布（t-Distribution）:
当样本量较小，总体标准差未知时，用于估计总体均值的分布。
F分布（F-Distribution）:
用于比较两个样本方差是否相等，以及多个样本均值是否相等的分析方差（ANOVA）等假设检验。

这些分布在各种统计分析和机器学习算法中都有着非常重要的作用。了解和使用这些分布，可以帮助我们在处理数据和进行推断时做出更准确的决策。

均匀分布（Uniform Distribution）

均匀分布（Uniform Distribution）是一个非常简单且重要的概率分布，它可以是离散的也可以是连续的。
离散均匀分布：
离散均匀分布是指在有限个数的结果中，每个结果出现的概率相等。如果一个随机变量 $X$ 服从参数为n的离散均匀分布，记作 $\sim U\{1, 2, ..., n\}$ ，那么它取每个值的概率为 $1/ n$ 。
例如，掷一个公正的六面骰子，每个面朝上的概率都是 $1/6$ ，这就是一个离散均匀分布的例子。
连续均匀分布：
连续均匀分布是指在实数的某一区间内任意两点被取到的概率相等。其概率密度函数（probability density function，PDF）在区间 $[a, b]$ 内为常数，区间外为0。
数学上，连续均匀分布的概率密度函数可以表示为：
$\begin{cases} \frac{1}{b-a} & \text{for } a \le x \le b \\ 0 & \text{otherwise} \end{cases}$
其中， $a$ 是分布的下界， $b$ 是上界，且 $b > a$ 。在区间 $[a, b]$ 内任意一点 x 的出现概率都相同。
相对应的，连续均匀分布的累积分布函数（cumulative distribution function，CDF）表达为：
$\begin{cases} 0 & \text{for } x < a \\ \frac{x-a}{b-a} & \text{for } a \le x \le b \\ 1 & \text{for } x > b \end{cases}$
这个函数在区间外是平的，在区间 $[a, b]$ 内是线性增长的。
连续均匀分布的期望值（mean）和方差（variance）分别为：
$\text{Mean} = \frac{a + b}{2}$
$\text{Variance} = \frac{(b - a)^2}{12}$
这意味着分布的中心是区间的中点，且数据的离散程度随区间长度的增加而增加。
连续均匀分布常用于模拟等概率的随机事件，比如随机选择某个时间点或者在某段长度上随机取点。在实际应用中，当缺乏关于某个随机变量的信息时，也常常假设它服从均匀分布。

二项分布（Binomial Distribution）

二项分布（Binomial Distribution）是一种离散概率分布，它描述了在一系列相同的独立试验中，每次试验成功的概率相同，而成功次数的概率分布。这里的“成功”可以是任何感兴趣的结果，比如抛硬币时正面朝上，或者测试产品时发现是次品。
以下是二项分布的一些关键特征：

试验次数 $n$ ：进行的独立试验总次数，这是一个固定的正整数。
成功概率 $p$ ：在每次试验中“成功”的概率，这是一个在0和1之间的固定值。
失败概率 $q 或 1 - p$ ：在每次试验中“失败”的概率，等于1减去成功概率。

二项分布的概率质量函数（Probability Mass Function，PMF）表示在n次独立试验中恰好有k次成功的概率：
$\binom{n}{k} p^k (1-p)^{n-k}$
其中， $\binom{n}{k}$ 是组合数，表示从n个不同元素中不重复地选取k个元素的方法数，计算公式为：
$\binom{n}{k} = \frac{n!}{k!(n-k)!}$
这里的 $n!$ 表示n的阶乘，即 $\times (n-1) \times (n-2) \times ... \times 1$ 。
二项分布的性质：

均值（期望值）： $E (X) = n p$
方差： $Va r (X) = n p (1 - p)$
标准差： $\sigma = \sqrt{np(1-p)}$
偏度：当p不是0.5时，分布是偏斜的；若p > 0.5，分布偏向左侧；若p < 0.5，分布偏向右侧。

二项分布的例子很常见，例如：

抛掷10次硬币，计算正面朝上恰好6次的概率。
在质量检测中，从30个产品中随机抽取样本，计算其中恰好有5个不合格产品的概率。

还有一点值得注意：当试验次数n为1时，二项分布简化为伯努利分布（Bernoulli Distribution）。
二项分布是统计学和概率论中非常关键的一个分布，因为它提供了只有两种结果的试验或事件（如是/非，成功/失败）的一个明确的概率框架。在实践中，二项分布广泛应用于质量控制、医学试验、投票行为分析等领域。

泊松分布（Poisson Distribution）

泊松分布（Poisson Distribution）是一种离散概率分布，它用于描述在固定时间间隔或空间范围内发生某随机事件的次数的概率。这个分布非常适合于那些事件独立发生，且平均发生率（即强度或者频率）是已知的情况。
泊松分布的典型特点和应用场合包括：

在任意两次事件之间的时间间隔是独立的。
事件在每个小的时间间隔内发生的概率是相同的。
事件在很小的时间间隔内同时发生的概率是可以忽略的。
平均发生率 $λ ， l amb d a$ 在考虑的时间段内保持不变。

泊松分布的概率质量函数（Probability Mass Function, PMF）给出了在给定的时间段内，事件发生k次的概率：
$\frac{\lambda^k e^{-\lambda}}{k!}$
其中：

$k$ 是可能发生的次数（0, 1, 2, …）。
$\lambda$ 是单位时间（或单位空间）内事件的平均发生次数。
$e$ 是自然对数的底，大约等于2.71828。
$k!$ 是k的阶乘。

泊松分布的性质：

均值（期望值）： $\lambda$
方差： $\lambda$
标准差： $\sigma = \sqrt{\lambda}$
泊松分布是偏斜的，当λ增大时，分布变得更对称，当λ较大时，泊杽分布接近正态分布。

泊松分布的应用：
泊松分布在许多领域都有应用，特别是那些事件随机且独立发生的情况。一些例子包括：

在一定时间内到达呼叫中心的电话数。
一定时间内网站的访问量。
在一定时间内放射性物质衰变的粒子数。
一定面积内发现的打字错误数。

泊松分布是研究稀有事件的强大工具，在数据分析、预测模型、保险数学、排队理论等领域都非常重要。

正态分布（Normal Distribution）

正态分布（Normal Distribution），也被称为高斯分布（Gaussian Distribution），是最重要的概率分布之一。在自然界和人类行为的很多现象可以用正态分布来模拟，特别是当某个变量受到许多小效应的影响时，这些效应相互独立且分布均匀（根据中心极限定理）。
正态分布的概率密度函数（Probability Density Function，PDF）是一个关于变量x的函数，其数学形式为：
$\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x-\mu)2}{2\sigma2} }$
其中：

$\mu$ 是分布的均值（mean），决定了分布的中心位置。
$\sigma$ 是分布的标准差（standard deviation），表示分布的宽度，决定了分布的扁平或尖峰程度。
$\sigma^2$ 是方差（variance），标准差的平方。

正态分布的图形是一个对称的钟形曲线，其中：

曲线的峰值位于平均值 $\mu$ 。
曲线在 $\mu \pm \sigma$ 处的点比峰值点低约37%。
曲线在 $\mu \pm 2\sigma$ 处的点接近于水平轴。
大约68.27%的数据值位于 $\mu \pm \sigma$ 范围内。
大约95.45%的数据值位于 $\mu \pm 2\sigma$ 范围内。
大约99.73%的数据值位于 $\mu \pm 3\sigma$ 范围内。

正态分布的性质：

它是对称的，关于均值对称。
均值、中位数和众数在同一点。
曲线的两端永远不会触及或交叉水平轴，即使是在无限远处。
可以通过变换成标准正态分布来简化计算，标准正态分布是一个均值为0、方差（和标准差）为1的正态分布。

正态分布广泛应用于自然科学和社会科学领域，例如：

在心理测验中，智力分数通常呈正态分布。
测量误差通常假定为正态分布。
生物特征如人的身高和血压通常近似于正态分布。

任何实际数据集合如果足够大，且不受极端值的影响，通常都会呈现出接近正态分布的模式。

指数分布（Exponential Distribution)

指数分布（Exponential Distribution）是一种连续概率分布，它经常用来表示独立随机事件发生的时间间隔。比如，某个服务设施中顾客的到达时间间隔、机器部件的寿命直至故障、或者放射性粒子的衰变时间等。指数分布是一种无记忆分布，意味着未来的概率分布不受过去结果的影响。
指数分布的概率密度函数（Probability Density Function，PDF）定义为：
$f(x|\lambda) = \begin{cases} \lambda e^{-\lambda x} & \text{if } x \geq 0 \\ 0 & \text{if } x < 0 \end{cases}$
其中：

$x$ 是随机变量，表示事件发生的时间间隔。
$\lambda$ 是事件发生率，又称为率参数（rate parameter），它是单位时间内平均发生该事件的次数。 $\lambda > 0$ 。

指数分布的累积分布函数（Cumulative Distribution Function，CDF），即概率为：
$F(x|\lambda) = 1 - e^{-\lambda x}$
它表示在时间x之前或者恰在时间x发生第一个事件的概率。
指数分布的几个重要性质包括：

无记忆性（Memoryless）：指数分布的一个关键特性是无记忆性，即未来的概率分布不依赖于已经经过的时间。形式上，这意味着对于所有的 $\geq 0$ ，有 $P (X > s + t ∣ X > s) = P (X > t)$ 。
均值（Mean）： $1/\lambda$ 。
方差（Variance）： $1/\lambda^2$ 。
标准差（Standard Deviation）： $1/\lambda$ 。

指数分布与泊松过程有着紧密的联系，实际上，如果事件以恒定平均率随机且独立地发生，则事件发生的时间间隔将遵循指数分布。对于泊松过程中的事件，如果其在单位时间内的平均事件数为 $\lambda$ ，那么时间间隔的分布就是参数为 $\lambda$ 的指数分布。
指数分布在现实世界的应用包括：

通信领域中消息的到来时间。
高速公路上车辆之间的间隔时间。
机械设备或电子系统的寿命分析。
服务行业中顾客的到达时间分布。

伽马分布（Gamma Distribution）

伽马分布（Gamma Distribution）是一种连续概率分布，它涵盖了几种分布类型，包括指数分布和卡方分布。伽马分布是用来描述多个独立事件发生所需时间的总和，其中每个事件的发生时间都是指数分布的。这种分布常用于保险学、水文学、信号处理、生物学等领域，以及其他需要对等待时间进行建模的领域。
伽马分布有两个参数：

形状参数 $\alpha$ （有时也用 $k$ 表示），必须是正数。
尺度参数 $\beta$ （有时也用 $\theta$ 或 $1/\lambda$ 表示），也必须是正数。

伽马分布的概率密度函数（PDF）定义为：
$f(x|\alpha,\beta) = \frac{x^{\alpha-1}e^{-\frac{x}{\beta}}}{\beta^\alpha\Gamma(\alpha)} \quad \text{for } x > 0, \alpha > 0, \beta > 0$
其中 $\Gamma(\alpha)$ 是伽马函数，定义为：
$\Gamma(\alpha) = \int_{0}^{\infty} t^{\alpha-1}e^{-t} dt$
伽马函数在整数参数上等价于阶乘，即如果 $\alpha$ 是一个正整数，那么 $\Gamma(\alpha) = (\alpha-1)!$ 。
伽马分布的累积分布函数（CDF）没有简单的封闭形式，但可以通过下列不完全伽马函数计算：
$F(x|\alpha,\beta) = \frac{\gamma(\alpha, x/\beta)}{\Gamma(\alpha)}$
其中 $\gamma(\alpha, x)$ 是下不完全伽马函数。
伽马分布的性质：

均值（Mean）： $\alpha\beta$ 。
方差（Variance）： $\alpha\beta^2$ 。
当 $\alpha = 1$ 时，伽马分布简化为指数分布。
当 $\alpha$ 是半整数时（即 $\alpha = n/2$ ），伽马分布与卡方分布相关，此时，如果 $\beta = 2$ ，伽马分布实际上是自由度为 $2\alpha$ 的卡方分布。

伽马分布广泛应用于需要建模操作时间或等待时间的场景，例如：

保险公司用它来模拟索赔的大小。
生物学家用它来模拟生物事件发生的时间间隔。
工程师用它来预测系统或组件的寿命。
水文学家用它来估计比某个值更大的降雨量。

伽马分布是一个灵活的分布族，可以通过调整形状和尺度参数来适应不同类型的数据。

贝塔分布（Beta Distribution）

贝塔分布（Beta Distribution）是定义在区间 ( [0, 1] ) 上的一种连续概率分布，它由两个正实数参数 $\alpha$ 和 $\beta$ 控制，通常用来作为随机变量的先验分布，特别适用于表示有界区间的概率值、比率或者比例。
贝塔分布的概率密度函数（PDF）定义如下：
$f(x|\alpha, \beta) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)} \quad \text{for } 0 \le x \le 1$
其中：

$\alpha > 0$ 和 $\beta > 0$ 是形状参数。
$B(\alpha, \beta)$ 是贝塔函数，它是一种特殊函数，定义为：

$B(\alpha, \beta) = \int_{0}^{1} t^{\alpha-1}(1-t)^{\beta-1} dt = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$
这里的 $\Gamma(\alpha)$ 表示伽马函数，它可以看作是阶乘在实数域的推广。
贝塔分布的属性包括：

均值（Mean）：
$\frac{\alpha}{\alpha + \beta}$
方差（Variance）：
$\frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}$
模态（Mode）（当 $\alpha > 1$ 和 $\beta > 1$ 时）：
$\frac{\alpha - 1}{\alpha + \beta - 2}$
当 $\alpha = \beta = 1$ 时，贝塔分布简化为均匀分布。

由于贝塔分布定义在 $[0, 1]$ 区间上，它可以用来模拟任何事物的不确定性，从而非常适合作为概率的先验分布。例如：

贝叶斯统计：在贝叶斯统计分析中，贝塔分布经常用作二项分布中成功概率的先验分布。
机器学习：在机器学习领域，特别是在强化学习中对代理的不确定性建模时，贝塔分布也十分常见。
项目管理：在项目管理中，贝塔分布可以用来描述一个项目完成的可能进度。
质量控制：在质量控制领域，它可以用来建模产品合格率的不确定性。

总之，贝塔分布提供了一种灵活的方法来表示一个区间上的随机变量，它的形状可以根据参数的不同，呈现出非常丰富的多样性。

卡方分布（Chi-squared Distribution）

卡方分布（Chi-squared Distribution）是一种特殊的伽马分布，广泛用于统计学中用于假设检验和置信区间估计。它是一个连续概率分布，通常用来评估一个统计模型的好坏，尤其是在方差分析和卡方检验中。
卡方分布仅有一个参数：

自由度 $\nu$ （nu），它通常是一个正整数，表示独立随机变量的数量。

卡方分布的概率密度函数（PDF）定义为：
$f(x|\nu) = \frac{1}{2{\nu/2}\Gamma(\nu/2)}x{\frac{\nu}{2}-1}e^{-\frac{x}{2}} \quad \text{for } x > 0$
其中：

$x$ 是随机变量，表示卡方统计量的值。
$\Gamma(\nu/2)$ 是伽马函数，在自由度为整数时， $\Gamma(\nu/2)$ 等于 $(\nu/2 - 1)!$ 。

卡方分布的几个重要性质包括：

均值（Mean）：等于其自由度 $\nu$ 。
方差（Variance）：等于其自由度的两倍，即 $2\nu$ 。
当自由度 $\nu$ 增加时，卡方分布的形状会逐渐接近正态分布。

卡方分布经常用在以下统计学场景中：

卡方检验：在卡方检验中，主要是用来测试观察频数和期望频数之间的差异是否显著。比如，检验分类数据两个变量之间是否独立，或者一个变量的分布是否符合某种理论分布。
方差分析：在方差分析（ANOVA）中，卡方分布可以用来确定组间的差异是否显著。
置信区间估计：在构建方差的置信区间时，如果数据来自正态分布，那么样本方差乘以样本大小除以卡方分布的特定分位数可以给出方差的置信区间。
似然比检验：在复杂的统计模型中，比如广义线性模型，似然比检验的检验统计量在一定条件下近似服从卡方分布。

在实际应用中，卡方分布常与其他统计量联合使用，例如在线性回归中的F检验，实际上是将两个卡方分布的比率进行比较，以判断模型中的解释变量是否对响应变量有显著的解释能力。

t分布（t-Distribution）

t分布（又称学生t分布）是一种概率分布，由威廉·戈塞特在1908年发表，因其匿名笔名“Student”而得名。这种分布在样本量较小（例如小于30）或总体标准差未知时，用于估计正态分布总体的均值非常有用。t分布是对正态分布的一种调整，用于考虑小样本量带来的不确定性。
t分布具有以下特性：

对称，类似于标准正态分布，但其尾部更“厚”或更“重”，这意味着它比正态分布有更多的概率分布在远离均值的区域。
当样本量趋于无穷大时，t分布逐渐趋于正态分布。

t分布的概率密度函数（PDF）定义如下：
$f(t|\nu) = \frac{\Gamma((\nu+1)/2)}{\sqrt{\nu\pi}\Gamma(\nu/2)} \left(1+\frac{t^2}{\nu}\right){-(\nu+1)/2}$
其中：

$t$ 是t分布的随机变量。
$\nu$ （nu）是自由度，与样本量有关。
$\Gamma$ 是伽马函数，它在数学中用来广泛定义阶乘函数的推广。

t分布的性质：

均值（Mean）：对于自由度大于1的情况，t分布的均值为0。
方差（Variance）： $\frac{\nu}{\nu-2}$ 对于自由度大于2的情况。注意，随着自由度的增加，方差逐渐接近1，即接近正态分布的方差。
尾部（Tails）：t分布的尾部比正态分布更厚，这表明t值在尾部的概率比正态分布的z值高。

在统计分析中，t分布的应用包括：

单样本t检验：当我们想要估计总体均值并且样本量较小或者总体标准差未知时。
独立双样本t检验：用于比较两个独立样本的均值差异。
配对样本t检验：当我们有配对的样本时（比如相同的受测对象在两种不同条件下的测量结果）。
置信区间：在小样本数据分析中，用于估计总体均值的置信区间。

t分布是统计学中处理小样本数据分析的关键工具，特别是在总体标准差未知的情况下。随着样本量的增加，t分布越来越接近正态分布。在实际应用中，当样本量大于30时，t分布和正态分布之间的差异变得非常小，因此可以使用正态分布进行近似。

F分布（F-Distribution）

F分布（也称为斯涅德科尔（Snedecor）的F分布或方差比率分布）是一种连续概率分布，它经常用于方差分析（ANOVA），尤其是在处理两个独立估计的方差的比率时。F分布由两个不同自由度的卡方分布的比率得到。
F分布的概率密度函数（PDF）定义如下：
$f(x|d_1, d_2) = \frac{\sqrt{\frac{(d_1 x)^{d_1} d_2^{d_2}}{(d_1 x + d_2)^{d_1 + d_2}}}}{x B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)}$
这里：