上一部分介绍了伯努利分布、二项式分布、多项式分布以及范畴分布,这里将继续介绍高斯分布、指数分布、Laplace分布、Dirac分布、经验分布及混合分布。
高斯分布
高斯分布又称为正态分布,其图形为钟形曲线(bell-shaped curve),特点是中间高、两头低。利用数学期望μ\muμ表示钟形曲线的中心位置,标准差σ\sigmaσ表示曲线的离散程度。
随机变量xxx服从数学期望μ\muμ、标准差σ2\sigma^2σ2的正态分布,记为x∼N(μ,σ2)x \thicksim N(\mu, \sigma^2)x∼N(μ,σ2),其概率密度函数为:
f(x)=12πσe−(x−μ)22σ2f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}f(x)=2πσ1e−2σ2(x−μ)2.
该密度函数具有如下性质:
- 当x>0x > 0x>0时,f(x)>0f(x) > 0f(x)>0;
- 令y=x−μσy = \frac{x - \mu}{\sigma}y=σx−μ, 则∫−∞∞f(x)dx=∫−∞∞12πσe−(x−μ)22σ2dx=∫−∞∞12πe−y22dy=1\int_{-\infty}^{\infty} f(x)dx = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}dx = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{y^2}{2}} dy= 1∫−∞∞f(x)dx=∫−∞∞2πσ1e−2σ2(x−μ)2dx=∫−∞∞2π1e−2y2dy=1.
指数分布
连续随机变量xxx服从参数为λ\lambdaλ的指数分布(λ>0\lambda > 0λ>0,常数),记为x∼E(λ)x \thicksim E(\lambda)x∼E(λ),其概率密度函数为:
f(x)={λe−λx,x>00,x≤0(1)f(x) = \left\{\begin{array}{ll}\lambda e^{-\lambda x}, &x > 0\\0, &x \le 0 \end{array}\right. \tag{1}f(x)={λe−λx,0,x>0x≤0(1)
该密度函数具有如下性质:
- 当x>0x > 0x>0时,f(x)>0f(x) > 0f(x)>0;
- ∫−∞∞f(x)dx=∫0∞f(x)dx=∫0∞λe−λxdx=−∫0∞e−λxd(−λx)=1\int_{-\infty}^{\infty} f(x)dx = \int_{0}^{\infty} f(x)dx = \int_{0}^{\infty}\lambda e^{-\lambda x}dx = -\int_{0}^{\infty} e^{-\lambda x}d(-\lambda x) = 1∫−∞∞f(x)dx=∫0∞f(x)dx=∫0∞λe−λxdx=−∫0∞e−λxd(−λx)=1.
下图为不同λ\lambdaλ对应的概率密度函数图形:
指数分布在银行窗口服务、交通管理、火车票售票系统、消费市场研究等中被广泛运用。
【例题-1】假设一个煤矿矿难服从指数分布,其概率密度函数为:
f(t)=1142e−t142,t>0f(t) = \frac{1}{142} e^{-\frac{t}{142}}, t > 0f(t)=1421e−142t,t>0
求分布函数。
【解答】
F(t)=∫0t1142e−x142dt=1−e−t142F(t) = \int_{0}^{t} \frac{1}{142} e^{-\frac{x}{142}} dt = 1- e^{-\frac{t}{142}}F(t)=∫0t1421e−142xdt=1−e−142t.
有了指数分布函数,我们很容易得出某个时间区间内矿难发生的概率有多大,比如50~100天中发生矿难的概率是:
F(100)−F(50)=(1−e−100142)−(1−e−50142)=0.399F(100) - F(50) = (1- e^{-\frac{100}{142}}) - (1- e^{-\frac{50}{142}}) = 0.399F(100)−F(50)=(1−e−142100)−(1−e−14250)=0.399 .
拉普拉斯(Laplace)分布
设随机变量xxx服从参数为λ\lambdaλ和μ\muμ的拉普拉斯分布(λ\lambdaλ和μ\muμ是常数,且λ>0\lambda > 0λ>0),其概率密度函数为:
f(x)=12λe−∣x−μ∣λf(x) = \frac{1}{2\lambda} e^{-\frac{|x - \mu|}{\lambda}}f(x)=2λ1e−λ∣x−μ∣.
该密度函数具有如下性质:
- f(x)≥0f(x) \ge 0f(x)≥0;
- 令y=x−μλy = \frac{x - \mu}{\lambda}y=λx−μ,∫−∞∞f(x)dx=∫−∞∞12λe−∣x−μ∣λdx=∫−∞∞=12∫−∞∞e−∣y∣dy=∫0∞e−ydy=1\int_{-\infty}^{\infty} f(x) dx = \int_{-\infty}^{\infty} \frac{1}{2\lambda} e^{-\frac{|x - \mu|}{\lambda}} dx = \int_{-\infty}^{\infty} = \frac{1}{2} \int_{-\infty}^{\infty} e^{-|y|} dy = \int_{0}^{\infty} e^{-y} dy = 1∫−∞∞f(x)dx=∫−∞∞2λ1e−λ∣x−μ∣dx=∫−∞∞=21∫−∞∞e−∣y∣dy=∫0∞e−ydy=1.
下图为μ=0\mu = 0μ=0,不同λ\lambdaλ对应的概率密度函数图形:
狄拉克(Dirac)分布
物理学经常需要研究一个物理量在空间或时间中分布的密度,例如质量密度、电荷密度、每单位时间传递的动量(即力)等,但是物理学中又常用到质点、点电荷、瞬时力等抽象模型,他们不是连续分布在空间或时间中,而是集中在空间中的某一点或者时间中的某一瞬时,那么它们的密度应该如何表示呢?
为了在数学上理想地表示出这种密度分布,引入了δ\deltaδ函数的概念,该函数在除了零以外的点取值都等于零,而其在整个定义域上的积分等于1。数学描述如下:
{δ(x)=0,x≠0∫−∞∞δ(x)=1(2)\left\{\begin{array}{ll}\delta(x) = 0, & x \ne 0 \\ \int_{-\infty}^{\infty} \delta(x) = 1 \end{array}\right. \tag{2}{δ(x)=0,∫−∞∞δ(x)=1x=0(2)
严格来说δ\deltaδ函数不能算是一个函数,因为满足以上条件的函数是不存在的。数学上,人们为这类函数引入了广义函数的概念,在广义函数的理论中,δ\deltaδ函数的确切意义应该是在积分意义下来理解。在实际应用中,δ\deltaδ函数总是伴随着积分一起出现 。δ\deltaδ分布在偏微分方程、数学物理方法、傅立叶分析和概率论里都有很重要的应用。
一些函数可以认为是δ\deltaδ函数的近似,但是要注意,这些函数都是通过极限构造的,因此严格上都不是δ\deltaδ函数本身,不过在一些数学计算中可以作为δ\deltaδ函数进行计算。
δ(x)=lima→0+1aπe−x2a2\delta(x) = \lim_{a \rightarrow 0^+}\frac{1}{a\sqrt{\pi}}e^{-\frac{x^2}{a^2}}δ(x)=lima→0+aπ1e−a2x2
δ(x)=lima→0+1πaa2+x2\delta(x) = \lim_{a \rightarrow 0^+}\frac{1}{\pi}\frac{a}{a^2 + x^2}δ(x)=lima→0+π1a2+x2a
δ(x)=limk→∞1πsin(kx)x\delta(x) = \lim_{k \rightarrow \infty}\frac{1}{\pi}\frac{\sin(kx)}{x}δ(x)=limk→∞π1xsin(kx)
δ(x)=limk→∞12πsin2(kx)/2k(x/2)2\delta(x) = \lim_{k \rightarrow \infty}\frac{1}{2\pi}\frac{\sin^2(kx)/2}{k(x/2)^2}δ(x)=limk→∞2π1k(x/2)2sin2(kx)/2
经验分布
问题引入:假设{x1,x2,…,xn}\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n\}{x1,x2,…,xn}是总体X\mathbf{X}X的样本,XXX的分布函数FFF未知。如何利用{x1,x2,…,xn}\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n\}{x1,x2,…,xn}的信息,来推导出F(x)F(x)F(x)的形式?
方法:用经验分布函数去描述总体的分布(推断),用直方图去描述XXX的密度函数(近似)。当我们的观测值足够多,经验分布函数不断接近总体的分布函数。
【例题-1】对于X\mathbf{X}X,抽取一组大小为10的样本,得到的观察值为:{1.9,2.5,0.1,0.5,4,5.9,4.5,7.9,7.5,9.9}\{1.9, 2.5, 0.1, 0.5, 4, 5.9, 4.5, 7.9, 7.5, 9.9\}{1.9,2.5,0.1,0.5,4,5.9,4.5,7.9,7.5,9.9}
【分析】
第一步:对样本观察值进行排序并且求得极差
排序:[0.1,0.5,1.9,2.5,4,4.5,5.9,7.5,7.9,9.9][0.1,0.5,1.9,2.5,4,4.5,5.9,7.5,7.9,9.9][0.1,0.5,1.9,2.5,4,4.5,5.9,7.5,7.9,9.9]
极差:9.9−0.1=9.89.9-0.1=9.89.9−0.1=9.8 ##最大观察值-最小观察值
第二步:确定组距和组数。
区间:[b:a]=[0:10][b: a] = [0:10][b:a]=[0:10] ##区间要包含所有的观察值,左右边界值略宽于观测值的边界
组数:这个区间分成多少个组,利用如下经验公式计算得到
m≈1.87∗(b−1)0.4=1.87∗(10−1)0.4=4.5m \approx 1.87 * (b-1)^{0.4} = 1.87 * (10 - 1)^{0.4} = 4.5m≈1.87∗(b−1)0.4=1.87∗(10−1)0.4=4.5
组距:将区间[0:10]分成m个小区间,每个小区间的距离叫做组距
b−am=10−04.5≈2.2\frac{b - a}{m} = \frac{10 - 0}{4.5} \approx 2.2mb−a=4.510−0≈2.2
为了方便,小区间被分成了:[0,2),[2,4),[4,6),[6,8),[8,10][0,2),[2,4),[4,6),[6,8),[8,10][0,2),[2,4),[4,6),[6,8),[8,10]
第三步:计算落入各个区间的样本个数(频数),并作XXX的经验分布函数
[0,2)[0,2)[0,2)—3个
[2,4)[2,4)[2,4)—1个
[4,6)[4,6)[4,6)—3个
[6,8)[6,8)[6,8)—2个
[8,10][8,10][8,10]—1个
经验分布函数为:
F(x)={0,x≤0310,0≤x<2410,2≤x<4710,4≤x<6910,6≤x<81,x≥8(3)F(x) = \left\{\begin{array}{lll}0, & x \le 0 \\ \frac{3}{10}, & 0 \le x \lt 2 \\ \frac{4}{10}, & 2 \le x \lt 4 \\ \frac{7}{10}, & 4 \le x \lt 6 \\ \frac{9}{10}, & 6 \le x \lt 8 \\ 1, & x \ge 8 \end{array}\right. \tag{3}F(x)=⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧0,103,104,107,109,1,x≤00≤x<22≤x<44≤x<66≤x<8x≥8(3)
第四步:做直方图,获得近似的密度函数
混合分布
一个非常强大且常见的混合模型是高斯混合模型(Gaussian Mixture Model)。随机变量XXX服从混合高斯分布,则其密度函数为:
p(x∣θ)=∑i=1mεipi(x∣μi,σi2),(4)p(x|\theta) = \sum_{i = 1}^m \varepsilon_i p_i(x | \mu_i, \sigma_i^2), \tag{4}p(x∣θ)=i=1∑mεipi(x∣μi,σi2),(4)
其中,θ=(ε1,…,εm;μ1,…,μm;σ12,…,σm2)\theta = (\varepsilon_1, \dots, \varepsilon_m; \mu_1, \dots, \mu_m; \sigma_1^2, \dots, \sigma_m^2)θ=(ε1,…,εm;μ1,…,μm;σ12,…,σm2), ε1+ε2+⋯+εm=1\varepsilon_1 + \varepsilon_2 + \dots + \varepsilon_m = 1ε1+ε2+⋯+εm=1, εi≥0\varepsilon_i \ge 0εi≥0, i=(1,2,…,m)i = (1, 2, \dots, m)i=(1,2,…,m)。pip_ipi, μi\mu_iμi, σi2\sigma_i^2σi2分别表示第iii个分布的密度函数、均值和方差,且pip_ipi相互独立。
在实际应用中,一个复杂的分布通常用两个或三个正态分布分量经混合便可得到较好的逼近。