文章目录
- 相关教程
- 相关文献
- 常用共轭先验分布
- 预备知识
- 贝叶斯统计
- 后验分布的计算
- 正态均值(方差已知)的共轭先验分布是正态分布
- 二项分布中的成功概率 θ 的共轭先验分布是贝塔分布
- 正态均值(方差已知)的共轭先验分布是倒伽玛分布
作者:小猪快跑
基础数学&计算数学,从事优化领域7年+,主要研究方向:MIP求解器、整数规划、随机规划、智能优化算法
如有错误,欢迎指正。如有更好的算法,也欢迎交流!!!——@小猪快跑
相关教程
- 常用分布的数学期望、方差、特征函数
- 【推导过程】常用离散分布的数学期望、方差、特征函数
- 【推导过程】常用连续分布的数学期望、方差、特征函数
- Z分位数速查表
- 【概率统计通俗版】极大似然估计
- 【超详图文】多少样本量用 t分布 OR 正态分布
- 【推导过程】常用共轭先验分布
- 【机器学习】【通俗版】EM算法(待更新)
相关文献
- [1] 茆诗松.贝叶斯统计[M].中国统计出版社,1999.
常用共轭先验分布
总体分布 | 参数 | 共轭先验分布 |
---|---|---|
二项分布 | 成功概率 | 贝塔分布 B e ( α , β ) \mathrm{Be}(\alpha,\beta) Be(α,β) |
泊松分布 | 均值 | 伽玛分布 G a ( α , λ ) \mathrm{Ga}(\alpha,\lambda) Ga(α,λ) |
指数分布 | 均值的倒数 | 伽玛分布 G a ( α , λ ) \mathrm{Ga}(\alpha,\lambda) Ga(α,λ) |
正态分布(方差已知) | 均值 | 正态分布 N ( μ , τ 2 ) N(\mu,\tau^2) N(μ,τ2) |
正态分布(均值已知) | 方差 | 倒伽玛分布 I G a ( α , λ ) IGa(\alpha,\lambda) IGa(α,λ) |
预备知识
贝叶斯统计
-
设总体指标 X X X 有依赖于参数 θ \theta θ 的密度函数,在经典统计中常记为 p ( x ; θ ) p(x;\theta) p(x;θ) 或 p θ ( x ) p_\theta(x) pθ(x),它表示在参数空间 Θ = { θ } \Theta=\left\{\theta\right\} Θ={θ}中不同的 θ \theta θ 对应不同的分布。可在贝叶斯统计中记为 p ( x ∣ θ ) p(x|\theta) p(x∣θ),它表示在随机变量 θ \theta θ 给定某个值时,总体指标 X X X 的条件分布。
-
根据参数 θ \theta θ 的先验信息确定先验分布 π ( θ ) \pi(\theta) π(θ)。
-
从贝叶斯观点看,样本 x = ( x 1 , . . . , x n ) \boldsymbol x=(x_1,...,x_n) x=(x1,...,xn) 的产生要分二步进行。首先设想从先验分布 π ( θ ) \pi(\theta) π(θ) 产生一个样本 θ ′ \theta^{\prime} θ′,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二步是从总体分布 p ( x ∣ θ ′ ) p(x|\theta^{\prime}) p(x∣θ′) 产生一个样本 x = ( x 1 , ⋯ , x n ) \boldsymbol x=(x_1,\cdots,x_n) x=(x1,⋯,xn),这个样本是具体的,人们能看得到的,此样本 x \boldsymbol x x 发生的概率是与如下联合密度函数成正比。
p ( x ∣ θ ′ ) = ∏ i = 1 n p ( x i ∣ θ ′ ) p(\boldsymbol{x}|\theta^{\prime})=\prod_{i=1}^np(x_i|\theta^{\prime}) p(x∣θ′)=i=1∏np(xi∣θ′)
这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为 L ( θ ′ ) L(\theta^{\prime}) L(θ′)。频率学派和贝叶斯学派都承认似然函数,二派认为:在有了样本观察值 x = ( x 1 , ⋯ , x n ) \boldsymbol x=(x_1,\cdots,x_n) x=(x1,⋯,xn) 后,总体和样本中所含 θ \theta θ 的信息都被包含在似然函数 L ( θ ′ ) L(\theta^{\prime}) L(θ′) 之中,可在使用似然函数作统计推断时,两派之间还是有差异的。
-
由于 θ ′ \theta^\prime θ′ 是设想出来的,它仍然是未知的,它是按先验分布 π ( θ ) \pi(\theta) π(θ) 而产生的,要把先验信息进行综合,不能只考虑 θ ′ \theta^{\prime} θ′,而应对 θ \theta θ 的一切可能加以考虑。故要用 π ( θ ) \pi(\theta) π(θ) 参与进一步综合。这样一来,样本 x \boldsymbol x x 和参数 θ \theta θ 的联合分布
h ( x , θ ) = p ( x ∣ θ ) π ( θ ) h(\boldsymbol x,\theta)=p(\boldsymbol x|\theta)\pi(\theta) h(x,θ)=p(x∣θ)π(θ)
把三种可用的信息都综合进去了。
-
我们的任务是要对未知数 θ \theta θ 统计推断。在没有样本信息时,人们只能据先验分布对 θ \theta θ 作出推断。在有样本观察值 x = ( x 1 , ⋅ ⋅ ⋅ , x n ) \boldsymbol x=(x_1,\cdotp\cdotp\cdotp,x_n) x=(x1,⋅⋅⋅,xn)之后,我们应该依据 h ( x , θ ) h(x,\theta) h(x,θ) 对 θ \theta θ 作出推断。为此我们需把 h ( x , θ ) h(\boldsymbol x,\theta) h(x,θ) 作如下分解:
h ( x , θ ) = π ( θ ∣ x ) m ( x ) h(\boldsymbol x,\theta)=\pi(\theta|\boldsymbol x)m(\boldsymbol x) h(x,θ)=π(θ∣x)m(x)
其中 m ( x ) m(\boldsymbol x) m(x) 是 x \boldsymbol x x 的边缘密度函数。
m ( x ) = ∫ Θ h ( x , θ ) d θ = ∫ Θ p ( x ∣ θ ) π ( θ ) d θ m(\boldsymbol x)=\int_{\Theta}h\left(\boldsymbol x,\theta\right)d\theta=\int_{\Theta}p\left(\boldsymbol x\mid\theta\right)\pi(\theta)d\theta m(x)=∫Θh(x,θ)dθ=∫Θp(x∣θ)π(θ)dθ
它与 θ \theta θ 无关,或者说, m ( x ) m(\boldsymbol x) m(x) 中不含 θ \theta θ 的任何信息。因此能用来对 θ \theta θ 作出推断的仅是条件分布 π ( θ ∣ x ) \pi(\theta|\boldsymbol x) π(θ∣x)。它的计算公式是
π ( θ ∣ x ) = h ( x , θ ) m ( x ) = p ( x ∣ θ ) π ( θ ) ∫ Θ p ( x ∣ θ ) π ( θ ) d θ \pi(\theta\mid \boldsymbol x)=\frac{h(\boldsymbol x,\theta)}{m(\boldsymbol x)}=\frac{p(\boldsymbol x\mid\theta)\pi(\theta)}{\int_{\Theta}p(\boldsymbol x\mid\theta)\pi(\theta)d\theta} π(θ∣x)=m(x)h(x,θ)=∫Θp(x∣θ)π(θ)dθp(x∣θ)π(θ)这就是贝叶斯公式的密度函数形式。这个在样本 x \boldsymbol x x 给定下, θ \theta θ 的条件分布被称为 θ \theta θ 的后验分布。它是集中了总体、样本和先验等三种信息中有关 θ \theta θ 的一切信息,而又是排除一切与 θ \theta θ 无关的信息之后所得到的结果。故基于后验分布 π ( θ ∣ x ) \pi(\theta|\boldsymbol x) π(θ∣x) 对 θ \theta θ 进行统计推断是更为有效,也是最合理的。
-
在 θ \theta θ 是离散随机变量时,先验分布可用先验分布列 π ( θ i ) , i = 1 , 2 , ⋅ ⋅ ⋅ \pi(\theta_i),i=1,2,\cdotp\cdotp\cdotp π(θi),i=1,2,⋅⋅⋅,表示。这时后验分布也是离散形式。
π ( θ i ∣ x ) = p ( x ∣ θ i ) π ( θ ) ∑ j p ( x ∣ θ j ) π ( θ j ) , i = 1 , 2 , ⋯ . \pi(\theta_i\mid \boldsymbol x)=\frac{p(\boldsymbol x\mid\theta_i)\pi(\theta)}{\sum_jp(\boldsymbol x\mid\theta_j)\pi(\theta_j)},\quad i=1,2,\cdots. π(θi∣x)=∑jp(x∣θj)π(θj)p(x∣θi)π(θ),i=1,2,⋯.
假如总体 X X X 也是离散的,那只要把密度函数 p ( x ∣ θ ) p(\boldsymbol x|\theta) p(x∣θ) 改为概率函数 P ( x = x ∣ θ ) P(x=\boldsymbol x\mid\theta) P(x=x∣θ) 即可。
后验分布的计算
在给定样本分布 p ( x ∣ θ ) p(\boldsymbol x|\theta) p(x∣θ) 和先验分布 π ( θ ) \pi(\theta) π(θ) 后可用贝叶斯公式计算 θ \theta θ 的后验分布
π ( θ ∣ x ) = p ( x ∣ θ ) π ( θ ) m ( x ) \pi(\theta|\boldsymbol x)=\frac{p(\boldsymbol x|\theta)\pi(\theta)}{m(\boldsymbol x)} π(θ∣x)=m(x)p(x∣θ)π(θ)
由于 m ( x ) m(\boldsymbol x) m(x) 不依赖于 θ \theta θ,在计算 θ \theta θ 的后验分布中仅起到一个正则化因子的作用。假如把 m ( x ) m(\boldsymbol x) m(x) 省略,把贝叶斯公式改写为如下等价形式
π ( θ ∣ x ) ∝ p ( x ∣ θ ) π ( θ ) \pi(\theta|\boldsymbol x)\propto p(\boldsymbol x|\theta)\pi(\theta) π(θ∣x)∝p(x∣θ)π(θ)
其中符号 ∝ \propto ∝ 表示两边仅差一个常数因子,一个不依赖于 θ \theta θ 的常数因子。上式右端虽不是正常的密度函数,但它是后验分布 π ( θ ∣ x ) \pi(\theta|\boldsymbol x) π(θ∣x) 的核,在需要时可以利用适当方式计算出后验密度,特别当看出 π ( θ ∣ x ) π ( θ ) \pi(\theta|\boldsymbol x)\pi(\theta) π(θ∣x)π(θ) 的核就是某常用分布的核时,不用计算 m ( x ) m(\boldsymbol x) m(x) 就可很快恢复所缺常数因子。这样一来就可简化后验分布的计算,这在共轭先验分布与非共轭先验分布场合都可使用。
正态均值(方差已知)的共轭先验分布是正态分布
设 x 1 , ⋅ ⋅ ⋅ , x n x_1,\cdotp\cdotp\cdotp,x_n x1,⋅⋅⋅,xn 是来自正态分布 N ( θ , σ 2 ) N(\theta,\sigma^{2}) N(θ,σ2) 的一组样本观察值。其中 σ 2 \sigma^2 σ2 已知。此样本的似然函数为:
P ( x ∣ θ ) = ( 1 2 π σ ) n exp { − 1 2 σ 2 ∑ i = 1 n ( x i − θ ) 2 } , − ∞ < x 1 , ⋯ , x n < + ∞ P(\boldsymbol x\mid\theta)=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^{n}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\},\\-\infty<x_{1},\cdots,x_{n}<+\infty P(x∣θ)=(2πσ1)nexp{−2σ21i=1∑n(xi−θ)2},−∞<x1,⋯,xn<+∞
现取另一个正态分布 N ( μ , τ 2 ) N(\mu,\tau^2) N(μ,τ2) 作为正态均值 θ \theta θ 的先验分布,即
π ( θ ) = 1 2 π τ exp { − ( θ − μ ) 2 2 τ 2 } , − ∞ < θ < + ∞ \pi(\theta)=\frac{1}{\sqrt{2\pi}\tau}\exp\left\{-\frac{(\theta-\mu)^2}{2\tau^2}\right\},-\infty<\theta<+\infty π(θ)=2πτ1exp{−2τ2(θ−μ)2},−∞<θ<+∞
其中 μ \mu μ 与 τ 2 \tau^{2} τ2 为已知,由此可以写出样本 x \boldsymbol x x 与参数 θ \theta θ 的联合密度函数
h ( x , θ ) = k 1 exp { − 1 2 [ n θ 2 − 2 n θ x ‾ + ∑ i = 1 n x i 2 σ 2 + θ 2 − 2 μ θ + μ 2 τ 2 ] } h(\boldsymbol x,\theta)=k_1\exp\left\{-\frac{1}{2}\left[\frac{n\theta^2-2n\theta\overline{x}+\sum_{i=1}^nx_i^2}{\sigma^2}+\frac{\theta^2-2\mu\theta+\mu^2}{\tau^2}\right]\right\} h(x,θ)=k1exp{−21[σ2nθ2−2nθx+∑i=1nxi2+τ2θ2−2μθ+μ2]}
其中 k 1 = ( 2 π ) − ( n + 1 ) / 2 τ − 1 σ − n , x ‾ = ∑ i = 1 n x i n k_1=(2\pi)^{-(n+1)/2}\tau^{-1}\sigma^{-n},\overline{x}=\sum_{i=1}^{n}\frac{x_{i}}{n} k1=(2π)−(n+1)/2τ−1σ−n,x=∑i=1nnxi。若再记
σ 0 2 = σ 2 n , A = 1 σ 0 2 + 1 τ 2 , B = x ‾ σ 0 2 + μ τ 2 , C = 1 σ 2 ∑ i = 1 n x i 2 + μ 2 τ 2 \sigma_{0}^{2}=\frac{\sigma^{2}}{n},A=\frac{1}{\sigma_{0}^{2}}+\frac{1}{\tau^{2}},B=\frac{\overline{x}}{\sigma_{0}^{2}}+\frac{\mu}{\tau^{2}},C=\frac{1}{\sigma^{2}}\sum_{i=1}^{n}x_{i}^{2}+\frac{\mu^{2}}{\tau^{2}} σ02=nσ2,A=σ021+τ21,B=σ02x+τ2μ,C=σ21i=1∑nxi2+τ2μ2
则有
h ( x , θ ) = k 1 exp { − 1 2 [ A θ 2 − 2 θ B + C ] } = k 2 exp { − ( θ − B / A ) 2 2 / A } \begin{aligned} h(\boldsymbol x,\theta)= & k_{1}\exp\left\{-\frac{1}{2}[A\theta^{2}-2\theta B+C]\right\} \\ = & k_{2}\exp\left\{-\frac{(\theta-B/A)^{2}}{2/A}\right\} \end{aligned} h(x,θ)==k1exp{−21[Aθ2−2θB+C]}k2exp{−2/A(θ−B/A)2}
其中 k 2 = k 1 exp { − 1 2 ( C − B 2 / A ) } k_{2}=k_{1}\exp\left\{-\frac{1}{2}(C-B^{2}/A)\right\} k2=k1exp{−21(C−B2/A)}。由此容易算得样本 x x x 的边缘分布
m ( x ) = ∫ − ∞ ∞ h ( x , θ ) d θ = k 2 ( 2 π A ) 1 2 m(x)=\int_{-\infty}^{\infty}h(\boldsymbol x,\theta)d\theta=k_2\left(\frac{2\pi}A\right)^{\frac12} m(x)=∫−∞∞h(x,θ)dθ=k2(A2π)21
上面两式相除,即得 θ \theta θ 的后验分布
π ( θ ∣ x ) = ( 2 π A ) − 1 2 exp { − ( θ − B / A ) 2 2 / A } \pi(\theta|\boldsymbol x)=\left(\frac{2\pi}{A}\right)^{-\frac12}\exp\left\{-\frac{(\theta-B/A)^2}{2/A}\right\} π(θ∣x)=(A2π)−21exp{−2/A(θ−B/A)2}
这是正态分布 N ( μ 1 , τ 1 2 ) N(\mu_1,\tau_1^2) N(μ1,τ12) ,其均值 μ 1 \mu_1 μ1 与方差 τ 1 2 \tau_1^2 τ12 分别为
μ 1 = B A = x ‾ σ 0 − 2 + μ τ − 2 σ 0 − 2 + τ − 2 , 1 τ 1 2 = 1 σ 0 2 + 1 τ 2 \mu_1=\frac BA=\frac{\overline{x}\sigma_0^{-2}+\mu\tau^{-2}}{\sigma_0^{-2}+\tau^{-2}},\quad\frac1{\tau_1^2}=\frac1{\sigma_0^2} + \frac1{\tau^2} μ1=AB=σ0−2+τ−2xσ0−2+μτ−2,τ121=σ021+τ21
也就是
μ 1 = σ 0 − 2 σ 0 − 2 + τ − 2 x ‾ + τ − 2 σ 0 − 2 + τ − 2 μ = γ x ‾ + ( 1 − γ ) μ \begin{aligned} \mu_{1}= & \frac{\sigma_{0}^{-2}}{\sigma_{0}^{-2}+\tau^{-2}}\overline{x}+\frac{\tau^{-2}}{\sigma_{0}^{-2}+\tau^{-2}}\mu \\ = & \gamma\overline{x}+(1-\gamma)\mu \end{aligned} μ1==σ0−2+τ−2σ0−2x+σ0−2+τ−2τ−2μγx+(1−γ)μ
其中 γ = σ 0 − 2 / ( σ 0 − 2 + τ − 2 ) \gamma=\sigma_0^{-2}/(\sigma_0^{-2}+\tau^{-2}) γ=σ0−2/(σ0−2+τ−2) 是用方差倒数组成的权,于是后验均值 μ 1 \mu_1 μ1 是样本均值 x ˉ \bar{x} xˉ 与先验均值 μ \mu μ 的加权平均。若样本均值 x ˉ \bar{x} xˉ 的方差 σ 2 / n = σ 0 2 \sigma^2/n=\sigma_0^2 σ2/n=σ02 偏小,则其在后验均值的份额就大,若 σ 0 2 \sigma_0^2 σ02 较大则其在后验均值的份额较小,从而先验均值在后验均值的份额就大,这表明后验均值是在先验均值与样本均值间采取折衷方案。
在处理正态分布时,方差的倒数发挥着重要作用,并称其为精度,于是在正态均值的共轭先验分布的讨论中,其后验方差 τ 1 2 \tau_1^2 τ12 所满足的等式
1 τ 1 2 = 1 σ 0 2 + 1 τ 2 = n σ 2 + 1 τ 2 \frac{1}{\tau_1^2}=\frac{1}{\sigma_0^2}+\frac{1}{\tau^2}=\frac{n}{\sigma^2}+\frac{1}{\tau^2} τ121=σ021+τ21=σ2n+τ21
可解释为:后验分布的精度是样本均值分布的精度与先验分布精度之和,增加样本量 n n n 或减少先验分布方差都有利于提高后验分布的精度。
这就说明了正态均值(方差已知)的共轭先验分布是正态分布。譬如,设 X ∼ N ( θ X{\sim}N(\theta X∼N(θ, 2 2 ) , θ ∼ N ( 10 , 3 2 ) 2^2),\theta{\sim}N(10,3^2) 22),θ∼N(10,32)。若从正态总体 X X X 抽得容量为 5 的样本,算得 x ‾ = 12.1 \overline{x}=12.1 x=12.1,于是可算得 μ 1 = 11.93 \mu_{1}=11.93 μ1=11.93 和 τ 1 2 = ( 6 7 ) 2 \tau_{1}^{2}=\left(\frac{6}{7}\right)^{2} τ12=(76)2。这时正态均值 θ \theta θ 的后验分布为正态分布 N ( 11.93 , ( 6 7 ) 2 ) N(11.93,\left(\frac67\right)^2) N(11.93,(76)2)。
二项分布中的成功概率 θ 的共轭先验分布是贝塔分布
设总体 X X X ∼ b ( n , θ ) \sim b(n,\theta) ∼b(n,θ),其密度函数中与 θ \theta θ 有关部分(核)为 θ x ( 1 − θ ) n − x \theta^x(1-\theta)^{n-x} θx(1−θ)n−x。又设 θ \theta θ 的先验分布为贝塔分布 Be ( α , β ) (\alpha,\beta) (α,β),其核为 θ α − 1 ( 1 − θ ) β − 1 \theta^{\alpha-1}(1-\theta)^{\beta-1} θα−1(1−θ)β−1,其中 α , β \alpha,\beta α,β 已知,从而可写出 θ \theta θ 的后验分布
π ( θ ∣ x ) ∝ θ α + x − 1 ( 1 − θ ) β + n − x − 1 , 0 < θ < 1 \pi(\theta|x)\propto\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1},0<\theta<1 π(θ∣x)∝θα+x−1(1−θ)β+n−x−1,0<θ<1
立即可以看出,这是贝塔分布 B e ( α + x , β + n − x ) \mathrm{Be} (\alpha+x,\beta+n-x) Be(α+x,β+n−x) 的核,故此后验密度为
π ( θ ∣ x ) = Γ ( α + β + n ) Γ ( α + x ) Γ ( β + n − x ) θ α + x − 1 ( 1 − θ ) β + n − x − 1 , 0 < θ < 1 \pi(\theta|x)=\frac{\Gamma(\alpha+\beta+n)}{\Gamma(\alpha+x)\Gamma(\beta+n-x)}\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1},0<\theta<1 π(θ∣x)=Γ(α+x)Γ(β+n−x)Γ(α+β+n)θα+x−1(1−θ)β+n−x−1,0<θ<1
也就是
E ( θ ∣ x ) = α + x α + β + n = n α + β + n x n + α + β α + β + n α α + β = γ ⋅ x n + ( 1 − γ ) ⋅ α α + β \begin{aligned} E(\theta|x)= & \frac{\alpha+x}{\alpha+\beta+n} \\ = & \frac{n}{\alpha+\beta+n}\frac{x}{n}+\frac{\alpha+\beta}{\alpha+\beta+n}\frac{\alpha}{\alpha+\beta} \\ = & \gamma\cdot\frac{x}{n}+(1-\gamma)\cdot\frac{\alpha}{\alpha+\beta} \end{aligned} E(θ∣x)===α+β+nα+xα+β+nnnx+α+β+nα+βα+βαγ⋅nx+(1−γ)⋅α+βα
Var ( θ ∣ x ) = ( α + x ) ( β + n − x ) ( α + β + n ) 2 ( α + β + n + 1 ) = E ( θ ∣ x ) [ 1 − E ( θ ∣ x ) ] α + β + n + 1 \begin{aligned} \operatorname{Var}(\theta|x)= & \frac{\left(\alpha+x\right)\left(\beta+n-x\right)}{\left(\alpha+\beta+n\right)^{2}\left(\alpha+\beta+n+1\right)} \\ \mathrm{=} & \frac{E(\theta|x)\left[1-E(\theta|x)\right]}{\alpha+\beta+n+1} \end{aligned} Var(θ∣x)==(α+β+n)2(α+β+n+1)(α+x)(β+n−x)α+β+n+1E(θ∣x)[1−E(θ∣x)]
其中 γ = n / ( α + β + n ) , x / n \gamma=n/(\alpha+\beta+n),x/n γ=n/(α+β+n),x/n 是样本均值, α / ( α + β ) \alpha/(\alpha+\beta) α/(α+β) 是先验均值,从上述加权平均可见,后验均值是介于样本均值与先验均值之间,它偏向哪一侧由 γ \gamma γ 的大小决定。另外,当 n n n与 x x x都较大,且 x / n x/n x/n 接近某个常数 θ 0 \theta_0 θ0 时,我们有
E ( θ ∣ x ) ≈ x n V a r ( θ ∣ x ) ≈ 1 n x n ( 1 − x n ) \begin{aligned} E(\theta|x) & \approx\frac{x}{n} \\ \mathrm{Var}(\theta|x) & \approx\frac{1}{n}\frac{x}{n}\left(1-\frac{x}{n}\right) \end{aligned} E(θ∣x)Var(θ∣x)≈nx≈n1nx(1−nx)
这表明:当样本量增大时,后验均值主要决定于样本均值,而后验方差愈来愈小。这时后验密度曲线的变化随着 n n n 与 z z z 在成比例地增加时,后验分布愈来愈向比率 x / n x/n x/n 集中,这时先验信息对后验分布的影响将愈来愈小。
正态均值(方差已知)的共轭先验分布是倒伽玛分布
设 x 1 , ⋅ ⋅ ⋅ , x n x_1,\cdotp\cdotp\cdotp,x_n x1,⋅⋅⋅,xn 是来自正态分布 N ( θ , σ 2 ) N(\theta,\sigma^2) N(θ,σ2) 的一个样本观测值,其中 θ \theta θ 已知,现要寻求方差 σ 2 \sigma^2 σ2 的共轭先验分布,由于该样本的似然函数为
p ( x ∣ σ 2 ) = { 1 2 π σ ) n exp { − 1 2 σ 2 ∑ i = 1 n ( x i − θ ) 2 } ∝ ( 1 σ 2 ) n / 2 exp { − 1 2 σ 2 ∑ i = 1 n ( x i − θ ) 2 } p(x\mid\sigma^{2})=\left\{\frac{1}{\sqrt{2\pi}\sigma}\right)^{n}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\} \\ \propto\left(\frac{1}{\sigma^{2}}\right)^{n/2}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\} p(x∣σ2)={2πσ1)nexp{−2σ21i=1∑n(xi−θ)2}∝(σ21)n/2exp{−2σ21i=1∑n(xi−θ)2}
上述似然函数中 σ 2 \sigma^2 σ2 的因式将决定 σ 2 \sigma^2 σ2 的共轭先验分布的形式,什么分布具有上述的核呢?
设 X X X 服从伽玛分布 G a ( α , λ ) Ga(\alpha,\lambda) Ga(α,λ),其中 α > 0 \alpha>0 α>0 为形状参数, λ > 0 \lambda>0 λ>0 为尺度参数,其密度函数为
p ( x ∣ α , λ ) = λ α Γ ( α ) x a − 1 e − λ x , x > 0 p(x\mid\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{a-1}e^{-\lambda x},x>0 p(x∣α,λ)=Γ(α)λαxa−1e−λx,x>0
通过概率运算可以求得 Y = X − 1 Y=X^{-1} Y=X−1 的密度函数
p ( y ∣ α , λ ) = λ a Γ ( α ) ( 1 y ) α + 1 e − λ y , y > 0 p(y|\alpha,\lambda)=\frac{\lambda^a}{\Gamma(\alpha)}\left(\frac1y\right)^{\alpha+1}e^{\frac{-\lambda}y},y>0 p(y∣α,λ)=Γ(α)λa(y1)α+1ey−λ,y>0
这个分布称为倒伽玛分布,记为 I G a ( α , λ ) IGa(\alpha,\lambda) IGa(α,λ),其均值为 E ( y ) = λ / ( α − 1 ) E(y)=λ/(α-1) E(y)=λ/(α−1)。假如取此倒伽玛分布为 σ 2 \sigma^2 σ2 的先验分布,其中参数 α \alpha α 与 λ \lambda λ已知,则其密度函数为
π ( σ 2 ) = λ α Γ ( α ) ( 1 σ 2 ) α + 1 e − λ / σ 2 , σ 2 > 0 \pi(\sigma^2)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\:\left(\frac{1}{\sigma^2}\right)^{\alpha+1}e^{-\lambda/\sigma^2}\:,\sigma^2>0 π(σ2)=Γ(α)λα(σ21)α+1e−λ/σ2,σ2>0
于是 σ 2 \sigma^2 σ2 的后验分布为
π ( σ 2 ∣ x ) ∝ p ( x ∣ σ 2 ) π ( σ 2 ) ∞ ( 1 σ 2 ) a + n 2 + 1 exp { − 1 σ 2 [ λ + 1 2 ∑ i = 1 n ( x i − θ ) 2 ] } \pi(\sigma^2\mid x)\propto p(x\mid\sigma^2)\pi(\sigma^2) \\ \infty\left(\frac{1}{\sigma^{2}}\right)^{a+\frac{n}{2}+1}\exp\left\{-\frac{1}{\sigma^{2}}\left[\lambda+\frac{1}{2}\sum_{i=1}^{n}(x_{i}-\theta)^{2}\right]\right\} π(σ2∣x)∝p(x∣σ2)π(σ2)∞(σ21)a+2n+1exp{−σ21[λ+21i=1∑n(xi−θ)2]}
容易看出,这仍是倒伽玛分布 I G a ( α + n 2 , λ + 1 2 ∑ i = 1 n ( x i − θ ) 2 ) IGa\left(\alpha+\frac n2,\lambda+\frac12\sum_{i=1}^n(x_i-\theta)^2\right) IGa(α+2n,λ+21∑i=1n(xi−θ)2),这表明,倒伽玛分布 I G a ( α , λ ) IGa(\alpha,\lambda) IGa(α,λ) 是正态方差 σ 2 \sigma^2 σ2 的共轭先验分布。
有趣的是:这个 σ 2 \sigma^2 σ2后验分布的均值可改等为如下加权平均
E ( σ 2 ∣ x ) = λ + 1 2 ∑ i = 1 n ( x i − θ ) 2 α + n 2 − 1 = γ ⋅ λ α − 1 + ( 1 − γ ) ⋅ 1 2 ∑ i = 1 n ( x i − θ ) 2 \begin{aligned} E(\sigma^2\mid x) &=\frac{\lambda+\frac12\sum_{i=1}^n(x_i-\theta)^2}{\alpha+\frac n2-1} \\ &=\gamma\cdot\frac{\lambda}{\alpha-1}+(1-\gamma)\cdot\frac{1}{2}\sum_{i=1}^n(x_i-\theta)^2 \end{aligned} E(σ2∣x)=α+2n−1λ+21∑i=1n(xi−θ)2=γ⋅α−1λ+(1−γ)⋅21i=1∑n(xi−θ)2
其中权 γ = α − 1 α + n 2 − 1 , λ α − 1 \gamma=\frac{\alpha-1}{\alpha+\frac n2-1},\frac\lambda{\alpha-1} γ=α+2n−1α−1,α−1λ 是 σ 2 \sigma^2 σ2 的共轭先验分布 I G α ( α , λ ) IG\alpha(\alpha,\lambda) IGα(α,λ) 的先验均值 , 1 n ∑ i = 1 n ( x i − θ ) 2 ,\frac1n\sum_{i=1}^{n}(x_{i}-\theta)^{2} ,n1∑i=1n(xi−θ)2 是在 θ \theta θ 已知条件下的样本方差(样本对 θ \theta θ 的偏差平方的平均),由此可知,在取 σ 2 \sigma^2 σ2的共轭先验分布场合,其后验均值是 σ 2 \sigma^2 σ2 的先验均值与样本方差的加权平均。当样本量 n n n足够大时, γ \gamma γ 接近于0,从而后验均值 E ( σ 2 / x ) E(\sigma^2/x) E(σ2/x) 主要由样本方差决定。而当 n n n 不大时,后验均值 E ( σ 2 / x ) E(\sigma^2/x) E(σ2/x) 是介于 σ 2 \sigma^2 σ2的先验均值与样本方差之间的某一个数。