【推导过程】常用共轭先验分布

文章目录

  • 相关教程
  • 相关文献
  • 常用共轭先验分布
  • 预备知识
    • 贝叶斯统计
    • 后验分布的计算
  • 正态均值(方差已知)的共轭先验分布是正态分布
  • 二项分布中的成功概率 θ 的共轭先验分布是贝塔分布
  • 正态均值(方差已知)的共轭先验分布是倒伽玛分布

作者:小猪快跑

基础数学&计算数学,从事优化领域7年+,主要研究方向:MIP求解器、整数规划、随机规划、智能优化算法

如有错误,欢迎指正。如有更好的算法,也欢迎交流!!!——@小猪快跑

相关教程

  • 常用分布的数学期望、方差、特征函数
  • 【推导过程】常用离散分布的数学期望、方差、特征函数
  • 【推导过程】常用连续分布的数学期望、方差、特征函数
  • Z分位数速查表
  • 【概率统计通俗版】极大似然估计
  • 【超详图文】多少样本量用 t分布 OR 正态分布
  • 【推导过程】常用共轭先验分布
  • 【机器学习】【通俗版】EM算法(待更新)

相关文献

  • [1] 茆诗松.贝叶斯统计[M].中国统计出版社,1999.

常用共轭先验分布

总体分布参数共轭先验分布
二项分布成功概率贝塔分布 B e ( α , β ) \mathrm{Be}(\alpha,\beta) Be(α,β)
泊松分布均值伽玛分布 G a ( α , λ ) \mathrm{Ga}(\alpha,\lambda) Ga(α,λ)
指数分布均值的倒数伽玛分布 G a ( α , λ ) \mathrm{Ga}(\alpha,\lambda) Ga(α,λ)
正态分布(方差已知)均值正态分布 N ( μ , τ 2 ) N(\mu,\tau^2) N(μ,τ2)
正态分布(均值已知)方差倒伽玛分布 I G a ( α , λ ) IGa(\alpha,\lambda) IGa(α,λ)

预备知识

贝叶斯统计

  1. 设总体指标 X X X 有依赖于参数 θ \theta θ 的密度函数,在经典统计中常记为 p ( x ; θ ) p(x;\theta) p(x;θ) p θ ( x ) p_\theta(x) pθ(x),它表示在参数空间 Θ = { θ } \Theta=\left\{\theta\right\} Θ={θ}中不同的 θ \theta θ 对应不同的分布。可在贝叶斯统计中记为 p ( x ∣ θ ) p(x|\theta) p(xθ),它表示在随机变量 θ \theta θ 给定某个值时,总体指标 X X X 的条件分布。

  2. 根据参数 θ \theta θ 的先验信息确定先验分布 π ( θ ) \pi(\theta) π(θ)

  3. 从贝叶斯观点看,样本 x = ( x 1 , . . . , x n ) \boldsymbol x=(x_1,...,x_n) x=(x1,...,xn) 的产生要分二步进行。首先设想从先验分布 π ( θ ) \pi(\theta) π(θ) 产生一个样本 θ ′ \theta^{\prime} θ,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二步是从总体分布 p ( x ∣ θ ′ ) p(x|\theta^{\prime}) p(xθ) 产生一个样本 x = ( x 1 , ⋯ , x n ) \boldsymbol x=(x_1,\cdots,x_n) x=(x1,,xn),这个样本是具体的,人们能看得到的,此样本 x \boldsymbol x x 发生的概率是与如下联合密度函数成正比。

    p ( x ∣ θ ′ ) = ∏ i = 1 n p ( x i ∣ θ ′ ) p(\boldsymbol{x}|\theta^{\prime})=\prod_{i=1}^np(x_i|\theta^{\prime}) p(xθ)=i=1np(xiθ)

    这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为 L ( θ ′ ) L(\theta^{\prime}) L(θ)。频率学派和贝叶斯学派都承认似然函数,二派认为:在有了样本观察值 x = ( x 1 , ⋯ , x n ) \boldsymbol x=(x_1,\cdots,x_n) x=(x1,,xn) 后,总体和样本中所含 θ \theta θ 的信息都被包含在似然函数 L ( θ ′ ) L(\theta^{\prime}) L(θ) 之中,可在使用似然函数作统计推断时,两派之间还是有差异的。

  4. 由于 θ ′ \theta^\prime θ 是设想出来的,它仍然是未知的,它是按先验分布 π ( θ ) \pi(\theta) π(θ) 而产生的,要把先验信息进行综合,不能只考虑 θ ′ \theta^{\prime} θ,而应对 θ \theta θ 的一切可能加以考虑。故要用 π ( θ ) \pi(\theta) π(θ) 参与进一步综合。这样一来,样本 x \boldsymbol x x 和参数 θ \theta θ 的联合分布

    h ( x , θ ) = p ( x ∣ θ ) π ( θ ) h(\boldsymbol x,\theta)=p(\boldsymbol x|\theta)\pi(\theta) h(x,θ)=p(xθ)π(θ)

    把三种可用的信息都综合进去了。

  5. 我们的任务是要对未知数 θ \theta θ 统计推断。在没有样本信息时,人们只能据先验分布对 θ \theta θ 作出推断。在有样本观察值 x = ( x 1 , ⋅ ⋅ ⋅ , x n ) \boldsymbol x=(x_1,\cdotp\cdotp\cdotp,x_n) x=(x1,⋅⋅⋅,xn)之后,我们应该依据 h ( x , θ ) h(x,\theta) h(x,θ) θ \theta θ 作出推断。为此我们需把 h ( x , θ ) h(\boldsymbol x,\theta) h(x,θ) 作如下分解:

    h ( x , θ ) = π ( θ ∣ x ) m ( x ) h(\boldsymbol x,\theta)=\pi(\theta|\boldsymbol x)m(\boldsymbol x) h(x,θ)=π(θx)m(x)

    其中 m ( x ) m(\boldsymbol x) m(x) x \boldsymbol x x 的边缘密度函数。

    m ( x ) = ∫ Θ h ( x , θ ) d θ = ∫ Θ p ( x ∣ θ ) π ( θ ) d θ m(\boldsymbol x)=\int_{\Theta}h\left(\boldsymbol x,\theta\right)d\theta=\int_{\Theta}p\left(\boldsymbol x\mid\theta\right)\pi(\theta)d\theta m(x)=Θh(x,θ)dθ=Θp(xθ)π(θ)dθ

    它与 θ \theta θ 无关,或者说, m ( x ) m(\boldsymbol x) m(x) 中不含 θ \theta θ 的任何信息。因此能用来对 θ \theta θ 作出推断的仅是条件分布 π ( θ ∣ x ) \pi(\theta|\boldsymbol x) π(θx)。它的计算公式是
    π ( θ ∣ x ) = h ( x , θ ) m ( x ) = p ( x ∣ θ ) π ( θ ) ∫ Θ p ( x ∣ θ ) π ( θ ) d θ \pi(\theta\mid \boldsymbol x)=\frac{h(\boldsymbol x,\theta)}{m(\boldsymbol x)}=\frac{p(\boldsymbol x\mid\theta)\pi(\theta)}{\int_{\Theta}p(\boldsymbol x\mid\theta)\pi(\theta)d\theta} π(θx)=m(x)h(x,θ)=Θp(xθ)π(θ)dθp(xθ)π(θ)

    这就是贝叶斯公式的密度函数形式。这个在样本 x \boldsymbol x x 给定下, θ \theta θ 的条件分布被称为 θ \theta θ 的后验分布。它是集中了总体、样本和先验等三种信息中有关 θ \theta θ 的一切信息,而又是排除一切与 θ \theta θ 无关的信息之后所得到的结果。故基于后验分布 π ( θ ∣ x ) \pi(\theta|\boldsymbol x) π(θx) θ \theta θ 进行统计推断是更为有效,也是最合理的。

  6. θ \theta θ 是离散随机变量时,先验分布可用先验分布列 π ( θ i ) , i = 1 , 2 , ⋅ ⋅ ⋅ \pi(\theta_i),i=1,2,\cdotp\cdotp\cdotp π(θi),i=1,2,⋅⋅⋅,表示。这时后验分布也是离散形式。

    π ( θ i ∣ x ) = p ( x ∣ θ i ) π ( θ ) ∑ j p ( x ∣ θ j ) π ( θ j ) , i = 1 , 2 , ⋯ . \pi(\theta_i\mid \boldsymbol x)=\frac{p(\boldsymbol x\mid\theta_i)\pi(\theta)}{\sum_jp(\boldsymbol x\mid\theta_j)\pi(\theta_j)},\quad i=1,2,\cdots. π(θix)=jp(xθj)π(θj)p(xθi)π(θ),i=1,2,.

    假如总体 X X X 也是离散的,那只要把密度函数 p ( x ∣ θ ) p(\boldsymbol x|\theta) p(xθ) 改为概率函数 P ( x = x ∣ θ ) P(x=\boldsymbol x\mid\theta) P(x=xθ) 即可。

后验分布的计算

在给定样本分布 p ( x ∣ θ ) p(\boldsymbol x|\theta) p(xθ) 和先验分布 π ( θ ) \pi(\theta) π(θ) 后可用贝叶斯公式计算 θ \theta θ 的后验分布

π ( θ ∣ x ) = p ( x ∣ θ ) π ( θ ) m ( x ) \pi(\theta|\boldsymbol x)=\frac{p(\boldsymbol x|\theta)\pi(\theta)}{m(\boldsymbol x)} π(θx)=m(x)p(xθ)π(θ)
由于 m ( x ) m(\boldsymbol x) m(x) 不依赖于 θ \theta θ,在计算 θ \theta θ 的后验分布中仅起到一个正则化因子的作用。假如把 m ( x ) m(\boldsymbol x) m(x) 省略,把贝叶斯公式改写为如下等价形式

π ( θ ∣ x ) ∝ p ( x ∣ θ ) π ( θ ) \pi(\theta|\boldsymbol x)\propto p(\boldsymbol x|\theta)\pi(\theta) π(θx)p(xθ)π(θ)
其中符号 ∝ \propto 表示两边仅差一个常数因子,一个不依赖于 θ \theta θ 的常数因子。上式右端虽不是正常的密度函数,但它是后验分布 π ( θ ∣ x ) \pi(\theta|\boldsymbol x) π(θx) 的核,在需要时可以利用适当方式计算出后验密度,特别当看出 π ( θ ∣ x ) π ( θ ) \pi(\theta|\boldsymbol x)\pi(\theta) π(θx)π(θ) 的核就是某常用分布的核时,不用计算 m ( x ) m(\boldsymbol x) m(x) 就可很快恢复所缺常数因子。这样一来就可简化后验分布的计算,这在共轭先验分布与非共轭先验分布场合都可使用。

正态均值(方差已知)的共轭先验分布是正态分布

x 1 , ⋅ ⋅ ⋅ , x n x_1,\cdotp\cdotp\cdotp,x_n x1,⋅⋅⋅,xn 是来自正态分布 N ( θ , σ 2 ) N(\theta,\sigma^{2}) N(θ,σ2) 的一组样本观察值。其中 σ 2 \sigma^2 σ2 已知。此样本的似然函数为:

P ( x ∣ θ ) = ( 1 2 π σ ) n exp ⁡ { − 1 2 σ 2 ∑ i = 1 n ( x i − θ ) 2 } , − ∞ < x 1 , ⋯ , x n < + ∞ P(\boldsymbol x\mid\theta)=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^{n}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\},\\-\infty<x_{1},\cdots,x_{n}<+\infty P(xθ)=(2π σ1)nexp{2σ21i=1n(xiθ)2},<x1,,xn<+

现取另一个正态分布 N ( μ , τ 2 ) N(\mu,\tau^2) N(μ,τ2) 作为正态均值 θ \theta θ 的先验分布,即

π ( θ ) = 1 2 π τ exp ⁡ { − ( θ − μ ) 2 2 τ 2 } , − ∞ < θ < + ∞ \pi(\theta)=\frac{1}{\sqrt{2\pi}\tau}\exp\left\{-\frac{(\theta-\mu)^2}{2\tau^2}\right\},-\infty<\theta<+\infty π(θ)=2π τ1exp{2τ2(θμ)2},<θ<+

其中 μ \mu μ τ 2 \tau^{2} τ2 为已知,由此可以写出样本 x \boldsymbol x x 与参数 θ \theta θ 的联合密度函数

h ( x , θ ) = k 1 exp ⁡ { − 1 2 [ n θ 2 − 2 n θ x ‾ + ∑ i = 1 n x i 2 σ 2 + θ 2 − 2 μ θ + μ 2 τ 2 ] } h(\boldsymbol x,\theta)=k_1\exp\left\{-\frac{1}{2}\left[\frac{n\theta^2-2n\theta\overline{x}+\sum_{i=1}^nx_i^2}{\sigma^2}+\frac{\theta^2-2\mu\theta+\mu^2}{\tau^2}\right]\right\} h(x,θ)=k1exp{21[σ2nθ22nθx+i=1nxi2+τ2θ22μθ+μ2]}
其中 k 1 = ( 2 π ) − ( n + 1 ) / 2 τ − 1 σ − n , x ‾ = ∑ i = 1 n x i n k_1=(2\pi)^{-(n+1)/2}\tau^{-1}\sigma^{-n},\overline{x}=\sum_{i=1}^{n}\frac{x_{i}}{n} k1=(2π)(n+1)/2τ1σn,x=i=1nnxi。若再记

σ 0 2 = σ 2 n , A = 1 σ 0 2 + 1 τ 2 , B = x ‾ σ 0 2 + μ τ 2 , C = 1 σ 2 ∑ i = 1 n x i 2 + μ 2 τ 2 \sigma_{0}^{2}=\frac{\sigma^{2}}{n},A=\frac{1}{\sigma_{0}^{2}}+\frac{1}{\tau^{2}},B=\frac{\overline{x}}{\sigma_{0}^{2}}+\frac{\mu}{\tau^{2}},C=\frac{1}{\sigma^{2}}\sum_{i=1}^{n}x_{i}^{2}+\frac{\mu^{2}}{\tau^{2}} σ02=nσ2,A=σ021+τ21,B=σ02x+τ2μ,C=σ21i=1nxi2+τ2μ2
则有
h ( x , θ ) = k 1 exp ⁡ { − 1 2 [ A θ 2 − 2 θ B + C ] } = k 2 exp ⁡ { − ( θ − B / A ) 2 2 / A } \begin{aligned} h(\boldsymbol x,\theta)= & k_{1}\exp\left\{-\frac{1}{2}[A\theta^{2}-2\theta B+C]\right\} \\ = & k_{2}\exp\left\{-\frac{(\theta-B/A)^{2}}{2/A}\right\} \end{aligned} h(x,θ)==k1exp{21[Aθ22θB+C]}k2exp{2/A(θB/A)2}
其中 k 2 = k 1 exp ⁡ { − 1 2 ( C − B 2 / A ) } k_{2}=k_{1}\exp\left\{-\frac{1}{2}(C-B^{2}/A)\right\} k2=k1exp{21(CB2/A)}。由此容易算得样本 x x x 的边缘分布

m ( x ) = ∫ − ∞ ∞ h ( x , θ ) d θ = k 2 ( 2 π A ) 1 2 m(x)=\int_{-\infty}^{\infty}h(\boldsymbol x,\theta)d\theta=k_2\left(\frac{2\pi}A\right)^{\frac12} m(x)=h(x,θ)dθ=k2(A2π)21

上面两式相除,即得 θ \theta θ 的后验分布

π ( θ ∣ x ) = ( 2 π A ) − 1 2 exp ⁡ { − ( θ − B / A ) 2 2 / A } \pi(\theta|\boldsymbol x)=\left(\frac{2\pi}{A}\right)^{-\frac12}\exp\left\{-\frac{(\theta-B/A)^2}{2/A}\right\} π(θx)=(A2π)21exp{2/A(θB/A)2}
这是正态分布 N ( μ 1 , τ 1 2 ) N(\mu_1,\tau_1^2) N(μ1,τ12) ,其均值 μ 1 \mu_1 μ1 与方差 τ 1 2 \tau_1^2 τ12 分别为

μ 1 = B A = x ‾ σ 0 − 2 + μ τ − 2 σ 0 − 2 + τ − 2 , 1 τ 1 2 = 1 σ 0 2 + 1 τ 2 \mu_1=\frac BA=\frac{\overline{x}\sigma_0^{-2}+\mu\tau^{-2}}{\sigma_0^{-2}+\tau^{-2}},\quad\frac1{\tau_1^2}=\frac1{\sigma_0^2} + \frac1{\tau^2} μ1=AB=σ02+τ2xσ02+μτ2,τ121=σ021+τ21

也就是
μ 1 = σ 0 − 2 σ 0 − 2 + τ − 2 x ‾ + τ − 2 σ 0 − 2 + τ − 2 μ = γ x ‾ + ( 1 − γ ) μ \begin{aligned} \mu_{1}= & \frac{\sigma_{0}^{-2}}{\sigma_{0}^{-2}+\tau^{-2}}\overline{x}+\frac{\tau^{-2}}{\sigma_{0}^{-2}+\tau^{-2}}\mu \\ = & \gamma\overline{x}+(1-\gamma)\mu \end{aligned} μ1==σ02+τ2σ02x+σ02+τ2τ2μγx+(1γ)μ
其中 γ = σ 0 − 2 / ( σ 0 − 2 + τ − 2 ) \gamma=\sigma_0^{-2}/(\sigma_0^{-2}+\tau^{-2}) γ=σ02/(σ02+τ2) 是用方差倒数组成的权,于是后验均值 μ 1 \mu_1 μ1 是样本均值 x ˉ \bar{x} xˉ 与先验均值 μ \mu μ 的加权平均。若样本均值 x ˉ \bar{x} xˉ 的方差 σ 2 / n = σ 0 2 \sigma^2/n=\sigma_0^2 σ2/n=σ02 偏小,则其在后验均值的份额就大,若 σ 0 2 \sigma_0^2 σ02 较大则其在后验均值的份额较小,从而先验均值在后验均值的份额就大,这表明后验均值是在先验均值与样本均值间采取折衷方案。

在处理正态分布时,方差的倒数发挥着重要作用,并称其为精度,于是在正态均值的共轭先验分布的讨论中,其后验方差 τ 1 2 \tau_1^2 τ12 所满足的等式
1 τ 1 2 = 1 σ 0 2 + 1 τ 2 = n σ 2 + 1 τ 2 \frac{1}{\tau_1^2}=\frac{1}{\sigma_0^2}+\frac{1}{\tau^2}=\frac{n}{\sigma^2}+\frac{1}{\tau^2} τ121=σ021+τ21=σ2n+τ21
可解释为:后验分布的精度是样本均值分布的精度与先验分布精度之和,增加样本量 n n n 或减少先验分布方差都有利于提高后验分布的精度。

这就说明了正态均值(方差已知)的共轭先验分布是正态分布。譬如,设 X ∼ N ( θ X{\sim}N(\theta XN(θ, 2 2 ) , θ ∼ N ( 10 , 3 2 ) 2^2),\theta{\sim}N(10,3^2) 22),θN(10,32)。若从正态总体 X X X 抽得容量为 5 的样本,算得 x ‾ = 12.1 \overline{x}=12.1 x=12.1,于是可算得 μ 1 = 11.93 \mu_{1}=11.93 μ1=11.93 τ 1 2 = ( 6 7 ) 2 \tau_{1}^{2}=\left(\frac{6}{7}\right)^{2} τ12=(76)2。这时正态均值 θ \theta θ 的后验分布为正态分布 N ( 11.93 , ( 6 7 ) 2 ) N(11.93,\left(\frac67\right)^2) N(11.93,(76)2)

二项分布中的成功概率 θ 的共轭先验分布是贝塔分布

设总体 X X X ∼ b ( n , θ ) \sim b(n,\theta) b(n,θ),其密度函数中与 θ \theta θ 有关部分(核)为 θ x ( 1 − θ ) n − x \theta^x(1-\theta)^{n-x} θx(1θ)nx。又设 θ \theta θ 的先验分布为贝塔分布 Be ( α , β ) (\alpha,\beta) (α,β),其核为 θ α − 1 ( 1 − θ ) β − 1 \theta^{\alpha-1}(1-\theta)^{\beta-1} θα1(1θ)β1,其中 α , β \alpha,\beta α,β 已知,从而可写出 θ \theta θ 的后验分布
π ( θ ∣ x ) ∝ θ α + x − 1 ( 1 − θ ) β + n − x − 1 , 0 < θ < 1 \pi(\theta|x)\propto\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1},0<\theta<1 π(θx)θα+x1(1θ)β+nx1,0<θ<1
立即可以看出,这是贝塔分布 B e ( α + x , β + n − x ) \mathrm{Be} (\alpha+x,\beta+n-x) Be(α+x,β+nx) 的核,故此后验密度为
π ( θ ∣ x ) = Γ ( α + β + n ) Γ ( α + x ) Γ ( β + n − x ) θ α + x − 1 ( 1 − θ ) β + n − x − 1 , 0 < θ < 1 \pi(\theta|x)=\frac{\Gamma(\alpha+\beta+n)}{\Gamma(\alpha+x)\Gamma(\beta+n-x)}\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1},0<\theta<1 π(θx)=Γ(α+x)Γ(β+nx)Γ(α+β+n)θα+x1(1θ)β+nx1,0<θ<1
也就是
E ( θ ∣ x ) = α + x α + β + n = n α + β + n x n + α + β α + β + n α α + β = γ ⋅ x n + ( 1 − γ ) ⋅ α α + β \begin{aligned} E(\theta|x)= & \frac{\alpha+x}{\alpha+\beta+n} \\ = & \frac{n}{\alpha+\beta+n}\frac{x}{n}+\frac{\alpha+\beta}{\alpha+\beta+n}\frac{\alpha}{\alpha+\beta} \\ = & \gamma\cdot\frac{x}{n}+(1-\gamma)\cdot\frac{\alpha}{\alpha+\beta} \end{aligned} E(θx)===α+β+nα+xα+β+nnnx+α+β+nα+βα+βαγnx+(1γ)α+βα

Var ⁡ ( θ ∣ x ) = ( α + x ) ( β + n − x ) ( α + β + n ) 2 ( α + β + n + 1 ) = E ( θ ∣ x ) [ 1 − E ( θ ∣ x ) ] α + β + n + 1 \begin{aligned} \operatorname{Var}(\theta|x)= & \frac{\left(\alpha+x\right)\left(\beta+n-x\right)}{\left(\alpha+\beta+n\right)^{2}\left(\alpha+\beta+n+1\right)} \\ \mathrm{=} & \frac{E(\theta|x)\left[1-E(\theta|x)\right]}{\alpha+\beta+n+1} \end{aligned} Var(θx)==(α+β+n)2(α+β+n+1)(α+x)(β+nx)α+β+n+1E(θx)[1E(θx)]

其中 γ = n / ( α + β + n ) , x / n \gamma=n/(\alpha+\beta+n),x/n γ=n/(α+β+n),x/n 是样本均值, α / ( α + β ) \alpha/(\alpha+\beta) α/(α+β) 是先验均值,从上述加权平均可见,后验均值是介于样本均值与先验均值之间,它偏向哪一侧由 γ \gamma γ 的大小决定。另外,当 n n n x x x都较大,且 x / n x/n x/n 接近某个常数 θ 0 \theta_0 θ0 时,我们有
E ( θ ∣ x ) ≈ x n V a r ( θ ∣ x ) ≈ 1 n x n ( 1 − x n ) \begin{aligned} E(\theta|x) & \approx\frac{x}{n} \\ \mathrm{Var}(\theta|x) & \approx\frac{1}{n}\frac{x}{n}\left(1-\frac{x}{n}\right) \end{aligned} E(θx)Var(θx)nxn1nx(1nx)
这表明:当样本量增大时,后验均值主要决定于样本均值,而后验方差愈来愈小。这时后验密度曲线的变化随着 n n n z z z 在成比例地增加时,后验分布愈来愈向比率 x / n x/n x/n 集中,这时先验信息对后验分布的影响将愈来愈小。

正态均值(方差已知)的共轭先验分布是倒伽玛分布

x 1 , ⋅ ⋅ ⋅ , x n x_1,\cdotp\cdotp\cdotp,x_n x1,⋅⋅⋅,xn 是来自正态分布 N ( θ , σ 2 ) N(\theta,\sigma^2) N(θ,σ2) 的一个样本观测值,其中 θ \theta θ 已知,现要寻求方差 σ 2 \sigma^2 σ2 的共轭先验分布,由于该样本的似然函数为
p ( x ∣ σ 2 ) = { 1 2 π σ ) n exp ⁡ { − 1 2 σ 2 ∑ i = 1 n ( x i − θ ) 2 } ∝ ( 1 σ 2 ) n / 2 exp ⁡ { − 1 2 σ 2 ∑ i = 1 n ( x i − θ ) 2 } p(x\mid\sigma^{2})=\left\{\frac{1}{\sqrt{2\pi}\sigma}\right)^{n}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\} \\ \propto\left(\frac{1}{\sigma^{2}}\right)^{n/2}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\} p(xσ2)={2π σ1)nexp{2σ21i=1n(xiθ)2}(σ21)n/2exp{2σ21i=1n(xiθ)2}
上述似然函数中 σ 2 \sigma^2 σ2 的因式将决定 σ 2 \sigma^2 σ2 的共轭先验分布的形式,什么分布具有上述的核呢?

X X X 服从伽玛分布 G a ( α , λ ) Ga(\alpha,\lambda) Ga(α,λ),其中 α > 0 \alpha>0 α>0 为形状参数, λ > 0 \lambda>0 λ>0 为尺度参数,其密度函数为

p ( x ∣ α , λ ) = λ α Γ ( α ) x a − 1 e − λ x , x > 0 p(x\mid\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{a-1}e^{-\lambda x},x>0 p(xα,λ)=Γ(α)λαxa1eλx,x>0

通过概率运算可以求得 Y = X − 1 Y=X^{-1} Y=X1 的密度函数

p ( y ∣ α , λ ) = λ a Γ ( α ) ( 1 y ) α + 1 e − λ y , y > 0 p(y|\alpha,\lambda)=\frac{\lambda^a}{\Gamma(\alpha)}\left(\frac1y\right)^{\alpha+1}e^{\frac{-\lambda}y},y>0 p(yα,λ)=Γ(α)λa(y1)α+1eyλ,y>0
这个分布称为倒伽玛分布,记为 I G a ( α , λ ) IGa(\alpha,\lambda) IGa(α,λ),其均值为 E ( y ) = λ / ( α − 1 ) E(y)=λ/(α-1) E(y)=λ/(α1)。假如取此倒伽玛分布为 σ 2 \sigma^2 σ2 的先验分布,其中参数 α \alpha α λ \lambda λ已知,则其密度函数为

π ( σ 2 ) = λ α Γ ( α ) ( 1 σ 2 ) α + 1 e − λ / σ 2 , σ 2 > 0 \pi(\sigma^2)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\:\left(\frac{1}{\sigma^2}\right)^{\alpha+1}e^{-\lambda/\sigma^2}\:,\sigma^2>0 π(σ2)=Γ(α)λα(σ21)α+1eλ/σ2,σ2>0

于是 σ 2 \sigma^2 σ2 的后验分布为

π ( σ 2 ∣ x ) ∝ p ( x ∣ σ 2 ) π ( σ 2 ) ∞ ( 1 σ 2 ) a + n 2 + 1 exp ⁡ { − 1 σ 2 [ λ + 1 2 ∑ i = 1 n ( x i − θ ) 2 ] } \pi(\sigma^2\mid x)\propto p(x\mid\sigma^2)\pi(\sigma^2) \\ \infty\left(\frac{1}{\sigma^{2}}\right)^{a+\frac{n}{2}+1}\exp\left\{-\frac{1}{\sigma^{2}}\left[\lambda+\frac{1}{2}\sum_{i=1}^{n}(x_{i}-\theta)^{2}\right]\right\} π(σ2x)p(xσ2)π(σ2)(σ21)a+2n+1exp{σ21[λ+21i=1n(xiθ)2]}
容易看出,这仍是倒伽玛分布 I G a ( α + n 2 , λ + 1 2 ∑ i = 1 n ( x i − θ ) 2 ) IGa\left(\alpha+\frac n2,\lambda+\frac12\sum_{i=1}^n(x_i-\theta)^2\right) IGa(α+2n,λ+21i=1n(xiθ)2),这表明,倒伽玛分布 I G a ( α , λ ) IGa(\alpha,\lambda) IGa(α,λ) 是正态方差 σ 2 \sigma^2 σ2 的共轭先验分布。
有趣的是:这个 σ 2 \sigma^2 σ2后验分布的均值可改等为如下加权平均

E ( σ 2 ∣ x ) = λ + 1 2 ∑ i = 1 n ( x i − θ ) 2 α + n 2 − 1 = γ ⋅ λ α − 1 + ( 1 − γ ) ⋅ 1 2 ∑ i = 1 n ( x i − θ ) 2 \begin{aligned} E(\sigma^2\mid x) &=\frac{\lambda+\frac12\sum_{i=1}^n(x_i-\theta)^2}{\alpha+\frac n2-1} \\ &=\gamma\cdot\frac{\lambda}{\alpha-1}+(1-\gamma)\cdot\frac{1}{2}\sum_{i=1}^n(x_i-\theta)^2 \end{aligned} E(σ2x)=α+2n1λ+21i=1n(xiθ)2=γα1λ+(1γ)21i=1n(xiθ)2

其中权 γ = α − 1 α + n 2 − 1 , λ α − 1 \gamma=\frac{\alpha-1}{\alpha+\frac n2-1},\frac\lambda{\alpha-1} γ=α+2n1α1,α1λ σ 2 \sigma^2 σ2 的共轭先验分布 I G α ( α , λ ) IG\alpha(\alpha,\lambda) IGα(α,λ) 的先验均值 , 1 n ∑ i = 1 n ( x i − θ ) 2 ,\frac1n\sum_{i=1}^{n}(x_{i}-\theta)^{2} ,n1i=1n(xiθ)2 是在 θ \theta θ 已知条件下的样本方差(样本对 θ \theta θ 的偏差平方的平均),由此可知,在取 σ 2 \sigma^2 σ2的共轭先验分布场合,其后验均值是 σ 2 \sigma^2 σ2 的先验均值与样本方差的加权平均。当样本量 n n n足够大时, γ \gamma γ 接近于0,从而后验均值 E ( σ 2 / x ) E(\sigma^2/x) E(σ2/x) 主要由样本方差决定。而当 n n n 不大时,后验均值 E ( σ 2 / x ) E(\sigma^2/x) E(σ2/x) 是介于 σ 2 \sigma^2 σ2的先验均值与样本方差之间的某一个数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/63531.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

消息队列(MQ):系统解耦与异步通信的利器

在现代分布式系统架构中&#xff0c;消息队列&#xff08;Message Queue&#xff0c;简称 MQ&#xff09;扮演着极为重要的角色。它作为一种中间件&#xff0c;能够有效地解决系统之间的耦合性问题&#xff0c;并实现高效的异步通信&#xff0c;极大地提升了系统的整体性能、可…

YOLO系列发展历程:从YOLOv1到YOLO11,目标检测技术的革新与突破

文章目录 前言一、YOLOv1&#xff1a;单阶段目标检测的开端二、YOLOv2&#xff1a;更精准的实时检测三、YOLOv3&#xff1a;阶梯特征融合四、YOLOv4&#xff1a;性能和速度的新平衡五、YOLOv5&#xff1a;易用性和扩展性的加强六、YOLOv6&#xff1a;工业部署的利器七、YOLOv7&…

ConcurrentLinkedQueue<>实现生产者-消费者问题理解和简易demo

1.ConcurrentLinkedQueue<> ConcurrentLinkedQueue 是 Java 中的一个线程安全的无界队列实现。它基于无锁&#xff08;lock-free&#xff09;的算法&#xff0c;采用了一个高效的、非阻塞的、可伸缩并发控制机制。这使得在高并发场景下能够实现较高的吞吐量。 无界性质…

【单元测试】单元测试介绍

1 单元测试基础 1.单元测试&#xff1a;单元测试又称模块测试&#xff0c;属于白盒测试&#xff0c;是最小单位的测试。模块分为程序模块和功能模块。功能模块指实现了一个完整功能的模块&#xff08;单元&#xff09;&#xff0c;一个完整的程序单元具备输入、加工和输出三个…

React废弃componentWillMount和componentWillReceiveProps这两个生命周期方法

React废弃componentWillMount和componentWillReceiveProps这两个生命周期方法的原因主要涉及到React的内部机制变更、性能优化以及未来特性的支持。以下是对这两个问题的详细解答&#xff1a; 废弃componentWillMount的原因 异步渲染的引入&#xff1a; React 16开始引入了异步…

RabbitMQ 实现分组消费满足服务器集群部署

实现思路 使用扇出交换机&#xff08;Fanout Exchange&#xff09;&#xff1a;扇出交换机会将消息广播到所有绑定的队列&#xff0c;确保每个消费者组都能接收到相同的消息。为每个消费者组创建独立的队列&#xff1a;每个消费者组拥有自己的队列&#xff0c;所有属于该组的消…

开发 UEFI 驱动

服务型驱动的特点&#xff1a; 1&#xff09;在 Image 的入口函数中执行安装&#xff1b; 2&#xff09;服务型驱动不需要驱动特定硬件&#xff0c;可以安装到任意控制器上&#xff1b; 3&#xff09;没有提供卸载函数。 一个设备 / 总线驱动程序在安装时首先要找到对应的硬件…

《Python密码算法例程》

《Python密码算法例程》 一、哈希算法&#xff08;以MD5为例&#xff0c;虽然MD5安全性存在缺陷&#xff0c;但常用于简单示例&#xff09;1. 计算字符串的MD5哈希值2. 更安全的哈希算法 - SHA - 256 二、对称加密算法&#xff08;以AES为例&#xff09;1. AES加密和解密简单示…

java时间处理SimpleDateFormat详解

文章目录 常用构造函数日期格式模式常见用法1. 格式化日期2. 解析日期字符串 注意事项示例扩展&#xff1a;指定区域和时区 SimpleDateFormat 是 Java 中用于日期和时间格式化的类&#xff0c;属于 java.text 包。它允许开发者将日期对象格式化为字符串&#xff0c;或者将字符…

夜莺运维指南之故障自愈

注意: 夜莺v7版本已内置故障自愈, 只需要更给n9e下的config.yaml 文件有关ibex配置即可 所谓的告警自愈&#xff0c;典型手段是在告警触发时自动回调某个 webhook 地址&#xff0c;在这个 webhook 里写告警自愈的逻辑&#xff0c;夜莺默认支持这种方式。另外&#xff0c;夜莺还…

【oracle】大数据删除插入

文章目录 引言本文目标 Oracle大数据插入操作插入操作的场景和需求使用并行查询进行数据插入示例代码&#xff1a;创建新表并插入数据解释代码中的关键点 性能优化建议 Oracle大数据删除操作删除操作的场景和需求使用游标和批量处理进行数据删除示例代码&#xff1a;批量删除数…

深入浅出:序列化与反序列化的全面解析

文章目录 1. 引言2. 什么是序列化&#xff1f;2.1 为什么需要序列化&#xff1f; 3. 什么是反序列化&#xff1f;3.1 反序列化的重要性 4. 序列化与反序列化的实现4.1 JSON (JavaScript Object Notation)4.2 XML (eXtensible Markup Language)4.3 Protocol Buffers (Protobuf)4…

Windows命令行使用技巧(持续更新)

删除指定目录下指定后缀的文件 重要的事情说在前面&#xff1a;不能恢复&#xff0c;谨慎操作 今天大意了&#xff0c;导出sql文件的时候没指定目录&#xff0c;默认放到桌面上了&#xff0c;看着桌面上密密麻麻的sql文件&#xff0c;我人傻了&#xff0c;一个一个删不是办法…

LDR6500:音频双C支持,数字与模拟的完美结合

在当今数字化快速发展的时代&#xff0c;音频设备的兼容性和性能成为了用户关注的重点。LDR6500&#xff0c;作为乐得瑞科技精心研发的USB Power Delivery&#xff08;PD&#xff09;协议芯片&#xff0c;凭借其卓越的性能和广泛的应用兼容性&#xff0c;为音频设备领域带来了新…

python rstrip 的迷惑行为

在项目中&#xff0c;我需要把字符串末尾的一部分去掉&#xff0c;类似截断&#xff0c;我用ide的随笔提示&#xff0c;发现了rstrip这个方法&#xff0c;然后我试了下&#xff0c;满足我的需求&#xff0c;但在测试过程中&#xff0c;我发现了rstrip的一些行为很让我迷惑。 开…

计算机网络编程(Linux):I/O多路转接之 select,poll

I/O多路复用&#xff08;I/O Multiplexing&#xff09;是一种高效的网络编程技术&#xff0c;允许一个线程同时监控多个文件描述符的状态&#xff0c;当某个文件描述符就绪时进行相应处理。这种技术在高并发服务器中广泛使用。本文将介绍I/O多路复用的核心概念及在Linux中的实现…

【原生js案例】webApp实现鼠标移入移出相册放大缩小动画

图片相册这种动画效果也很常见&#xff0c;在我们的网站上。鼠标滑入放大图片&#xff0c;滑出就恢复原来的大小。现在我们使用运动定时器来实现这种滑动效果。 感兴趣的可以关注下我的系列课程【webApp之h5端实战】&#xff0c;里面有大量的css3动画效果制作原生知识分析&…

Spring Boot助力,一键解锁招聘全流程信息精细化管理

2系统相关技术 2.1 Java语言介绍 Java是由SUN公司推出&#xff0c;该公司于2010年被oracle公司收购。Java本是印度尼西亚的一个叫做爪洼岛的英文名称&#xff0c;也因此得来java是一杯正冒着热气咖啡的标识。Java语言在移动互联网的大背景下具备了显著的优势和广阔的前景&#…

深入理解 NumPy 广播机制:从基础到应用

目录 什么是广播机制&#xff1f;广播机制的规则广播机制示例1. 一维数组与标量运算2. 二维数组与一维数组运算3. 维度不同的数组运算4. 广播失败的情况 广播机制的实际应用场景1. 数据归一化2. 批量计算欧氏距离 总结广播机制的核心要点&#xff1a; 在使用 NumPy 进行数组操作…

Day28两个数组的交集

给定两个数组 nums1 和 nums2 &#xff0c;返回 它们的 交集 。输出结果中的每个元素一定是 唯一 的。我们可以 不考虑输出结果的顺序 。 class Solution{public int[] intersection(int[] nums1, int[] nums2) {Set<Integer> set new HashSet<>();for (int i :…