【推导过程】常用共轭先验分布

文章目录

相关教程
相关文献
常用共轭先验分布
预备知识
- 贝叶斯统计
- 后验分布的计算
正态均值(方差已知)的共轭先验分布是正态分布
二项分布中的成功概率 θ 的共轭先验分布是贝塔分布
正态均值(方差已知)的共轭先验分布是倒伽玛分布

作者：小猪快跑

基础数学&计算数学，从事优化领域7年+，主要研究方向：MIP求解器、整数规划、随机规划、智能优化算法

如有错误，欢迎指正。如有更好的算法，也欢迎交流！！！——@小猪快跑

常用共轭先验分布

总体分布	参数	共轭先验分布
二项分布	成功概率	贝塔分布 $\mathrm{Be}(\alpha,\beta)$
泊松分布	均值	伽玛分布 $\mathrm{Ga}(\alpha,\lambda)$
指数分布	均值的倒数	伽玛分布 $\mathrm{Ga}(\alpha,\lambda)$
正态分布(方差已知)	均值	正态分布 $N(\mu,\tau^2)$
正态分布(均值已知)	方差	倒伽玛分布 $IGa(\alpha,\lambda)$

预备知识

贝叶斯统计

设总体指标 $X$ 有依赖于参数 $\theta$ 的密度函数，在经典统计中常记为 $p(x;\theta)$ 或 $p_\theta(x)$ ，它表示在参数空间 $\Theta=\left\{\theta\right\}$ 中不同的 $\theta$ 对应不同的分布。可在贝叶斯统计中记为 $p(x|\theta)$ ，它表示在随机变量 $\theta$ 给定某个值时，总体指标 $X$ 的条件分布。
根据参数 $\theta$ 的先验信息确定先验分布 $\pi(\theta)$ 。
从贝叶斯观点看，样本 $\boldsymbol x=(x_1,...,x_n)$ 的产生要分二步进行。首先设想从先验分布 $\pi(\theta)$ 产生一个样本 $\theta^{\prime}$ ,这一步是“老天爷”做的，人们是看不到的，故用“设想”二字。第二步是从总体分布 $p(x|\theta^{\prime})$ 产生一个样本 $\boldsymbol x=(x_1,\cdots,x_n)$ ，这个样本是具体的，人们能看得到的，此样本 $\boldsymbol x$ 发生的概率是与如下联合密度函数成正比。

$p(\boldsymbol{x}|\theta^{\prime})=\prod_{i=1}^np(x_i|\theta^{\prime})$

这个联合密度函数是综合了总体信息和样本信息，常称为似然函数，记为 $L(\theta^{\prime})$ 。频率学派和贝叶斯学派都承认似然函数，二派认为：在有了样本观察值 $\boldsymbol x=(x_1,\cdots,x_n)$ 后，总体和样本中所含 $\theta$ 的信息都被包含在似然函数 $L(\theta^{\prime})$ 之中，可在使用似然函数作统计推断时，两派之间还是有差异的。
由于 $\theta^\prime$ 是设想出来的，它仍然是未知的，它是按先验分布 $\pi(\theta)$ 而产生的，要把先验信息进行综合，不能只考虑 $\theta^{\prime}$ ，而应对 $\theta$ 的一切可能加以考虑。故要用 $\pi(\theta)$ 参与进一步综合。这样一来，样本 $\boldsymbol x$ 和参数 $\theta$ 的联合分布

$h(\boldsymbol x,\theta)=p(\boldsymbol x|\theta)\pi(\theta)$

把三种可用的信息都综合进去了。
我们的任务是要对未知数 $\theta$ 统计推断。在没有样本信息时，人们只能据先验分布对 $\theta$ 作出推断。在有样本观察值 $\boldsymbol x=(x_1,\cdotp\cdotp\cdotp,x_n)$ 之后，我们应该依据 $h(x,\theta)$ 对 $\theta$ 作出推断。为此我们需把 $h(\boldsymbol x,\theta)$ 作如下分解：

$h(\boldsymbol x,\theta)=\pi(\theta|\boldsymbol x)m(\boldsymbol x)$

其中 $m(\boldsymbol x)$ 是 $\boldsymbol x$ 的边缘密度函数。

$m(\boldsymbol x)=\int_{\Theta}h\left(\boldsymbol x,\theta\right)d\theta=\int_{\Theta}p\left(\boldsymbol x\mid\theta\right)\pi(\theta)d\theta$

它与 $\theta$ 无关，或者说， $m(\boldsymbol x)$ 中不含 $\theta$ 的任何信息。因此能用来对 $\theta$ 作出推断的仅是条件分布 $\pi(\theta|\boldsymbol x)$ 。它的计算公式是
$\pi(\theta\mid \boldsymbol x)=\frac{h(\boldsymbol x,\theta)}{m(\boldsymbol x)}=\frac{p(\boldsymbol x\mid\theta)\pi(\theta)}{\int_{\Theta}p(\boldsymbol x\mid\theta)\pi(\theta)d\theta}$

这就是贝叶斯公式的密度函数形式。这个在样本 $\boldsymbol x$ 给定下， $\theta$ 的条件分布被称为 $\theta$ 的后验分布。它是集中了总体、样本和先验等三种信息中有关 $\theta$ 的一切信息，而又是排除一切与 $\theta$ 无关的信息之后所得到的结果。故基于后验分布 $\pi(\theta|\boldsymbol x)$ 对 $\theta$ 进行统计推断是更为有效，也是最合理的。
在 $\theta$ 是离散随机变量时，先验分布可用先验分布列 $\pi(\theta_i),i=1,2,\cdotp\cdotp\cdotp$ ,表示。这时后验分布也是离散形式。

$\pi(\theta_i\mid \boldsymbol x)=\frac{p(\boldsymbol x\mid\theta_i)\pi(\theta)}{\sum_jp(\boldsymbol x\mid\theta_j)\pi(\theta_j)},\quad i=1,2,\cdots.$

假如总体 $X$ 也是离散的，那只要把密度函数 $p(\boldsymbol x|\theta)$ 改为概率函数 $P(x=\boldsymbol x\mid\theta)$ 即可。

后验分布的计算

在给定样本分布 $p(\boldsymbol x|\theta)$ 和先验分布 $\pi(\theta)$ 后可用贝叶斯公式计算 $\theta$ 的后验分布

$\pi(\theta|\boldsymbol x)=\frac{p(\boldsymbol x|\theta)\pi(\theta)}{m(\boldsymbol x)}$
由于 $m(\boldsymbol x)$ 不依赖于 $\theta$ ，在计算 $\theta$ 的后验分布中仅起到一个正则化因子的作用。假如把 $m(\boldsymbol x)$ 省略，把贝叶斯公式改写为如下等价形式

$\pi(\theta|\boldsymbol x)\propto p(\boldsymbol x|\theta)\pi(\theta)$
其中符号 $\propto$ 表示两边仅差一个常数因子，一个不依赖于 $\theta$ 的常数因子。上式右端虽不是正常的密度函数，但它是后验分布 $\pi(\theta|\boldsymbol x)$ 的核，在需要时可以利用适当方式计算出后验密度，特别当看出 $\pi(\theta|\boldsymbol x)\pi(\theta)$ 的核就是某常用分布的核时，不用计算 $m(\boldsymbol x)$ 就可很快恢复所缺常数因子。这样一来就可简化后验分布的计算，这在共轭先验分布与非共轭先验分布场合都可使用。

正态均值(方差已知)的共轭先验分布是正态分布

设 $x_1,\cdotp\cdotp\cdotp,x_n$ 是来自正态分布 $N(\theta,\sigma^{2})$ 的一组样本观察值。其中 $\sigma^2$ 已知。此样本的似然函数为：

$P(\boldsymbol x\mid\theta)=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^{n}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\},\\-\infty<x_{1},\cdots,x_{n}<+\infty$

现取另一个正态分布 $N(\mu,\tau^2)$ 作为正态均值 $\theta$ 的先验分布，即

$\pi(\theta)=\frac{1}{\sqrt{2\pi}\tau}\exp\left\{-\frac{(\theta-\mu)^2}{2\tau^2}\right\},-\infty<\theta<+\infty$

其中 $\mu$ 与 $\tau^{2}$ 为已知，由此可以写出样本 $\boldsymbol x$ 与参数 $\theta$ 的联合密度函数

$h(\boldsymbol x,\theta)=k_1\exp\left\{-\frac{1}{2}\left[\frac{n\theta^2-2n\theta\overline{x}+\sum_{i=1}^nx_i^2}{\sigma^2}+\frac{\theta^2-2\mu\theta+\mu^2}{\tau^2}\right]\right\}$
其中 $k_1=(2\pi)^{-(n+1)/2}\tau^{-1}\sigma^{-n},\overline{x}=\sum_{i=1}^{n}\frac{x_{i}}{n}$ 。若再记

$\sigma_{0}^{2}=\frac{\sigma^{2}}{n},A=\frac{1}{\sigma_{0}^{2}}+\frac{1}{\tau^{2}},B=\frac{\overline{x}}{\sigma_{0}^{2}}+\frac{\mu}{\tau^{2}},C=\frac{1}{\sigma^{2}}\sum_{i=1}^{n}x_{i}^{2}+\frac{\mu^{2}}{\tau^{2}}$
则有
$\begin{aligned} h(\boldsymbol x,\theta)= & k_{1}\exp\left\{-\frac{1}{2}[A\theta^{2}-2\theta B+C]\right\} \\ = & k_{2}\exp\left\{-\frac{(\theta-B/A)^{2}}{2/A}\right\} \end{aligned}$
其中 $k_{2}=k_{1}\exp\left\{-\frac{1}{2}(C-B^{2}/A)\right\}$ 。由此容易算得样本 $x$ 的边缘分布

$m(x)=\int_{-\infty}^{\infty}h(\boldsymbol x,\theta)d\theta=k_2\left(\frac{2\pi}A\right)^{\frac12}$

上面两式相除，即得 $\theta$ 的后验分布

$\pi(\theta|\boldsymbol x)=\left(\frac{2\pi}{A}\right)^{-\frac12}\exp\left\{-\frac{(\theta-B/A)^2}{2/A}\right\}$
这是正态分布 $N(\mu_1,\tau_1^2)$ ，其均值 $\mu_1$ 与方差 $\tau_1^2$ 分别为

$\mu_1=\frac BA=\frac{\overline{x}\sigma_0^{-2}+\mu\tau^{-2}}{\sigma_0^{-2}+\tau^{-2}},\quad\frac1{\tau_1^2}=\frac1{\sigma_0^2} + \frac1{\tau^2}$

也就是
$\begin{aligned} \mu_{1}= & \frac{\sigma_{0}^{-2}}{\sigma_{0}^{-2}+\tau^{-2}}\overline{x}+\frac{\tau^{-2}}{\sigma_{0}^{-2}+\tau^{-2}}\mu \\ = & \gamma\overline{x}+(1-\gamma)\mu \end{aligned}$
其中 $\gamma=\sigma_0^{-2}/(\sigma_0^{-2}+\tau^{-2})$ 是用方差倒数组成的权，于是后验均值 $\mu_1$ 是样本均值 $\bar{x}$ 与先验均值 $\mu$ 的加权平均。若样本均值 $\bar{x}$ 的方差 $\sigma^2/n=\sigma_0^2$ 偏小，则其在后验均值的份额就大，若 $\sigma_0^2$ 较大则其在后验均值的份额较小，从而先验均值在后验均值的份额就大，这表明后验均值是在先验均值与样本均值间采取折衷方案。

在处理正态分布时，方差的倒数发挥着重要作用，并称其为精度，于是在正态均值的共轭先验分布的讨论中，其后验方差 $\tau_1^2$ 所满足的等式
$\frac{1}{\tau_1^2}=\frac{1}{\sigma_0^2}+\frac{1}{\tau^2}=\frac{n}{\sigma^2}+\frac{1}{\tau^2}$
可解释为：后验分布的精度是样本均值分布的精度与先验分布精度之和，增加样本量 $n$ 或减少先验分布方差都有利于提高后验分布的精度。

这就说明了正态均值（方差已知）的共轭先验分布是正态分布。譬如，设 $X{\sim}N(\theta$ , $2^2),\theta{\sim}N(10,3^2)$ 。若从正态总体 $X$ 抽得容量为 5 的样本，算得 $\overline{x}=12.1$ ，于是可算得 $\mu_{1}=11.93$ 和 $\tau_{1}^{2}=\left(\frac{6}{7}\right)^{2}$ 。这时正态均值 $\theta$ 的后验分布为正态分布 $N(11.93,\left(\frac67\right)^2)$ 。

二项分布中的成功概率 θ 的共轭先验分布是贝塔分布

设总体 $X$ $\sim b(n,\theta)$ ，其密度函数中与 $\theta$ 有关部分（核）为 $\theta^x(1-\theta)^{n-x}$ 。又设 $\theta$ 的先验分布为贝塔分布 Be $(\alpha,\beta)$ ，其核为 $\theta^{\alpha-1}(1-\theta)^{\beta-1}$ ，其中 $\alpha,\beta$ 已知，从而可写出 $\theta$ 的后验分布
$\pi(\theta|x)\propto\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1},0<\theta<1$
立即可以看出，这是贝塔分布 $\mathrm{Be} (\alpha+x,\beta+n-x)$ 的核，故此后验密度为
$\pi(\theta|x)=\frac{\Gamma(\alpha+\beta+n)}{\Gamma(\alpha+x)\Gamma(\beta+n-x)}\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1},0<\theta<1$
也就是
$\begin{aligned} E(\theta|x)= & \frac{\alpha+x}{\alpha+\beta+n} \\ = & \frac{n}{\alpha+\beta+n}\frac{x}{n}+\frac{\alpha+\beta}{\alpha+\beta+n}\frac{\alpha}{\alpha+\beta} \\ = & \gamma\cdot\frac{x}{n}+(1-\gamma)\cdot\frac{\alpha}{\alpha+\beta} \end{aligned}$

$\begin{aligned} \operatorname{Var}(\theta|x)= & \frac{\left(\alpha+x\right)\left(\beta+n-x\right)}{\left(\alpha+\beta+n\right)^{2}\left(\alpha+\beta+n+1\right)} \\ \mathrm{=} & \frac{E(\theta|x)\left[1-E(\theta|x)\right]}{\alpha+\beta+n+1} \end{aligned}$

其中 $\gamma=n/(\alpha+\beta+n),x/n$ 是样本均值， $\alpha/(\alpha+\beta)$ 是先验均值，从上述加权平均可见，后验均值是介于样本均值与先验均值之间，它偏向哪一侧由 $\gamma$ 的大小决定。另外，当 $n$ 与 $x$ 都较大，且 $x / n$ 接近某个常数 $\theta_0$ 时，我们有
$\begin{aligned} E(\theta|x) & \approx\frac{x}{n} \\ \mathrm{Var}(\theta|x) & \approx\frac{1}{n}\frac{x}{n}\left(1-\frac{x}{n}\right) \end{aligned}$
这表明：当样本量增大时，后验均值主要决定于样本均值，而后验方差愈来愈小。这时后验密度曲线的变化随着 $n$ 与 $z$ 在成比例地增加时，后验分布愈来愈向比率 $x / n$ 集中，这时先验信息对后验分布的影响将愈来愈小。

正态均值(方差已知)的共轭先验分布是倒伽玛分布

设 $x_1,\cdotp\cdotp\cdotp,x_n$ 是来自正态分布 $N(\theta,\sigma^2)$ 的一个样本观测值，其中 $\theta$ 已知，现要寻求方差 $\sigma^2$ 的共轭先验分布，由于该样本的似然函数为
$p(x\mid\sigma^{2})=\left\{\frac{1}{\sqrt{2\pi}\sigma}\right)^{n}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\} \\ \propto\left(\frac{1}{\sigma^{2}}\right)^{n/2}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\}$
上述似然函数中 $\sigma^2$ 的因式将决定 $\sigma^2$ 的共轭先验分布的形式，什么分布具有上述的核呢？

设 $X$ 服从伽玛分布 $Ga(\alpha,\lambda)$ ，其中 $\alpha>0$ 为形状参数， $\lambda>0$ 为尺度参数，其密度函数为

$p(x\mid\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{a-1}e^{-\lambda x},x>0$

通过概率运算可以求得 $Y=X^{-1}$ 的密度函数

$p(y|\alpha,\lambda)=\frac{\lambda^a}{\Gamma(\alpha)}\left(\frac1y\right)^{\alpha+1}e^{\frac{-\lambda}y},y>0$
这个分布称为倒伽玛分布，记为 $IGa(\alpha,\lambda)$ ，其均值为 $E (y) = λ / (α - 1)$ 。假如取此倒伽玛分布为 $\sigma^2$ 的先验分布，其中参数 $\alpha$ 与 $\lambda$ 已知，则其密度函数为

$\pi(\sigma^2)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\:\left(\frac{1}{\sigma^2}\right)^{\alpha+1}e^{-\lambda/\sigma^2}\:,\sigma^2>0$

于是 $\sigma^2$ 的后验分布为

$\pi(\sigma^2\mid x)\propto p(x\mid\sigma^2)\pi(\sigma^2) \\ \infty\left(\frac{1}{\sigma^{2}}\right)^{a+\frac{n}{2}+1}\exp\left\{-\frac{1}{\sigma^{2}}\left[\lambda+\frac{1}{2}\sum_{i=1}^{n}(x_{i}-\theta)^{2}\right]\right\}$
容易看出，这仍是倒伽玛分布 $IGa\left(\alpha+\frac n2,\lambda+\frac12\sum_{i=1}^n(x_i-\theta)^2\right)$ ，这表明，倒伽玛分布 $IGa(\alpha,\lambda)$ 是正态方差 $\sigma^2$ 的共轭先验分布。
有趣的是：这个 $\sigma^2$ 后验分布的均值可改等为如下加权平均

$\begin{aligned} E(\sigma^2\mid x) &=\frac{\lambda+\frac12\sum_{i=1}^n(x_i-\theta)^2}{\alpha+\frac n2-1} \\ &=\gamma\cdot\frac{\lambda}{\alpha-1}+(1-\gamma)\cdot\frac{1}{2}\sum_{i=1}^n(x_i-\theta)^2 \end{aligned}$

其中权 $\gamma=\frac{\alpha-1}{\alpha+\frac n2-1},\frac\lambda{\alpha-1}$ 是 $\sigma^2$ 的共轭先验分布 $IG\alpha(\alpha,\lambda)$ 的先验均值 $,\frac1n\sum_{i=1}^{n}(x_{i}-\theta)^{2}$ 是在 $\theta$ 已知条件下的样本方差(样本对 $\theta$ 的偏差平方的平均),由此可知，在取 $\sigma^2$ 的共轭先验分布场合，其后验均值是 $\sigma^2$ 的先验均值与样本方差的加权平均。当样本量 $n$ 足够大时， $\gamma$ 接近于0，从而后验均值 $E(\sigma^2/x)$ 主要由样本方差决定。而当 $n$ 不大时，后验均值 $E(\sigma^2/x)$ 是介于 $\sigma^2$ 的先验均值与样本方差之间的某一个数。