前言

译自:《Training Restricted Boltzmann Machines: An Introduction 》

马尔科夫链在RBM的训练中占据重要地位，因为它提供了从复杂的概率分布(比如马尔科夫随机场MRF的吉布斯分布)中提取样本。这一部分主要就是对马尔科夫链做个基本的理论介绍，将要着重强调的是，将吉布斯采样作为一种马尔科夫链蒙特卡洛方法去训练马尔科夫随机场以及训练RBM。

马尔科夫链

一个马尔科夫链是离散时间的随机过程，系统的下一个状态仅仅依赖当前的所处状态，与在它之前发生的事情无关。形式上，一个马尔科夫链是一组随机变量 $X=\{X^{(k)}|k\in N_0\}$ ，取值是一个有限集 $\Omega$ ，而且对于 $\forall k\geq0$ 以及 $\forall j,i,i_0,\cdots,i_{k-1}\in \Omega$ 都有

p (k) i j = P r (X (k + 1) = j | X (k) = i, X (k - 1) = i k - 1, \dots, X (0) = i 0) = P r (X (k + 1) = j | X (k) = i)

$\begin{aligned} p_{ij}^{(k)}&=Pr(X^{(k+1)}=j|X^{(k)}=i,X^{(k-1)}=i_{k-1},\cdots,X^{(0)}=i_0)\\ &=Pr(X^{(k+1)}=j|X^{(k)}=i) \end{aligned}$
上式中表达出的‘无记忆’随机过程经常也被称为 马尔科夫特性 ，如果对于所有

k≥0 $k\geq 0$ 的时间点，

p(k)ij $p_{ij}^{(k)}$ 都有相同的

pij $p_{ij}$ (转移概率不会随着时间而改变)，这个链达到了稳态(homogeneous)，矩阵

P=(pij)i,j∈Ω $P=(p_{ij})_{i,j\in \Omega}$ 称为稳态马尔科夫链的转移矩阵。

如果初始分布 $\mu^{(0)}$ (即 $X^{(0)}$ 的概率分布)是由概率向量 $\mu^{(0)}=(\mu^{(0)}(i))_{i\in\Omega}$ 给出的，其中 $\mu^{(0)}(i)=Pr(X^{(0)}=i)$ ，那么 $X^{(k)}$ 的分布 $\mu^{(k)}$ 是由 $\mu^{(k)T}=\mu^{(0)T}P^k$ 给出的。

对于 $\pi^T=\pi^TP$ 中的 $\pi$ ，则称为稳态分布，如果马尔科夫链在k时刻达到稳态分布 $\mu^{(k)}=\pi$ ，那么所有的后续状态都是相同分布，也就是说对于所有的 $n\in N$ 都有 $\mu^{(k+n)}=\pi$ 。关于马尔科夫链的分布 $\pi$ 为稳态分布的一个充分不必要条件是，对于转移概率 $p_{ij},i,j\in\Omega$ 中 $\forall i,j\in\Omega$ 都有

π (i) p i j = π (j) p j i

$\pi(i)p_{ij}=\pi(j)p_{ji}$
这就称为细致平稳条件(detailed balanced condition)

对于马尔科夫链，存在唯一的一个稳态分布。这就是在有限状态空间 $\Omega$ 中，马尔科夫链不可约的案例。不可约的意思就是任何一个状态都能通过其它状态的有限次转移得到，公式表示就是， $\forall i,j\in\Omega\quad\exists k >0$ 都有 $Pr(X^{(k)}=j|X^{(0)}=i)>0$

如果链上所有的状态都是无规律发生的，就称为非周期性。公式表示就是，对于 $\forall i\in \Omega$ ，集合 $k\in N_0|Pr(X^{(k)}=i|X^{(0)}=i)>0$ 的所有元素的最大公约数是1。在有限状态空间中的，不可约，非周期性的马尔科夫链能够保证收敛到一个稳态分布。假设有限状态空间中有两个分布 $\alpha$ 和 $\beta$ ，变量距离可以被定义为

d V (α, β) = 1 2 | α - β | = 1 2 \sum x \in Ω | α (x) - β (x) |

$d_V(\alpha,\beta)=\frac{1}{2}|\alpha-\beta|=\frac{1}{2}\sum_{x\in\Omega}|\alpha(x)-\beta(x)|$
为了方便标记，我们让行和列的概率向量作为上式的函数自变量，这样我们就有如下定理

假设 $\pi$ 是有限状态空间中的，不可约非周期的马尔科夫链的稳态分布，转移概率矩阵为 $\mathbf{P}$ ,对于任意的初始分布 $\mu$ 都有

$> lim k \to \infty d V (μ T P k, π T) = 0 >$ $> \lim_{k\to\infty}d_V(\mu^TP^k,\pi^T)=0 >$

马尔科夫链蒙特卡洛方法，利用收敛定律，通过建立一个收敛到期望分布的马尔科夫链，然后从概率分布中生成样本。假设你想从具有有限状态空间的分布q中进行采样，随后就应该建立一个不可约、非周期的马尔科夫链，而且它的稳态分布 $\pi=q$ 。这是一个非平凡问题(non-trivial task)。如果k足够大，那么从马尔科夫链中重构 $X^{(k)}$ 的状态 $x^{(k)}$ ,就会逼近与 $\pi$ 中的一个样本,也是 $q$ 中的。吉布斯采样就是这样一种马尔科夫链蒙特卡洛MCMC方法。

吉布斯采样

吉布斯采样是一种简单的MCMC方法，从多元随机变量的联合概率分布中产生样本。最基本的想法就是，依据条件分布更新每一个变量，而条件分布的条件就是给定除此变量以外的其它变量的状态，如此构造一个马尔科夫链。随后我们将描述，如何从一个马尔科夫随机场MRF的吉布斯分布中，利用吉布斯采样生成(近似)样本。

我们假设一个马尔科夫随机场为 $X=(X_1,\cdots,X_N)$ ，即一个无向图模型 $G=(V,E)$ ，其中 $V=\{1,\cdots,N\}$ 是为了做更清楚的标记。随机变量 $X_i,i\in V$ 在有限集 $\Lambda$ 中取值，并且 $\pi(x)=\frac{1}{Z}e^{-\varepsilon (x)}$ 是 $X$ 的联合概率分布。此外，如果我们假设马尔科夫随机场随着时间改变状态，就可以将 $X=\{X^{(k)}|k\in N_0\}$ 当做从 $\Omega=\Lambda^N$ 中取值的马尔科夫链。那么 $X^{(k)}=(X_1^{(k)},\cdots,X_N^{(k)})$ 就描述了一个马尔科夫随机场在时刻 $k\geq0$ 的状态。在接下来的两个后继时间节点中，链上新状态的产生都需要经过以下步骤

从概率 $q(i)$ 中随机挑选一个变量 $X_i,i\in V$ ，这里的概率 $q(i)$ 是由V中的严格为正的概率分布 $q$ 给出的。
$X^{(i)}$ 的新状态就是给定其它所有变量 $(X_v)_{v\in V\backslash i}$ 的状态 $(x_v)_{v\backslash i}$ ，然后基于其条件概率分布采样得到的。依据条件随机场的局部马尔卡夫特性有 $\pi(x_i|(x_v)_v\in V\backslash i)=\pi(x_i|(x_w)_{w\in\aleph_i} )$ 。马尔科夫随机场的两个状态 $x,y,x\neq y$ 的转移概率 $p_{xy}$ 是

$p x y = {q (i) π (y i | (x v) v \in V ∖ i), 0, i f \exists i \in V s o t h a t \forall v \in V w i t h v \neq i : x v = y v) e l s e$ $p_{xy}=\begin{cases}\begin{aligned}q(i)\pi(y_i|(x_v)_{v\in V\backslash i}),\quad&if \ \exists i\in V so\ that\ \forall v\in Vwith \ v\neq i:x_v=y_v)\\0,\quad &else\end{aligned}\end{cases}$
马尔科夫随机场 $x$ 的状态保持一致的概率，即 $p_{xx}=\sum_{i\in V}q(i)\pi(x_i|(x_v)_{v\in V\backslash i})$

吉布斯链的收敛：为了证明由这些转移概率定义的马尔科夫链(因而被称作吉布斯连)，收敛到马尔科夫随机场的联合分布 $\pi$ ，我们需要证明 $\pi$ 是吉布斯链的稳态分布，而且这个链是不可约非周期的。

从细致平稳条件中，很容易发现 $\pi$ 是稳态分布：如果 $x$ 和 $y$ 在多个随机变量数值上有差异，就遵循一个事实 $p_{xy}=P_{yx}=0$ 。假设 $x$ 和 $y$ 仅仅在一个确定的变量 $X_i$ 上的状态不同，比如当 $j\neq i$ 的时候 $y_j=x_j$ 且 $y_i\neq x_i$ ,那么

π (x) p x y = π (x) q (i) π (y i | (x v) v \in V ∖ i) = π (x i, (x v) v \in V ∖ i) q (i) π ( y i , ( x v ) v \in V ∖ i ) π ( ( x v ) v \in V ∖ i ) = π (y i, (x v) v \in V ∖ i) q (i) π ( x i , ( x v ) v \in V ∖ i ) π ( ( x v ) v \in V ∖ i ) = π (y) q (i) π (x i | (x v) v \in V ∖ i) = π (y) p y x

$\begin{aligned} \pi(x)p_{xy}&=\pi(x)q(i)\pi(y_i|(x_v)_{v\in V\backslash i})\\ &=\pi(x_i,(x_v)_{v\in V\backslash i})q(i)\frac{\pi(y_i,(x_v)_{v\in V\backslash i})}{\pi((x_v)_{v\in V\backslash i})}\\ &=\pi(y_i,(x_v)_{v\in V\backslash i})q(i)\frac{\pi(x_i,(x_v)_{v\in V\backslash i})}{\pi((x_v)_{v\in V\backslash i})}\\ &=\pi(y)q(i)\pi(x_i|(x_v)_{v\in V\backslash i})\\ &=\pi(y)p_{yx} \end{aligned}$
这样就满足了细致平稳条件，而且

π $\pi$ 就是平稳分布。

因为 $\pi$ 是严格为正的，因而是单一变量的条件概率分布。这就意味着，每个单一变量 $X_i$ 在一个单一的转移步骤中，可以取每一个状态 $x_i\in \Lambda$ ，而且整个马尔科夫随机场中的每个状态都能经过有限步骤转移到 $\Lambda^N$ 的任何其它状态。因此马尔科夫链就是不可约的。此外，对于所有的 $x\in \Lambda^N$ ，因为它还服从正的条件分布 $p_{xx}>0$ ，，所以这个马尔科夫链也是非周期的。不可约和非周期性就保证了链能够收敛到稳态分布 $\pi$

实际中，单个随机变量不是基于分布 $q$ 随机选择更新的，而是有一个固定的预定义顺序。对应的算法经常依赖于周期吉布斯采样器periodic Gibbs sampler。如果 $\mathbf{P}$ 是吉布斯链的转移矩阵，周期吉布斯采样器到马尔科夫随机场的稳态分布的收敛率，其界限可以使用下列不等式定义：