1. 前言

主要参考书籍《深度学习导论及案例分析》、维基百科“贝叶斯网络”、老笨妞的博客、PRML中文翻译，重点还是概念的掌握和几个小理论的推导，比较枯燥。加入了自己的一些简单理解。

个人感觉概率有向图模型最大的意义在于：一个特定的有向图表示将联合概率分布分解为条件概率分布乘积的形式。

2. 概念

2.1 等价概念

概率有向图模型、贝叶斯网络（Bayesian network）、信念网络（belief network）、有向无环图模型（directed acyclic graphical model）

2.2 一般结构

图由节点和边构成。节点一般是指随机变量，可以是观察到的，也可以是因变量或者未知参数等，边就标明了节点之间的条件概率关系，比如~~常说的P(X|Y)就说明在节点X出发有一条有向边连接到节点Y~~。

【更新日志2018-11-14】上述加横线的描述感觉有点反人类，正常是因连到果，即Y连到X，不过我记得是哪本书说是X连到Y，所以可以暂时把上面那句话当做“常说的P(X|Y)就说明在节点Y出发有一条有向边连接到节点X”，以后如果再找到这句话的引用之处会贴出来，咳咳。

“因”与“果”：箭头出发的节点为“因”，被箭头指向的节点为“果”

所有节点的联合概率分布可以表示为：

这里面条件概率中的条件指的是xi节点的因，也就是直接相邻的出发节点。注意中间跨度一个节点再连接到xi的不算。

拿书中的例子来说：

图好大啊，就这样吧，懒。如上图所示的这个贝叶斯网络所有节点的联合概率分布就是

其实写下来简单：①对于节点X1，没有节点连接到它，就单独放；②对于节点X2，只有X1连接到它，那就是第二项；③对于X3，只有X2连到它，那就是第三项；.......；⑥对于X6，有两个直接连接到它的“因”节点，表达出来就是第六项；⑦对于X7,只有X6连到它，那就是最后一项。最后都乘起来就是联合概率了

【注意】这里的“因果”是一个单箭头连接起来的两个节点，对于经过多个节点的多个箭头连接起来的两个节点不是“因果”节点。

2.3 条件局部独立性

概念：任意节点与其非后代节点都条件独立于其父节点。

从三中拓扑结构来证明：

(1)串行连接或链

其联合分布为：

根据“条件局部独立性”可以得出这样一个结论：给定节点k时，节点 j 和其非后代节点 i 关于节点 j 的父节点 k 条件独立。

证明如下：

(2)发散连接

其联合分布为：

根据“条件局部独立性”可以得出这样一个结论：给定节点k时，节点 j 和其非后代节点 i 关于节点 j 的父节点 k 条件独立。

(3)收敛连接（书中图可能错了）

其联合分布为：

根据“条件局部独立性”可以得出这样一个结论：节点 i 和节点 j 是先验独立的

主要是因为

带入联合分布中就得到了

【结论】通过上面三个结构和证明可以得到这样一个结论（个人总结，对错可在评论区指出）

①对于串行连接和发散连接，在观察到中心变量k 时，节点 i 和节点 j 条件独立

②对于收敛连接，在没有观察到中心变量k时，节点 i 和节点 j ，先验独立，但是条件独立不确定。

2.4 d-划分

假设A、B、C是任意无交集的结点的集合，考虑从A中任意结点到B中任意结点所有可能的路径（此路径忽视箭头方向），如果满足下列任何一种条件：

①路径上的箭头从头到尾（串行连接）或者尾到尾（发散连接）的方式交汇于一个结点，且此结点在集合C中

②箭头从头到头（收敛连接）的方式交汇于一点，且这个结点和它所有的后继都不在集合C中

就说所有的路径被“阻隔”，即C把A从B中d-划分。

左图：交汇节点是e和f，对于aec和bfec串行连接，中间节点e没有被观察到，说明不独立。而aef虽然属于收敛连接，且独立，但是e的后继c被观察到了。对于f节点，发散连接，f 没被观察到，不独立。所以从a到b的路径并未被节点f阻隔。

右图：f节点是发散连接且被观察到了，条件独立，因而从a到b的路径被节点f阻隔。对于e节点，收敛连接，未被观察到，独立，且其后继节点c不被观察的变量内，所以路径也被e节点阻隔。

2.5 朴素贝叶斯图结构

朴素贝叶斯(naive Bayes)模型是一种分类方法，可以用图结构表示，使用条件独立性假设来简化模型结构。

假设观测变量是D维的，即

目标：将x的观测值分配到K个类别中的一个。

生成模型定义：引入类别标签上的多项式先验概率分布P(z|μ)，其中μ的第k个元素表示类别Ck的先验概率，再引入观测向量x的条件概率分布P(x|z)。举个例子，给你一堆不同颜色的带有编号的球，每种编号的数目不同，而且在同一种颜色中，可能某个编号占据多数，先验分布P(z|μ)意思就是随便拿一个球，不观察颜色的时候瞎猜，猜对的概率是多少，其实也就是(某个编号的球的个数/球总数)，而观测向量x就是颜色，条件概率分布P(x|z)意思就看了颜色以后，你心里有个谱，知道这个颜色的那个编号多，然后猜对的概率。

关键：朴素贝叶斯的关键假设就是，以类别z为条件，输入变量x的分布是独立的，原因看图。

发散连接，观测到z的时候，每个变量条件独立。但是无法对z求和或积分（意思就是z不是可观测变量了），那么z就不在阻隔x之间了，它们就不条件独立了。这就告诉我们，通常边缘概率密度P(x)是不可以关于x的元素进行分解。意思应该是，只能计算联合概率密度，即P(x1,x2,...,xD)但是无法拆开计算P(x1)、P（x2）....

再举一例：

假设每个类别的概率密度分布为高斯分布，根据朴素贝叶斯的假设，表明每个高斯分布的协方差为对角矩阵(因为各个观测变量独立了)，且每个类别中常数密度的轮廓线是与坐标轴对其的椭球。边缘概率密度由对角高斯叠加组成（权系数由类别先验给出），因此不能对各个分量再进行分解。