1. 原理
后验概率:
1.最小错误率决策(最大后验概率决策):
2.最小风险决策:
3.正态分布下的贝叶斯决策
2. 过程
2.1 训练集数据可视化
导入两类训练集数据,并绘制其数据分布,如下:
图1 训练集数据分布
2.2 求取训练集的平均值以及协方差
通过内置mean函数求平均值,cov函数求协方差并设定两类样本先验概率均为0.5
均值及协方差值如下:
图2 均值及协方差
2.3 测试集数据可视化
导入测试集数据并通过find函数分别找出两类数据对应的位置进行绘图
结果如下:
图3 测试集分布
2.4 建立判别函数并通过判别函数对测试集分类
通过以上代码可以将依次将测试集中的样本特征值代入判别函数的公式中进行计算,值大于0的则分为第二类样本(女性)否则为第一类样本(男性),最后将分类结果绘制出结果如下:
图4 测试集分类结果
通过上图可以看出分类结果中有一个样本点出错了
2.5 探究先验概率对错误率的影响
由于以上实验在两类样本先验概率均为0.5的情况下仍然出现了一点错误,于是接下来开始改变先验概率进一步探究它对本实验中分类的情况的影响
将第一类样本先验概率pw1设置为从0到1步长为0.1开始变化,第二类样本先验概率pw2=1-pw1,记录不同pw1下的错误率并绘图,结果如下:
图5 先验概率与错误率间的大致关系
从上图可以发现要想错误率能够达到0,则第一类样本先验概率的值大概要在0.4左右,而在0.4的两边错误率会有增加的趋势,而由于测试集第一类样本个数多于第二类样本个数,于是最大错误率的情况为pw1=0,及所有样本均被判为第二类。
查看pw1=0.4时的分类结果如下:
图6 pw1=0.4的分类结果
分类全部正确。
2.6 通过最小风险的贝叶斯决策进行分类
上述实验使用的是最小错误率贝叶斯决策,以先验概率作为主导,接下来引入损失函数如下:
图7 损失函数
将最小错误率实验中的判别函数改写为最小风险的形式,令先验概率相同
由此时的决策表所对应的分类结果如下:
图8 分类结果1
可以看出其中有一些属于女性样本的数据被错误分类到男性样本中。
接下来改变损失值多次实验,结果如下:
图9 L11=L22=0,L12=3,L21=1
图10 L11=L22=0,L12=1,L21=1
此时可以看出分类结果与图4一致
3. 结果与分析
本文的核心内容时建立最小错误率与最小风险决策分类器中的判别函数。实验中需要建立的是正态分布模式的贝叶斯决策,通过计算出样本的均值和协方差并且代入判别函数从而进行判断。从图4到图6的结果以及公式中可以看出最小错误率的贝叶斯决策中先验概率起很大的作用,所以先验概率起主导作用。而在后续通过最小风险的贝叶斯决策中也可以明显看出损失函数值的改变对结果有较大影响,例如通过分析图8中的结果对应的损失函数值可以得知L21值较大,即实际为男性却判别成了女性所需要的代价较大,由此分类器在做决策时对于两类样本边缘的数据更趋向于决策为男性以此达到最小风险。通过观察图10的结果以及公式可以得知,0-1损失的最小风险决策等价于最小错误率决策。