AI目录:sheng的学习笔记-AI目录-CSDN博客
需要额外的知识对应连接:
EM:sheng的学习笔记-AI-EM算法-CSDN博客
贝叶斯: sheng的学习笔记-AI-贝叶斯(Bayesian)分类-CSDN博客
高斯混合模型:sheng的学习笔记-AI-高斯混合模型(GMM)-CSDN博客
什么是生成式方法
生成式方法(generative methods)是直接基于生成式模型的方法。此类方法假设所有数据(无论是否有标记)都是由同一个潜在的模型“生成”的。这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记则可看作模型的缺失参数,通常可基于EM算法进行极大似然估计求解。此类方法的区别主要在于生成式模型的假设,不同的模型假设将产生不同的方法
给定样本x,其真实类别标记为y∈Y,其中Y={1,2,...,N}为所有可能的类别。假设样本由高斯混合模型生成,且每个类别对应一个高斯混合成分。换言之,数据样本是基于如下概率密度生成:
假设类簇与真实的类别按照顺序一一对应,即第i个类簇对应第i个高斯混合成分。与高斯混合聚类类似地,这里的主要任务也是估计出各个高斯混合成分的参数以及混合系数,不同的是:对于有标记样本,不再是可能属于每一个类簇,而是只能属于真实类标对应的特定类簇。
给定有标记样本集Dl={(x1,y1),(x2,y2),...,(xl,yl)}和未标记样本集Du={xl+1,xl+2,...,xl+u},l≪u,l+u=m.假设所有样本独立同分布,且都是由同一个高斯混合模型生成的。用极大似然法来估计高斯混合模型的参数的对数似然是
公式由两项组成:基于有标记数据Dl的有监督项和基于未标记数据Du的无监督项。显然,高斯混合模型参数估计可用EM算法求解,迭代更新式如下:
以上过程不断迭代直至收敛
对于待预测样本x,便可以像贝叶斯分类器那样计算出样本属于每个类簇的后验概率,接着找出概率最大的即可
将上述过程中的高斯混合模型换成混合专家模型、朴素贝叶斯模型 等即可推导出其他的生成式半监督学习方法。此类方法简单,易于实现,在有标记数据极少的情形下往往比其他方法性能更好。然而,此类方法有一个关键:模型假设必须准确,即假设的生成式模型必须与真实数据分布吻合;否则利用未标记数据反倒会降低泛化性能。遗憾的是,在现实任务中往往很难事先做出准确的模型假设,除非拥有充分可靠的领域知识
参考文章:14 半监督学习 - 14.1 生成式方法 - 《周志华《机器学习》学习笔记》 - 书栈网 · BookStack
书:机器学习