本文主要针对初次接触GMM的人,简单的给出了一些自己初识的一些理解,比较浅显。
引言
初次真正意义上接触高斯混合模型(Gaussian Mixed Model,GMM),是因为要用它来进行音频分类,以音频信号特征为输入,通过GMM来建模,完成最终的分类。
有一个说法是GMM是多个高斯分布函数的线性组合。理论上GMM可以拟合出任意类型的分布,我们知道在实际生活中,很少有数据严格遵循高斯分布的,而对于同一个集合下的数据,可能存在多种不同的分布,可以通过采用不同的高斯分布函数来模拟各个分布,最后将这些高斯模型线性组合起来,最终建立整个数据的模型,称这个模型为GMM。具体文章最后参考资料1中的论述,讲得很清晰形象。
高斯混合模型简介
高斯模型
单个高斯分布模型(或称正态分布模型,GSM)反映了自然界普遍存在的有关变量的一种统计规律,例如身高,考试成绩等;而且有很好的数学性质,具有各阶导数,变量频数分布由 μ、σ 完全决定等等,在许多领域得到广泛应用。在这里简单介绍下高斯分布的概率密度分布函数:
GMM
GMM是一种是概率模型,在音频处理的语音识别、音频分类等方面具有广泛的应用。GMM的训练模型形式是P(Y|X),输入是X,输出是Y,训练后模型得到的输出是一系列的概率值,对于分类任务输入X对应于各个不同Y(类)的概率,其中概率最大的那个类就是判决结果。
前提:假设样本分布是几个高斯分布的加权和。
参考资料2中,将GMM与K-means算法进行的类比讲述,还详细的列出了与k-means算法的异同点。
GMM的原理与算法步骤
GMM建模使用期望值最大(Expectation Maximization,EM)算法)迭代计算GMM的参数,实现参数估计。
EM算法分两步,第一步先求出要估计参数的粗略值,第二步使用第一步的值最大化似然函数。
EM算法估计GMM参数的大致思想是:
- (1)我们先指定GMM参数a,μ和Ʃ的初始值;
- (2)将当前a,μ和Ʃ代入第n个信号点为第k个分量的后验概率公式中计算出后验概率;
- (3)将(2)中计算结果将代入a,μ和Ʃ的最大似然概率公式中,求得新的a,μ和Ʃ;
重复步骤(2)和(3),直到算法收敛,得到最后的GMM参数a,μ和Ʃ,此时建模完成。
详细推导过程及代码实现:见参考资料4。
应用
针对任务的类型,GMM可用于分类、拟合和聚类。
针对实际的应用背景,GMM可用于图像处理的图像分割、对象识别、视频分析等方面。除此GMM在音频处理的语音识别、音频分类等方面也具有广泛的应用。
参考资料
- 高斯混合模型(GMM)及其EM算法的理解
- 高斯混合模型(GMM)
- 混合高斯模型算法
- 混合高斯模型(GMM)推导及实现
- 高斯混合模型GMM(Gaussian Mixture Model)
- 高斯混合模型GMM
- 混合高斯模型Gaussian Mixture Model(GMM)
- EM算法