前 言
聚类是人类认识未知世界的一种重要的认知手段。在生产和生活中,人们往往面对非常复杂的事和物,如果能够把相似的东西归为一类,有明显区别的事物分属在不同的类别中,处理起来就大为简便。所谓“物以类聚,人以群分”,说的就是这个道理。譬如人们将生物分为动物和植物,又根据不同的生理特点将生物分为不同的门、纲、目、科、属、种在化学理论中,人们根据不同的化学性质将各种元素划分为不同的类别,比如卤族元素、惰性气体等等,进而总结出元素周期率在社会学中,人们还根据不同的信仰划分出不同的党派、宗教等。
在原始的分类学中,人们的分类依据是经验和专业知识来进行定性分析,很少使用数学工具。随着人类对自然和社会的认识不断深入,要处理的数据量规模越来越大,相互关系也越来越复杂,分类越来越细,对分类的要求也越来越高,这时仅仅依靠定性分析就不能满足要求,于是数学这个得力工具被引入,形成了数值分类学,对分析对象进行定量的研究。由于数值分类学中的方法不仅能够用于分类,还能用于其他领域,于是人们觉得使用“聚类分析”这个名称更为恰当。
聚类分析的应用相当广泛。在商务上,聚类能帮助市场分析人员从消费者信息库中发现不同的消费群体,并且用购买模式'来刻画不同的消费群体的特征。在生物学上,聚类可以被用来辅助研究动植物的分类,可以用来分类具有相似功能的基因,还可以用来发现人群中的一些潜在的结构。聚类分析也可以用于在泥土观测数据库中对相似地区的区分,也可以根据房子的类型、价值和地域对一个城市中的房屋进行分类。聚类还可以用来从空间数据库中识别出具有相似特征的空间对象可以从保险公司的数据库中发现汽车保险中具有较高索赔概率的群体还可以用来分类万维网上不同类型的文档,或分析日志以发现特殊的访问模式等。
在实际应用聚类分析中,我们根据有无领域知识参与将整个过程分解为三个环节,每个步骤都有其明确的任务,这样对于整个聚类分析的过程就会有更清晰的认识。数据聚类分析是一个正在蓬勃发展的领域。聚类分析所涉及的领域包括数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等。由于各应用数据库所包含的数据量越来越大,聚类分析己成为数据挖掘研究中一个非常活跃的研究课题。正因为如此,聚类分析是一种观察式学习法,而不是示例式学习法田卫。在概念聚类方法中,仅当一组对象可以由一个概念所描述时,这些对象方才能构成一个类。这与基于几何距离表示相似程度并进行聚类的传统聚类方法有所不同。
图1 文本聚类的基本过程
本章根据聚类的全过程如图1所示,对文本分类的如下过程进行一一阐述
第一步是特征抽取。它的输入是原始样本,由领域专家决定使用哪些特征来深刻地刻画样本的本质性质和结构。特征抽取的结果是输出一个矩阵,每一行是一个样本,每一列是一个特征指标变量。选取特征的优劣将直接影响以后的分析和决策。如果第一步就选择了和聚类意图根本无关的特征变量,企图得到良好的聚类结果则无异于缘木求鱼。因为无论后续步骤采用多么优良的聚类算法和闭值选择方案,都不可能计算出执行者的意图。合理的特征选取方案应当使得同类样本在特征空间中相距较近,异类样本则相距较远。在有些应用场合还需要将得到的样本矩阵进行一些后处理工作。比如为了统一量纲就对变量进行标准化处理,这样采用不同量纲的变量才具有可比性在有些场合可能选择的特征变量太多,不利于以后的分析和决策,这时可以先进行一下降维处理仅凭经验和领域知识选择的特征变量有可能是相关的,进行主成分分析就可以消除变量间的相关性,从而得到一些相互独立的特征变量。
第二步是执行聚类算法,获得聚类谱系图。聚类的输入是一个样本矩阵,它把一个样本想象成特征变量空间中的一个点。聚类算法的目的就是获得能够反映维空间中这些样本点之间的最本质的“抱团”性质。这一步没有领域专家的参与,它除了几何知识外不考虑任何的领域知识,不考虑特征变量在其领域中的特定含义,仅仅认为它是特征空间中一维而己。聚类算法的输出一般是一个聚类谱系图,由粗到细地反映了所有的分类情况或者直接给出具体的分类方案,包括总共分成几类,每类具体包含那些样本点等等。
第三步是选取合适的分类阂值。在得到了聚类谱系图之后,领域专家凭借经验和领域知识,根据具体的应用场合,决定闭值的选取。选定闭值之后,就能够从聚类谱系图上直接看出分类方案。没有领域专家的参与,不考虑具体的应用背景,而仅仅依赖于从聚类谱系图出发寻找聚类指数突变点,或者求最小生成树的长边等等,往往不会得到满意的结果。领域专家还可以对聚类结果结合领域知识进行进一步的分析,从而加深样本点和特征变量的认识。
总之,实际应用聚类分析是一个需要多方参与的过程,它无法脱离领域专家的参与,聚类算法仅仅是整个聚类流程中的一环而已,光依靠聚类算法专家一般不会得到满意的效果。关于聚类算法,我们将在下一章中重点讨论几种常用的聚类分析算法。
《来源于科技文献,经本人分析整理,以技术会友,广交天下朋友》