模式识别(pattern recognition):输入原始数据并根据其类别采取相应行为的能力。
具体实例:人脸识别、语音识别、文字识别、指纹识别、DNA序列分析。
要区分不同类别的个体,需要利用其一些物理特性上的差异,成为模式分类的特征。仔细选择特征十分必要。
如果要区分的类别缺失存在某种差异,我们称之为具有不同的模型(model)–即可以用数学形式描述特征。获得一个好的模式表达,是几乎所有的模式识别系统的一个中心任务。在一些情况下,模式常被表达为实数向量的形式,而另外的情况,可能以有序的属性列表方式来表达。如何构造或学习一个恰当的表达,以及如何定量刻画“接近”和“远离”的能力(能够产生同样行为的模式样本之间的距离尽可能接近,而将导致不同行为的模式样本之间距离尽量远离)将决定一个分类器的成败。我们十分倾向于运用比较少的特征,因为这会导致(a)更简单的分类区域,(b)更易训练的分类器。此外特征还应对噪声或其他干扰不敏感。在实际应用中,我们希望分类器能够快速响应,只需很少的电子部件、内存容量或处理步骤。
有时候单一的特征不足以完美分类,需要引入特征向量x,其中x处于d维欧几里得空间Rd,称为特征空间。除此之外,还有类别集,行为集,风险函数(描述类别状态为w时采取行动a的风险)。
模式分类作为决策理论最重要的子领域,其中心任务是使分类的“总体代价”函数最小。
模式识别系统需要嵌入特定问题领域的背景知识。
模式识别系统
3种基本操作:预处理、特征提取、分类。其模块图如下:
设计模式识别系统包含如下一个设计循环: