概述

特征选择在模式识别领域中扮演着一个极其重要的角色。
- 一方面，在样本有限的情况下，用大量特征来设计分类器无论是从计算开销还是从分类器性能来看都不合时宜；
- 另一方面，特征和分类器性能之间并不存在线性关系，当特征数量超过一定限度时，会导致分类器性能变坏。
  
  因此，进行正确有效的特征选择成为模式识别中必须要解决的问题，在海量数据条件下尤为重要。
特征获取过程
- 经典特征选择定义为从N个特征集中选出M个特征的子集，并满足条件M<=N。它包括特征提取和特征选择两方面。
  - 特征提取广义上指的是一种变换，将处于高维空间的样本通过映射或变换的方式转换到低维空间，达到降维的目的
  - 特征选择指从一组特征中去除冗余或不相关的特征来降维。
特征获取定义的角度
- 必要的，足以识别目标的最小尺寸特征集；
- 分布精度（需要不显著降低分类精度）；
- 类分布（结果类分布与原始数据类分布相似）；
- 特征子集的稳定性、适应性。
特征获取要解决的两个问题
- 确定特征选择算法；
- 确定评价标准：衡量特征组合是否最优，得到特征获取操作的停止条件。
  
  不同的分类器使用的特征组合和数目是不同的，即便一个分类器获得最优结果的特征子集，不一定适用于其他分类器。

特征获取方法分类

按照特征子集形成方式分类

按照特征子集的形成方式，特征获取方法可分为穷举法(Exhaustion)、启发法(Heuristic)和随机法(Random)三类。

特征选择分类

穷举法指遍历特征空间中所有特征的组合，选取最优特征组合子集的方法。
- 假设特征个数为N时，计算复杂度为O(2^N)。常用的方法有回溯方法及其变体等。
- 优点：一定能得到最优子集
- 缺点：实际情况下由于特征空间过于庞大，时间耗费和计算复杂度太大，导致实用性不强。
启发式方法为一种近似算法，具有很强的主观倾向。
- 实际应用中通过采用期望的人工机器调度规则，重复迭代产生递增的特征子集。特征个数为N时，复杂度一般小于或者等于O(N^2)。
- 优点：这种方法实现过程比较简单而且快速，在实际中应用非常广泛，如向前(向后)选择、决策树法、Relief方法及其变体等。
- 缺点：不能保证结果最优，一般能够获得近似于最优解的解。
随机方法是一种相对较新的方法，细分为完全随机方法和概率随机方法两种。
- 完全随机方法是指“纯”随机产生子集，概率随机是指子集的产生依照给定的概率进行。虽然计算复杂度仍为O(2^N)，但通过设置最大迭代次数可以限制复杂度小于O(2^N)。常用的方法有LVF(Las VegasFilter，简称LVF)、遗传算法、模拟退火算法及其变体等。
- 缺点：这类方法需要进行参数设置，并且参数值决定是否能得到最优解。如何有效地设置这些参数是一个值得研究的问题。

总的说来，上述三类中只有穷举法能保证最优，但耗时并且计算复杂度很高，后两者以性能为代价换取简单、快速的实现，但不能保证最优。实际应用中为了折衷性能和代价之间的矛盾，常结合几种方法，如文献[18]中采用三步法:首先使用Relief算法去除无关的特征，其次采用k均值法去除冗余特征，然后进行标准的组合特征方法，取得了较好的效果。这也是进一步研究的方向。

根据评价函数与分类器的关系分类：

筛选器（也叫过滤式）：评价函数与分类器无关。
- 常用到的有能产生强有效性特征的Relief-F算法和Mitra提出的一种基于最大信息压缩指标的算法。其中。Mitra算法能很好的去除冗余特征但可能会选择无效特征。
- 特点：具有计算代价小,效率高等特点；
封装器（也叫封装式）：采用分类器的错误概率作为评价函数。
- 特点：与过滤式特征选择算法相比，准确率高，但计算代价大，算法效率较低。

按照特征评价标准分类

距离测度：利用距离来度量样本之间相似度的一种方式。
- 分布于不同区域的样本，样本之间距离越小越相似，样本之间距离越大，其可分性就越大。最为常用的一些重要距离测度有欧氏距离、S阶Minkowski测度、Chebychev距离、平方距离、非线性测量等，其中欧氏距离可以看作是2阶Minkowski距离。
- 优点：直接从样本间的距离计算获取的距离判据计算方便，直观概念清楚。
- 缺点：没有考虑各类的概率分布，不能确切表明各类交叠的情况。
  
  概率距离测度作为一种扩展被提出。常用的概率距离测度有Bhattacharyya距离、散度、Chernoff概率距离以及Mahalanobis距离等。
信息测度：信息测度是为了衡量后验概率分布的集中程度所规定的一个定量指标。从特征获取的角度来看，利用具有最小不确定性的那些特征来分类是最有利的，因此引入信息领域中作为不确定性量度的熵函数作为评价测度。常用的熵函数有Shannon熵、Renyi熵和条件熵等。
相关性测度：相关性测度包括两个方面的内容，既可以利用相关系数，找出特征和类之间存在的相互关系;又可以利用特征之间的依赖关系，来表示特征的冗余性
一致性测度：发展较晚，它和训练数据集关系密切，并且需要设定参数，最后得到的结果为满足给定参数的最小尺寸特征子集。可利用不一致率作为阈值来进行特征选择。
分类器的错误概率

评价函数性能指标

确定合适的特征获取方法应该遵循的原则

处理数据类型的能力。
- 判断是否支持离散数据、连续数据或布尔类型数据。各种特征选择方法有其处理数据类型的范围，如分枝定界法不支持布尔类型，Koller-Sahami’s[4]不支持连续类型等。
处理问题规模的能力。
- 判断是否能够处理两类问题或者多类问题，如Relief[2]不支持多类问题等。一般情况下，可以先将多类问题划分为若干个两类问题，然后利用两类问题的选择方法进行处理来扩展处理能力。
处理样本数量的能力。
- 判断是否能够处理小样本数据集或海量数据。有文献表明，特征选取方法对于特征集的大小有限制，如SFBS不能适应特征个数多于110的特征集[26]。
对噪声的容忍能力。
- 实际问题情况十分复杂，噪声分布各不相同，有强有弱。一般是抗噪性越强，获取特征的性能也就越好。
无噪声情况下，产生稳定的、最优特征子集的能力。
- 所谓最优特征子集的产生能力，除了直接由结果最优来决定外，还需要考虑代价因素。只要在允许的代价下能够获取满足要求的结果，就可以视为最优。

影响特征选择的因素

参考：

王娟, 慈林林, 姚康泽. 特征选择方法综述[J]. 计算机工程与科学, 2005, 27(12):68-71.
特征工程：https://www.zhihu.com/question/28641663
姚旭, 王晓丹, 张玉玺,等. 特征选择方法综述[J]. 控制与决策, 2012, 27(2)161-166.
Dash M, Liu H. Feature selection for classification[J]. Intelligent Data Analysis, 1997, 1(3):131-156.
Xue B, Zhang M, Browne W N, et al. A Survey on Evolutionary Computation Approaches to Feature Selection[J]. IEEE Transactions on Evolutionary Computation, 2016, 20(4):606-626.
Saeys Y. , Inza I. and Larranãga P. , A review of feature selection techniques in bioinformatics, Bioinformatics 23: (19) (2007 ), 2507–2517.
特征选择常用算法综述（比较全面）：https://www.cnblogs.com/heaad/p/1924088.html