特征选择方法

概述

  • 特征选择在模式识别领域中扮演着一个极其重要的角色。

    • 一方面,在样本有限的情况下,用大量特征来设计分类器无论是从计算开销还是从分类器性能来看都不合时宜;

    • 另一方面,特征和分类器性能之间并不存在线性关系,当特征数量超过一定限度时,会导致分类器性能变坏。

      因此,进行正确有效的特征选择成为模式识别中必须要解决的问题,在海量数据条件下尤为重要。

  • 特征获取过程

    • 经典特征选择定义为从N个特征集中选出M个特征的子集,并满足条件M<=N。它包括特征提取和特征选择两方面。

      • 特征提取广义上指的是一种变换,将处于高维空间的样本通过映射或变换的方式转换到低维空间,达到降维的目的

      • 特征选择指从一组特征中去除冗余或不相关的特征来降维。

  • 特征获取定义的角度

    • 必要的,足以识别目标的最小尺寸特征集;

    • 分布精度(需要不显著降低分类精度);

    • 类分布(结果类分布与原始数据类分布相似);

    • 特征子集的稳定性、适应性。

  • 特征获取要解决的两个问题

    • 确定特征选择算法;

    • 确定评价标准:衡量特征组合是否最优,得到特征获取操作的停止条件。

      不同的分类器使用的特征组合和数目是不同的,即便一个分类器获得最优结果的特征子集,不一定适用于其他分类器。

特征获取方法分类

按照特征子集形成方式分类

  • 按照特征子集的形成方式,特征获取方法可分为穷举法(Exhaustion)、启发法(Heuristic)和随机法(Random)三类。

特征选择分类

  • 穷举法指遍历特征空间中所有特征的组合,选取最优特征组合子集的方法。

    • 假设特征个数为N时,计算复杂度为O(2^N)。常用的方法有回溯方法及其变体等。

    • 优点:一定能得到最优子集

    • 缺点:实际情况下由于特征空间过于庞大,时间耗费和计算复杂度太大,导致实用性不强。

  • 启发式方法为一种近似算法,具有很强的主观倾向。

    • 实际应用中通过采用期望的人工机器调度规则,重复迭代产生递增的特征子集。特征个数为N时,复杂度一般小于或者等于O(N^2)。

    • 优点:这种方法实现过程比较简单而且快速,在实际中应用非常广泛,如向前(向后)选择、决策树法、Relief方法及其变体等。

    • 缺点:不能保证结果最优,一般能够获得近似于最优解的解。

  • 随机方法是一种相对较新的方法,细分为完全随机方法和概率随机方法两种。

    • 完全随机方法是指“纯”随机产生子集,概率随机是指子集的产生依照给定的概率进行。虽然计算复杂度仍为O(2^N),但通过设置最大迭代次数可以限制复杂度小于O(2^N)。常用的方法有LVF(Las VegasFilter,简称LVF)、遗传算法、模拟退火算法及其变体等。

    • 缺点:这类方法需要进行参数设置,并且参数值决定是否能得到最优解。如何有效地设置这些参数是一个值得研究的问题。

总的说来,上述三类中只有穷举法能保证最优,但耗时并且计算复杂度很高,后两者以性能为代价换取简单、快速的实现,但不能保证最优。实际应用中为了折衷性能和代价之间的矛盾,常结合几种方法,如文献[18]中采用三步法:首先使用Relief算法去除无关的特征,其次采用k均值法去除冗余特征,然后进行标准的组合特征方法,取得了较好的效果。这也是进一步研究的方向。

根据评价函数与分类器的关系分类:

  • 筛选器(也叫过滤式):评价函数与分类器无关。

    • 常用到的有能产生强有效性特征的Relief-F算法和Mitra提出的一种基于最大信息压缩指标的算法。其中。Mitra算法能很好的去除冗余特征但可能会选择无效特征。

    • 特点:具有计算代价小,效率高等特点;

  • 封装器(也叫封装式):采用分类器的错误概率作为评价函数。

    • 特点:与过滤式特征选择算法相比,准确率高,但计算代价大,算法效率较低。

按照特征评价标准分类

  • 距离测度:利用距离来度量样本之间相似度的一种方式。

    • 分布于不同区域的样本,样本之间距离越小越相似,样本之间距离越大,其可分性就越大。最为常用的一些重要距离测度有欧氏距离、S阶Minkowski测度、Chebychev距离、平方距离、非线性测量等,其中欧氏距离可以看作是2阶Minkowski距离。

    • 优点:直接从样本间的距离计算获取的距离判据计算方便,直观概念清楚。

    • 缺点:没有考虑各类的概率分布,不能确切表明各类交叠的情况。

      概率距离测度作为一种扩展被提出。常用的概率距离测度有Bhattacharyya距离、散度、Chernoff概率距离以及Mahalanobis距离等。

  • 信息测度:信息测度是为了衡量后验概率分布的集中程度所规定的一个定量指标。从特征获取的角度来看,利用具有最小不确定性的那些特征来分类是最有利的,因此引入信息领域中作为不确定性量度的熵函数作为评价测度。常用的熵函数有Shannon熵、Renyi熵和条件熵等。

  • 相关性测度:相关性测度包括两个方面的内容,既可以利用相关系数,找出特征和类之间存在的相互关系;又可以利用特征之间的依赖关系,来表示特征的冗余性

  • 一致性测度:发展较晚,它和训练数据集关系密切,并且需要设定参数,最后得到的结果为满足给定参数的最小尺寸特征子集。可利用不一致率作为阈值来进行特征选择。

  • 分类器的错误概率

评价函数性能指标

确定合适的特征获取方法应该遵循的原则

  • 处理数据类型的能力

    • 判断是否支持离散数据、连续数据或布尔类型数据。各种特征选择方法有其处理数据类型的范围,如分枝定界法不支持布尔类型,Koller-Sahami’s[4]不支持连续类型等。
  • 处理问题规模的能力

    • 判断是否能够处理两类问题或者多类问题,如Relief[2]不支持多类问题等。一般情况下,可以先将多类问题划分为若干个两类问题,然后利用两类问题的选择方法进行处理来扩展处理能力。
  • 处理样本数量的能力

    • 判断是否能够处理小样本数据集或海量数据。有文献表明,特征选取方法对于特征集的大小有限制,如SFBS不能适应特征个数多于110的特征集[26]。
  • 对噪声的容忍能力

    • 实际问题情况十分复杂,噪声分布各不相同,有强有弱。一般是抗噪性越强,获取特征的性能也就越好。
  • 无噪声情况下,产生稳定的、最优特征子集的能力

    • 所谓最优特征子集的产生能力,除了直接由结果最优来决定外,还需要考虑代价因素。只要在允许的代价下能够获取满足要求的结果,就可以视为最优。

影响特征选择的因素

影响特征选择的因素

参考:

  1. 王娟, 慈林林, 姚康泽. 特征选择方法综述[J]. 计算机工程与科学, 2005, 27(12):68-71.
  2. 特征工程:https://www.zhihu.com/question/28641663
  3. 姚旭, 王晓丹, 张玉玺,等. 特征选择方法综述[J]. 控制与决策, 2012, 27(2)161-166.
  4. Dash M, Liu H. Feature selection for classification[J]. Intelligent Data Analysis, 1997, 1(3):131-156.
  5. Xue B, Zhang M, Browne W N, et al. A Survey on Evolutionary Computation Approaches to Feature Selection[J]. IEEE Transactions on Evolutionary Computation, 2016, 20(4):606-626.
  6. Saeys Y. , Inza I. and Larranãga P. , A review of feature selection techniques in bioinformatics, Bioinformatics 23: (19) (2007 ), 2507–2517.
  7. 特征选择常用算法综述(比较全面):https://www.cnblogs.com/heaad/p/1924088.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/242803.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安装vmtools

安装vmtools Ubuntu 16.04 下安装VMware Tools(三行命令搞定&#xff0c;亲测好使)&#xff1a; 第一行命令&#xff1a;sudo apt-get upgrate 第二行命令&#xff1a;sudo apt-get install open-vm-tools-desktop -y 第三行命令&#xff1a;sudo rebootcd /opt/ 表示进入到op…

空间谱专题02:波束形成(Beamforming)

作者&#xff1a;桂。 时间&#xff1a;2017-08-22 10:56:45 链接&#xff1a;http://www.cnblogs.com/xingshansi/p/7410846.html 前言 本文主要记录常见的波束形成问题&#xff0c;可以说空间谱估计是波束形成基础上发展而来&#xff0c;在系统论述空间谱之前&#xff0c;有…

常见的矩阵形式

作者&#xff1a;桂。 时间&#xff1a;2017-08-22 12:30:33 链接&#xff1a;http://www.cnblogs.com/xingshansi/p/7411043.html 前言 记录经常用到的矩阵形式。 A-正交矩阵 定义&#xff1a;一实的正方矩阵Q∈Rnxn&#xff0c;称为正交矩阵&#xff0c;若&#xff1a; B-酉…

空间谱专题03:时空特性与采样定理

作者&#xff1a;桂。 时间&#xff1a;2017-08-27 08:07:30 链接&#xff1a;http://www.cnblogs.com/xingshansi/p/7439558.html 一、一阶无模糊特性 可结合时域、空域对偶性一文来理解。 在DOA ambiguity vs. array configuration for subspace-based DF method 一文&…

远程登录到Linux服务器

远程登录到Linux服务器 要求能够Ping通 第一步&#xff1a; 两边就可以互换文件了&#xff01;

采样定理

作者&#xff1a;桂。 时间&#xff1a;2017-08-28 19:09:42 链接&#xff1a;http://www.cnblogs.com/xingshansi/p/7445454.html 原文链接&#xff1a;http://pan.baidu.com/s/1nvFopuD 一、Nyquist采样定理 对于一个频带限制在&#xff08;0&#xff0c;fh&#xff09;的连…

信号分析中一些特征量

时域均值 有效值&#xff08;RMS&#xff0c;对时间的均值&#xff1a;&#xff09; 时域峰值 方差 协方差 短时能量 短时过零率 子频带能量比 频域概要&#xff1a;信号频谱是在频率域对原信号分布情况的描述&#xff0c;能够提供比时域波形更加直观的特征信息。频谱分析是机械…

时域、空域对偶性

厚着脸皮要在同事公众号上写篇文章&#xff0c;尽量浅显、与专业相关&#xff0c;选了这个主题。 一、时域与空域特性 以远场模型&#xff08;平面波&#xff09;为例&#xff0c;假设均匀线阵接收的为窄带信号&#xff0c;假设相邻振元间隔为d&#xff0c;入射角为&#xff1a…

开机重启,用户登录注销

开机重启&#xff0c;用户登录注销 用户管理 查询用户信息 用户组 在Linux下没有消息就是成功了&#xff08;没有消息就是好消息&#xff09;&#xff01; 用户和组相关文件

DCASE挑战赛原始提案文件(详细信息)

本文是根据DCASE2013挑战赛的提案文件&#xff0c;加上个人的理解做了相应的翻译&#xff0c;可能有不对的地方&#xff0c;在之后的会慢慢改善。 背景在过去的十年里&#xff0c;人们对在代码公布和公共评估中提出方法的语音和音频处理社区的兴趣越来越浓厚。公共评估可以作为…

文件目录类

文件目录类 enter表示查看下一行&#xff1b;空格键表示查看下一页

Detection and Classification of Acoustic Scenes and Events(DCASE2013详细介绍)

在DCASE 2013官网上&#xff0c;了解到在本篇文章中&#xff0c;详细描述了DCASE2013挑战赛的结果。下面加上个人的理解做了相应的翻译&#xff0c;可能有不对的地方&#xff0c;在之后的会慢慢改善。 摘要对于智能系统来说&#xff0c;使用音频形态是最好的&#xff0c;重点在…

时间日期类和搜索查找类

时间日期类 搜索查找类

SG仿真常用模块

workspace交互配合gateway in/out&#xff0c;实现信号仿真与workspace的互联。 滤波器可与FDATool同时使用&#xff0c;直接关联FDATool的参数&#xff0c;而不必输入FDATool的滤波器系数。 也可调用Workspace中的变量&#xff0c;假设滤波器系数设计并量化后&#xff0c;为My…

DCASE三次挑战赛概览

资料来源&#xff1a;http://www.cs.tut.fi/sgn/arg/dcase2017/dcase 所有对环境声音分类和检测方面感兴趣或研究工作的研究人员都应邀通过DCASE社区与同行分享想法、问题和意见。 这个研究领域正在迅速发展&#xff0c;在国际信号处理会议&#xff08;如ICASSP或EUSIPCO&#…

常用矩阵运算

作者&#xff1a;桂。 时间&#xff1a;2017-09-09 12:48:45 链接&#xff1a;http://www.cnblogs.com/xingshansi/p/7498175.html 一、复数相乘 可以表示为分块的形式&#xff1a; 二、范数 A-范数基本定义 p 0&#xff0c;0范数&#xff0c;对应非零元素个数&#xff1b; …

文件及目录实际案例

文件及目录实际案例 可以通过命名从jack用户切换到root用户。从低权限用户到高权限用户需要输入用户密码。 su - rootr(读权限)&#xff1a;代表是否能使用ls w(写权限)&#xff1a;代表在目录下创建和删除文件 x(执行权限)&#xff1a;代表可以进入到目录&#xff0c;例如cd

DCASE 2013任务1(声学场景分类)参赛作品相关信息

本文资料来源于DCASE 2013以及上面下载的各个参赛组的技术报告&#xff08;应该就是扩展摘要&#xff09; 参赛者及其作品&#xff1a; 注意&#xff1a;图中的参考文献[46-56]就是对应的参赛者提交作品的技术报告&#xff08;也就是扩展摘要&#xff09;。 &#xff08;1&…