特征选择方法

概述

  • 特征选择在模式识别领域中扮演着一个极其重要的角色。

    • 一方面,在样本有限的情况下,用大量特征来设计分类器无论是从计算开销还是从分类器性能来看都不合时宜;

    • 另一方面,特征和分类器性能之间并不存在线性关系,当特征数量超过一定限度时,会导致分类器性能变坏。

      因此,进行正确有效的特征选择成为模式识别中必须要解决的问题,在海量数据条件下尤为重要。

  • 特征获取过程

    • 经典特征选择定义为从N个特征集中选出M个特征的子集,并满足条件M<=N。它包括特征提取和特征选择两方面。

      • 特征提取广义上指的是一种变换,将处于高维空间的样本通过映射或变换的方式转换到低维空间,达到降维的目的

      • 特征选择指从一组特征中去除冗余或不相关的特征来降维。

  • 特征获取定义的角度

    • 必要的,足以识别目标的最小尺寸特征集;

    • 分布精度(需要不显著降低分类精度);

    • 类分布(结果类分布与原始数据类分布相似);

    • 特征子集的稳定性、适应性。

  • 特征获取要解决的两个问题

    • 确定特征选择算法;

    • 确定评价标准:衡量特征组合是否最优,得到特征获取操作的停止条件。

      不同的分类器使用的特征组合和数目是不同的,即便一个分类器获得最优结果的特征子集,不一定适用于其他分类器。

特征获取方法分类

按照特征子集形成方式分类

  • 按照特征子集的形成方式,特征获取方法可分为穷举法(Exhaustion)、启发法(Heuristic)和随机法(Random)三类。

特征选择分类

  • 穷举法指遍历特征空间中所有特征的组合,选取最优特征组合子集的方法。

    • 假设特征个数为N时,计算复杂度为O(2^N)。常用的方法有回溯方法及其变体等。

    • 优点:一定能得到最优子集

    • 缺点:实际情况下由于特征空间过于庞大,时间耗费和计算复杂度太大,导致实用性不强。

  • 启发式方法为一种近似算法,具有很强的主观倾向。

    • 实际应用中通过采用期望的人工机器调度规则,重复迭代产生递增的特征子集。特征个数为N时,复杂度一般小于或者等于O(N^2)。

    • 优点:这种方法实现过程比较简单而且快速,在实际中应用非常广泛,如向前(向后)选择、决策树法、Relief方法及其变体等。

    • 缺点:不能保证结果最优,一般能够获得近似于最优解的解。

  • 随机方法是一种相对较新的方法,细分为完全随机方法和概率随机方法两种。

    • 完全随机方法是指“纯”随机产生子集,概率随机是指子集的产生依照给定的概率进行。虽然计算复杂度仍为O(2^N),但通过设置最大迭代次数可以限制复杂度小于O(2^N)。常用的方法有LVF(Las VegasFilter,简称LVF)、遗传算法、模拟退火算法及其变体等。

    • 缺点:这类方法需要进行参数设置,并且参数值决定是否能得到最优解。如何有效地设置这些参数是一个值得研究的问题。

总的说来,上述三类中只有穷举法能保证最优,但耗时并且计算复杂度很高,后两者以性能为代价换取简单、快速的实现,但不能保证最优。实际应用中为了折衷性能和代价之间的矛盾,常结合几种方法,如文献[18]中采用三步法:首先使用Relief算法去除无关的特征,其次采用k均值法去除冗余特征,然后进行标准的组合特征方法,取得了较好的效果。这也是进一步研究的方向。

根据评价函数与分类器的关系分类:

  • 筛选器(也叫过滤式):评价函数与分类器无关。

    • 常用到的有能产生强有效性特征的Relief-F算法和Mitra提出的一种基于最大信息压缩指标的算法。其中。Mitra算法能很好的去除冗余特征但可能会选择无效特征。

    • 特点:具有计算代价小,效率高等特点;

  • 封装器(也叫封装式):采用分类器的错误概率作为评价函数。

    • 特点:与过滤式特征选择算法相比,准确率高,但计算代价大,算法效率较低。

按照特征评价标准分类

  • 距离测度:利用距离来度量样本之间相似度的一种方式。

    • 分布于不同区域的样本,样本之间距离越小越相似,样本之间距离越大,其可分性就越大。最为常用的一些重要距离测度有欧氏距离、S阶Minkowski测度、Chebychev距离、平方距离、非线性测量等,其中欧氏距离可以看作是2阶Minkowski距离。

    • 优点:直接从样本间的距离计算获取的距离判据计算方便,直观概念清楚。

    • 缺点:没有考虑各类的概率分布,不能确切表明各类交叠的情况。

      概率距离测度作为一种扩展被提出。常用的概率距离测度有Bhattacharyya距离、散度、Chernoff概率距离以及Mahalanobis距离等。

  • 信息测度:信息测度是为了衡量后验概率分布的集中程度所规定的一个定量指标。从特征获取的角度来看,利用具有最小不确定性的那些特征来分类是最有利的,因此引入信息领域中作为不确定性量度的熵函数作为评价测度。常用的熵函数有Shannon熵、Renyi熵和条件熵等。

  • 相关性测度:相关性测度包括两个方面的内容,既可以利用相关系数,找出特征和类之间存在的相互关系;又可以利用特征之间的依赖关系,来表示特征的冗余性

  • 一致性测度:发展较晚,它和训练数据集关系密切,并且需要设定参数,最后得到的结果为满足给定参数的最小尺寸特征子集。可利用不一致率作为阈值来进行特征选择。

  • 分类器的错误概率

评价函数性能指标

确定合适的特征获取方法应该遵循的原则

  • 处理数据类型的能力

    • 判断是否支持离散数据、连续数据或布尔类型数据。各种特征选择方法有其处理数据类型的范围,如分枝定界法不支持布尔类型,Koller-Sahami’s[4]不支持连续类型等。
  • 处理问题规模的能力

    • 判断是否能够处理两类问题或者多类问题,如Relief[2]不支持多类问题等。一般情况下,可以先将多类问题划分为若干个两类问题,然后利用两类问题的选择方法进行处理来扩展处理能力。
  • 处理样本数量的能力

    • 判断是否能够处理小样本数据集或海量数据。有文献表明,特征选取方法对于特征集的大小有限制,如SFBS不能适应特征个数多于110的特征集[26]。
  • 对噪声的容忍能力

    • 实际问题情况十分复杂,噪声分布各不相同,有强有弱。一般是抗噪性越强,获取特征的性能也就越好。
  • 无噪声情况下,产生稳定的、最优特征子集的能力

    • 所谓最优特征子集的产生能力,除了直接由结果最优来决定外,还需要考虑代价因素。只要在允许的代价下能够获取满足要求的结果,就可以视为最优。

影响特征选择的因素

影响特征选择的因素

参考:

  1. 王娟, 慈林林, 姚康泽. 特征选择方法综述[J]. 计算机工程与科学, 2005, 27(12):68-71.
  2. 特征工程:https://www.zhihu.com/question/28641663
  3. 姚旭, 王晓丹, 张玉玺,等. 特征选择方法综述[J]. 控制与决策, 2012, 27(2)161-166.
  4. Dash M, Liu H. Feature selection for classification[J]. Intelligent Data Analysis, 1997, 1(3):131-156.
  5. Xue B, Zhang M, Browne W N, et al. A Survey on Evolutionary Computation Approaches to Feature Selection[J]. IEEE Transactions on Evolutionary Computation, 2016, 20(4):606-626.
  6. Saeys Y. , Inza I. and Larranãga P. , A review of feature selection techniques in bioinformatics, Bioinformatics 23: (19) (2007 ), 2507–2517.
  7. 特征选择常用算法综述(比较全面):https://www.cnblogs.com/heaad/p/1924088.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/242803.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安装vmtools

安装vmtools Ubuntu 16.04 下安装VMware Tools(三行命令搞定&#xff0c;亲测好使)&#xff1a; 第一行命令&#xff1a;sudo apt-get upgrate 第二行命令&#xff1a;sudo apt-get install open-vm-tools-desktop -y 第三行命令&#xff1a;sudo rebootcd /opt/ 表示进入到op…

空间谱专题02:波束形成(Beamforming)

作者&#xff1a;桂。 时间&#xff1a;2017-08-22 10:56:45 链接&#xff1a;http://www.cnblogs.com/xingshansi/p/7410846.html 前言 本文主要记录常见的波束形成问题&#xff0c;可以说空间谱估计是波束形成基础上发展而来&#xff0c;在系统论述空间谱之前&#xff0c;有…

常见的矩阵形式

作者&#xff1a;桂。 时间&#xff1a;2017-08-22 12:30:33 链接&#xff1a;http://www.cnblogs.com/xingshansi/p/7411043.html 前言 记录经常用到的矩阵形式。 A-正交矩阵 定义&#xff1a;一实的正方矩阵Q∈Rnxn&#xff0c;称为正交矩阵&#xff0c;若&#xff1a; B-酉…

网上看的几点人生建议

在博客上看到一篇关于给二十几岁人的人生建议&#xff0c;觉得颇有道理&#xff0c;写一下关于这个感想&#xff0c;提醒现在和以后的你和自己。 人生路上&#xff0c;确实是一切都是未知的&#xff0c;你不知道你下一刻&#xff0c;面临的会是什么&#xff0c;我们无法预知未…

空间谱专题03:时空特性与采样定理

作者&#xff1a;桂。 时间&#xff1a;2017-08-27 08:07:30 链接&#xff1a;http://www.cnblogs.com/xingshansi/p/7439558.html 一、一阶无模糊特性 可结合时域、空域对偶性一文来理解。 在DOA ambiguity vs. array configuration for subspace-based DF method 一文&…

远程登录到Linux服务器

远程登录到Linux服务器 要求能够Ping通 第一步&#xff1a; 两边就可以互换文件了&#xff01;

采样定理

作者&#xff1a;桂。 时间&#xff1a;2017-08-28 19:09:42 链接&#xff1a;http://www.cnblogs.com/xingshansi/p/7445454.html 原文链接&#xff1a;http://pan.baidu.com/s/1nvFopuD 一、Nyquist采样定理 对于一个频带限制在&#xff08;0&#xff0c;fh&#xff09;的连…

信号分析中一些特征量

时域均值 有效值&#xff08;RMS&#xff0c;对时间的均值&#xff1a;&#xff09; 时域峰值 方差 协方差 短时能量 短时过零率 子频带能量比 频域概要&#xff1a;信号频谱是在频率域对原信号分布情况的描述&#xff0c;能够提供比时域波形更加直观的特征信息。频谱分析是机械…

Contains Duplicate II

https://leetcode.com/problems/contains-duplicate-ii/ Given an array of integers and an integer k, find out whether there are two distinct indices i and j in the array such that nums[i] nums[j] and the difference between i and j is at most k. 这道题目源自…

《现代语音信号处理》(胡航著)第1-6章简介

根据《现代语音信号处理》&#xff08;胡航版&#xff09;总大概列出前六章的内容&#xff0c;有些会有一些自己的理解和总结。 第一章 绪论发展史和主要研究内容及发展。第二章 语音信号处理的基础知识&#xff1a;语音信号处理的基础知识 语音的产生过程 语音信号的特性&…

时域、空域对偶性

厚着脸皮要在同事公众号上写篇文章&#xff0c;尽量浅显、与专业相关&#xff0c;选了这个主题。 一、时域与空域特性 以远场模型&#xff08;平面波&#xff09;为例&#xff0c;假设均匀线阵接收的为窄带信号&#xff0c;假设相邻振元间隔为d&#xff0c;入射角为&#xff1a…

开机重启,用户登录注销

开机重启&#xff0c;用户登录注销 用户管理 查询用户信息 用户组 在Linux下没有消息就是成功了&#xff08;没有消息就是好消息&#xff09;&#xff01; 用户和组相关文件

Power of Two

https://leetcode.com/problems/power-of-two/ Given an integer, write a function to determine if it is a power of two. 数字 2^n 是大于0的&#xff0c;而且等于1左移n位得到的数字&#xff0c;所以2^n与2^n-1 相与运算得到0. bool isPowerOfTwo(int n) {if(n < 0)…

DCASE2013挑战赛介绍

简介2013 年起&#xff0c;为了评测现有的环境声音检测方法&#xff0c;电子与电气工程师学会音频和声学信号处理协会(Institute of Electrical and Electronics Engineers Audio and Acoustic Signal Process, IEEE AASP )开始举办声学场景和事件的检测与分类挑战赛(Detection…

DCASE挑战赛原始提案文件(详细信息)

本文是根据DCASE2013挑战赛的提案文件&#xff0c;加上个人的理解做了相应的翻译&#xff0c;可能有不对的地方&#xff0c;在之后的会慢慢改善。 背景在过去的十年里&#xff0c;人们对在代码公布和公共评估中提出方法的语音和音频处理社区的兴趣越来越浓厚。公共评估可以作为…

Number of 1 Bits

https://leetcode.com/problems/number-of-1-bits/ Write a function that takes an unsigned integer and returns the number of ’1’ bits it has (also known as the Hamming weight). For example, the 32-bit integer ’11’ has binary representation 0000000000000…

信号分析方法介绍

从开始的ICA&#xff0c;到稀疏表示&#xff0c;然后2001年发明NMF。 利用矩阵分解来解决实际问题的分析方法很多&#xff0c;如PCA(主成分分析)、ICA(独立成分分析)、SVD(奇异值分解)、VQ(矢量量化)等。在所有这些方法中&#xff0c;原始的大矩阵V被近似分解为低秩的VWH形式。…

文件目录类

文件目录类 enter表示查看下一行&#xff1b;空格键表示查看下一页

Counting Bits

https://leetcode.com/problems/counting-bits/ Given a non negative integer number num. For every numbers i in the range 0 ≤ i ≤ num calculate the number of 1’s in their binary representation and return them as an array. Example: For num 5 you should …