基于智能计算的降维技术研究与应用

《基于智能计算的降维技术研究与应用》皋军著(2013)

前言

  • 特征降维的需求

  随着社会信息化的发展,在具体的只能识别过程中需要处理的数据越来越多地呈现出高位特征,比如图像处理、文本分类、视频检索、计算机视觉、微阵列数据基因选择和基于生物特征的身份识别等。造成这种现象的主要原因在于:在智能识别过程中,只有当样本已经包含了足够多的模式分类信息时,才能得到较好的智能识别效果。然而,如何确定特征中是否已经包含了足够多的类别信号本身就是一个很难解决的问题。因此为了提高模式识别的效果,在通常情况下,人们通常采集尽可能多的特征去提现样本的类别信息,这导致原始样本空间的维数可能达到几千维甚至上万维,而如果在如此高维的原始空间直接使用模式识别方法,那么所得到的只能识别效果将受到较大的影响。这是因为在如此高维的特征中存在大量的冗余特征,使得特征之间的相关性较强,从而增加了模式分类算法的负担,降低了算法的效率。同时,由于随着样本特征维数的增加,使得对样本的统计特性更加难以估计,从而会影响分类算法的泛化能力,呈现所谓的过学习的现象

  • 面临的问题和挑战

  目前,特征降维技术作为一种关键的数据预处理技术被广泛加一研究,并在不同的实际应用领域得到了较为成功的应用,但随着新理论和新技术的不断发展,特别是大量新兴的只能识别应用领域的需求,对特征降维技术提出了更高的要求,使得现有的特征降维技术面临了更大的挑战。比如:

  1)如何提高基于支持向量机的特征选择方法的泛化能力和鲁棒性;

  2)如何更好地实现特征提取技术与模糊聚类技术的有机结合,以提高特征降维方法的鲁棒性;

  3)如何提高特征降维方法中的距离度量学习的有效性;

  4)如何将特征降维方法中的关键技术和理论运用到支持向量机中,以提高支持向量机的泛化能力和鲁棒性;

  5)如何结合张量理论提高特征降维的效果;

  6)如何在具有明显不同分布的源域和目标域实现提取技术等。

第一章 绪论

  特征降维的方法在过去的几十年中呗广泛地加一研究,但总体上可以将已有的方法分为两大类,即特征选择(Feature Select)和特征提取(Feature Extraction)。

  • 特征选择技术

    • 定义:特征选择是在原始的特征集中选取最有代表性的特征子集,重新构造一低维的样本空间。显而易见,最直观的特征选择就是枚举法,通过遍历原始特征集,从所有的特征子集中寻找出最有利于只能识别的特征子集,得到全局最优解。从这一层面上来讲,枚举法更适用于低维的原始样本空间,而在处理具有高维特征的数据时,枚举法将消耗大量的时间和空间资源,甚至在可计算状态下并不能获得全局最优。

    • 近几年来,具有时间和空间复杂度低、局部最优解或次优解特点的特征选择方法被大量地提出,比如:

      • 基于支持向量机(SVM)的特征选择方法[2-5]:一般依赖结构风险最小化原理,具有较强的泛化能力。在特征选择问题上较于基于经验风险最小的众多方法具有更好的鲁棒性。

        • 支持向量机的回归特征消除法(the SVM Recurisive Feature Elimination,SVM-RFE),时间复杂度与样本特征数目成正比。

        • 势支持向量机(Potential Support Vector Machine,P-SVM),通过定义新的木匾函数和相应的边界条直接选取支持特征,从而提高特征选择的效率。同时由于定义了新的边界条件,在一定程度上减小了边缘误差的传播。

      • 基于概率密度估计的特征选择方法[6-7]

      • 基于信息论的特征选择方法[8-10]

      • 基于特征加权的特征选择方法[11-13]:通过对每一特征赋予相应的权值来表征不同特征对模式分类的贡献大小。

        • 加权K-均值类型聚类(Weighting in K-Means Type Clustering,W-K——Means),通过无监督的模式分类(聚类)来得到每个特征所对应的权值,并对相应的权值进行排序,使用聚类的有效性来作为特征选择的标准。

        • RELIEF特征选择方法,根据识别相邻模式的区分能力来迭代产生相应特征的权值,算法简单有效。

        • I-RELIEF,依据最大期望原理重新构造迭代目标函数,提出新的迭代RELIEF算法,该方法在一定程度上继承了RELIEF的有点,同时可以实现多类模型分类的特征选择,提高算法的适应性。

        这些特征选择方法根据各自不同的评测标准来实现特征选择,而一般来说基于支持向量机、基于特征加权的特征选择方法相对于其他的方法较为直观和简单。

  • 特征提取技术(也叫特征变换)

    • 定义:对原始特征空间采用采用某种具体的变换映射操作,已获取低维的投影空间。总体山更可分为线性方法和非线性方法。

    • 特征提取方法:

      • 线性方法
        • 基于主成分分析(PCA):无监督方法,以方差大小作为衡量信息量大小来作为衡量信息量多少的标准,实现特征提取。
        • 线性判别分析(LDA):有监督方法,在充分使用一直训练样本类别信息的前提下,通过构造所谓的类内散度和类间散度,并极大化类间散度和类内散度的冠以Rayleigh熵,以得到类间最大,类内最小的特征投影矢量,实现特征提取。该方法物理意义明确、几何意义直观,然而存在小样本问题(处理高维小样本数据时,类内散度矩阵容易发生异变)。
      • 非线性方法

        • 核方法(KPCA、KLDA、LPP)

        • 流形


第二章 广义的势支持特征选择方法

第三章 具有特征排序功能的鲁棒性模糊聚类


第四章基于语境距离测量的拉普拉斯最大间距判决准则

第五章 基于模糊最大散度差判别准则的聚类方法

第六章 具有模糊聚类功能的双向二维监督特征提取方法

第七章 基于局部加权均值的领域适应学习框架


第八章 基于矩阵模式的最小类内散度支持向量机

第九章 基于全局和局部保持的半监督支持向量机

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/242779.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Add Binary

https://leetcode.com/problems/add-binary/ Given two binary strings, return their sum (also a binary string). For example, a “11” b “1” Return “100”. 计算过程类似Verilog的全加器。 char* addBinary(char* a, char* b) {int i;int l1, l2, l3, temp;…

SG仿真常用模块

workspace交互配合gateway in/out,实现信号仿真与workspace的互联。 滤波器可与FDATool同时使用,直接关联FDATool的参数,而不必输入FDATool的滤波器系数。 也可调用Workspace中的变量,假设滤波器系数设计并量化后,为My…

DCASE三次挑战赛概览

资料来源:http://www.cs.tut.fi/sgn/arg/dcase2017/dcase 所有对环境声音分类和检测方面感兴趣或研究工作的研究人员都应邀通过DCASE社区与同行分享想法、问题和意见。 这个研究领域正在迅速发展,在国际信号处理会议(如ICASSP或EUSIPCO&#…

常用矩阵运算

作者:桂。 时间:2017-09-09 12:48:45 链接:http://www.cnblogs.com/xingshansi/p/7498175.html 一、复数相乘 可以表示为分块的形式: 二、范数 A-范数基本定义 p 0,0范数,对应非零元素个数; …

文件及目录实际案例

文件及目录实际案例 可以通过命名从jack用户切换到root用户。从低权限用户到高权限用户需要输入用户密码。 su - rootr(读权限):代表是否能使用ls w(写权限):代表在目录下创建和删除文件 x(执行权限):代表可以进入到目录,例如cd

Power of Three

https://leetcode.com/problems/power-of-three/ Given an integer, write a function to determine if it is a power of three. Follow up: Could you do it without using any loop / recursion? 3的次方数没有显著的特点,最直接的方法就是不停地除以3&…

DCASE 2013任务1(声学场景分类)参赛作品相关信息

本文资料来源于DCASE 2013以及上面下载的各个参赛组的技术报告(应该就是扩展摘要) 参赛者及其作品: 注意:图中的参考文献[46-56]就是对应的参赛者提交作品的技术报告(也就是扩展摘要)。 (1&…

空间谱专题06:宽带信号处理思路

作者:桂。 时间:2017-09-09 20:04:22 链接:http://www.cnblogs.com/xingshansi/p/7413139.html 前言 目前分析的问题,仍然限定在布阵的环节,暂不涉及后处理及硬件实现。 一、宽带处理的一般方式 前面分析的阵列信号模…

定时任务调度:crond任务调度

定时任务调度:crond任务调度 可以先写一个脚本,在调用这个脚本

DCASE 2017声场分类任务描述——数据集及基线系统

前言DCASE 2017继续通过比较使用公共可用数据集的不同方法来支持计算场景和事件分析方法的开发。 声音带有大量有关我们日常环境和身体事件的信息。我们可以感受到我们所在的声音场景(繁忙的街道,办公室等),并且识别出各种声源&am…

空间谱专题07:干涉仪仿真思路

作者:桂。 时间:2017-09-09 20:35:57 链接:http://www.cnblogs.com/xingshansi/p/7499247.html 前言 主要验证信道化前后,测向的有效性。相比空间谱的思路,干涉仪需要的信息更少,从干涉仪入手进行分析&am…

统计学习概论

统计学习的定义统计学习(statistical learning):关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。 统计学习的特点特点 统计学习以计算机机网络为平台,是建立在计算机…

空间谱专题08:相位模糊

作者:桂。 时间:2017-09-09 22:54:36 链接:http://www.cnblogs.com/xingshansi/p/7499647.html 前言 阵列信号估计中(空间谱)的相位模糊,与干涉仪、波束形成的相位模糊有所区别,空间谱更测重导…

Linux磁盘分区,挂载

Linux磁盘分区,挂载 保存退出:wq

空间谱专题09:阵列信号建模方法

作者:桂。 时间:2017-09-11 22:22:57 链接:http://www.cnblogs.com/xingshansi/p/7507616.html 前言 干涉仪、空间谱或者基于Beamforming的信号接收,都会面临窄带(或连续波-点频)、宽带的问题&#xff0c…

比幅测向及圆锥效应

作者:桂。 时间:2017-09-19 05:15:59 链接:http://www.cnblogs.com/xingshansi/p/7549461.html 一、比幅测向原理 以三波束比幅为例,其中轴线角度分别为 则天线n与左右相邻的天线波束可表述为 分别取对数运算(L、R原…

兔耳效应

作者:桂。 时间:2017-09-19 06:17:41 链接:http://www.cnblogs.com/xingshansi/p/7533286.html 前言 兔耳效应(double-pulse effect / rabbit-ears effect) )主要指矩形脉冲信号能量将扩散到与真实载频所在信道相邻的…

下雨天我叫了顿外卖,就成了人渣?

-1-前几天深圳受台风的影响,大部分地区都下起了暴雨,计划去欢乐谷耍一圈的行程也跟着泡汤,只能呆在酒店。到了饭点,外面还在下雨,缺乏预防台风的经验,头一天晚上忘了买零食备用,没办法只能叫外卖…