[机器学习笔记]Note12--降维

继续是机器学习课程的笔记,本节介绍的是降维方法,这也是非监督学习中的一个问题,主要介绍主要成分分析(Principal Component Analysis,PCA)算法。

降维

动机一:数据压缩

使用降维的一个原因是数据压缩。下面通过几个例子来介绍降维。

第一个例子是将数据从二维降至一维。假设我们要采用两种不同的仪器来测量一些东西的尺寸,其中一个仪器测量结果的单位是英尺,另一个仪器测量的结果单位是厘米,我们希望将测量的结果作为机器学习的特征。现在的问题是,两种仪器对同一个东西测量的结果不完全相等(由于误差、精度等),而将两者都作为特征有些重复,因而,我们希望将这个二维的数据降至一维。如下图所示:

这里写图片描述

具体做法就是,找出一条合适的直线,如上图下方那条直线,然后将所有的数据点都投射到该直线上,然后用z(i)标识,这样便完成了从二维数据x(i)向一维数据z(i)的映射。这样得到的新特征只是原有特征的近似,但好处是将需要的存储、内存占用量减半,而已可以让使用这些数据的算法运行得更快

第二个例子是将数据从三维降至二维。这个例子的过程与上面类似,是将三维向量投射到一个二维平面上,强迫使得所有的数据都在同一个平面上,降至二维的特征向量。

这里写图片描述

这样的处理过程可以被用于把任何维度的数据都降到任何想要的维度,如将1000维的特征降至100维。

动机二:数据可视化

在许多机器学习问题中,如果我们能将数据可视化,这有助于我们寻找到一个更好的解决方案,而降维可以帮助做到数据可视化。

一个例子是假设现在有关于许多不同国家的数据,每一个特征向量都有50个特征(如,GDP,人均GDP,平均寿命等),如下图所示。

这里写图片描述

如果要将这个50维的数据可视化是不可能的,但是使用降维的方法将其降至2维,那就可以将其可视化。如下图所示,用新的特征z1z2来表现。

这里写图片描述

这样的问题就是,降维的算法只负责减少维度,而新特征的意义就必须由我们自己去发现了。对于上述例子,我们根据新的二维特征画出一个二维图,如下图所示,用点z(i)表示每个国家,那么可能会发现水平轴可能对应的是一个国家的面积或者是GDP,而纵轴计算对应人均GDP或者幸福感等。

这里写图片描述

主要成分分析(Principal Component Analysis,PCA)

主要成分分析时最常见的降维算法。

在PCA中,如果是将二维数据降至一维,我们要做的就是找到一个方向向量(Vector direction),当我们将所有的数据都投射到该向量上时,我们希望投射平均均方误差可以尽可能地小。方向向量时一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度。如下图所示

这里写图片描述

下面给出PCA问题的一般描述:

  • 问题是将n维数据降至k维
  • 目标是找到向量u(1),u(2),,u(k)使得总的投射误差最小

    然后是比较PCA和线性回归的,这两种算法是不同的算法。PCA最小化的是投射误差,而线性回归尝试的是最小化预测误差。线性回归的目的是预测结果,而PCA不作任何预测。如下图所示

    这里写图片描述

左图是线性回归的误差,而右图是PCA的误差。

PCA算法

接下来是介绍PCA的具体实现过程。

首先是预处理过程,做的是均值归一化。需要计算出所有特征的均值μj=1mmi=1x(i)j,然后令xj=xjμj。如果特征是不同数量级的,还需要将其除以标准差σ2

接下来就是正式的PCA算法过程了。也就是要计算协方差矩阵(covariance matrix)。而协方差矩阵=1mmi=1(x(i))(x(i))T

然后就是计算协方差矩阵的特征向量(eigenvectors)。在Octave语言中可以利用**奇异值分解(singular value decomposition,SVD)来求解,[U,S,V] = svd(sigma)

对于一个n×n维度的矩阵,上式中的U是一个具有与数据之间最小投射误差的方向向量构成的矩阵。如果我们希望将数据从n维降至k维,我们只需要从U中选取前K个向量,获得一个n×k维度的矩阵,这里用Ureduce表示,然后通过如下计算获得要求的新特征向量z(i):

z(i)=UTreduce×x(i)

其中xn×1维的,因此结果是k×1维。

注意,这里我们部队偏倚特征进行处理。

在压缩过数据后,我们可以采用如下方法来近似地获得原有的特征:x(i)approx=Ureducez(i)

选择主要成分的数量

PCA需要将n维数据降至k维数据,这里的k也就是PCA需要确定的参数K,也就是主要成分的数量。

主要成分分析是要减少投射的平均均方误差

1mi=1m||x(i)x(i)approx||2

而训练集的方差是1mmi=1||x(i)||2

我们希望的是在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的K值

一般来说,我们希望这个比例,如下所示,是小于1%,即意味着原本数据的偏差有99%都保留下来了。

1mmi=1||x(i)x(i)approx||21mmi=1||x(i)||20.01

而如果选择保留95%的偏差,便能显著地降低模型中特征的维度了。

所以做法可以是,先令K=1,然后进行PCA,获得Ureducez,然后计算比例是否小于1%。如果不是,再令K=2,如此类推,直到找到可以使得比例小于1%的最小K值(原因是各个特征之间通常情况存储某种相关性)。

还有一些更好的方式来选择K,在Octave语言中调用svd函数的时候,我们获得三个参数:[U,S,V]=svd(sigma)。其中S是一个n×n的矩阵,只有对角线上有值,其他单元都是0,我们可以使用这个矩阵来计算平均均方误差与训练集方差的比例:

1mmi=1||x(i)x(i)approx||21mmi=1||x(i)||2=1ki=1Siimi=1Sii1%

也就是:
ki=1Siimi=1Sii0.99

应用PCA

假设我们正在针对一张100×100像素的图片进行某个计算机视觉的机器学习,即总共有10000个特征。这里可以使用PCA来降维来提高算法的速度。做法如下:

  1. 第一步是使用PCA将数据压缩至1000个特征;
  2. 对训练集运行学习算法;
  3. 在预测的时候,使用第一步学来的Ureduce将测试集中的特征x转换成新的特征向量z,然后再进行预测。

注意:只有在训练集才运行PCA算法,而将训练集中学到的Ureduce应用到交叉验证集和测试集中。

错误使用PCA的情况有:

  1. 将PCA用于减少过拟合(减少特征的数量)。这样做并不好,不如尝试归一化处理。原因是PCA只是近似地丢弃掉一些特征,它并不考虑与结果变量有关的信息,因此可能丢掉非常重要的特征。而当进行归一化处理时,会考虑到结果变量,不会丢掉重要的数据。
  2. 默认地将PCA作为学习过程中的一部分。这虽然很多时候有效果,但最好还是从原始特征开始,只在有必要的时候(算法运行太慢或者占用太多内存)才考虑使用PCA。

小结

本节内容介绍了使用降维的两大原因,一个是进行数据压缩,减少内存的使用,提高算法速度,第二个是为了数据可视化,从而找到一个更好的解决问题的方法。

降维方法中最常用的就是PCA算法,所以本节内容主要是介绍PCA算法的基本做法,具体实现过程,以及使用的方法和注意事项。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/409052.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[机器学习笔记]Note13--异常检测

继续是机器学习课程的笔记,本节课内容是异常检测,它是一个非监督学习算法,用于发现可能不应该属于一个已定义的组中的数据。 密度估计 首先是给出一个例子,如下图所示,是一个测试飞机引擎的例子,给定数据…

[机器学习笔记]Note14--推荐系统

继续是机器学习课程的笔记,本节课将介绍推荐系统的内容。 问题形式化 推荐系统是机器学习的一个非常重要的应用,在很多音乐、购物等网站都有推荐系统,如豆瓣,淘宝,网易云音乐等都是有使用到推荐系统的,因…

[机器学习笔记]Note15--大规模机器学习

继续是机器学习课程的笔记,本节内容主要是介绍大规模机器学习的内容。 大型数据集的学习 对于一个过拟合的模型,增加数据集的规模可以帮助避免过拟合,并获得一个更好的结果。 但是对于一个大规模的数据,比如有100万个数据量的训…

[机器学习笔记]Note16--应用示例:图像文字识别

继续是机器学习课程的笔记,本节课是最后一节内容了,主要是介绍一个应该–图中文字的识别。 问题描述和流程图 图像文字识别应用就是从给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂得多。一个例子图片如下所示: 为了完成这样的…

python小老鼠编程_邯郸pythonnot学习费用多少

邯郸pythonnot学习费用多少更新时间:2020-08-02 12:49:04注意:如果出现错误,可能是因为安装时未勾选AddPython3.5toPATH选项,此时卸载Python后重新安装时勾选AddPython3.5toPATH选项即可。1.2Mac中安装Python3Mac系统中自带了Pyth…

论文阅读(2)--Picking Deep Filter Responses for Fine-grained Image Recognition

这次阅读的文章是Picking Deep Filter Responses for Fine-grained Image Recognition,这篇文章是来自上海交通大学Xiaopeng Zhang等人的工作,该文章提出了一种对深度网络中的filter进行挑选的方法,基于挑选的filter的结果构建复杂特征表达。…

论文阅读(3)--SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition

这篇文章是来自罗格斯大学的Han Zhang等人的工作。由题目可知与上一篇文章一样,本文的作者也关注到了富有语义的局部(利用Part,Part,Part,重要事情强调三遍),作者不满足于CUB-2011数据库提供的head和body的定位结果&am…

论文阅读(4)--Part-Stacked CNN for Fine-Grained Visual Categorization

这篇文章是来自悉尼科技大学Shaoli Huang等人的工作,与前两篇文章的出发点类似,本篇文章也是在Parts上寻找Fine-Grained的线索,但与前两篇文章相比,在框架中人工的参与更少。同其它Fine-Grained分类任务相似,这篇文章也…