目录
- 第 8 周 14、 降维(Dimensionality Reduction)
- 14.6 重建的压缩表示
- 14.7 主成分分析法的应用建议
第 8 周 14、 降维(Dimensionality Reduction)
14.6 重建的压缩表示
在以前的视频中,我谈论 PCA 作为压缩算法。在那里你可能需要把 1000 维的数据压缩100 维特征,或具有三维数据压缩到一二维表示。所以,如果这是一个压缩算法,应该能回到这个压缩表示,回到你原有的高维数据的一种近似。
所以,给定的 z ( i ) z^{(i)} z(i),这可能 100 维,怎么回到你原来的表示 x ( i ) x^{(i)} x(i),这可能是 1000 维的数组?
PCA 算法,我们可能有一个这样的样本。如图中样本 x ( 1 ) , x ( 2 ) x^{(1)},x^{(2)} x(1),x(2)。我们做的是,我们把这些样本投射到图中这个一维平面。然后现在我们需要只使用一个实数,比如 z ( 1 ) z^{(1)} z(1),指定这些点的位置后他们被投射到这一个三维曲面。给定一个点 z ( 1 ) z^{(1)} z(1),我们怎么能回去这个原始的二维空间呢?𝑥为 2 维,z 为 1 维, z = U r e d u c e T x z = U_{reduce}^T x z=UreduceTx,相反的方程为:
x a p p o x = U r e d u c e ∗ z , x a p p o x ≈ x x_{appox} = U_{reduce}* z ,x_{appox}≈x xappox=Ureduce∗z,xappox≈x
如图:
如你所知,这是一个漂亮的与原始数据相当相似。所以,这就是你从低维表示𝑧回到未压缩的表示。我们得到的数据的一个之间你的原始数据 𝑥,我们也把这个过程称为重建原始数据。
当我们认为试图重建从压缩表示 𝑥 的初始值。所以,给定未标记的数据集,您现在知道如何应用 PCA,你的带高维特征𝑥和映射到这的低维表示𝑧。这个视频,希望你现在也知道如何采取这些低维表示𝑧,映射到备份到一个近似你原有的高维数据。
现在你知道如何实施应用 PCA,我们将要做的事是谈论一些技术在实际使用 PCA 很好,特别是,在接下来的视频中,我想谈一谈关于如何选择𝑘。
14.7 主成分分析法的应用建议
假使我们正在针对一张 100×100 像素的图片进行某个计算机视觉的机器学习,即总共有 10000 个特征。
- 第一步是运用主成分分析将数据压缩至 1000 个特征
- 然后对训练集运行学习算法。
- 在预测时,采用之前学习而来的𝑈𝑟𝑒𝑑𝑢𝑐𝑒将输入的特征𝑥转换成特征向量𝑧,然后再进行预测
注:如果我们有交叉验证集合测试集,也采用对训练集学习而来的𝑈𝑟𝑒𝑑𝑢𝑐𝑒。
错误的主要成分分析情况:一个常见错误使用主要成分分析的情况是,将其用于减少过拟合(减少了特征的数量)。这样做非常不好,不如尝试正则化处理。原因在于主要成分分析只是近似地丢弃掉一些特征,它并不考虑任何与结果变量有关的信息,因此可能会丢失非常重要的特征。然而当我们进行正则化处理时,会考虑到结果变量,不会丢掉重要的数据。
另一个常见的错误是,默认地将主要成分分析作为学习过程中的一部分,这虽然很多时候有效果,最好还是从所有原始特征开始,只在有必要的时候(算法运行太慢或者占用太多内存)才考虑采用主要成分分析。