机器学习——降维算法PCA和SVD（sklearn）

一、基础认识

1. 介绍

2. 认识 “ 维度 ”

（1）数组和Series

（2）DataFrame 表

（3）图像

3. 降维思想

4. 降维步骤

二、降维算法（PCA）

1. PCA实现

（1）PCA参数

（2）PCA属性

（3）PCA接口

2. PCA中的SVD

3. 训练流程

4. 补充

三、学习中产生的疑问，及文心一言回答

1. PCA中的components_属性

一、基础认识

1. 介绍

与特征选择类似，我们可以 用不同的特征提取技术来减少数据集的特征数量。特征选择和特征提取的区别在于，当我们用诸如逆序选择之类的特征选择算法时，数据集的原始特征保持不变，而当我们用特征提取方法时，会将数据变换或投影到新特征空间。在降维的背景下，我们可以把特征提取理解为数据压缩的一种方法，其目的是保持大部分的相关信息。

在实际应用中，特征提取不仅可以优化存储空间或机器学习算法的计算效率，而且还可以通过减少维数提高预测性能，尤其是当我们处理非正则化模型的时候。

2. 认识 “ 维度 ”

（1）数组和Series

对于数组和 Series来说，维度就是功能shape返回的结果，shape中返回了几个数字，就是几维。

（2）DataFrame 表

数组中的每一张表，都可以是一个特征矩阵或一个 DataFrame，表中行是样本，列是特征。针对每一张表，维度指的是样本的数量或特征的数量，一般无特别说明，指的都是特征的数量。除了索引之外，一个特征是一维，两个特征是二维，n 个特征是 n维。

（3）图像

对图像来说，维度就是图像中特征向量的数量。特征向量可以理解为是坐标轴，一个特征向量定义一条直线，是一维，两个相互垂直的特征向量定义一个平面，即一个直角坐标系，就是二维，三个相互垂直的特征向量定义一个空间，即一个立体直角坐标系，就是三维。三个以上的特征向量相互垂直，定义人眼无法看见，也无法想象的高维空间。

降维算法中的 “ 降维 ”，指的是降低特征矩阵中特征的数量。

3. 降维思想

在降维过程中，我们会减少特征的数量，这意味着删除数据，数据量变少则表示模型可以获取的信息会变少，模型的表现可能会因此受影响。同时，在高维数据中，必然有一些无效信息（比如噪音），或者一些重复信息（比如一些特征可能会线性相关）。

我们希望能够找出一种办法来帮助我们衡量特征上所带的信息量，让我们在降维的过程中，能够即减少特征的数量，又保留大部分有效信息

将那些带有重复信息的特征合并，并删除那些带无效信息的特征，逐浙创造出能够代表原特征矩阵大部分信息的，特征更少的，新特征矩阵。

        现在有一组简单的数据，有特征 x1 和 x2，三个样本数据的坐标点分别为（1,1），（2,2），（3,3）。我们可以让 x1 和 x2 分别作为两个特征向量，很轻松地用一个二维平面来描述这组数据。这组数据现在每个特征的均值都为 2，特征的数据一模一样，因此方差也都为1，数据的方差总和是 2。

        现在我们的目标是：只用一个特征向量来描述这组数据，即将二维数据降为一维数据，并且尽可能地保留信息量，即让数据的总方差尽量靠近 2。

        据图所知，我们根据信息含量的排序，取信息含量最大的一个特征，可以将 x2* 删除，同时也删除图中的 x2* 特征向量，剩下的 x1* 就代表了曾经需要两个特征来代表的三个样本点。通过旋转原有特征向量组成的坐标轴来找到新特征向量和新坐标平面，我们将三个样本点的信息压缩到了一条直线上，实现了二维变一维，并且尽量保留原始数据的信息。—个成功的降维，就实现了。

4. 降维步骤

（1）输入原数据，结构为（m,n）。找出原本的n个特征向量构成的n维空间V。

（2）决定降维后的特征数量：k。

（3）通过某种变化，找出n个新的特征向量，以及它们构成的新n维空间V。

（4）找出原始数据在新特征空间V中的n个新特征向量上对应的值，即“将数据映射到新空间中”。

（5）选取前k个信息量最大的特征，删掉没有被选中的特征，成功将n维空间V降为k维。

在步骤（3）当中，我们用来找出 n 个新特征向量，让数据能够被压缩到少数特征上并且总信息量不损失太多的技术就是 矩阵分解，PCA 和 SVD 是两种不同的降维算法，但他们都遵从上面的过程来实现降维，只是两种算法中矩阵分解的方法不同，信息量的衡量指标不同。

二、降维算法（PCA）

涉及sklearn库：decomposition

1. PCA实现

class sklearn.decomposition.PCA （n_components=None, copy=True, whiten=False, svdl solver=auto'，tol=0.0，iterated_power=‘auto’，random_state=None）

（1）PCA参数

（2）PCA属性

（3）PCA接口

2. PCA中的SVD

对于任意（m, n）的输入矩阵 A，SVD 分解结果为：

分解结果中 U 为左奇异矩阵，S 为奇异值矩阵，除主对角线上的元素外全为 0，主对角线上的每个元素都称为奇异值，V 为右奇异矩阵。

右奇异矩阵V有着如下性质：

k 就是 n_components，即我们降维后希望得到的维度。若 X 为（m,n）的特征矩阵，V 就是结构为（n,n）的矩阵，取这个矩阵的前 k 行（进行切片），即将 V 转换为结构为（k,n）的矩阵，与原特征矩阵 X 相乘，即可得到降维后的特征矩阵 Xdr。

这是说，奇异值分解可以不计算协方差矩阵等结构复杂计算冗长的矩阵，就直接求出新特征空间和降维后的特征矩阵。所以 SVD 在矩阵分解中的过程比 PCA 简单快速。

3. 训练流程

通过 SVD 和 PCA 的合作，sklearn 实现了一种计算更快更简单，但效果却很好的 “ 合作降维 ”。

4. 补充

（1）在新的特征矩阵生成之前，我们无法知晓 PCA 都建立了怎样的新特征向量，新特征矩阵生成之后也 不具有可读性，我们无法判断新特征矩阵的特征是从原数据中的什么特征组合而来，新特征带有原始数据的信息，却已经不是原数据上代表着的含义了。以 PCA 为代表的降维算法因此是特征创造（feature creation，或 feature construction）的一种。

（2）inverse_transform 并没有实现数据的完全逆转。这是因为，在降维的时候，部分信息已经被舍奔了，Xdr 中往往不会包含原数据 100% 的信息，所以在逆转的时候，即便维度升高，原数据中已经被舍弃的信息也不可能再回来了。所以，降维不是完全可逆的。（ PCA 可以对噪音进行过滤）