目录
1)Motivation 1:Data Compression
2)Motivation 2: Data Visualization
3)Principal Component Analysis problem formulation
4)Principal Component Analysis algorithm
5)Advice for applying PCA
1)Motivation 1:Data Compression
无监督学习第二个算法:降维,降维有两个目的:1是数据压缩,2是可视化,数据压缩就是减少特征。工业中我们常常会碰到上万的特征,这是我们就需要压缩数据,找出其中重要的特征。下面是3维压缩为2维的例子:
2)Motivation 2: Data Visualization
能将数据可视化的话对我们处理问题很有帮助,下面是关于几个国家GDP可视化的例子:
3)Principal Component Analysis problem formulation
主成分分析是常见的降维方法。
需要注意的是:主成分分析不是线性回归。
主成分分析是最小化投射误差,线性回归是最小化预测误差。下图左面是线性回归,右边是主成分分析。
4)Principal Component Analysis algorithm
下面介绍PCA算法:
1)均值归一化:
2)计算协方差矩阵:
3)计算协方差矩阵的特征向量;
5)Advice for applying PCA
使用从训练集得来特征向量;
PCA不宜用来防止过拟合;
PCA不是必要的机器学习过程;