主成分分析法_探索主成分分析法

6029b48db3608f01e7120e0688e6b594.png

主成分分析法 (Principal Component Analysis, PCA) 是一种数据压缩法,可以从数据中提取重要的部分并排除不重要的部分,是奇异值分解 (Singular Value Decomposition, SVD) 的重要应用。

SVD 是线性代数的一个亮点。

是一个
的列阵,矩阵秩
, SVD 会提供四个子空间的正交基,按重要性排序。我们有两组奇异向量,
里,
里,把
排列在
矩阵
,把
排列在
矩阵

c12ce22af7ea960712bbc5ad51320748.png

SVD 不但找出正交基,还把

对角化成
的大小一样
,所以不一定是个方阵,可能右边和下边有零。但是我们可以丢掉零空间和左零空间的基向量,在
里,
是个
的方阵,
从大排到小。

SVD 是

是正交矩阵,有旋转作用。
是对角矩阵,有伸展作用。SVD 把
的变换分解成旋转、伸展、旋转。

的特征向量,叫左奇异向量。
的特征向量,叫右奇异向量。
有共同的特征值
,都是
的奇异值平方。用手的话可以用这个方法,但如果是很大的矩阵,要用计算机分解的话,我们不想乘
,太浪费计算力,最好直接用 svd() 。

现在我们要把数据带到实数空间,所以只能有数字,不能有分类数据。(其实我觉得不应该叫“数据”,因为“分类数据”根本就没有数字。)表格中,一行代表一条记录,一列代表一个特征。

表格里行比列多,每一列都减掉平均值,转换成矩阵,

是又高又细的、中心化好的矩阵,样本协方差矩阵是
的理由是求无偏估计。总方差是
的跡(对角线的和),等于
的特征值的和,也等于
的奇异值平方的和,

重要的是右奇异向量,

指向第
重要的方向,解释总方差的
部分。我们选
个最重要的
是主成分,我们只保留
的信息,降低了维数。

用 python 来实践一下吧,用 iris 数据,中心化,做 svd() ,奇异值除以

会把数据旋转到最好的方向,如果我们要用二维图表来看的话,
会变成
轴,
会变成
轴,丢掉
。我们用行向量,所以旋转做
就可以了,如果有一个行向量
,就做
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from itertools import combinations# 准备数据
iris = datasets.load_iris()# 四维数据分六个二维图表显示
fig, axes = plt.subplots(2, 3)
axes = axes.ravel()
for i, (x, y) in enumerate(combinations(range(4), 2)):axes[i].scatter(iris.data[:50, x], iris.data[:50, y],label=iris.target_names[0])axes[i].scatter(iris.data[50:100, x], iris.data[50:100, y],label=iris.target_names[1])axes[i].scatter(iris.data[100:, x], iris.data[100:, y],label=iris.target_names[2])axes[i].legend()axes[i].set_xlabel(iris.feature_names[x])axes[i].set_ylabel(iris.feature_names[y])
plt.show()# 做 SVD
A = iris.data - iris.data.mean(axis=0)
U, S, VT = np.linalg.svd(A, full_matrices=False)
S /= np.sqrt(A.shape[1] - 1)
print('如果从四维降到二维,会保留总方差的 {:.2%}。'.format((S**2)[:2].sum() / (S**2).sum()))# 从四维降到二维后图表显示
A_t = (A @ VT.T)[:, :2]
plt.scatter(A_t[:50, 0], A_t[:50, 1], label=iris.target_names[0])
plt.scatter(A_t[50:100, 0], A_t[50:100, 1], label=iris.target_names[1])
plt.scatter(A_t[100:, 0], A_t[100:, 1], label=iris.target_names[2])
plt.legend()
plt.xlabel(r'$vec v_1$')
plt.ylabel(r'$vec v_2$')
plt.show()

四维数据,需要用六个二维图表来看,但这些都是截面,仍然不能想象四维空间里的样子。

f13db4400180fd52152a6ea664517a14.png

从四维降到二维后,保留 97.77% 的信息。

f2a0a482a557e12dfb3ad47ce6d161f0.png

PCA 的功能就是压缩数据,同时保留最重要的信息。在数据分析的领域里,我们可以用它来降维。高维不仅对我们的想象力造成劳损,对建模也是一种诅咒,在这里主成分分析法是一个很有用的降维技巧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507463.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

android 插入耳机 使用自身mic录音_这样选用麦克风,耳机降噪效果会更好

降噪耳机已经越来越普及,降噪耳机要想实现好的降噪效果面临很多挑战,其中如何正确选用麦克风又是一项具有重要影响的基础工作。本文目的旨在帮助读者正确选用麦克风以实现更好的耳机降噪性能,当然也可以帮助您更好地了解降噪耳机原理与实现方…

心电图 python_ST段凹面型向上抬高,一定是早期复极?心电图读图第201期

病 历 回 顾一名48岁男性患者,有20年吸烟史。打壁球时出现胸骨后闷痛。他被迫中止并休息。其胸痛仍未缓解,同伴把他送至附近急诊室并做了下列心电图。问题:心电图有何显示?可能的诊断是什么?可能受累的冠脉&#xff1f…

Linux编程基础 3.1:进程控制

1 进程相关概念 1.1 进程和程序 程序:编译好的二进制文件,在磁盘上,不占用系统资源(cpu、内存、打开的文件、设备、锁…)进程:一个抽象的概念,与操作系统原理联系紧密。进程是活跃的程序&…

nlp mrc的损失是什么_田渊栋从数学上证明ICLR最佳论文“彩票假设”,强化学习和NLP也适用...

新智元报道 来源:Facebook AI作者:Ari Morcos、田渊栋 编辑:肖琴【新智元导读】ICLR 2019最佳论文提出的“彩票假设”能够将神经网络缩小10-100倍,而不损失性能。Facebook田渊栋团队的最新研究发现了第一个确定的证据&#xff0…

Linux编程基础 3.2:exec函数族

2 exec函数族 使用fork()函数创建的子进程,其中包含的程序代码完全相同,只能根据fork()函数的返回值,执行不同的代码分支。 由exec函数族中的函数,则可以根据指定的文件名或路径,找到可执行文件。 fork:子…

corel产品注册样机安装代码_为你的产品创建一个高逼格的宣传片

大家好,我是独立开发者Larry~当我们的产品或功能发布的时候,一定想要一套高大上的宣传图或宣传视频,不幸的是,由于预算限制、时间排期以及技术门槛等一系列原因,我们不得不降低要求…今天就给大家推荐一个在…

单代号网络图计算例题_如何把横道图转化成双代号网络图?

横道图一般都是用Project或者表格做的,下面就用斑马进度计划软件介绍一下怎么将横道图转化为双代号网络图使用工具:广联达斑马进度计划,点击进入官网下载使用Excel表格绘制的横道图,如何快速转化成网络图打开斑马进度计划软件&…

excel表格不够怎么添加_excel怎么添加筛选

常用的表格处理软件就是excel表格,有时候一些excel上面会有很多不同类型的东西需要筛选以便更能方便寻找,那么excel怎么添加筛选呢?小编跟大家详细介绍。excel怎么添加筛选步骤1:首先,打开一篇你需要选择的Excel步骤2&…

createsemaphore 异常_浅析SPC之异常分析

未来能源的短缺及资源匮乏,导致各国都在寻求替代能源以避免发生无资源可用的情况。汽油替代能源—生质酒精由此得到了广泛的应用。生质酒精属于生质燃料(Biofuel)的一种,是由生物或化学转换成生物质(biomass)而取得的原料。它能够延长零件的使用寿命&…

苹果5越狱教程_unc0ver5.2.0安装方法 iOS13.5用Cydia Impactor或AltStore越狱教程

unc0ver5.2.0是最新更新出来的越狱手机系统,这次的更新不仅仅只是修复了系统的稳定性,大家在更新之后可以支持iOS13.5.5Beta/iOS13.6Beta的使用,所有使用苹果手机的用户想要使用的话可以看下面的详细安装教程,为大家介绍详细的操作…

# 定义四边形_【四边形系列专题】 特殊平行四边形之矩形

点击上方蓝字关注我们【四边形系列专题】特殊平行四边形之矩形TSQ中学数学微信:TSQmaths一、知识网络二、重难突破知识点一 矩形的性质及应用1、定义:有一个角是直角的平行四边形叫做矩形.注意:1、对称性:矩形是轴对称…

xs资料网-产品设计图档下载_proe玩具车3D模型图档下载creo4.0汽车模型下载中磊教育...

现在设计产品的还是有相当一大部分人是用proe造型的,之前我们一直做的是UG的产品造型,今天给大家介绍一款玩具车的3d模型,喜欢的可以下载下载自己研究研究,中磊教育产品设计教程proe玩具车3D模型图档是通过曲面造型所绘制的零件&a…

苹果7手机严重卡顿_分享苹果手机最实用的7个技巧,各个精心挑选,不知道真的太亏了...

使用苹果手机这么久了,你一定也发现了不少好用的功能,今天就来分享苹果手机最实用的7个技巧,每个都是精心挑选,不要错过,总有一个是你需要的。1、 三指操作在编辑文档的时候,三指左滑是撤销(上一步编辑撤销…

如何获取大端中的数据_【软件】ProE中各种获取数据方式的区别

更多精彩,请点击上方蓝字关注我们!软件ProE中各种获取数据方式的区别输入特征:输入特征是通过数据共享功能从外部文件输入几何的,文件输入以后,会转换成proe软件能够识别的几何,称为一个特征发布几何&#…

数字类 default 0和 default 0_全方位的数字规划工具Visual Components 4.0 数字化工厂仿真软件...

Visual Components 是全方位的数字规划工具。无论从制程规划、生产到营销都能够整合在同一个平台上作业,有助于内部的技术沟通及外部营销。此外,Visual Components 整合了物流及机器人模拟功能,帮助企业在研发前期即可进行产能确认&#xff0…

会说话的狗狗本电脑版_会说话的电脑有点酷!惠普星14帮你解锁“偷懒”新姿势_惠普 星 14 2020(i5 1135G7/16GB/512GB/MX450)_笔记本新闻...

在现实生活中你是否遇到过这样的情况,笔记本近在咫尺,但你却懒得走到笔记本面前进行操作。当你疲惫地躺在床上时,心里也总是暗想,如果笔记本能够听我的指令跟我对话就好了。工作和生活当中,我们总免不了想要“偷懒”&a…

细粒度图像分类_1.1、 图片分类

记录图像分类论文资源列表。图片分类任务可以分为:粗粒度图片分类、细粒度图片分类。2012 AlexNet :ImageNet Classification with Deep Convolutional Neural Networks。2014 GoogLeNet:Going Deeper with Convolutions。Rethinking the Inc…

AppScan api登录接口 postman_【Postman】12 Postman monitor功能使用

通过前面的文章,我们已经能完成接口的Collection,添加断言,Data文件数据驱动,设置变量(Data、Globals和Environment)等等方法,对我们的接口进行个各种的测试,保证其正确性。但是还可…

Linux编程基础 5.1:管道

1 简介 Linux进程通信机制: 管道信号量消息队列共享内存socket通信 2 管道 管道其实质是由内核管理的一个缓冲区 形象地认为管道的两端连接着两个进程: 一个进程进行信息输出,将数据写入管道;另一个进程进行信息输入&#xff…

python pd Series 添加行_Python数据分析与挖掘的常用工具

Python语言:简要概括一下Python语言在数据分析、挖掘场景中常用特性:列表(可以被修改),元组(不可以被修改)字典(结构)集合(同数学概念上的集合)函数式编程(主要由lambda()、map()、reduce()、filter()构成)Python数据分析常用库:P…