主成分分析法_探索主成分分析法

6029b48db3608f01e7120e0688e6b594.png

主成分分析法 (Principal Component Analysis, PCA) 是一种数据压缩法,可以从数据中提取重要的部分并排除不重要的部分,是奇异值分解 (Singular Value Decomposition, SVD) 的重要应用。

SVD 是线性代数的一个亮点。

是一个
的列阵,矩阵秩
, SVD 会提供四个子空间的正交基,按重要性排序。我们有两组奇异向量,
里,
里,把
排列在
矩阵
,把
排列在
矩阵

c12ce22af7ea960712bbc5ad51320748.png

SVD 不但找出正交基,还把

对角化成
的大小一样
,所以不一定是个方阵,可能右边和下边有零。但是我们可以丢掉零空间和左零空间的基向量,在
里,
是个
的方阵,
从大排到小。

SVD 是

是正交矩阵,有旋转作用。
是对角矩阵,有伸展作用。SVD 把
的变换分解成旋转、伸展、旋转。

的特征向量,叫左奇异向量。
的特征向量,叫右奇异向量。
有共同的特征值
,都是
的奇异值平方。用手的话可以用这个方法,但如果是很大的矩阵,要用计算机分解的话,我们不想乘
,太浪费计算力,最好直接用 svd() 。

现在我们要把数据带到实数空间,所以只能有数字,不能有分类数据。(其实我觉得不应该叫“数据”,因为“分类数据”根本就没有数字。)表格中,一行代表一条记录,一列代表一个特征。

表格里行比列多,每一列都减掉平均值,转换成矩阵,

是又高又细的、中心化好的矩阵,样本协方差矩阵是
的理由是求无偏估计。总方差是
的跡(对角线的和),等于
的特征值的和,也等于
的奇异值平方的和,

重要的是右奇异向量,

指向第
重要的方向,解释总方差的
部分。我们选
个最重要的
是主成分,我们只保留
的信息,降低了维数。

用 python 来实践一下吧,用 iris 数据,中心化,做 svd() ,奇异值除以

会把数据旋转到最好的方向,如果我们要用二维图表来看的话,
会变成
轴,
会变成
轴,丢掉
。我们用行向量,所以旋转做
就可以了,如果有一个行向量
,就做
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from itertools import combinations# 准备数据
iris = datasets.load_iris()# 四维数据分六个二维图表显示
fig, axes = plt.subplots(2, 3)
axes = axes.ravel()
for i, (x, y) in enumerate(combinations(range(4), 2)):axes[i].scatter(iris.data[:50, x], iris.data[:50, y],label=iris.target_names[0])axes[i].scatter(iris.data[50:100, x], iris.data[50:100, y],label=iris.target_names[1])axes[i].scatter(iris.data[100:, x], iris.data[100:, y],label=iris.target_names[2])axes[i].legend()axes[i].set_xlabel(iris.feature_names[x])axes[i].set_ylabel(iris.feature_names[y])
plt.show()# 做 SVD
A = iris.data - iris.data.mean(axis=0)
U, S, VT = np.linalg.svd(A, full_matrices=False)
S /= np.sqrt(A.shape[1] - 1)
print('如果从四维降到二维,会保留总方差的 {:.2%}。'.format((S**2)[:2].sum() / (S**2).sum()))# 从四维降到二维后图表显示
A_t = (A @ VT.T)[:, :2]
plt.scatter(A_t[:50, 0], A_t[:50, 1], label=iris.target_names[0])
plt.scatter(A_t[50:100, 0], A_t[50:100, 1], label=iris.target_names[1])
plt.scatter(A_t[100:, 0], A_t[100:, 1], label=iris.target_names[2])
plt.legend()
plt.xlabel(r'$vec v_1$')
plt.ylabel(r'$vec v_2$')
plt.show()

四维数据,需要用六个二维图表来看,但这些都是截面,仍然不能想象四维空间里的样子。

f13db4400180fd52152a6ea664517a14.png

从四维降到二维后,保留 97.77% 的信息。

f2a0a482a557e12dfb3ad47ce6d161f0.png

PCA 的功能就是压缩数据,同时保留最重要的信息。在数据分析的领域里,我们可以用它来降维。高维不仅对我们的想象力造成劳损,对建模也是一种诅咒,在这里主成分分析法是一个很有用的降维技巧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507463.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

android 插入耳机 使用自身mic录音_这样选用麦克风,耳机降噪效果会更好

降噪耳机已经越来越普及,降噪耳机要想实现好的降噪效果面临很多挑战,其中如何正确选用麦克风又是一项具有重要影响的基础工作。本文目的旨在帮助读者正确选用麦克风以实现更好的耳机降噪性能,当然也可以帮助您更好地了解降噪耳机原理与实现方…

Linux编程基础 2.2:文件操作

3 文件操作 stat() access() chmod() truncate() link() 3.1 stat函数 #include <sys/stat.h> int stat(const char *path, struct stat *buf);功能&#xff1a;用于获取文件的属性&#xff1b; 参数说明&#xff1a; path&#xff1a;文件路径&#xff1b;buf&#…

心电图 python_ST段凹面型向上抬高,一定是早期复极?心电图读图第201期

病 历 回 顾一名48岁男性患者&#xff0c;有20年吸烟史。打壁球时出现胸骨后闷痛。他被迫中止并休息。其胸痛仍未缓解&#xff0c;同伴把他送至附近急诊室并做了下列心电图。问题&#xff1a;心电图有何显示&#xff1f;可能的诊断是什么&#xff1f;可能受累的冠脉&#xff1f…

封条格式用word怎么打_标书密封条格式全word.doc

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------(投标人公章) (法人名章)密 封 条年 月 日封(法人名章) (投标人公章)-------------------…

Linux编程基础 3.1:进程控制

1 进程相关概念 1.1 进程和程序 程序&#xff1a;编译好的二进制文件&#xff0c;在磁盘上&#xff0c;不占用系统资源&#xff08;cpu、内存、打开的文件、设备、锁…&#xff09;进程&#xff1a;一个抽象的概念&#xff0c;与操作系统原理联系紧密。进程是活跃的程序&…

nlp mrc的损失是什么_田渊栋从数学上证明ICLR最佳论文“彩票假设”,强化学习和NLP也适用...

新智元报道 来源&#xff1a;Facebook AI作者&#xff1a;Ari Morcos、田渊栋 编辑&#xff1a;肖琴【新智元导读】ICLR 2019最佳论文提出的“彩票假设”能够将神经网络缩小10-100倍&#xff0c;而不损失性能。Facebook田渊栋团队的最新研究发现了第一个确定的证据&#xff0…

Linux编程基础 3.2:exec函数族

2 exec函数族 使用fork()函数创建的子进程&#xff0c;其中包含的程序代码完全相同&#xff0c;只能根据fork()函数的返回值&#xff0c;执行不同的代码分支。 由exec函数族中的函数&#xff0c;则可以根据指定的文件名或路径&#xff0c;找到可执行文件。 fork&#xff1a;子…

corel产品注册样机安装代码_为你的产品创建一个高逼格的宣传片

大家好&#xff0c;我是独立开发者Larry&#xff5e;当我们的产品或功能发布的时候&#xff0c;一定想要一套高大上的宣传图或宣传视频&#xff0c;不幸的是&#xff0c;由于预算限制、时间排期以及技术门槛等一系列原因&#xff0c;我们不得不降低要求…今天就给大家推荐一个在…

zabbix监控pppoe线路_Zabbix 完整的监控流程

Zabbix完整的监控流程1.Zabbix的监控历程概念1.1 基本概念zabbix最重要的五个组成部分&#xff1a;Item、Trigger、Action、Media、User(其实应该还有个Event&#xff0c;不过这个表现的不直观)&#xff0c;翻译一下就是监控元素、触发器、动作、报警介质、用户&#xff0c;接下…

Linux编程基础 3.3:进程同步

1 wait函数 #include <sys/wait.h> pid_t wait(int *status);功能&#xff1a;挂起进程&#xff0c;进程进入阻塞状态&#xff0c;直到子进程变为僵尸态&#xff0c;如果捕获到子进程的退出信息就会转为运行态&#xff0c;然后回收子进程资源并返回&#xff1b;若没有变…

单代号网络图计算例题_如何把横道图转化成双代号网络图?

横道图一般都是用Project或者表格做的&#xff0c;下面就用斑马进度计划软件介绍一下怎么将横道图转化为双代号网络图使用工具&#xff1a;广联达斑马进度计划&#xff0c;点击进入官网下载使用Excel表格绘制的横道图&#xff0c;如何快速转化成网络图打开斑马进度计划软件&…

satd残差_RDO、SAD、SATD、λ相关概念【转】

率失真优化概述&#xff1a;率失真优化(Rate D isto r t i on Op t i m ized)策略是在率失真理论[3 ]的基础上提出的一种代价函数方案,  RDO 的主要思想是, 在计算代价函数时, 同时考虑码率和失真度两方面因素的制约, 在保证低失真度的同时保证低码率, 这样更加有利于视频流的…

excel表格不够怎么添加_excel怎么添加筛选

常用的表格处理软件就是excel表格&#xff0c;有时候一些excel上面会有很多不同类型的东西需要筛选以便更能方便寻找&#xff0c;那么excel怎么添加筛选呢&#xff1f;小编跟大家详细介绍。excel怎么添加筛选步骤1&#xff1a;首先&#xff0c;打开一篇你需要选择的Excel步骤2&…

Linux编程基础 4.1:系统调用

1简介 信号&#xff1a;软中断信号&#xff0c;是软件层次上对中断的一种模拟&#xff0c;用于提醒进程事件的发生。 用户比较容易控制的信号发送方式有&#xff1a; 组合按键方式&#xff1b;Shell命令方式&#xff1b;系统调用&#xff1a;kill、raise、abort等。 本部分主…

createsemaphore 异常_浅析SPC之异常分析

未来能源的短缺及资源匮乏&#xff0c;导致各国都在寻求替代能源以避免发生无资源可用的情况。汽油替代能源—生质酒精由此得到了广泛的应用。生质酒精属于生质燃料(Biofuel)的一种&#xff0c;是由生物或化学转换成生物质(biomass)而取得的原料。它能够延长零件的使用寿命&…

Linux编程基础 4.2:软件条件

3 软件条件 当满足某种软件条件时&#xff0c;也可以驱使内核发送信号。 alarm setitimer 3.1 alarm函数 #include <unistd.h> unsigned int alarm(unsigned int seconds);函数功能&#xff1a; 相当于计时器&#xff0c;驱使内核在指定秒数后发送信号到调用该函数的…

layui 如何去dom_常用元素操作 - layui.element

元素功能的开启只需要加载element模块即会自动完成&#xff0c;譬如tab选项卡切换、导航菜单滑动切换效果、面包屑导航、进度条等&#xff0c;使用这些小交互功能的前提就是&#xff1a;拥有符合这些小功能的所需正确的HTML结构&#xff0c;以及加载element模块&#xff1b;如下…

苹果5越狱教程_unc0ver5.2.0安装方法 iOS13.5用Cydia Impactor或AltStore越狱教程

unc0ver5.2.0是最新更新出来的越狱手机系统&#xff0c;这次的更新不仅仅只是修复了系统的稳定性&#xff0c;大家在更新之后可以支持iOS13.5.5Beta/iOS13.6Beta的使用&#xff0c;所有使用苹果手机的用户想要使用的话可以看下面的详细安装教程&#xff0c;为大家介绍详细的操作…

Linux编程基础 4.3:信号阻塞

4 信号阻塞 在进程PCB中存在两个信号集&#xff1a;信号掩码&#xff08;signal mask&#xff09;、未决信号集&#xff08;signal pending&#xff09;。 两个信号集都是位图&#xff0c;每一位对应一个信号&#xff1a; 若mask中某个位被设置为1&#xff0c;则对应的信号将…

# 定义四边形_【四边形系列专题】 特殊平行四边形之矩形

点击上方蓝字关注我们【四边形系列专题】特殊平行四边形之矩形TSQ中学数学微信&#xff1a;TSQmaths一、知识网络二、重难突破知识点一 矩形的性质及应用1、定义&#xff1a;有一个角是直角的平行四边形叫做矩形&#xff0e;注意&#xff1a;1、对称性&#xff1a;矩形是轴对称…