PCA主成分分析算法

在数据分析中,如果特征太多,或者特征之间的相关性太高,通常可以用PCA来进行降维。比如通过对原有10个特征的线性组合, 我们找出3个主成分,就足以解释绝大多数的方差,该算法在高维数据集中被广泛应用。

算法(没时间看版本)

  • 将数据标准化,即把所有数据转换以原点为中心;
  • 划一条通过原点的直线,将所有点投影到该直线上,然后计算这些投影点到原点的距离平方和。设想我们不停的转动该直线,最终找到一条直线使得这个距离平方和最大,也就是该直线最接近所有的点,该直线为特征向量的方向,称为PC1,这个距离平方和即为特征值;
  • 按同样的方法,找到第二条直线,该直线与PC1垂直且距离平方和最大,为PC2;
  • 重复该过程直到找到所有的PC;
  • 根据需求,确定头部的几个PC可以解释绝大多数方差。

下面先给出几个相关的概念。


协方差和散度矩阵

样本均值:
x ˉ = 1 n ∑ i = 1 N x i \bar{x} = \frac{1}{n} \sum_{i=1}^N x_i xˉ=n1i=1Nxi
样本方差:
S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S^2=\frac{1}{n-1} \sum_{i=1}^n {(x_i-\bar{x})}^2 S2=n11i=1n(xixˉ)2
样本X和样本Y的协方差:
C o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) Cov(X,Y)=E[(XE(X))(YE(Y))]=n11i=1n(xixˉ)(yiyˉ)

  1. 方差的计算是针对一维特征的,即针对同一特征不同样本的取值来进行计算得到;而协方差必须要求至少满足二维特征;方差是协方差的特殊情况。
  2. 方差和协方差的除数是 n − 1 n-1 n1,这是为了得到方差和协方差的无偏估计。
    协方差为正时,说明X和Y是正相关关系;为负时负相关关系;为0时相互独立。 C o v ( X , X ) Cov(X,X) Cov(X,X)就是X的方差。当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵)。

散度矩阵
S = ∑ k = 1 n ( x k − m ) ( x k − m ) T S=\sum_{k=1}^{n}(x_k-m)(x_k-m)^T S=k=1n(xkm)(xkm)T
其中 m = 1 n ∑ k = 1 n x k m=\frac{1}{n}\sum_{k=1}^{n}x_k m=n1k=1nxk
对于数据X的散度矩阵为 X X T XX^T XXT。其实协方差矩阵和散度矩阵关系密切,散度矩阵就是协方差矩阵乘以(总数据量-1)。因此它们的特征值和特征向量是一样的。同时散度矩阵是SVD奇异值分解的一步,因此PCA和SVD有密切关系。


特征值分解矩阵原理

  1. 特征值与特征向量
    如果一个向量v是矩阵A的特征向量,则一定可以表示成下面的形式:
    A v = λ v Av=\lambda v Av=λv
    其中, λ \lambda λ是特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。
  2. 特征值分解矩阵
    对于矩阵A,有一组特征向量v,将这组向量进行正交化单位化,就能得到一组正交单位向量。特征值分解,就是将矩阵A分解为如下式:
    A = Q ∑ Q − 1 A=Q\sum Q^{-1} A=QQ1
    其中,Q是矩阵A的特征向量组成的矩阵, ∑ \sum 则是一个对角阵,对角线上的元素就是特征值。

SVD分解矩阵原理

奇异值分解是一个能使用任意矩阵的一种分解的方法,对于任意矩阵A总是存在一个奇异值分解:
A = U ∑ V T A=U\sum V^T A=UVT
假设A是一个 m × n m\times n m×n矩阵,那么得到的U是一个 m × m m\times m m×m的方阵,U里面的正交向量被称为左奇异向量。 ∑ \sum 是一个 m × n m\times n m×n矩阵, ∑ \sum 除了对角线其他元素都为0.对角线上的元素称为奇异值。 V T V^T VT是V的转置矩阵,是一个 n × n n\times n n×n的方阵,它里面的正交向量被称为右奇异值向量。通常 ∑ \sum 上的值按从大到小的顺序排列。

SVD算法:

  • A A T AA^T AAT的特征值和特征向量,用单位化的特征向量构成U;
  • A T A A^TA ATA的特征值和特征向量,用单位化的特征向量构成V;
  • A A T AA^T AAT或者 A T A A^TA ATA的特征值求平方根,然后构成 ∑ \sum

基于特征值分解协方差矩阵实现PCA算法

输入:数据集 X = x 1 , x 2 , x 3 , . . . , x n X={x_1,x_2,x_3,...,x_n} X=x1,x2,x3,...,xn,需要降到k维。

1.去平均值(即去中心化),即每一位特征减去各自的平均值。
2.计算协方差矩阵 1 n X X T \frac{1}{n}XX^T n1XXT,注:这里除或不除样本数量 n n n n − 1 n-1 n1,其实对求出的特征向量没有影响。
3.用特征值分解方法求协方差矩阵 1 n X X T \frac{1}{n}XX^T n1XXT的特征值与特征向量。
4.对特征值从大到小排序,选择其中最大的k个。然后将对应的k个特征向量分别作为行向量组成特征向量矩阵P。
5.将数据转换到k个特征向量构建的新空间中,即 Y = P X Y=PX Y=PX


基于SVD分解协方差矩阵实现PCA算法

输入:数据集 X = x 1 , x 2 , x 3 , . . . , x n X={x_1,x_2,x_3,...,x_n} X=x1,x2,x3,...,xn,需要降到k维。

1.去平均值(即去中心化),即每一位特征减去各自的平均值。
2.计算协方差矩阵 1 n X X T \frac{1}{n}XX^T n1XXT,注:这里除或不除样本数量 n n n n − 1 n-1 n1,其实对求出的特征向量没有影响。
3.用SVD分解方法求协方差矩阵 1 n X X T \frac{1}{n}XX^T n1XXT的特征值与特征向量。
4.对特征值从大到小排序,选择其中最大的k个。然后将对应的k个特征向量分别作为行向量组成特征向量矩阵。
5.将数据转换到k个特征向量构建的新空间中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/615928.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【一文搞懂JVM的内存屏障】

要命的问题: 什么是线程的安全性?怎么保证?jvm什么是的内存屏障?他有什么作用? **线程的安全性是指:**指在多线程环境下,多个线程同时访问同一资源时不会产生意外结果或导致数据出错的状态。其…

在线ai扩图是什么?有什么工具?分享3个好用的工具。

在线ai扩图是什么?有什么工具?分享3个好用的工具。 在当今数字化的时代,图像处理成为了我们日常生活和工作中不可或缺的一部分。有时候,我们需要将图像放大以获取更多的细节,但传统的方法往往会导致图像质量的损失。幸…

Invalid bound statement(只有调用IService接口这一层会报错的)

问题描述:controller直接调用实现类可以,但是一旦调用IService这个接口这一层就报错. 找遍了大家都说是xml没对应好,但是我确实都可以一路往下跳,真的对应好了.结果发现是 MapperScan写错了,如下才是对的. MapperScan的作用是不需要在mapper上一直写注解了,只要启动类上写好就放…

无货源电商哪个平台比较适合新手?

我是电商珠珠 近年来电商平台层出不穷,无论是传统平台像是拼多多、淘宝、京东,还是短视频电商平台:快手、抖音小店、视频号小店。 都成为了兼职乃至全职人群心中的香饽饽,有人选择去做拼多多、有人选择去做抖音小店,…

算法训练营Day38

#Java #完全背包 #动态规划 Feeling and experiences: 动态规划:完全背包理论基础 之前学习的是01背包,其特点在于:每个物品都只能取一个 而完全背包则是可以一个物品取多个。 有N件物品和一个最…

高级分布式系统-第6讲 分布式系统的容错性--故障/错误/失效/异常

分布式系统容错性的概念 分布式系统的容错性: 当发生故障时, 分布式系统应当在进行恢复的同时继续以可接受的方式进行操作, 并且可以从部分失效中自动恢复, 且不会严重影响整体性能。 具体包括以下4个方面的内容: 可…

如何将后端带过来的字符串通过‘,’号作为判断依据,分割字符串然后生成数组

在实际开发工程中我们会遇到我们调用后端接口获取图片、文件、视频甚至选择的对象时,如果是这样的: 这种数据类型如果想渲染在html中的话就会很麻烦,我们可以通过","号为切割点将它放入数组中,通过列表进行渲染 由于实…

vue使用elementui select下拉库组件鼠标hover出现下拉框

mounted 生命周期里去监听 鼠标进入和鼠标移出事件 this.$refs.mySelect.addEventListener(mouseenter, function () {this.querySelector(.selectel .el-select-dropdown).style.display block})this.$refs.mySelect.addEventListener(mouseleave, function () {this.querySe…

STM32入门教程-2023版【3-4】总结GPIO使用方法

三、总结GPIO使用方法 总体上来说是比较简单的 首先初始化时钟,然后定义结构体,赋值结构体 GPIO_Mode可以选择那8种输入输出模式,GPIO_Pin选择引脚,可以用按位或的方式同时选中多个引脚,GPIO_Speed选择输出速度,最后使…

全网最全持续集成接口自动化-jmeter+ant+jenkins

ant 批量执行Jmeter 一、环境准备 1、JDK环境:Java Downloads | Oracle 2、ANT环境:Apache Ant - Binary Distributions 3、Jmeter:Apache JMeter - Download Apache JMeter 4、将 jmeter的extras目录中ant-jmeter-1.1.1.jar包拷贝至ant…

c语言中scanf的用法

通过键盘&#xff0c;将数据输入到变量中 #include<stdio.h>int main(void){int a;scanf("%d",&a);printf("%d",a);return 0; }scanf("%d",&a);: 从键盘输入数据的时候&#xff0c;输入的是一个个字符而不是数字等与已经定义好的…

【开发篇】一、内存泄漏的分析工具

文章目录 1、内存泄漏2、解决内存泄漏3、工具一&#xff1a;Top4、工具二&#xff1a;VisualVM5、工具三&#xff1a;阿尔萨斯Arthas6、工具四&#xff1a;Promethus Grafana7、图像分析 1、内存泄漏 一个对象不再使用后&#xff0c;&#xff08;因其从GC Root仍有引用链可达…

2023下半年软考证书什么时候发放?怎么领取?

已经确定领取时间的地区&#xff1a; 广东&#xff1a; 电子版&#xff1a;2024年1月8日上线 纸质版&#xff1a;预计24年2月开始 重庆&#xff1a; 邮寄申领&#xff1a;2024年1月15日0:00-3月1日23:00 现场领取&#xff1a;2024年1月15日-2月7日 贵州&#xff1a; 邮…

vue Element Plus Cascader级联选择器点击标签选中复选框

element-plus原功能 element-plus的Cascader级联选择器点击标签时是不会选中复选框的&#xff0c;我们想要实现点击标签时也能选中复选框这个效果&#xff0c;那么就要用到一些原生的方法 实现效果 mounted() {// Cascader 级联选择器: 点击文本就让它自动点击前面的input就可…

PPT自动化处理

python-pptx模块 可以创建、修改PPT(.pptx)文件非Python标准模块&#xff0c;需要单独安装 在线安装方式 pip install python-pptx 读取slide幻灯片 .slides 获取shape形状 slide.shapes 判断一个shape中是否存在文字 shape.has_text_frame 获取文字框 shape.text_f…

记录汇川:H5U与Fctory IO测试10

主程序&#xff1a; 子程序&#xff1a; IO映射 子程序&#xff1a; 自动程序 Fctory IO配置&#xff1a; HMI配置&#xff1a; 实际动作如下&#xff1a; Fctory IO测试10

Java Websocket发送文件给Vue客户端接收并上传,实现检测U盘插入并将指定文件上传到服务器功能

应用环境&#xff1a; B/S架构 需求描述&#xff1a; 1、判断U盘接入 2、扫描U盘指定文件&#xff0c;将满足条件的文件发送给服务器 解决思路&#xff1a; 1、因为bs架构&#xff0c;无法获取本机资源&#xff0c;计划在U盘所在服务器部署websocket服务 2、websocket服务扫描u…

C# 快速模指数运算 快速求余运算

此方法解决这样一个问题&#xff0c;就是a^b mod m 的余数是多少。 如果直接计算a^b&#xff0c;方次很大的时候&#xff0c;会溢出&#xff0c;而且时间很长。 当然指数很小的时候直接用自带的Math函数就行&#xff0c;如果指数很大的时候&#xff0c;可以用以下的方法。 原…

提升源代码安全性的C#和Java深度混淆工具——IpaGuard

保护C#|JAVA源代码的深度混淆工具——IpaGuard 摘要 Ipa Guard是一款功能强大的IPA混淆工具&#xff0c;通过对iOS IPA文件进行混淆加密&#xff0c;保护其代码、资源和配置文件&#xff0c;降低破解反编译难度。本文将介绍Ipa Guard的深度混淆技术&#xff0c;包括逻辑混淆、…