数据降维-主成分分析PCA

1.背景:

在以前计算能力还很弱的年代,我们要分析经济数据是一件很困难的事情,所以我们需要对指标特征进行降维;
在这里插入图片描述

2.数据降维的意义:

一般我们降维的特征数据彼此之间是存在一定的相关性的,
二维降至一维数据:
在这里插入图片描述

复杂指标缩减至二维指标:
1.当指标纬度较高时,并不方便我们进行可视化展示,所以我们需要对数据指标进行降维。
2.使得数据集更易使用。
3.降低算法的计算开销。
4.去除噪声。
5.使得结果容易理解。
在这里插入图片描述
在这里插入图片描述
可视化示例:
这样就非常方便我们分析发达国家,发展中国家等国家的综合实力的判断了
在这里插入图片描述

3.数据降维的方式(PCA)

1.PCA:

1.全称Principal components analysis(主成分分析技术)
2.其余算法:奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)

2.目的:

寻找K(K<n)维数据,使n维空间降至K维空间,并且损失函数尽量最小;(n->k:找到一个n维空间的向量,投影到u1…u2,uk形成的空间上)

3.思路:

PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与原来的数据本身是密切相关的。

3.1为什么要相互正交呢?

正交的特征向量使得在新的特征空间中,每个特征之间的协方差为零,这意味着它们是无关的,这样可以更好地表达数据的方差。因为在 PCA 中,我们希望找到方差最大的方向作为主成分,而相互正交的向量正是保证了这一点。——>彼此之间是正交的,这样可以最大程度地保留原始数据的信息,并且让新的特征之间尽可能地独立,避免冗余信息。这也就意味着,通过正交化处理后的特征向量之间不会存在线性相关性,从而减少了特征之间的多重共线性问题

3.2举个例子:如果是非正交会怎么样?

假设我们有一个二维数据集,其中的数据点分布在 x 轴和 y 轴方向上。我们希望通过 PCA 将这个数据集从二维空间映射到一维空间。
首先,让我们看看如果特征向量不是正交的情况下会发生什么。假设我们选择两个非正交的特征向量作为主成分,分别表示 x 轴方向和 y 轴方向。如果这两个特征向量不是正交的,意味着它们之间存在一定的夹角,那么在新的特征空间中,这两个特征之间会有一定的关联性
现在,假设我们要在这个新的特征空间中找到一个方向,使得数据的方差最大化。但由于这两个特征之间存在关联性,我们无法找到一个方向同时使得 x 轴方向和 y 轴方向上的方差都最大化。因此,我们无法准确地找到数据的主要方向,也就无法有效地降低数据的维度。
相反,如果我们选择的特征向量是正交的,那么它们之间不存在关联性,我们就可以在新的特征空间中找到一个方向,使得数据的方差最大化。这样,我们就可以准确地找到数据的主要方向,有效地降低数据的维度,同时尽量保留数据的信息
因此,PCA 中要求特征向量相互正交,这样可以更好地提取数据的主要特征,减少冗余信息,从而实现降维的目的。

3.3如何找到主成分方向呢?

事实上:通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值和特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。

所以,PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。

(特征值分解)流程如下:
**大致思路:**将一个方阵分解特征向量和特征值的形式。这个过程有助于我们理解和分析线性变换的性质以及矩阵的结构;(而分解的K个特征值所对应的K个特征向量所组成的矩阵,可用于转换到新的空间当中实现数据特征的降维
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/837064.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年区块链、信号处理与航空航天国际学术会议(ICBSPA 2024)

2024年区块链、信号处理与航空航天国际学术会议&#xff08;ICBSPA 2024) 2024 International Conference on Blockchain, Signal Processing, and Aerospace 一、【会议简介】 随着科技的飞速发展&#xff0c;区块链、信号处理与航空航天等领域的交叉融合正成为推动科技进步的…

【代码随想录】【动态规划】背包问题 - 完全背包

完全背包 模板&#xff1a;完全背包问题 问题描述 完全背包问题与01背包问题唯一的区别在于&#xff1a; 在01背包中&#xff1a;每个物品只有一个&#xff0c;要么放入背包&#xff0c;要么不放入背包在完全背包中&#xff1a;每个物品有无限多个&#xff0c;可以不放入背…

2d激光slam中的常用地图介绍

2d激光slam中最常用的是栅格地图&#xff0c;用于保存建图后的地图。实际应用中的栅格地图也有很多类型和不同用处&#xff0c;下面根据使用经验一一介绍。 局部子地图&#xff0c;由一系列小栅格地图组成&#xff0c;每个栅格地图负责记录保存局部轨迹&#xff0c;通常用三个局…

卓豪Zoho CRM怎么收费?多少钱一年?

卓豪Zoho CRM作为一款功能强大且高度可定制的企业级客户关系管理系统&#xff0c;其收费标准因版本不同而有所差异&#xff0c;旨在满足不同规模及需求的企业。Zoho CRM提供多种套餐选择&#xff0c;包括但不限于免费版、标准版、专业版、企业版以及旗舰版。每种版本都包含了核…

基于Springboot的大学生平时成绩量化管理系统(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的大学生平时成绩量化管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三…

Docker Dockerfile如何编写?

Dockerfile 是一个用来构建镜像的文本文件&#xff0c;文本内容包含了一条条构建镜像所需的指令和说明。 1.指令说明 FROM&#xff0c;构建镜像基于哪个镜像 MAINTAINER&#xff0c;镜像维护者姓名或邮箱地址 RUN&#xff0c;构建镜像时运行的指令 CMD&#xff0c;运行容器时执…

娱乐营销的新玩法:Kompas.ai如何让内容更加趣味化

在数字化时代&#xff0c;内容营销已成为品牌与消费者沟通的重要桥梁。然而&#xff0c;随着信息的爆炸式增长&#xff0c;用户的注意力越来越分散&#xff0c;传统的营销方式已经难以吸引用户的兴趣。在这种背景下&#xff0c;娱乐营销应运而生&#xff0c;它通过将娱乐元素融…

数据库和Redis数据不一致的问题

目录 1. 延迟双删策略 2. 使用消息队列&#xff08;MQ&#xff09; 3. 引入分布式锁 4. 先更新数据库&#xff0c;再删除缓存 5. 设置缓存过期时间 6. 使用Redis事务 7. 监控和报警机制 数据库和Redis数据不一致的问题&#xff0c;主要源于Redis和数据库的异步写入机制。…

【设计模式】桥接模式-学习记录

概念 桥接模式是一种结构型设计模式&#xff0c;其UML图像一座桥&#xff0c;通过抽象部分与实现部分分离&#xff0c;使它们可以独立变化&#xff0c;从而达到降低系统低耦合的目的。桥接模式只要目的是通过组合建立两个类之间的联系&#xff0c;而不是继承的方式。 基本结构…

华东政法大学公布2024《负面清单期刊目录》,附目录

近日&#xff0c;华东政法大学公布2024《负面清单期刊目录》&#xff0c;包括《齐齐哈尔大学学报(哲学社会科学版)》《景德镇学院学报(社科)》《九江学院学报(社科)》《北京印刷学院学报》《江西电力职业技术学院学报》《中国多媒体与网络教学学报》《吉林省教育学院学报》《开…

Poetry Camera照相机将照片转换成诗歌并打印出来;吴恩达新课程深入了解Mistral;科学研究AI小助手data-to-paper

✨ 1: Poetry Camera 将拍摄的照片转换成诗歌并打印出来 Poetry Camera——一个能够把它所见之物转化成诗歌并打印出来的相机。你在一个美丽的公园&#xff0c;或者是一个充满故事的老街道。只要用Poetry Camera拍下这一刻&#xff0c;它就能立刻给你一首关于这个场景的诗。 …

【JAVA进阶篇教学】第十五篇:Java中AQS讲解

博主打算从0-1讲解下java进阶篇教学&#xff0c;今天教学第十五篇&#xff1a;Java中AQS讲解。 在Java并发编程中&#xff0c;AQS&#xff08;AbstractQueuedSynchronizer&#xff09;是一个重要的框架&#xff0c;用于实现同步器和锁的基础。它提供了一种灵活的方式来实现各种…

浏览器不兼容 replaceAll 方法问题解决

问题 在一些较旧版本的浏览器中可能会出现 replaceAll 方法不兼容&#xff0c;提示replaceAll 方法 undefined 的问题。浏览器版本兼容情况如下图所示&#xff1a; 解决 可以通过 replace 正则表达式 的方法来代替 replaceAll 方法&#xff1a; let str "我是一段文本…

CorelDRAW2024设计新境界,等你解锁!

CorelDRAW&#xff0c;这款由加拿大Corel公司开发的平面设计软件&#xff0c;自从1989年问世以来&#xff0c;就以其强大的功能和用户友好的界面&#xff0c;在全球设计师中享有极高的声誉。今天&#xff0c;我们要聊的主角是它的最新版本——CorelDRAW 2024。 CDR永久版安装包…

材料物理 笔记-8

原内容请参考哈尔滨工业大学何飞教授&#xff1a;https://www.bilibili.com/video/BV18b4y1Y7wd/?p12&spm_id_frompageDriver&vd_source61654d4a6e8d7941436149dd99026962 或《材料物理性能及其在材料研究中的应用》&#xff08;哈尔滨工业大学出版社&#xff09; ——…

从零学算法6

6. Z 字形变换 将一个给定字符串 s 根据给定的行数 numRows &#xff0c;以从上往下、从左到右进行 Z 字形排列。 比如输入字符串为 “PAYPALISHIRING” 行数为 3 时&#xff0c;排列如下&#xff1a; P A H NA P L S I I GY I R之后&#xff0c;你的输出需要从左往右…

Python3 笔记:分支结构

Python 中选择结构&#xff1a;单分支选择结构、双分支选择结构、多分支选择结构。 1、if 语句是单分支选择结构&#xff0c;其语法形式如下&#xff1a; if 条件表达式: 语句块 如果条件表达式的值为真&#xff0c;即条件成立&#xff0c;语句块将被执行&#xff1b;否…

出租车计价器设计与实现(论文 + 源码)

关于java出租车计价器设计与实现.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89304164 出租车计价器设计与实现 摘 要 在我国&#xff0c;出租车行业是八十年代初兴起的一项新兴行业&#xff0c;随着出租车的产生&#xff0c;计价器也就应运而生。但当时在全…

MySQL视图简介

# MySQL视图简介 在数据库管理中&#xff0c;视图&#xff08;View&#xff09;是一个虚拟表&#xff0c;其内容由查询定义。与包含数据的实际表不同&#xff0c;视图只存储定义它的SQL查询语句&#xff0c;并在查询视图时动态生成结果集。MySQL视图功能强大&#xff0c;能简化…

【异常】SpringBoot整合RabbitMQ-发送消息报错

错误信息 reply-code406, reply-textPRECONDITION_FAILED - inequivalent arg ‘x-message-ttl’ for queue ‘hello-queue’ in vhost ‘/lq’: received none but current is the value ‘10000’ of type ‘signedint’, class-id50, method-id10 错误原因 hello-queue这…