数据降维-主成分分析PCA

1.背景:

在以前计算能力还很弱的年代,我们要分析经济数据是一件很困难的事情,所以我们需要对指标特征进行降维;
在这里插入图片描述

2.数据降维的意义:

一般我们降维的特征数据彼此之间是存在一定的相关性的,
二维降至一维数据:
在这里插入图片描述

复杂指标缩减至二维指标:
1.当指标纬度较高时,并不方便我们进行可视化展示,所以我们需要对数据指标进行降维。
2.使得数据集更易使用。
3.降低算法的计算开销。
4.去除噪声。
5.使得结果容易理解。
在这里插入图片描述
在这里插入图片描述
可视化示例:
这样就非常方便我们分析发达国家,发展中国家等国家的综合实力的判断了
在这里插入图片描述

3.数据降维的方式(PCA)

1.PCA:

1.全称Principal components analysis(主成分分析技术)
2.其余算法:奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)

2.目的:

寻找K(K<n)维数据,使n维空间降至K维空间,并且损失函数尽量最小;(n->k:找到一个n维空间的向量,投影到u1…u2,uk形成的空间上)

3.思路:

PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与原来的数据本身是密切相关的。

3.1为什么要相互正交呢?

正交的特征向量使得在新的特征空间中,每个特征之间的协方差为零,这意味着它们是无关的,这样可以更好地表达数据的方差。因为在 PCA 中,我们希望找到方差最大的方向作为主成分,而相互正交的向量正是保证了这一点。——>彼此之间是正交的,这样可以最大程度地保留原始数据的信息,并且让新的特征之间尽可能地独立,避免冗余信息。这也就意味着,通过正交化处理后的特征向量之间不会存在线性相关性,从而减少了特征之间的多重共线性问题

3.2举个例子:如果是非正交会怎么样?

假设我们有一个二维数据集,其中的数据点分布在 x 轴和 y 轴方向上。我们希望通过 PCA 将这个数据集从二维空间映射到一维空间。
首先,让我们看看如果特征向量不是正交的情况下会发生什么。假设我们选择两个非正交的特征向量作为主成分,分别表示 x 轴方向和 y 轴方向。如果这两个特征向量不是正交的,意味着它们之间存在一定的夹角,那么在新的特征空间中,这两个特征之间会有一定的关联性
现在,假设我们要在这个新的特征空间中找到一个方向,使得数据的方差最大化。但由于这两个特征之间存在关联性,我们无法找到一个方向同时使得 x 轴方向和 y 轴方向上的方差都最大化。因此,我们无法准确地找到数据的主要方向,也就无法有效地降低数据的维度。
相反,如果我们选择的特征向量是正交的,那么它们之间不存在关联性,我们就可以在新的特征空间中找到一个方向,使得数据的方差最大化。这样,我们就可以准确地找到数据的主要方向,有效地降低数据的维度,同时尽量保留数据的信息
因此,PCA 中要求特征向量相互正交,这样可以更好地提取数据的主要特征,减少冗余信息,从而实现降维的目的。

3.3如何找到主成分方向呢?

事实上:通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值和特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。

所以,PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。

(特征值分解)流程如下:
**大致思路:**将一个方阵分解特征向量和特征值的形式。这个过程有助于我们理解和分析线性变换的性质以及矩阵的结构;(而分解的K个特征值所对应的K个特征向量所组成的矩阵,可用于转换到新的空间当中实现数据特征的降维
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/837064.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年区块链、信号处理与航空航天国际学术会议(ICBSPA 2024)

2024年区块链、信号处理与航空航天国际学术会议&#xff08;ICBSPA 2024) 2024 International Conference on Blockchain, Signal Processing, and Aerospace 一、【会议简介】 随着科技的飞速发展&#xff0c;区块链、信号处理与航空航天等领域的交叉融合正成为推动科技进步的…

【代码随想录】【动态规划】背包问题 - 完全背包

完全背包 模板&#xff1a;完全背包问题 问题描述 完全背包问题与01背包问题唯一的区别在于&#xff1a; 在01背包中&#xff1a;每个物品只有一个&#xff0c;要么放入背包&#xff0c;要么不放入背包在完全背包中&#xff1a;每个物品有无限多个&#xff0c;可以不放入背…

卓豪Zoho CRM怎么收费?多少钱一年?

卓豪Zoho CRM作为一款功能强大且高度可定制的企业级客户关系管理系统&#xff0c;其收费标准因版本不同而有所差异&#xff0c;旨在满足不同规模及需求的企业。Zoho CRM提供多种套餐选择&#xff0c;包括但不限于免费版、标准版、专业版、企业版以及旗舰版。每种版本都包含了核…

基于Springboot的大学生平时成绩量化管理系统(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的大学生平时成绩量化管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三…

娱乐营销的新玩法:Kompas.ai如何让内容更加趣味化

在数字化时代&#xff0c;内容营销已成为品牌与消费者沟通的重要桥梁。然而&#xff0c;随着信息的爆炸式增长&#xff0c;用户的注意力越来越分散&#xff0c;传统的营销方式已经难以吸引用户的兴趣。在这种背景下&#xff0c;娱乐营销应运而生&#xff0c;它通过将娱乐元素融…

华东政法大学公布2024《负面清单期刊目录》,附目录

近日&#xff0c;华东政法大学公布2024《负面清单期刊目录》&#xff0c;包括《齐齐哈尔大学学报(哲学社会科学版)》《景德镇学院学报(社科)》《九江学院学报(社科)》《北京印刷学院学报》《江西电力职业技术学院学报》《中国多媒体与网络教学学报》《吉林省教育学院学报》《开…

Poetry Camera照相机将照片转换成诗歌并打印出来;吴恩达新课程深入了解Mistral;科学研究AI小助手data-to-paper

✨ 1: Poetry Camera 将拍摄的照片转换成诗歌并打印出来 Poetry Camera——一个能够把它所见之物转化成诗歌并打印出来的相机。你在一个美丽的公园&#xff0c;或者是一个充满故事的老街道。只要用Poetry Camera拍下这一刻&#xff0c;它就能立刻给你一首关于这个场景的诗。 …

【JAVA进阶篇教学】第十五篇:Java中AQS讲解

博主打算从0-1讲解下java进阶篇教学&#xff0c;今天教学第十五篇&#xff1a;Java中AQS讲解。 在Java并发编程中&#xff0c;AQS&#xff08;AbstractQueuedSynchronizer&#xff09;是一个重要的框架&#xff0c;用于实现同步器和锁的基础。它提供了一种灵活的方式来实现各种…

浏览器不兼容 replaceAll 方法问题解决

问题 在一些较旧版本的浏览器中可能会出现 replaceAll 方法不兼容&#xff0c;提示replaceAll 方法 undefined 的问题。浏览器版本兼容情况如下图所示&#xff1a; 解决 可以通过 replace 正则表达式 的方法来代替 replaceAll 方法&#xff1a; let str "我是一段文本…

CorelDRAW2024设计新境界,等你解锁!

CorelDRAW&#xff0c;这款由加拿大Corel公司开发的平面设计软件&#xff0c;自从1989年问世以来&#xff0c;就以其强大的功能和用户友好的界面&#xff0c;在全球设计师中享有极高的声誉。今天&#xff0c;我们要聊的主角是它的最新版本——CorelDRAW 2024。 CDR永久版安装包…

材料物理 笔记-8

原内容请参考哈尔滨工业大学何飞教授&#xff1a;https://www.bilibili.com/video/BV18b4y1Y7wd/?p12&spm_id_frompageDriver&vd_source61654d4a6e8d7941436149dd99026962 或《材料物理性能及其在材料研究中的应用》&#xff08;哈尔滨工业大学出版社&#xff09; ——…

出租车计价器设计与实现(论文 + 源码)

关于java出租车计价器设计与实现.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89304164 出租车计价器设计与实现 摘 要 在我国&#xff0c;出租车行业是八十年代初兴起的一项新兴行业&#xff0c;随着出租车的产生&#xff0c;计价器也就应运而生。但当时在全…

【异常】SpringBoot整合RabbitMQ-发送消息报错

错误信息 reply-code406, reply-textPRECONDITION_FAILED - inequivalent arg ‘x-message-ttl’ for queue ‘hello-queue’ in vhost ‘/lq’: received none but current is the value ‘10000’ of type ‘signedint’, class-id50, method-id10 错误原因 hello-queue这…

日志的基本用法

目标 1. 掌握如何设置日志级别 2. 掌握如何设置日志格式 3. 掌握如何将日志信息输出到文件中 1. logging模块 Python中有一个标准库模块logging可以直接记录日志 1.1 基本用法 import logging logging.debug("这是一条调试信息") logging.info("这是一条…

迪安诊断数智中心战略与PMO负责人徐黎明受邀为第十三届中国PMO大会演讲嘉宾

全国PMO专业人士年度盛会 迪安诊断技术集团股份有限公司数智中心战略与PMO负责人徐黎明先生受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾&#xff0c;演讲议题为“软件研发项目管理指标体系建设实践”。大会将于6月29-30日在北京举办&#xff0c;敬请关注&#xff01; …

01-项目功能,架构设计介绍

稻草快速开发平台 开发背景就是通过此项目介绍使用SpringBoot Vue3两大技术栈开发一个拥有动态权限、路由的前后端分离项目&#xff0c;此项目可以继续完善&#xff0c;成为一个模板为将来快速开发做铺垫。 实现功能 开发流程 通过命令构建前端项目在VSCode中开发&#xff…

【话题】Agent AI智能体的未来

大家好&#xff0c;我是全栈小5&#xff0c;欢迎阅读小5的系列文章&#xff0c;这是《话题》系列文章 目录 背景一、Agent AI智能体的角色二、Agent AI智能体的发展路径三、Agent AI智能体可能带来的挑战文章推荐 背景 随着Agent AI智能体的智能化水平不断提高&#xff0c;它们…

Llama3中文聊天项目全能资源库

Llama3 中文聊天项目综合资源库&#xff0c;集合了与Lama3 模型相关的各种中文资料&#xff0c;包括微调版本、有趣的权重、训练、推理、评测和部署的教程视频与文档。1. 多版本支持与创新&#xff1a;该仓库提供了多个版本的Lama3 模型&#xff0c;包括基于不同技术和偏好的微…

STK12 RPO模块学习(2)

一、Coast RPO Sequence 这个序列运行卫星直到它达到了下面三个条件之一。 1&#xff09;截至时间。2)圈数到达了限制。3&#xff09;其他条件&#xff0c;比如近地点。 默认情况下&#xff0c;Astrogator使用“Earth HPOP Default v10”预报器。你能够修改呈其他修改器。下…

【Linux线程(一)】线程初理解

前言&#xff1a; &#xff08;一&#xff09;线程的概念 &#xff08;二&#xff09;线程的理解 &#xff08;三&#xff09;示例 &#xff08;四&#xff09;线程优缺点 线程的优点 线程的缺点 &#xff08;五&#xff09;线程和进程的切换 1.线程的切换 2.进程的切换…