pytorch实现主成分分析 (PCA):用于数据降维和特征提取

 人工智能例子汇总:AI常见的算法和例子-CSDN博客 

使用 PyTorch 实现主成分分析(PCA)可以通过以下步骤进行:

  1. 标准化数据:首先,需要对数据进行标准化处理,确保每个特征的均值为 0,方差为 1。

  2. 计算协方差矩阵:计算数据的协方差矩阵,以捕捉特征之间的关系。

  3. 特征值分解:对协方差矩阵进行特征值分解,获得主成分。

  4. 选择主成分:根据特征值的大小选择前几个主成分,通常选择方差最大的主成分。

  5. 转换数据:将数据投影到选定的主成分上,完成降维。

例子代码:

import torchdef pca(X, num_components):# 标准化数据mean = torch.mean(X, dim=0)X_centered = X - mean# 计算协方差矩阵cov_matrix = torch.mm(X_centered.t(), X_centered) / (X.shape[0] - 1)# 特征值分解eigenvalues, eigenvectors = torch.linalg.eigh(cov_matrix)# 按特征值降序排列特征向量sorted_indices = torch.argsort(eigenvalues, descending=True)eigenvectors = eigenvectors[:, sorted_indices]# 选择前num_components个主成分principal_components = eigenvectors[:, :num_components]# 转换数据X_reduced = torch.mm(X_centered, principal_components)return X_reduced, principal_components# 示例数据 (假设每行是一个样本,每列是一个特征)
X = torch.tensor([[2.5, 2.4, 3.3],[0.5, 0.7, 1.9],[2.2, 2.9, 3.1],[1.9, 2.2, 2.6]])# 选择降维后的特征数量
num_components = 2# 运行PCA
X_reduced, components = pca(X, num_components)print("降维后的数据:\n", X_reduced)
print("主成分:\n", components)

代码解释:

  • X:输入数据,大小为 (n_samples, n_features),每行表示一个样本,每列表示一个特征。
  • mean:数据的均值,用于数据标准化。
  • cov_matrix:协方差矩阵,捕捉特征之间的关系。
  • eigenvalues, eigenvectors:协方差矩阵的特征值和特征向量。
  • principal_components:降序排列后的特征向量,选择前 num_components 个作为主成分。
  • X_reduced:降维后的数据,投影到选择的主成分上。

主成分分析(PCA,Principal Component Analysis)的主要作用包括以下几个方面:

1. 数据降维

  • 在高维数据集中,PCA 通过找到主要的变化方向,减少数据的维度,同时尽可能保留原始数据的信息。
  • 降维可以减少计算复杂度,提高存储和计算效率,特别是在机器学习和深度学习任务中。
  • 例如,将 100 维的数据降到 2 维或 3 维,使其可以可视化。

2. 去除数据冗余

  • 高维数据通常存在共线性(不同特征之间的相关性较高),PCA 通过去除相关性高的变量,提取最具代表性的特征,减少数据冗余。

3. 特征提取和数据压缩

  • 在某些应用中,PCA 可用于从数据中提取最重要的信息,例如图像处理中用 PCA 进行特征提取和降噪。
  • 通过只保留主要特征向量,数据可以被压缩,同时仍然保持大部分信息。

4. 提高机器学习模型的性能

  • 在高维数据集上,PCA 可减少维度,提高模型的泛化能力,减少过拟合。
  • 特别是在数据特征多但样本数量有限的情况下(如基因数据分析),PCA 能有效减少维度,提高分类或回归模型的准确性。

5. 数据可视化

  • 许多数据集的特征数目较多(例如 100 维或 1000 维),不便于可视化。
  • PCA 可以将数据降到 2D 或 3D,使其能够在散点图或其他图表中直观展示数据结构。

6. 降噪(Denoising)

  • 在信号处理或图像处理中,PCA 可以去除噪声数据,只保留主要成分,从而增强数据质量。例如,在人脸识别中,PCA 可以用来去除光照变化、背景噪声等无关信息。

7. 异常检测(Outlier Detection)

  • PCA 可以用于异常检测,特别是当数据点在降维后的投影空间中与大部分数据点相距较远时,可以被识别为异常点。

应用领域

  • 图像处理(如人脸识别、特征降维)
  • 自然语言处理(如词向量降维)
  • 金融数据分析(如股票市场数据降维、风险分析)
  • 基因数据分析(如基因表达数据降维)
  • 推荐系统(如减少用户-商品交互矩阵的维度,提高推荐系统的计算效率)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/894575.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

100 ,【8】 buuctf web [蓝帽杯 2021]One Pointer PHP(别看)

进入靶场 没提示&#xff0c;去看源代码。 user.php <?php // 定义一个名为 User 的类&#xff0c;该类可用于表示用户相关信息或执行与用户有关的操作 class User{// 声明一个公共属性 $count&#xff0c;可在类的内部和外部直接访问// 这个属性可能用于记录与用户相关…

巧妙利用数据结构优化部门查询

目录 一、出现的问题 部门树接口超时 二、问题分析 源代码分析 三、解决方案 具体实现思路 四、优化的效果 一、出现的问题 部门树接口超时 无论是在A项目还是在B项目中&#xff0c;都存在类似的页面&#xff0c;其实就是一个部门列表或者叫组织列表。 从页面的展示形式…

QT简单实现验证码(字符)

0&#xff09; 运行结果 1&#xff09; 生成随机字符串 Qt主要通过QRandomGenerator类来生成随机数。在此之前的版本中&#xff0c;qrand()函数也常被使用&#xff0c;但从Qt 5.10起&#xff0c;推荐使用更现代化的QRandomGenerator类。 在头文件添加void generateRandomNumb…

JavaFX - 3D 形状

在前面的章节中&#xff0c;我们已经了解了如何在 JavaFX 应用程序中的 XY 平面上绘制 2D 形状。除了这些 2D 形状之外&#xff0c;我们还可以使用 JavaFX 绘制其他几个 3D 形状。 通常&#xff0c;3D 形状是可以在 XYZ 平面上绘制的几何图形。它们由两个或多个维度定义&#…

深入理解开放寻址法中的三种探测序列

一、引言 开放寻址法是解决散列表中冲突的一种重要方法&#xff0c;当发生冲突&#xff08;即两个不同的键通过散列函数计算得到相同的散列值&#xff09;时&#xff0c;它会在散列表中寻找下一个可用的存储位置。而探测序列就是用于确定在发生冲突后&#xff0c;依次尝试哪些…

【双指针题目】

双指针 美丽区间&#xff08;滑动窗口&#xff09;合并数列&#xff08;双指针的应用&#xff09;等腰三角形全部所有的子序列 美丽区间&#xff08;滑动窗口&#xff09; 美丽区间 滑动窗口模板&#xff1a; int left 0, right 0;while (right < nums.size()) {// 增大…

嵌入式八股文面试题(一)C语言部分

1. 变量/函数的声明和定义的区别&#xff1f; &#xff08;1&#xff09;变量 定义不仅告知编译器变量的类型和名字&#xff0c;还会分配内存空间。 int x 10; // 定义并初始化x int x; //同样是定义 声明只是告诉编译器变量的名字和类型&#xff0c;但并不为它分配内存空间…

go-zero学习笔记(三)

利用goctl生成rpc服务 编写proto文件 // 声明 proto 使用的语法版本 syntax "proto3";// proto 包名 package demoRpc;// golang 包名(可选) option go_package "./demo";// 如需为 .proto 文件添加注释&#xff0c;请使用 C/C 样式的 // 和 /* ... */…

【25考研】南开软件考研复试复习重点!

一、复试内容 复试采取现场复试的方式。复试分为笔试、机试和面试三部分。三部分合计100分&#xff0c;其中笔试成绩占30%、机试成绩占30%、面试成绩占40%。 1.笔试&#xff1a;专业综合基础测试 考核方式&#xff1a;闭卷考试&#xff0c;时长为90分钟。 笔试考查内容范围…

【最长上升子序列Ⅱ——树状数组,二分+DP,纯DP】

题目 代码&#xff08;只给出树状数组的&#xff09; #include <bits/stdc.h> using namespace std; const int N 1e510; int n, m; int a[N], b[N], f[N], tr[N]; //f[i]表示以a[i]为尾的LIS的最大长度 void init() {sort(b1, bn1);m unique(b1, bn1) - b - 1;for(in…

012-51单片机CLD1602显示万年历+闹钟+农历+整点报时

1. 硬件设计 硬件是我自己设计的一个通用的51单片机开发平台&#xff0c;可以根据需要自行焊接模块&#xff0c;这是用立创EDA画的一个双层PCB板&#xff0c;所以模块都是插针式&#xff0c;不是表贴的。电路原理图在文末的链接里&#xff0c;PCB图暂时不选择开源。 B站上传的…

对象的实例化、内存布局与访问定位

一、创建对象的方式 二、创建对象的步骤: 一、判断对象对应的类是否加载、链接、初始化: 虚拟机遇到一条new指令&#xff0c;首先去检查这个指令的参数能否在Metaspace的常量池中定位到一个类的符号引用&#xff0c;并且检查这个符号引用代表的类是否已经被加载、解析和初始化…

传输层协议 UDP 与 TCP

&#x1f308; 个人主页&#xff1a;Zfox_ &#x1f525; 系列专栏&#xff1a;Linux 目录 一&#xff1a;&#x1f525; 前置复盘&#x1f98b; 传输层&#x1f98b; 再谈端口号&#x1f98b; 端口号范围划分&#x1f98b; 认识知名端口号 (Well-Know Port Number) 二&#xf…

实验十一 Servlet(二)

实验十一 Servlet(二) 【实验目的】 1&#xff0e;了解Servlet运行原理 2&#xff0e;掌握Servlet实现方式 【实验内容】 改造实验10&#xff0c;引入数据库&#xff0c;创建用户表&#xff0c;包括用户名和密码&#xff1a;客户端通过login.jsp发出登录请求&#xff0c;请求…

服务SDK三方新版中央仓库和私服发布详解

预备信息Github仓库发布Gradle版本匹配Gradle项目构建全局变量定义Gradle项目Nexus仓库配置与发布过程Gradle项目发布至Sonatype中央仓库配置过程总结当我们在实现一个项目技术总结、工具类封装或SDK封装,通常是为了方便开发者使用特定服务或平台而提供的一组工具和API。您可能…

openmv的端口被拆分为两个 导致电脑无法访问openmv文件系统解决办法 openmv USB功能改动 openmv驱动被更改如何修复

我之前误打误撞遇到一次&#xff0c;直接把openmv的全部端口删除卸载然后重新插上就会自动重新装上一个openmv端口修复成功&#xff0c;大家可以先试试不行再用下面的方法 全部卸载再重新插拔openmv 要解决OpenMV IDE中出现的两个端口问题&#xff0c;可以尝试以下步骤&#x…

LabVIEW双光子成像系统:自主创新,精准成像,赋能科研

双光子成像系统&#xff1a;自主创新&#xff0c;精准成像&#xff0c;赋能科研 第一部分&#xff1a;概述 双光子成像利用两个低能量光子同时激发荧光分子&#xff0c;具有深层穿透、高分辨率、低光损伤等优势。它能实现活体深层组织的成像&#xff0c;支持实时动态观察&…

Deepseek-R1 和 OpenAI o1 这样的推理模型普遍存在“思考不足”的问题

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

Vue3学习笔记-Vue开发前准备-1

一、安装15.0或更高版本的Node.js node -v npm -v 二、创建Vue项目 npm init vuelatest 三、Vue项目结构 node_modules: Vue项目运行的依赖文件public&#xff1a;资源文件夹package.json&#xff1a;信息描述文件

数据结构:时间复杂度

文章目录 为什么需要时间复杂度分析&#xff1f;一、大O表示法&#xff1a;复杂度的语言1.1 什么是大O&#xff1f;1.2 常见复杂度速查表 二、实战分析&#xff1a;解剖C语言代码2.1 循环结构的三重境界单层循环&#xff1a;线性时间双重循环&#xff1a;平方时间动态边界循环&…