主成分分析(PCA):探索数据的核心

文章目录

  • 前言
  • 1. 什么是 PCA ?
  • 2. PCA 的原理
    • 2.1 协方差和方差
    • 2.2 核心思想
    • 2.3 步骤
  • 3. PCA 的应用场景
  • 4. PCA 的优缺点
  • 5. 示例:人脸识别
    • 5.1 完整代码
    • 5.2 运行结果
  • 结语


前言

当今社会,数据无处不在。从社交媒体到金融交易,从医疗诊断到市场分析,数据的规模不断增长,这些数据往往具有高维度和复杂性,使得我们难以直观地理解其内在结构。而如何从海量的数据中提取出有用的信息和模式成为了一个巨大的挑战。这就是主成分分析(Principal Component Analysis,PCA)发挥作用的地方,它作为一种强大的降维技术,可以帮助我们发现数据背后的规律和奥秘。



1. 什么是 PCA ?

主成分分析(Principal Component Analysis,PCA)是一种统计学方法,旨在通过线性变换将原始数据转化为一组新的变量,这些新变量称为主成分。每个主成分都是原始数据的线性组合,且彼此之间相互独立。主成分按照方差的大小排列,前几个主成分包含了数据中大部分的信息。

在机器学习和数据科学领域,主成分分析是一种经典且常用的降维技术。通过将原始数据转换为一组新的无关变量,我们可以摒弃其中的噪声和冗余,提取出数据的主要特征。与其他降维技术相比,主成分分析不仅可以降低数据维度,还能保留尽可能多的信息。

2. PCA 的原理

为了理解主成分分析的原理,首先需要了解协方差和方差的概念。协方差描述了两个变量之间的线性关系程度,方差则衡量单个变量的离散程度。主成分分析基于这些概念,通过寻找投影轴使得数据方差最大化,实现降维的目标。

2.1 协方差和方差

协方差描述了两个变量之间的线性关系程度。对于两个变量 x x x y y y ,它们的协方差可以通过以下公式计算:

cov ( x , y ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \text{cov}(\mathbf{x}, \mathbf{y}) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) cov(x,y)=n11i=1n(xixˉ)(yiyˉ)

其中, n n n 表示样本的数量, x i x_i xi y i y_i yi 分别表示变量 x x x y y y 的取值, x ˉ \bar{x} xˉ y ˉ \bar{y} yˉ 表示变量 x x x y y y 的均值。协方差的值可以为正、负或零,分别表示正相关、负相关和无关。

方差衡量单个变量的离散程度,可以通过以下公式计算:

Var ( x ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 \text{Var}(\mathbf{x}) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 Var(x)=n11i=1n(xixˉ)2

其中, x i x_i xi 表示变量 x x x 的取值, x ˉ \bar{x} xˉ 表示变量 x x x 的均值。

2.2 核心思想

PCA 的核心思想是通过线性变换将原始数据投影到一个新的坐标系中,该坐标系的特点是使得投影后的数据在各个维度上的方差最大化。通过选择最大方差的特征向量,我们可以得到一个保留了数据主要信息的低维表示。

2.3 步骤

具体来说,PCA 的步骤如下:

  1. 标准化数据:对原始数据进行均值中心化和标准差归一化,保证每个特征具有零均值和单位方差,以避免不同尺度的特征对主成分分析的影响。

  2. 计算协方差矩阵:根据标准化后的数据计算协方差矩阵,该矩阵描述了各个特征之间的相关性。

  3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。

    特征向量描述了数据在新的坐标系中的方向,而特征值表示了以该特征向量作为基的重要性。

  4. 选择主成分:按照特征值的大小,选择前k个特征向量作为主成分,其中k是我们希望降低后的维度数目。

    在选择主成分时,我们通常会选择特征值较大的特征向量。这是因为特征值越大,说明对应的特征向量所表示的主成分包含的信息越多。通过选择适当数量的主成分,我们可以将数据从原始的高维空间投影到低维的空间中,以实现数据降维的目的。

  5. 投影数据:将标准化后的数据投影到选择的主成分上,得到降维后的数据表示。

3. PCA 的应用场景

PCA 在各个领域都有广泛的应用。以下是一些常见的应用场景:

  • 数据压缩:对于大规模数据集,PCA 可以大幅度减小数据的维度,从而节省存储空间和计算成本。
  • 数据可视化:通过将高维数据投影到二维或三维空间中,我们可以更好地理解数据集的结构和分布。
  • 特征选择和提取:PCA 能够从原始数据中发现潜在的重要特征,帮助我们理解数据背后的信息。通过选取最重要的主成分,PCA 可以减少模型复杂度和数据存储需求,同时仍能保持较高的分类或回归性能。
  • 去除噪声:如果数据包含了噪声或冗余信息,PCA 可以通过去除其中的低方差分量来消除不相关的噪声和冗余数据,以提高数据质量。
  • 图像处理:使用 PCA 可以对图像进行降噪、压缩和特征提取,对于图像识别、人脸识别等任务具有重要意义。
  • 探索性数据分析:PCA 可以帮助发现数据集中存在的模式和结构,从而帮助决策和洞察。
  • 机器学习:通过降低数据的维度,PCA可以减少模型的复杂性,并提高训练速度和模型的泛化能力。

4. PCA 的优缺点

PCA 作为一种降维技术具有以下优点:

  • 可以简化数据集,降低数据维度,减少冗余和噪声,节省存储和计算的开销。
  • 可以帮助我们理解数据之间的关联性、模式和趋势。
  • 能够保持数据之间的最大差异性,提取主要特征,消除不相关的特征,发现数据中的关键信息。
  • 可以用于数据的可视化,方便数据的分析和理解。

然而,PCA 也存在一些限制和不足:

  • 在应用 PCA 之前,数据需要进行标准化处理,使得不同特征具有相同的权重。
  • 依赖于线性假设,可能无法捕捉非线性关系,对于非线性数据可能效果不佳。
  • 不保证可解释性,可能难以直接解释降维后的每个主成分的意义。
  • 对异常值敏感,在面临异常值时可能会对数据中的异常点过度拟合。
  • 降维过程中可能丢失一些信息,使得某些细节无法完全还原。

因此,在应用 PCA 时,需要根据具体问题的需求和数据的特点来进行权衡和选择。

5. 示例:人脸识别

人脸识别是 PCA 应用的一个典型例子。通过将人脸图像转换为主成分,我们可以捕捉到人脸的主要特征,从而实现人脸识别的任务。

以下是 PCA 实现人脸识别的Python代码:

  1. 导入所需的库:
import numpy as np
import os
import cv2
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

在这里,我们导入了numpy用于数组操作,os用于文件路径操作,cv2用于读取和调整图像,sklearn库中的PCA用于主成分分析,KNeighborsClassifier用于K最近邻分类器,train_test_split用于划分训练集和测试集。

  1. 选择数据集并读取数据:
dataset_folder = 'Face'
selected_dataset = 'ORL_Faces'X = []  # 存储人脸图像数据
y = []  # 存储对应的标签images_folder = os.path.join(dataset_folder, selected_dataset)
for root, dirs, files in os.walk(images_folder):for file in files:if file.endswith('.pgm') or file.endswith('.jpg'):img_path = os.path.join(root, file)label = os.path.basename(os.path.dirname(img_path))face_img = cv2.imread(img_path, 0)face_img = cv2.resize(face_img, (100, 100))X.append(face_img.flatten())y.append(label)

在这里,我们首先指定数据集所在的文件夹(dataset_folder),然后选择一个数据集(selected_dataset)。我们遍历数据集文件夹中的每个人脸图像,读取图像并将其存储在x列表中,同时将对应的标签存储在y列表中。

  1. 将数据转换为numpy数组,并划分训练集和测试集:
X = np.array(X)
y = np.array(y)X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

在这一步中,我们将图像数据和标签转换为numpy数组,并使用train_test_split函数将数据集划分为训练集和测试集,其中 20% 的数据作为测试集。

  1. 使用 PCA 降维:
n_components = 100
pca = PCA(n_components=n_components, whiten=True)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

在这一步中,我们使用 PCA 进行降维。我们选择了 100 个主成分(n_components = 100),并通过fit_transform方法对训练集数据进行降维操作,然后使用transform方法对测试集数据进行降维。

  1. 使用 K最近邻分类器 进行人脸识别:
n_neighbors = 3
knn = KNeighborsClassifier(n_neighbors=n_neighbors)
knn.fit(X_train_pca, y_train)
y_pred = knn.predict(X_test_pca)

在这一步中,我们使用K最近邻分类器进行人脸识别。我们选择了3个邻居(n_neighbors = 3),并使用fit方法对降维后的训练数据进行分类器训练,然后使用predict方法对降维后的测试数据进行预测。

  1. 计算分类准确率:
accuracy = np.mean(y_pred == y_test) * 100
print(f"人脸识别准确率:{accuracy}%")

在这一步中,我们计算出人脸识别的准确率。我们比较预测结果(y_pred) 和 实际标签(y_test),计算预测值等于实际值的比例,并将其乘以 100 得到准确率。

  1. 可视化人脸识别结果:
random_index = np.random.randint(0, len(y_test))
test_img = X_test[random_index].reshape((100, 100))
predicted_label = y_pred[random_index]
true_label = y_test[random_index]plt.subplot(1, 2, 1)
plt.imshow(test_img, cmap='gray')
plt.title('原始图像')
plt.axis('off')plt.subplot(1, 2, 2)
plt.imshow(test_img, cmap='gray')
plt.title(f'预测: {predicted_label}\n实际: {true_label}')
plt.axis('off')plt.tight_layout()
plt.show()

在这一步中,我们随机选择一个测试图像进行可视化。我们首先获取原始图像(test_img),然后获取预测标签(predicted_label)和实际标签(true_label)。然后,我们使用subplot函数将原始图像和预测结果以子图的形式显示出来,并用标题显示预测标签。

5.1 完整代码

import numpy as np
import os
import cv2
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
import matplotlibmatplotlib.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体为中文可显示的字体dataset_folder = 'Face'  # 数据集所在的文件夹
selected_dataset = 'ORL_Faces'  # 选择ORL_Faces数据集# 读取数据集
# 首先创建一个空的图像列表和对应的标签列表
X = []  # 存储人脸图像数据
y = []  # 存储对应的标签# 遍历数据集文件夹中的每个人脸图像
images_folder = os.path.join(dataset_folder, selected_dataset)  # 数据集文件夹的路径
for root, dirs, files in os.walk(images_folder):for file in files:if file.endswith('.pgm') or file.endswith('.jpg'):img_path = os.path.join(root, file)label = os.path.basename(os.path.dirname(img_path))face_img = cv2.imread(img_path, 0)  # 以灰度图像格式读取人脸图像face_img = cv2.resize(face_img, (100, 100))  # 将人脸图像调整为统一大小,以便进行PCAX.append(face_img.flatten())  # 将人脸图像展平成一维数组并添加到列表中y.append(label)  # 添加对应的标签# 将图像数据和标签转换为numpy数组
X = np.array(X)
y = np.array(y)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 主成分分析(PCA)降维
n_components = 100  # 设置PCA选择的主成分数量
pca = PCA(n_components=n_components, whiten=True)  # 初始化PCA模型
X_train_pca = pca.fit_transform(X_train)  # 对训练数据进行PCA降维
X_test_pca = pca.transform(X_test)  # 对测试数据进行PCA降维# 使用K最近邻分类器进行人脸识别
n_neighbors = 3  # 设置K最近邻的邻居数量
knn = KNeighborsClassifier(n_neighbors=n_neighbors)  # 初始化K最近邻分类器
knn.fit(X_train_pca, y_train)  # 对降维后的训练数据进行分类器训练
y_pred = knn.predict(X_test_pca)  # 对降维后的测试数据进行分类器预测# 计算分类准确率
accuracy = np.mean(y_pred == y_test) * 100
print(f"人脸识别准确率:{accuracy}%")# 可视化人脸识别结果
# 随机选择一个测试样本进行可视化
random_index = np.random.randint(0, len(y_test))  # 随机选择一个索引
test_img = X_test[random_index].reshape((100, 100))  # 获取对应的图像
predicted_label = y_pred[random_index]  # 预测的标签
true_label = y_test[random_index]  # 实际的标签# 显示原始图像
plt.subplot(1, 2, 1)
plt.imshow(test_img, cmap='gray')
plt.title('原始图像')
plt.axis('off')# 显示预测结果
plt.subplot(1, 2, 2)
plt.imshow(test_img, cmap='gray')
plt.title(f'预测: {predicted_label}\n实际: {true_label}')
plt.axis('off')plt.tight_layout()
plt.show()

5.2 运行结果

在这里插入图片描述



结语

在本篇博客中,我们探讨了 PCA 的概念、原理、应用以及其优缺点。PCA 作为一种简化数据和发现隐藏信息的利器,对于数据分析和特征提取具有重要意义。希望读者通过本文的学习,能够深入理解 PCA,并将其应用于实际问题中。然而,在应用 PCA 时,我们需要考虑数据的特点和具体问题的需求选择合适的主成分数量,并对结果进行解释和验证。

希望这篇博客对您有所帮助!如果您对主成分分析有更多的兴趣,建议进一步学习和探索相关的算法和应用。如果您有任何问题或疑惑,欢迎在下方留言讨论。感谢阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/590021.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

十大排序算法——排序算法效率比较——选择排序、冒泡排序、选择排序、希尔排序、归并排序、快速排序、堆排序、计数排序、桶排序、基数排序

都2024年了,就不要看这种纯文字的教程了吧。一文包含十大排序算法。作者把算法原理和代码实现分为两个链接,如果想挑战一下自己的代码能力,可以选择只学习算法原理,代码完全由自己实现。 算法名称教程地址选择排序选择排序算法原…

【代码解析】代码解析之生成token(1)

本篇文章主要解析上一篇:代码解析之登录(1)里的第8行代码调用 TokenUtils 类里的genToken 方法 https://blog.csdn.net/m0_67930426/article/details/135327553?spm1001.2014.3001.5501 genToken方法代码如下: public static S…

一篇文章学会如何使用 NestJS 的 Guards 守卫实现系统用户身份验证和授权

前言 当我们基于NestJS框架构建和管理应用程序时,为了保障其安全性,我们常常需要对某些敏感操作或敏感信息的访问进行限制,这是我们需要使用到 守卫 的地方。它作为一种可以阻止未经授权的访问的机制,对我们的应用程序起到了守护…

基于C#的机械臂欧拉角与旋转矩阵转换

欧拉角概述 机器人末端执行器姿态描述方法主要有四种:旋转矩阵法、欧拉角法、等效轴角法和四元数法。所以,欧拉角是描述机械臂末端姿态的重要方法之一。 关于欧拉角的历史,由来已久,莱昂哈德欧拉用欧拉角来描述刚体在三维欧几里…

Android 13屏蔽Activity或包的手势禁止滑动退出

在Android设备中,左/右滑两次会出现一个箭头然后退出Activity页面,有些Activity页面不想出现箭头及退出. 以下是对项目中的别人已实现的代码解析. 在config.xml中配置要禁用的Activity packages/apps/Launcher3/quickstep/res/v…

如何找到并杀掉占用显存的僵尸进程

如何找到并杀掉占用显存的僵尸进程 nvitop 命令发现占用显存的僵尸进程 nvitop 命令可以实时监控显卡显存的占用,CPU 的占用,以及占用显卡的进程信息等(如下图)。nvitop 中显示 No Such Process 的进程,且它的 CPU 使…

【SpringCloud Alibaba笔记】(2)Nacos服务注册与配置中心

Nacos Nacos简介与下载 是什么? 一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。 Nacos(Dynamic Naming and Configuration Service)就是注册中心+配置中心的组合 Nacos Eureka Config Bus 替代Eureka…

for循环--均分纸牌

均分纸牌 均分纸牌 题意 把给定的纸牌均匀分配成相同的数目,问最少需要几次步骤实现(注意第一个只能往第二个分,最后一个只能往前一个分) 思路 多列几个例子发现主要判断a[i]是否与平均数相等,所以按这个条件写出代码…

前端 js 基础对象 (3)

js 对象定义 <!DOCTYPE html> <html> <body><h1>JavaScript 对象创建</h1><p id"demo1"></p> <p>new</p> <p id"demo"></p><script> // 创建对象&#xff1a; var persona {fi…

数据结构与算法——符号表API设计及有序符号表设计

Java学习手册面试指南&#xff1a;https://javaxiaobear.cn 符号表最主要的目的就是将一个键和一个值联系起来&#xff0c;符号表能够将存储的数据元素是一个键和一个值共同组成的键值对数据&#xff0c;我们可以根据键来查找对应的值。 符号表中&#xff0c;键具有唯一性。 符…

Linux文件系统调用接口

文件内容属性 所有对文件的操作就是对 1.文件内容 2.文件属性。 内容是数据&#xff0c;属性也是数据&#xff0c;存储文件&#xff0c;必须既存储内容&#xff0c;也要存储属性。 文件没有被访问时&#xff0c;一般在磁盘中。对文件访问时&#xff0c;由冯诺依曼体系结构知…

媒体捕捉-拍照

引言 在项目开发中&#xff0c;从媒体库中选择图片或使用相机拍摄图片是一个极为普遍的需求。通常&#xff0c;我们使用UIImagePickerController来实现单张图片选择或启动相机拍照。整个拍照过程由UIImagePickerController内部实现&#xff0c;无需我们关心细节&#xff0c;只…

codeforces 118 div2(a,b,c)

好像很久没有写整场比赛的题解了哈…补一场 &#xff08;1900分的d谁会啊…&#xff09; 这个 a , b a,b a,b挺有意思的&#xff0c; c c c就是一个裸的二分 比赛题目链接 A 题目大意 给定两个数的描述&#xff0c;请你比较两个数的大小关系&#xff0c;每个数的描述为&…

【分布式微服务专题】SpringSecurity快速入门

目录 前言阅读对象阅读导航前置知识笔记正文一、Spring Security介绍1.1 什么是Spring Security1.2 它是干什么的1.3 Spring Security和Shiro比较 二、快速开始2.1 用户认证2.1.1 设置用户名2.1.1.1 基于application.yml配置文件2.1.1.2 基于Java Config配置方式 2.1.2 设置加密…

IBM介绍?

IBM&#xff0c;全名国际商业机器公司&#xff08;International Business Machines Corporation&#xff09;&#xff0c;是一家全球知名的美国科技公司。它成立于1911年&#xff0c;总部位于美国纽约州阿蒙克市&#xff08;Armonk&#xff09;&#xff0c;是世界上最大的信息…

Python与ArcGIS系列(十八)GDAL之gdb转shp

目录 0 简述1 GDB(Geodatabase)2 MDB(Microsoft Access Database)3 GDB转shp0 简述 MDB和GDB数据格式分别是微软Access数据库文件格式(MDB)和Esri文件地理数据库格式(GDB)。这两种格式都被广泛用于存储和管理地理空间数据。而Shp格式是GIS中的一种重要的图层数据格式,…

一起学Elasticsearch系列-Query DSL

本文已收录至Github&#xff0c;推荐阅读 &#x1f449; Java随想录 微信公众号&#xff1a;Java随想录 文章目录 查询上下文相关度评分&#xff1a;scoreTF/IDF & BM25 源数据&#xff1a;source 源数据过滤全文检索match&#xff1a;匹配包含某个term的子句match_all&…

[Vulnhub靶机] DriftingBlues: 1

[Vulnhub靶机] DriftingBlues: 1靶机渗透思路及方法&#xff08;个人分享&#xff09; 靶机下载地址&#xff1a; https://download.vulnhub.com/driftingblues/driftingblues.ova 靶机地址&#xff1a;192.168.67.20 攻击机地址&#xff1a;192.168.67.3 一、信息收集 1.使…

感染了后缀为.DevicData-D-XXXXXXXX勒索病毒如何应对?数据能够恢复吗?

引言: 在数字时代&#xff0c;我们每个人都需要成为网络安全的守护者。通过了解DevicData-D-XXXXXXXX勒索病毒的特征、采取预防措施并了解数据恢复的方法&#xff0c;我们可以更好地保护自己的数据免受这类威胁的侵害。数据的重要性不容小觑&#xff0c;您可添加我们的技术服务…

mysql中按字段1去重,按字段2降序排序

数据举例 sql语句 按字段field4降序排序&#xff0c;按字段field1去重 SELECT tt1.name2,tt1.field1,tt1.field2,tt1.field4 from ( select tt2.name2,tt2.field1,tt2.field2,tt2.field4 from t2 tt2 ORDER BY tt2.field4 DESC ) tt1 GROUP BY tt1.field1执行结果