主成分分析(PCA):探索数据的核心

文章目录

  • 前言
  • 1. 什么是 PCA ?
  • 2. PCA 的原理
    • 2.1 协方差和方差
    • 2.2 核心思想
    • 2.3 步骤
  • 3. PCA 的应用场景
  • 4. PCA 的优缺点
  • 5. 示例:人脸识别
    • 5.1 完整代码
    • 5.2 运行结果
  • 结语


前言

当今社会,数据无处不在。从社交媒体到金融交易,从医疗诊断到市场分析,数据的规模不断增长,这些数据往往具有高维度和复杂性,使得我们难以直观地理解其内在结构。而如何从海量的数据中提取出有用的信息和模式成为了一个巨大的挑战。这就是主成分分析(Principal Component Analysis,PCA)发挥作用的地方,它作为一种强大的降维技术,可以帮助我们发现数据背后的规律和奥秘。



1. 什么是 PCA ?

主成分分析(Principal Component Analysis,PCA)是一种统计学方法,旨在通过线性变换将原始数据转化为一组新的变量,这些新变量称为主成分。每个主成分都是原始数据的线性组合,且彼此之间相互独立。主成分按照方差的大小排列,前几个主成分包含了数据中大部分的信息。

在机器学习和数据科学领域,主成分分析是一种经典且常用的降维技术。通过将原始数据转换为一组新的无关变量,我们可以摒弃其中的噪声和冗余,提取出数据的主要特征。与其他降维技术相比,主成分分析不仅可以降低数据维度,还能保留尽可能多的信息。

2. PCA 的原理

为了理解主成分分析的原理,首先需要了解协方差和方差的概念。协方差描述了两个变量之间的线性关系程度,方差则衡量单个变量的离散程度。主成分分析基于这些概念,通过寻找投影轴使得数据方差最大化,实现降维的目标。

2.1 协方差和方差

协方差描述了两个变量之间的线性关系程度。对于两个变量 x x x y y y ,它们的协方差可以通过以下公式计算:

cov ( x , y ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \text{cov}(\mathbf{x}, \mathbf{y}) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) cov(x,y)=n11i=1n(xixˉ)(yiyˉ)

其中, n n n 表示样本的数量, x i x_i xi y i y_i yi 分别表示变量 x x x y y y 的取值, x ˉ \bar{x} xˉ y ˉ \bar{y} yˉ 表示变量 x x x y y y 的均值。协方差的值可以为正、负或零,分别表示正相关、负相关和无关。

方差衡量单个变量的离散程度,可以通过以下公式计算:

Var ( x ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 \text{Var}(\mathbf{x}) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 Var(x)=n11i=1n(xixˉ)2

其中, x i x_i xi 表示变量 x x x 的取值, x ˉ \bar{x} xˉ 表示变量 x x x 的均值。

2.2 核心思想

PCA 的核心思想是通过线性变换将原始数据投影到一个新的坐标系中,该坐标系的特点是使得投影后的数据在各个维度上的方差最大化。通过选择最大方差的特征向量,我们可以得到一个保留了数据主要信息的低维表示。

2.3 步骤

具体来说,PCA 的步骤如下:

  1. 标准化数据:对原始数据进行均值中心化和标准差归一化,保证每个特征具有零均值和单位方差,以避免不同尺度的特征对主成分分析的影响。

  2. 计算协方差矩阵:根据标准化后的数据计算协方差矩阵,该矩阵描述了各个特征之间的相关性。

  3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。

    特征向量描述了数据在新的坐标系中的方向,而特征值表示了以该特征向量作为基的重要性。

  4. 选择主成分:按照特征值的大小,选择前k个特征向量作为主成分,其中k是我们希望降低后的维度数目。

    在选择主成分时,我们通常会选择特征值较大的特征向量。这是因为特征值越大,说明对应的特征向量所表示的主成分包含的信息越多。通过选择适当数量的主成分,我们可以将数据从原始的高维空间投影到低维的空间中,以实现数据降维的目的。

  5. 投影数据:将标准化后的数据投影到选择的主成分上,得到降维后的数据表示。

3. PCA 的应用场景

PCA 在各个领域都有广泛的应用。以下是一些常见的应用场景:

  • 数据压缩:对于大规模数据集,PCA 可以大幅度减小数据的维度,从而节省存储空间和计算成本。
  • 数据可视化:通过将高维数据投影到二维或三维空间中,我们可以更好地理解数据集的结构和分布。
  • 特征选择和提取:PCA 能够从原始数据中发现潜在的重要特征,帮助我们理解数据背后的信息。通过选取最重要的主成分,PCA 可以减少模型复杂度和数据存储需求,同时仍能保持较高的分类或回归性能。
  • 去除噪声:如果数据包含了噪声或冗余信息,PCA 可以通过去除其中的低方差分量来消除不相关的噪声和冗余数据,以提高数据质量。
  • 图像处理:使用 PCA 可以对图像进行降噪、压缩和特征提取,对于图像识别、人脸识别等任务具有重要意义。
  • 探索性数据分析:PCA 可以帮助发现数据集中存在的模式和结构,从而帮助决策和洞察。
  • 机器学习:通过降低数据的维度,PCA可以减少模型的复杂性,并提高训练速度和模型的泛化能力。

4. PCA 的优缺点

PCA 作为一种降维技术具有以下优点:

  • 可以简化数据集,降低数据维度,减少冗余和噪声,节省存储和计算的开销。
  • 可以帮助我们理解数据之间的关联性、模式和趋势。
  • 能够保持数据之间的最大差异性,提取主要特征,消除不相关的特征,发现数据中的关键信息。
  • 可以用于数据的可视化,方便数据的分析和理解。

然而,PCA 也存在一些限制和不足:

  • 在应用 PCA 之前,数据需要进行标准化处理,使得不同特征具有相同的权重。
  • 依赖于线性假设,可能无法捕捉非线性关系,对于非线性数据可能效果不佳。
  • 不保证可解释性,可能难以直接解释降维后的每个主成分的意义。
  • 对异常值敏感,在面临异常值时可能会对数据中的异常点过度拟合。
  • 降维过程中可能丢失一些信息,使得某些细节无法完全还原。

因此,在应用 PCA 时,需要根据具体问题的需求和数据的特点来进行权衡和选择。

5. 示例:人脸识别

人脸识别是 PCA 应用的一个典型例子。通过将人脸图像转换为主成分,我们可以捕捉到人脸的主要特征,从而实现人脸识别的任务。

以下是 PCA 实现人脸识别的Python代码:

  1. 导入所需的库:
import numpy as np
import os
import cv2
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

在这里,我们导入了numpy用于数组操作,os用于文件路径操作,cv2用于读取和调整图像,sklearn库中的PCA用于主成分分析,KNeighborsClassifier用于K最近邻分类器,train_test_split用于划分训练集和测试集。

  1. 选择数据集并读取数据:
dataset_folder = 'Face'
selected_dataset = 'ORL_Faces'X = []  # 存储人脸图像数据
y = []  # 存储对应的标签images_folder = os.path.join(dataset_folder, selected_dataset)
for root, dirs, files in os.walk(images_folder):for file in files:if file.endswith('.pgm') or file.endswith('.jpg'):img_path = os.path.join(root, file)label = os.path.basename(os.path.dirname(img_path))face_img = cv2.imread(img_path, 0)face_img = cv2.resize(face_img, (100, 100))X.append(face_img.flatten())y.append(label)

在这里,我们首先指定数据集所在的文件夹(dataset_folder),然后选择一个数据集(selected_dataset)。我们遍历数据集文件夹中的每个人脸图像,读取图像并将其存储在x列表中,同时将对应的标签存储在y列表中。

  1. 将数据转换为numpy数组,并划分训练集和测试集:
X = np.array(X)
y = np.array(y)X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

在这一步中,我们将图像数据和标签转换为numpy数组,并使用train_test_split函数将数据集划分为训练集和测试集,其中 20% 的数据作为测试集。

  1. 使用 PCA 降维:
n_components = 100
pca = PCA(n_components=n_components, whiten=True)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

在这一步中,我们使用 PCA 进行降维。我们选择了 100 个主成分(n_components = 100),并通过fit_transform方法对训练集数据进行降维操作,然后使用transform方法对测试集数据进行降维。

  1. 使用 K最近邻分类器 进行人脸识别:
n_neighbors = 3
knn = KNeighborsClassifier(n_neighbors=n_neighbors)
knn.fit(X_train_pca, y_train)
y_pred = knn.predict(X_test_pca)

在这一步中,我们使用K最近邻分类器进行人脸识别。我们选择了3个邻居(n_neighbors = 3),并使用fit方法对降维后的训练数据进行分类器训练,然后使用predict方法对降维后的测试数据进行预测。

  1. 计算分类准确率:
accuracy = np.mean(y_pred == y_test) * 100
print(f"人脸识别准确率:{accuracy}%")

在这一步中,我们计算出人脸识别的准确率。我们比较预测结果(y_pred) 和 实际标签(y_test),计算预测值等于实际值的比例,并将其乘以 100 得到准确率。

  1. 可视化人脸识别结果:
random_index = np.random.randint(0, len(y_test))
test_img = X_test[random_index].reshape((100, 100))
predicted_label = y_pred[random_index]
true_label = y_test[random_index]plt.subplot(1, 2, 1)
plt.imshow(test_img, cmap='gray')
plt.title('原始图像')
plt.axis('off')plt.subplot(1, 2, 2)
plt.imshow(test_img, cmap='gray')
plt.title(f'预测: {predicted_label}\n实际: {true_label}')
plt.axis('off')plt.tight_layout()
plt.show()

在这一步中,我们随机选择一个测试图像进行可视化。我们首先获取原始图像(test_img),然后获取预测标签(predicted_label)和实际标签(true_label)。然后,我们使用subplot函数将原始图像和预测结果以子图的形式显示出来,并用标题显示预测标签。

5.1 完整代码

import numpy as np
import os
import cv2
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
import matplotlibmatplotlib.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体为中文可显示的字体dataset_folder = 'Face'  # 数据集所在的文件夹
selected_dataset = 'ORL_Faces'  # 选择ORL_Faces数据集# 读取数据集
# 首先创建一个空的图像列表和对应的标签列表
X = []  # 存储人脸图像数据
y = []  # 存储对应的标签# 遍历数据集文件夹中的每个人脸图像
images_folder = os.path.join(dataset_folder, selected_dataset)  # 数据集文件夹的路径
for root, dirs, files in os.walk(images_folder):for file in files:if file.endswith('.pgm') or file.endswith('.jpg'):img_path = os.path.join(root, file)label = os.path.basename(os.path.dirname(img_path))face_img = cv2.imread(img_path, 0)  # 以灰度图像格式读取人脸图像face_img = cv2.resize(face_img, (100, 100))  # 将人脸图像调整为统一大小,以便进行PCAX.append(face_img.flatten())  # 将人脸图像展平成一维数组并添加到列表中y.append(label)  # 添加对应的标签# 将图像数据和标签转换为numpy数组
X = np.array(X)
y = np.array(y)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 主成分分析(PCA)降维
n_components = 100  # 设置PCA选择的主成分数量
pca = PCA(n_components=n_components, whiten=True)  # 初始化PCA模型
X_train_pca = pca.fit_transform(X_train)  # 对训练数据进行PCA降维
X_test_pca = pca.transform(X_test)  # 对测试数据进行PCA降维# 使用K最近邻分类器进行人脸识别
n_neighbors = 3  # 设置K最近邻的邻居数量
knn = KNeighborsClassifier(n_neighbors=n_neighbors)  # 初始化K最近邻分类器
knn.fit(X_train_pca, y_train)  # 对降维后的训练数据进行分类器训练
y_pred = knn.predict(X_test_pca)  # 对降维后的测试数据进行分类器预测# 计算分类准确率
accuracy = np.mean(y_pred == y_test) * 100
print(f"人脸识别准确率:{accuracy}%")# 可视化人脸识别结果
# 随机选择一个测试样本进行可视化
random_index = np.random.randint(0, len(y_test))  # 随机选择一个索引
test_img = X_test[random_index].reshape((100, 100))  # 获取对应的图像
predicted_label = y_pred[random_index]  # 预测的标签
true_label = y_test[random_index]  # 实际的标签# 显示原始图像
plt.subplot(1, 2, 1)
plt.imshow(test_img, cmap='gray')
plt.title('原始图像')
plt.axis('off')# 显示预测结果
plt.subplot(1, 2, 2)
plt.imshow(test_img, cmap='gray')
plt.title(f'预测: {predicted_label}\n实际: {true_label}')
plt.axis('off')plt.tight_layout()
plt.show()

5.2 运行结果

在这里插入图片描述



结语

在本篇博客中,我们探讨了 PCA 的概念、原理、应用以及其优缺点。PCA 作为一种简化数据和发现隐藏信息的利器,对于数据分析和特征提取具有重要意义。希望读者通过本文的学习,能够深入理解 PCA,并将其应用于实际问题中。然而,在应用 PCA 时,我们需要考虑数据的特点和具体问题的需求选择合适的主成分数量,并对结果进行解释和验证。

希望这篇博客对您有所帮助!如果您对主成分分析有更多的兴趣,建议进一步学习和探索相关的算法和应用。如果您有任何问题或疑惑,欢迎在下方留言讨论。感谢阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/590021.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【代码解析】代码解析之生成token(1)

本篇文章主要解析上一篇:代码解析之登录(1)里的第8行代码调用 TokenUtils 类里的genToken 方法 https://blog.csdn.net/m0_67930426/article/details/135327553?spm1001.2014.3001.5501 genToken方法代码如下: public static S…

基于C#的机械臂欧拉角与旋转矩阵转换

欧拉角概述 机器人末端执行器姿态描述方法主要有四种:旋转矩阵法、欧拉角法、等效轴角法和四元数法。所以,欧拉角是描述机械臂末端姿态的重要方法之一。 关于欧拉角的历史,由来已久,莱昂哈德欧拉用欧拉角来描述刚体在三维欧几里…

如何找到并杀掉占用显存的僵尸进程

如何找到并杀掉占用显存的僵尸进程 nvitop 命令发现占用显存的僵尸进程 nvitop 命令可以实时监控显卡显存的占用,CPU 的占用,以及占用显卡的进程信息等(如下图)。nvitop 中显示 No Such Process 的进程,且它的 CPU 使…

【SpringCloud Alibaba笔记】(2)Nacos服务注册与配置中心

Nacos Nacos简介与下载 是什么? 一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。 Nacos(Dynamic Naming and Configuration Service)就是注册中心+配置中心的组合 Nacos Eureka Config Bus 替代Eureka…

前端 js 基础对象 (3)

js 对象定义 <!DOCTYPE html> <html> <body><h1>JavaScript 对象创建</h1><p id"demo1"></p> <p>new</p> <p id"demo"></p><script> // 创建对象&#xff1a; var persona {fi…

数据结构与算法——符号表API设计及有序符号表设计

Java学习手册面试指南&#xff1a;https://javaxiaobear.cn 符号表最主要的目的就是将一个键和一个值联系起来&#xff0c;符号表能够将存储的数据元素是一个键和一个值共同组成的键值对数据&#xff0c;我们可以根据键来查找对应的值。 符号表中&#xff0c;键具有唯一性。 符…

Linux文件系统调用接口

文件内容属性 所有对文件的操作就是对 1.文件内容 2.文件属性。 内容是数据&#xff0c;属性也是数据&#xff0c;存储文件&#xff0c;必须既存储内容&#xff0c;也要存储属性。 文件没有被访问时&#xff0c;一般在磁盘中。对文件访问时&#xff0c;由冯诺依曼体系结构知…

媒体捕捉-拍照

引言 在项目开发中&#xff0c;从媒体库中选择图片或使用相机拍摄图片是一个极为普遍的需求。通常&#xff0c;我们使用UIImagePickerController来实现单张图片选择或启动相机拍照。整个拍照过程由UIImagePickerController内部实现&#xff0c;无需我们关心细节&#xff0c;只…

【分布式微服务专题】SpringSecurity快速入门

目录 前言阅读对象阅读导航前置知识笔记正文一、Spring Security介绍1.1 什么是Spring Security1.2 它是干什么的1.3 Spring Security和Shiro比较 二、快速开始2.1 用户认证2.1.1 设置用户名2.1.1.1 基于application.yml配置文件2.1.1.2 基于Java Config配置方式 2.1.2 设置加密…

IBM介绍?

IBM&#xff0c;全名国际商业机器公司&#xff08;International Business Machines Corporation&#xff09;&#xff0c;是一家全球知名的美国科技公司。它成立于1911年&#xff0c;总部位于美国纽约州阿蒙克市&#xff08;Armonk&#xff09;&#xff0c;是世界上最大的信息…

一起学Elasticsearch系列-Query DSL

本文已收录至Github&#xff0c;推荐阅读 &#x1f449; Java随想录 微信公众号&#xff1a;Java随想录 文章目录 查询上下文相关度评分&#xff1a;scoreTF/IDF & BM25 源数据&#xff1a;source 源数据过滤全文检索match&#xff1a;匹配包含某个term的子句match_all&…

[Vulnhub靶机] DriftingBlues: 1

[Vulnhub靶机] DriftingBlues: 1靶机渗透思路及方法&#xff08;个人分享&#xff09; 靶机下载地址&#xff1a; https://download.vulnhub.com/driftingblues/driftingblues.ova 靶机地址&#xff1a;192.168.67.20 攻击机地址&#xff1a;192.168.67.3 一、信息收集 1.使…

mysql中按字段1去重,按字段2降序排序

数据举例 sql语句 按字段field4降序排序&#xff0c;按字段field1去重 SELECT tt1.name2,tt1.field1,tt1.field2,tt1.field4 from ( select tt2.name2,tt2.field1,tt2.field2,tt2.field4 from t2 tt2 ORDER BY tt2.field4 DESC ) tt1 GROUP BY tt1.field1执行结果

mysql的索引原理

目录 一、索引采用B树的优势二、为什么不使用其他数据结构2.1、哈希索引2.2平衡二叉树B树 参考 mysql索引采用B树 一、索引采用B树的优势 1可以进行范围查找&#xff0c;通过单向链表解决&#xff08;通过单向链表已经排好序&#xff09;。 2非叶子结点只存储key&#xff0c;不…

vue-vant组件库

组件库&#xff1a;第三方封装好了很多很多的组件&#xff0c;整合到一起就是一个组件库。 官网&#xff1a;Vant 2 - Mobile UI Components built on Vue vant支持vue2&#xff0c;也支持vue3&#xff1b;vant2支持vue2&#xff0c;vant3、vant4支持vue3 分类 vue的组件库…

老胡的周刊(第122期)

老胡的信息周刊[1]&#xff0c;记录这周我看到的有价值的信息&#xff0c;主要针对计算机领域&#xff0c;内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。 &#x1f3af; 项目 movie-web[2] 开源可自部署的简约在线电影搜…

ThreadLocal 是什么?它的实现原理是什么?

文章目录 ThreadLocal 是什么&#xff1f;它的实现原理是什么&#xff1f; ThreadLocal 是什么&#xff1f;它的实现原理是什么&#xff1f; ThreadLocal 是一种线程隔离机制&#xff0c;它提供了多线程环境下对于共享变量访问的安全性。 在多线程访问共享变量的场景中&#…

Android 跨进程之间通信(IPC)方式之BroadcastReceiver

Android 跨进程之间通信 Android 跨进程之间通信(IPC)方式之BroadcastReceiverAndroid 跨进程之间通信(IPC)方式之ContentProvider 文章目录 Android 跨进程之间通信前言一、关于系统广播二、如何利用BroadcastReceiver跨进程通信1.创建广播接收器2.清单文件中声明注册3.发送广…

论数据资源持有权(下)

四、数据资源持有权&#xff1a;数据流通体系与秩序运行的支柱 现代数字经济背景下的数据要素市场&#xff0c;主要是在动态的流通中实现数据财产价值&#xff0c;在明确数据资源持有权作为构建数据流通中的新型数据财产产权的基石后&#xff0c;就应该充分围绕数据资源持有权…

微信小程序开发系列-11组件间通信02

微信小程序开发系列目录 《微信小程序开发系列-01创建一个最小的小程序项目》 《微信小程序开发系列-02注册小程序》 《微信小程序开发系列-03全局配置中的“window”和“tabBar”》 《微信小程序开发系列-04获取用户图像和昵称》 《微信小程序开发系列-05登录小程序》 《…