降维(Dimensionality Reduction)

一、动机一:数据压缩

        这节我将开始谈论第二种类型的无监督学习问题,称为降维。有几个原因使我们可能想要做降维,其一是数据压缩,它不仅允许我们压缩数据使用较少的计算机内存或磁盘空间,而且它可以加快我们的学习算法。首先,让我们知道降维是什么:

        假设我们有两个未知的特征:x_1:长度,用厘米表示;x_2:用英寸表示同一物体的长度,所以这明显是高度冗余,因而我们希望将这个二维的数据降至一维,如下图:

        下面的这个例子中 我们要将一个三维的特征向量降至成一个二维的特征向量,过程与上面是类似的,我们将三维向量投射到一个二维的平面上

        这样的处理过程可以被用于把任何维度的数据降到任何想要的维度,例如将1000维的特征降至100维

二、动机二:数据可视化

        在许多机器学习问题中,如果我们能将数据可视化,我们便能寻找到一个更好的解决方案,降维可以帮助我们。

         假使我们有许多不同国家的数据,每一个特征向量都有50个特征(如,GDP,人均GDP,平均寿命等)。如果要将这个50维的数据可视化是不可能的,使用降维的方法将其降至2维,我们便可以将其可视化了。

这样做的问题在于降维的算法只负责减少维数,新产生的特征的意义就必须由我们自己去定义了

三、 主成分分析问题

        主成分分析(PCA)是最常见的降维算法,在PCA中我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据都投射到该向量上时,我们希望投射误差尽可能地小。方向向量是一个经过原点的向量而投射误差是从特征向量向该方向向量作垂线的长度

主成分分析问题的描述:要将n维数据降至k维,目标是找到向量u^{(1)}$,$u^{(2)}$,...,$u^{(k)},使得总的投射误差最小

主成分分析与线性回归的比较:

①主成分分析最小化的是投射误差(Projected Error),而线性回归最小化的是预测误差

②线性回归的目的是预测结果,而主成分分析不作任何预测

 

左边的是线性回归的误差(垂直于横轴投影),右边是主成分分析的误差(垂直于红线投影)

        PCA将n个特征降维到k个,可以用来进行数据压缩,如果100维的向量最后可以用10维来表示,那么压缩率为90%,但PCA 要保证降维,还要保证数据的特性损失最小

        PCA技术的一大好处是对数据进行降维的处理,我们可以对新求出的主元向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果,同时最大程度的保持了原有数据的信息

        PCA技术另一个很大的优点是它是完全无参数限制的,在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独立的。但是这一点同时也可以看作是缺点,如果用户对观测对象有一定的先验知识,掌握了数据的一些特征却无法通过参数化等方法对处理过程 进行干预,可能会得不到预期的效果,效率也不高。

四、主成分分析算法

数据预处理

PCA 从n维减少到k维:

第一步是均值归一化,如上图所示

第二步是计算协方差矩阵(covariance matrix)Σ:

\sum=\dfrac {1}{m}\sum^{m}_{i=1}\left( x^{(i)}\right) \left( x^{(i)}\right) ^{T}

第三步是计算协方差矩阵Σ的特征向量(eigenvectors):

在 Octave 里我们可以利用奇异值分解(singular value decomposition)来求解,[U, S, V]= svd(sigma)

对于一个 n×n维度的矩阵,上式中的U是一个具有与数据之间最小投射误差的方向向量构成的矩阵。如果我们希望将数据从n维降至k维,我们只需要从U中选取前k个向量,获得一个n×k维度的矩阵,我们用U_{reduce}表示,然后通过如下计算获得要求的新特征向量z^{(i)}: z^{(i)}=U^{T}_{reduce}*x^{(i)}

其中x是n×1维的,因此结果为k×1维度

注:我们不对方差特征进行处理

五、选择主成分的数量

主要成分分析是减少投射的平均均方误差:{\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }-x^{\left( i\right) }_{approx}\right\| ^{2}}

训练集的总方差为:\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }\right\| ^{2}

我们希望在平均均方误差训练集总方差比例尽可能小的情况下选择尽可能小的k值

如果我们希望这个比例小于1%,就意味着原本数据的偏差有99%都保留下来了,如果我们能够保留95%的偏差,便能非常显著地降低模型中特征的维度了

我们可以先令k=1,然后进行主要成分分析,获得U_{reduce}z,然后计算比例是否小于1%。如果不是的话再令k=2,依此类推,直到找到可以使得比例小于1%的最小k 值(原因是各个特征之间通常情况存在某种相关性)

还有一些更好的方式来选择k,当我们在Octave中调用svd函数的时候,我们可以获得三个参数:[U, S, V] = svd(sigma)

其中的S是一个n×n的矩阵,只有对角线上有值,而其它单元都是0,我们可以使用这个矩阵来计算平均均方误差与训练集总方差的比例:

也就是:  

六、重建的压缩表示

        在前面的内容中,我们讲到利用PCA算法可以把1000维的数据压缩100维特征,所以如果这是一个压缩算法,那么按理说应该可以回到原有的高维数据的一种近似,所以给定的z^{(i)}是100维,怎么回到原来的1000维的x^{(i)}呢?

PCA算法做的事情:如图中样本x^{(1)},x^{(2)},我们把这些样本投射到图中这个一维平面,那么给定一个点z^{(1)},我们怎么能回去到这个原始的二维空间呢?x为2维,z为1维,z=U^{T}_{reduce}x,相反的方程为:x_{appox}=U_{reduce}\cdot z,x_{appox}\approx x。如图:

七、主成分分析法的应用建议

假使我们正在对一张100×100像素的图片进行某个计算机视觉的机器学习,即总共有10000 个特征

第一步:运用主成分分析将数据压缩至1000个特征

第二步:对训练集运行学习算法

第三步:在预测时采用之前学习而来的U_{reduce}将输入的特征x转换成特征 z,然后再预测

注:如果我们有交叉验证集和测试集,也采用对训练集学习而来的U_{reduce}

错误的主成分分析情况:

①将其用于减少过拟合(减少了特征的数量),这样做非常不好,不如尝试正则化处理。原因在于主要成分分析只是近似地丢弃掉一些特征,它并不考虑任何与结果变量有关的信息,因此可能会丢失非常重要的特征,然而当我们进行正则化处理时,会考虑到结果变量,不会丢掉重要的数据。

②默认地将主成分分析作为学习过程中的一部分,这虽然很多时候有效果,最好还是从所有原始特征开始,只在有必要的时候(算法运行太慢或者占用太多内存)才考虑采用主要成分分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/662097.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

90年代的黄河路,大家都在用什么方式互相联络?

1992 年的上海,霓虹养眼,万花如海… 新年伊始,一部《繁花》爆火出圈,带观众穿越回了那个灯红酒绿的上海。90 年代的黄河路遍地是机会,商业战场上,信息成了最宝贵的财富,谁能获得最真实有用的资讯…

Python学习之路-DRF基础:视图

Python学习之路-DRF基础:视图 视图概览 简介 REST framework 提供了众多的通用视图基类与扩展类,以简化视图的编写。 视图的继承关系 视图的方法与属性 视图说明 两个基类 APIView 简介 rest_framework.views.APIView APIView是REST framework提供的所有视…

微服务-微服务Alibaba-Nacos 源码分析 (源码流程图)

客户端流程 客户端心跳与实例往服务端注册

vue3.0中从proxy中取值

使用vue3.0时,因为底层是使用proxy进行代理的所以当我们打印一些值的时候是proxy代理之后的,是Proxy 对象,Proxy对象里边的[[Target]]才是真实的对象。也是我们需要的 第一种获取target值的方式: import { toRaw } from vue; le…

openssl3.2 - 官方demo学习 - pkcs12 - pkwrite.c

文章目录 openssl3.2 - 官方demo学习 - pkcs12 - pkwrite.c概述学到的知识点笔记PEM证书可以拼接实验 pkcs12 - pkwrite.c用win10的证书管理器安装P12证书是成功的END openssl3.2 - 官方demo学习 - pkcs12 - pkwrite.c 概述 openssl3.2 - 官方demo学习 - 索引贴 上次PKCS12的…

2024美赛数学建模C题网球的动量:思路+代码+模型+论文

问题分析见下列内容,完整思路代码见文末名片 1.题目 在2023年温布尔登绅士队的决赛中,20岁的西班牙新星卡洛斯阿尔卡拉兹击败了36 岁的诺瓦克德约科维奇。这是德约科维奇自2013年以来首次在温布尔登公开赛失利 ,并结束了他在大满贯赛事中…

大数据 - Spark系列《一》- 分区 partition数目设置详解

目录 🐶3.2.1 分区过程 🐶3.2.2 SplitSize计算和分区个数计算 🐶3.2.3 Partition的数目设置 1. 🥙对于数据读入阶段,输入文件被划分为多少个InputSplit就会需要多少初始task. 2. 🥙对于转换算子产生的…

vue3报错 Component name “Footer“ should always be multi-word

报错内容 You may use special comments to disable some warnings. Use // eslint-disable-next-line to ignore the next line. Use /* eslint-disable */ to ignore all warnings in a file. ERROR in [eslint] /Users/soul/projects/learning-vuejs3/chapter07/01_learn_c…

拓扑空间论学习与Transformer的联系

1. 拓扑空间 1.1 拓扑空间概念 拓扑空间是一种数学概念,其核心在于定义了一种“邻域”结构,而非具体的距离或度量关系。在拓扑空间中,我们关注的是点之间连通性的全局属性,例如哪些点可以通过连续变形相互转换,哪些集…

python:webp转gif

公司电脑无录屏软件,用免费在线录屏 (lupingwang.com)最后得到的是webp视频,转MP4代码不怎么容易,发现转GIF也挺不错的 此用于批量将WebM视频文件转换为GIF格式的工具,使用了MoviePy库来处理视频文件,需要的自己取 代…

中国文化之光:微博数据的探索与可视化分析

大家好,我是八块腹肌的小胖 下面我们针对主题“中国文化”相关的微博数据进行爬取 使用LDA、情感分析、情感演化、词云等可视化操作进行相关的展示 1、导包 第一步我们开始导包工作 下面这段代码,首先,pandas被请来了,因为它是…

<网络安全>《13 上网行为管理》

1 概念 上网行为管理是指帮助互联网用户控制和管理对互联网的使用。其包括对网页访问过滤、上网隐私保护、网络应用控制、带宽流量管理、信息收发审计、用户行为分析等。 随着计算机、宽带技术的迅速发展,网络办公日益流行,互联网已经成为人们工作、生活…

2024年美赛 (A题MCM)| 海蟒鳗鱼 |数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时,你是否曾经感到茫然无措?作为2022年美国大学生数学建模比赛的O奖得主,我为大家提供了一套优秀的解题思路,让你轻松应对各种难题。 让我们来看看美赛的A题! 完整内容可以在文章末尾领…

Camunda流程引擎概念

💖专栏简介 ✔️本专栏将从Camunda(卡蒙达) 7中的关键概念到实现中国式工作流相关功能。 ✔️文章中只包含演示核心代码及测试数据,完整代码可查看作者的开源项目snail-camunda ✔️请给snail-camunda 点颗星吧😘 💖流程定义 …

服务器C盘突然满了,是什么问题

随着时代的发展、互联网的普及,加上近几年云计算服务的诞生以及大规模普及,对于服务器的使用目前是非常普遍的,用户运维的主要对象一般也主要是服务器方面。在日常使用服务器的过程中,我们也会遇到各式各样的问题。最近就有遇到用…

【2024美赛C题】网球大佬带你无背景压力分析解题思路!

2024美赛数学建模c题思路分享 加群可以享受定制等更多服务,或者搜索B站:数模洛凌寺 联络组织企鹅:936670395 以下是C题老师的解题思路(企鹅内还会随时更新文档): 1背景介绍 2024MCM问题C:网…

LeetCode:42. 接雨水

42. 接雨水 1)题目2)思路3)代码4)结果 1)题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height …

强化学习 - Monte Carlo Tree Search (MCTS)

什么是机器学习 强化学习中的Monte Carlo Tree Search (MCTS) 是一种用于决策制定和搜索的算法,特别在不确定环境下表现出色。 1. 强化学习背景 在强化学习中,一个智能体通过与环境的交互学习,以便在某个任务上获得最大的奖励。MCTS是一种…

2024美国大学生数学建模美赛选题建议+初步分析

总的来说&#xff0c;去年算是美赛环境题元年&#xff0c;去年的开放度是较高的&#xff0c;今年每种赛题类型相对而言平均了起来 提示&#xff1a;DS C君认为的难度&#xff1a;E<BCF<AD&#xff0c;开放度&#xff1a;DBCE<A<F。 以下为A-F题选题建议及初步分析…

【ArcGIS Pro】从0开始

1.导入excel&#xff0c;需要安装驱动程序 安装用于 Microsoft Excel 文件的驱动程序 https://pro.arcgis.com/zh-cn/pro-app/latest/help/data/excel/prepare-to-work-with-excel-in-arcgis-pro.htm 2.修改投影坐标系 点到地图图标上&#xff0c;右键才能设置坐标系。 3.…