线性代数应该这样讲(四)-奇异值分解与主成分分析

在《线性代数这样讲(二)》(以下简称「二」)中,小夕详细讲解了特征值与特征向量的意义,并且简单描述了一下矩阵的特征值分解的意义和原理。本文便基于对这几个重要概念的理解来进一步讲解SVD分解。

 

回顾一下,在「二」中,小夕讲过一个方阵W可以分解为它的特征向量矩阵eVec与特征值矩阵eVal相乘的形式,即用 eVec * eVal * eVec-1 来近似原方阵W。

 

那么问题来啦,如果我们的矩阵不是方阵呢,比如是一个m*n(m≠n)的矩阵呢?可不可以也分解成特征值和特征向量的形式呢?

显然,严格的特征值和特征向量当然不可以啦,由于分解后,存在eVec的逆矩阵eVec-1,因此eVec一定是方阵,而eVec是方阵的话,eVec * eVal * eVec-1的结果也肯定是方阵啦,当然不能近似原矩阵。但是我们可以定义一个意义类似,但是数学上行得通的定义:

 

对于维度为m*n且m≠n的矩阵W,我们可以将其分解为U*∑*V的形式,其中U的维度为m*m,∑的维度为m*n,V的维度是n*n,这样让U依然代表着“特征向量”的意思,V也代表“特征向量”的意思,∑就代表“特征值”的意思,可以吗?

等等!在《线性代数这样讲(一)》中讲过矩阵乘法,那么在计算U*∑的时候,是拿U中的每一去乘以特征值矩阵,因此U中的每一就是一个特征向量(回顾一下,每个特征向量对应一个特征值。还不理解的童鞋用笔和纸体会一下),但是到了(U*∑)的结果去乘V的时候,是拿V的每一列去跟之前的结果相乘,因此显然V的每一行是一个特征向量,所以这里为了避免分解后在使用U和V时发生歧义,我们用U*∑*VT来描述分解的结果,这样U和V就都是一一个“特征向量”啦。

 

这里,U里的向量我们定义为左奇异向量,V里的向量我们定义为右奇异向量,它们的意义就暂且理解为跟特征向量差不多。显然,∑就可以理解为跟之前的特征值矩阵意义差不多啦,因此∑的对角线上的值就相当于之前的特征值,这里叫做奇异值,对角线之外的值也跟以前一样,全为0。这个分解过程就叫奇异值分解

 

好啦,定义好了,那么如何将一个m*n的矩阵分解成这三个奇异矩阵呢?

 

前方低能预警!下面这部分可看可不看,纯数学过程我们就不多care啦,不感兴趣的童鞋可以快速往下划~

对于m*n的矩阵W,其转置W­T当然就是n*m啦,所以WT*W就是n*n的方阵,然后利用「二」中提到的特征值分解将其分解出若干特征值及其特征向量,因此对于分解出的每个特征值\lambda_i及其对应的特征向量,都有:

 

 

这里的每个特征向量就是右奇异矩阵中的一个奇异向量,即右奇异向量。

 

然后我们对每个开根号,得到,这里得到的每个就是奇异值矩阵∑中的一个奇异值。

 

然后我们对于每个及其对应的,都令,这样得到的每个就是左奇异矩阵中的一个奇异向量,即左奇异向量。

 

Over。

 

那么奇异值分解得到的奇异值和左右奇异向量跟特征值与特征向量相比,除了意义相似,有没有什么不同呢?

 

这里很重要的一点性质就是,将奇异值从大到小排序后,大部分情况下,前几个奇异值(约前10%甚至前1%)的和就占据了全部奇异值之和的99%!

而在「二」中,我们讲过,特征值越接近0,就代表这个特征值对应的特征向量越没有意义(越没有存在感),当特征值为0时,直接表示可以删掉这个特征向量(这个坐标轴),删掉后不会给原矩阵(原映射)带来任何信息量损失。因此,奇异值分解的这个性质在非常多的机器学习场合下可以发挥重要的作用。

 

比如我们的机器学习任务中,由专家选取或者深度学习的前几层学习到了10000个特征,而这10000个特征完全有可能是高度冗余的,(比如某一维度x1与另一维度x2恒满足x1=2*x2,这时就完全可以删掉其中一个维度,因为一个维度的值完全可以由另一维度计算出来,因此删掉后不会损失任何信息),那么我们想要除掉其中的冗余特征,或者说我们仅仅想用100个特征去描述这10000个特征所描述的东西,怎么办呢?

 

用奇异值分解就会非常简单。假如我们有9000个样本,那么样本及其对应的特征就组成了一个9000*10000的矩阵X,那么我们用U*∑*VT去逼近X,并且将U限制为9000*100,∑为100*100,VT为100*10000(标准的、一定无信息损耗的奇异值分解是U为9000*9000,∑为9000*10000,VT为10000*10000),这时运用奇异值分解后,就得到了9000*100的左奇异矩阵,显然这就代表着用100维的新特征去重新描述这9000个样本。而右奇异矩阵就代表着如何将100维的新特征映射回10000维的旧特征。显然,奇异值矩阵中的每个奇异值就代表着每个新特征对于描述样本的重要性啦。

 

这样就成功的完成了降维的操作。

 

当然啦,实际中,我们往往不知道降到多少维是性价比最高的,因此,我们可以选择保留旧特征描述的99%的信息量。

这时,比如10000维的旧特征,通过前面所述的计算和排序奇异值,算出保留99%的信息量(即前n个奇异值之和除以总奇异值之和大于99%)时需要保留前多少个奇异值,比如算出来的值是前87个大奇异值,那么我们就可以将原来10000维的旧特征空间用仅有87维的新特征空间描述啦~而仅仅会丢失1%的信息量哦。

 

诶?我好想不小心把PCA给讲完了。。。没错,通过上面的方式将SVD应用于维度的压缩的方法,就是每个学机器学习的人一定听说过的主成分分析(PCA)

 

(走过路过不要错过~买SVD送PCA啦~还送美美的老板娘哦)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481152.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BPEL4WS基础知识

一、为什么选择BPEL4WS 可以使用行业范围内的规范来广告、发现和调用Web服务 开发人员和用户可以通过组合和订购可用的基本服务来解决复杂问题 服务组合允许服务重用并加速复杂的服务开发 提供一种表示法,用于将Web服务的交互描述为业务流程 编写使用Web服务的程…

不要再纠结卷积的公式啦!0公式深度解析全连接前馈网络与卷积神经网络!

文章转载自订阅号「夕小瑶的卖萌屋」中的文章《不要再纠结卷积的公式啦!0公式深度解析全连接前馈网络与卷积神经网络》。 Hello~你们的小夕终于吐泡泡了~前几天小夕又加班赶project啦,拖了好几天,都快患上拖稿焦虑症了_(:з」∠)…

不要再纠结卷积的公式啦!0公式深度解析全连接前馈网络与卷积神经网络

Hello~你们的小夕终于吐泡泡了~前几天小夕又加班赶project啦,拖了好几天,都快患上拖稿焦虑症了_(:з」∠)_关于卷积神经网,小夕就不从卷积讲啦。以前不止一个粉丝问我卷积神经网络中卷积的意义,甚至在知乎上被邀请回答…

研究生常用的几种风险评估方法-专家调查法、蒙特卡洛模拟法、计划评审技术、敏感性分析法、决策树法、影响图法、模糊综合评价方法

其实风险评估就是在充分掌握资料的基础之上,采用合适的方法对已识别风险进行系统分析和研究,评估风险发生的可能性(概率)、造成损失的范围和严重程度(强度),为接下来选择适当的风险处理方法提供…

从前馈到反馈:解析循环神经网络(RNN)及其tricks

好像已经有两周没有更新啦。最后这几天都不敢打开订阅号后台了,怕一打开发现掉了几百个粉丝的话就难过死了T_T。然而小夕发现你们并没有离开,感动的差点哭出来,都感觉再不认真写一篇文章就太对不起大家的等待啦。而这两周,经历的事…

多因子风险建模-协方差矩阵、投资组合风险

一、为什么要了解投资风险 在探讨投资风险前,我们不妨思考一个问题:好的投资,取决于哪些因素? 其实,卓越的投资回报,主要来源于四个因素: 收益预测:能形成合力的收益预期&#xff…

啊啊忍不住了,更!新!!!

你萌都还在,好开心 o(≧v≦)o在2017年9月21日这个特殊的日子,小夕在长达30天的沉默后,终于冒泡了!有木有很激动,很期待?!(小夕,你不说我都忘了还有这订阅号了&#xff09…

【数据挖掘】数据挖掘和数据分析基础

参考文献:《Python数据分析与挖掘实战》张良均等 数据挖掘建模过程 定义挖掘目标:理解任务,确定指标数据采样:注意数据的完整性和有效性数据探索:异常值分析、缺失值分析、相关性分析、周期性分析数据预处理&#xff…

Barra 结构化风险模型实现(1)——沪深300指数的风格因子暴露度分析

米筐科技(RiceQuant)策略研究报告:Barra 结构化风险模型实现(1)——沪深300指数的风格因子暴露度分析 江嘉键1 年前1 概述Barra 结构化风险模型是全球知名的投资组合表现和风险分析工具。最近一段时间,我们米筐科技量化策略研究团…

深度学习资料挑的眼花啦?小夕帮你做选择!

小夕还记得几年前刚入坑的时候,老师给的入门资料就是一堆论文!害的小夕差点放弃。。。如今深度学习应用的开发成本越来越低,学习资料越来越多,于是对初学者来说进入了另一个相反的困境——资料过多,让人眼花缭乱&#…

干货 | 深度学习的可解释性研究(一):让模型「说人话」

在这篇文章中:可解释性是什么?我们为什么需要可解释性?有哪些可解释性方法?在建模之前的可解释性方法建立本身具备可解释性的模型在建模之后使用可解释性性方法作出解释关于 BIGSCity参考文献不以人类可以理解的方式给出的解释都叫…

深度解析LSTM神经网络的设计原理

引人入胜的开篇:想要搞清楚LSTM中的每个公式的每个细节为什么是这样子设计吗?想知道simple RNN是如何一步步的走向了LSTM吗?觉得LSTM的工作机制看不透?恭喜你打开了正确的文章! 前方核弹级高能预警!本文信息…

Step-by-step to LSTM: 解析LSTM神经网络设计原理

Ps:喂喂喂,你萌不要光收藏不点赞呀_(:з」∠)_emmmm... 搞清楚LSTM中的每个公式的每个细节为什么是这样子设计吗?想知道simple RNN是如何一步步的走向了LSTM吗?觉得LSTM的工作机制看不透?恭喜你打开了正确的文章&#…

【论文翻译】用知识图谱的多任务特征学习来增强推荐

Wang H, Zhang F, Zhao M, et al. Multi-task feature learning for knowledge graph enhanced recommendation[C]//The World Wide Web Conference. 2019: 2000-2010. 原文链接:https://arxiv.org/pdf/1901.08907.pdf 代码实现:https://github.com/hwwa…

LeetCode-二叉树算法总结-层次遍历,路径总和等

版权声明&#xff1a;本文为博主原创文章&#xff0c;欢迎转载&#xff0c;但请注明出处&#xff0c;谢谢愿意分享知识的你~~ https://blog.csdn.net/qq_32690999/article/details/80484440 </div><link rel"stylesheet" href"https://csdnimg.…

记录一次闲鱼维权事件

-----2017.11.16 最后一次更新----- 小夕也真的没有想到&#xff0c;在万般绝望之时竟然得到了这么多人的帮助。在本文发出后&#xff0c;多位阿里人员积极联系我了解了情况&#xff0c;很感激一位阿里的专家帮我将此事递交给相关部门&#xff0c;让专业的客服直接受理和重审此…

百度作业帮-产品分析

一、商业模式分析 1.1、问答时期&#xff08;2014年2月-2015年1月&#xff09; 商业模式之作业帮V1.0.png两点值得注意&#xff1a; 作业帮的出现有明显的历史原因&#xff0c;即由百度知道团队出品&#xff0c;因此切入K12教育初期&#xff0c;采取的是之前的问答模式&#xf…

【Python自然语言处理】中文分词技术——统计分词

中文分词方法 本文参考自书籍《Python自然语言处理实战&#xff1a;核心技术与算法》 用做个人的学习笔记和分享 1. 规则分词 规则分词的详细笔记 2. 统计分词 2.1 一般步骤 建立统计语言模型。句子划分为单词&#xff0c;对划分结果进行概率分析&#xff0c;获得概率最大的…

你的模型真的陷入局部最优点了吗?

小夕曾经收到过一个提问&#xff1a;“小夕&#xff0c;我的模型总是在前几次迭代后很快收敛了&#xff0c;陷入到了一个局部最优点&#xff0c;怎么也跳不出来&#xff0c;怎么办&#xff1f;”本文不是单纯对这个问题的回答&#xff0c;不是罗列工程tricks&#xff0c;而是希…

如何与深度学习服务器优雅的交互?(长期更新)

0. 故事序言 如果有人问小夕&#xff1a;"小夕&#xff0c;要是人工智能的就业岗位一夜之间消失了&#xff0c;你会去转行做什么呢&#xff1f;" 答曰&#xff1a;"当然是去做Linux运维啊23333" 小夕有一台自己负责的GPU服务器&#xff0c;她可让小夕操碎了…