机器学习理论梳理1: PCA主成分分析

机器学习的理论部分学习知识点比较乱且杂。我这里通过几篇文章,简单总结一下自己对机器学习理论的理解,以防遗忘。第一篇文章主要概述了机器学习的基本任务以及一个常用的降维方法,主成分分析。

机器学习的基本任务

机器学习能实现许多不同的任务,基本分为以下几类:

  1. 分类 : 算法需要判断输入属于哪一种类别。例如通过一张人像图片判断人的身份。
  2. 回归 : 算法需要将一个数值与输入联系起来。例如通过气象学的
    参数判断24小时的温度。
  3. 重写 : 通过观察输入,将其重写为文字形式。例如通过一张谷歌街道的图片,识别街道的名称。
  4. 翻译 : 将一系列的符号文字转化为另一种语言的符号和文字。例如将英语翻译成中文,将Java代码翻译为对应的C++代码。
  5. 异常寻找: 判断输入是不是非典型的。例如检测是否有逆行的车辆。
  6. 合成 : 生成与样本数据类似的新的样本。例如合成另一个角度的风景图。
  7. 降噪 : 对样本数据进行降噪处理。

协方差矩阵

协方差矩阵用于描述各个维度之间的联系,其元素是各个向量元素之间的协方差。
例如如果我们我们有N个维度为n的向量数据xix_ixi,他们的协方差矩阵如下
Σ=1N∑i=1N(xi−μ)(xi−μ)T\Sigma = \frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)(x_i-\mu)^TΣ=N1i=1N(xiμ)(xiμ)T
其中μ\muμ是数据xix_ixi的平均向量。协方差矩阵维度为n*n且对称。协方差矩阵中编码了数据各个维度之间的相互关系,以及各个维度的方差。例如在n=2,二维平面中,协方差矩阵可以表示为 :
Σ=(σxxσxyσyxσyy)\Sigma = \left( \begin{matrix} \sigma_{xx}\space\space \sigma_{xy}\\ \sigma_{yx}\space\space\sigma_{yy} \end{matrix} \right) Σ=(σxx  σxyσyx  σyy)
主对角线描述了该维度上数据的方差,副对角线描述了各个维度之间的协方差,当各个维度处于相同数量级时可以一定程度上反应各个维度之间的相关性。

主成分分析

现实生活中的样本数据的分布可能与很多的潜在因素有关,因此使得我们的数据往往呈现出高维的形式。高维度的数据会对我们进行数据分析造成很多干扰,例如在我们进行分类分析时,随着样本容量的不断增大,维度越高,计算量将呈几何倍数的增长且难以避免的会有噪声的影响。因此如何降维也是数据预处理十分重要的步骤。其中,主成分分析可以有效地降低样本数据的维度,减少计算量的同时使得样本数据对噪音干扰更不敏感。

主成分分析 principal component analysis, 其中心思想是将高维度的数据,投影到低维度,以此来实现降维。例如下图中,将原本的二维空间(O,i1i_1i1,i2i_2i2)中的数据,投影到向量i1′i{_1}'i1上。主成分分析的要点,即是将数据投影到新的坐标系中,其中坐标系的前几个基底向量应该包含样本数据最多的信息量。在进行主成分分析之间,要对数据进行预处理,中心化规格化数据,即对每个数据作减去平均值并除以标准差的操作。
在这里插入图片描述
主成分分析的数学表示如下:
对于每个在原始坐标系中的数据点xix_ixi,xi=xi1i1+xi2i1+...+xini1x_i = x_{i1}i_1 + x_{i2}i_1 +... +x_{in}i_1xi=xi1i1+xi2i1+...+xini1,其中xinx_{in}xinxix_ixi在各个维度的分量。将数据投影到新的坐标轴i1′i{_1}'i1后,新的坐标为xi1′=xiTi1′x{_{i1}}' = x{_i}^Ti{_1}'xi1=xiTi1。数据集沿着新的坐标轴i1′i{_1}'i1的方差计算如下:
σ=1N∑i=1Nxi1′2=1N∑i=1Nxi1′Txi1′=1N∑i=1Ni1′TxixiTi1′\sigma = \frac{1}{N}\sum_{i=1}^{N}x{_{i1}}'^2 = \frac{1}{N}\sum_{i=1}^{N}x{_{i1}}'^Tx{_{i1}}' = \frac{1}{N}\sum_{i=1}^{N}i{_1}'^Tx_ix_{i}^Ti{_1}' σ=N1i=1Nxi12=N1i=1Nxi1Txi1=N1i=1Ni1TxixiTi1

=1Ni1′T(∑i=1NxixiT)i1′= \frac{1}{N}i{_1}'^T (\sum_{i=1}^{N}x_ix_i^T)i{_1}'=N1i1T(i=1NxixiT)i1
σ=i1′TΣi1′\sigma = i{_1}'^T\Sigma i{_1}' σ=i1TΣi1
其中 Σ\SigmaΣ 是协方差矩阵 Σ=1N(∑i=1NxixiT)\Sigma = \frac{1}{N}(\sum_{i=1}^{N}x_ix_i^T)Σ=N1(i=1NxixiT)
在进行主成分分析时,我们假设某一维度所包含的信息量,与该维度数据的方差是呈正相关的,因此主成分分析问题就转化成了最大值问题,使用拉格朗日乘数法,找到使方差最大化的剩余维度:
L=i1′TΣi1−λ(i1′Ti1′−1)L = i{_1}'^T \Sigma i_1 - \lambda(i{_1}'^T i{_1}' - 1)L=i1TΣi1λ(i1Ti11)
∂L∂i1′=0即Σi1′=λi1′\frac{\partial L}{\partial i{_1}'} = 0 即 \Sigma i{_1}' = \lambda {i_1}'i1L=0Σi1=λi1

其中,i1′i{_1}'i1λ\lambdaλ 分别是数据协方差矩阵的特征向量和对应的特征值。第一个投影维度对应协方差矩阵的第一个特征向量(特征值最大的特征向量)。第二个投影维度对应第二个特征向量以此类推,我们可以得到一组对应特征值递减的特征向量。通过选出协方差矩阵的前K个特征向量,我们就能选出包含信息量最大的主成分维度,实现对原始数据的降噪,排除掉高维度的干扰,使得后续的数据分析成果更稳定。

Tips : 协方差矩阵是对称构成的且至少是半正定矩阵,因此其所有的特征向量都是实数,所有的特征值都是正数或0,所有的特征向量互相垂直不相关。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/386986.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NLP基础 : HMM 隐马尔可夫模型

Hidden Markov Model, HMM 隐马尔可夫模型,是一种描述隐性变量(状态)和显性变量(观测状态)之间关系的模型。该模型遵循两个假设,隐性状态i只取决于前一个隐性状态i-1,而与其他先前的隐形状态无关。观测状态也只取决于当前的隐形状态。因此我们…

关于秒杀系统优化方向

今天听了一节咕泡学院的公开课,有收获。 秒杀系统的特点: 1.限时;2.限量供应;3.并发量大;如何优化: 1.客户端数据缓存。 2.CDN加速。 3.nginx动静分离,静态资源缓存,负载均衡。 4.se…

RUNOOB python练习题1

用来练手的python 练习题,原链接 : python练习实例1 题干 : 有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少? import numpy as np cen np.array([1,2,3,4]) tens np.array([1,2,3,4])…

MySQL 亿级数据需求的优化思路(一),交易流水记录的查询

对MySQL的性能和亿级数据的处理方法思考,以及分库分表到底该如何做,在什么场景比较合适? 比如银行交易流水记录的查询 限盐少许,上实际实验过程,以下是在实验的过程中做一些操作,以及踩过的一些坑&#…

RUNOOB python练习题2

用来练手的python 练习题,原链接 : python练习实例2 题干 : 企业发放的奖金根据利润提成。利润(I)低于或等于10万元时,奖金可提10%;利润高于10万元,低于20万元时,低于10万元的部分按10%提成,高于10万元的…

MySQL 亿级数据需求的优化思路(二),100亿数据,1万字段属性的秒级检索

最近在研究亿级数据的时候,无意中看到了一个关于写58同城的文章 https://blog.csdn.net/admin1973/article/details/55251499?fromtimeline 其实上面讲的versionext的方式以及压缩json的思路,对于我来讲都可以看得懂,想得通,其…

RUNOOB python练习题3

用来练手的python 练习题,原链接 : python练习实例3 拿到题目就写了如下代码,思路是因为使用**0.5进行开平方操作时,python会将数据类型自动转换为float单精度浮点型。这里利用提取其整数部分,来判断这个数是否是完全平方数。 z…

使用git将项目上传到github(最简单方法)

使用git将项目上传到github(最简单方法) 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安装git工具,这里给出下载地址,下载后一路直接安装即可&#xff1…

RUNOOB python练习题4

用来练手的python习题其四, 原题链接: python练习实例4 题干: 输入某年某月某日,判断这一天是这一年的第几天? 这个题目比较简单,只需要注意闰年和非闰年的区别就可以了。我这里使用numpy矩阵存储每个月的天数,之后用…

GitHub入门:如何上传与下载工程?

由于经常要在家写代码,所以需要有个能够方便访问代码管理工具。最近尝试了一下GitHub。经过了一翻纠结之后,基本上掌握了他的使用方式。 要使用GitHub需要首先在其网站上进行注册。其官方网站是https://github.com/。注册的流程在这里就不多少了&#x…

如何解决PIP命令不可用

今天想用PIP装一个python包,发现PIP报错,不是内部或外部命令。。。 遇事百度,有两种说法,一,没安装包,不管那么多命令执行了再说 在命令行输入:python -m ensurepip 将pip.exe文件下载下来 再pi…

RUNOOB python练习题5

用来练手的python 练习题其五,原链接 : python练习实例5 题干 : 输入三个整数x,y,z,请把这三个数由小到大输出。 又是非常简单的排序算法,只要使用numpy矩阵的排序方法或者使用python list的排序算法就可以轻松解决。 源代码如下 : import …

初步使用github,并上传下载文件

使用GitHub需要先注册GitHub的账号,登陆进去 然后开始创建项目 start a project 创建完成,开始生成公私钥,可以不必每次都要输密码 ssh-keygen -t rsa -C "mghxy123163.com" //填写email地址,然后一直“回车”ok 然后把公钥导入GitHub中的key里面去,也…

NOIP2000提高组复赛C 单词接龙

题目链接:https://ac.nowcoder.com/acm/contest/248/C 题目大意: 略 分析: 注意点:1.前缀和后缀的公共部分应该选最短的。2.如果两个字符串前缀和后缀的公共部分恰好是其中一个字符串,那么这两个字符串不能合并。 代码…

右键Git Bash Here不见了怎么办,手把手教你还原!

第一步,window R,输入regedit回车进入注册表 依次进入HKEY_CLASSES_ROOT —-》 Directory —-》Background —-》 shell 右键点击shell,选择新建,然后选择项,命名为 Git Bash Here,成功后进入桌面右键发现…

RUNOOB python练习题6 斐波那契数列

用来练手的python 练习题其六,原链接 : python练习实例6 题干 : 斐波那契数列 斐波那契数列可以说是很好的递归理解工具了,这里就用递归实现一下斐波那契数列。 源代码如下: # 返回fibonacci数列中某一项的数值 def Fibonacci(n):if n 1:return 1eli…

github windows客户端

方法/步骤 1 1. 首先到官网下载Github客户端 2 2. 点击上图红框的按钮开始下载客户端。 3 3. 双击下载好的客户端,开始安装。 4 双击之后出现一个框 5 之后等待一段时间,出现一个在线下载界面 6 4. 在线下载完成之后开始进行安装。安装完成之后…

赋值语句 变量的地址相关 : RUNOOB python练习题7

用来练手的python 练习题,原链接 : python练习实例7 练习实例7非常的简单也有意思。题干 : 将一个列表的数据复制到另一个列表中。 完成这个操作的代码非常简单,即使是我这样的初学者应该也是一语道破,赋值语句嘛。但这里我们就列举出几种不…

Web标准的概念及组成

一周更新两个或三个关于web前端的知识点,欢迎感兴趣的小伙伴们一起学习讨论1、WEB标准是网页制作的标准,它不是一个标准,它是根据网页的不同组成部分生成的一系列标准。这些标准大部分由W3C起草发布,也有部分标准由ECMA起草发布。…

Fiddler简介及安装和HTTPS的解决

Fiddler简介: 一个很强大的抓包工具,类似Charles 1.安装: Filddler官网:点击打开链接 我安装的是filddler4:点击打开链接 直接下载文件,然后一路下一步就可以了 1.下载文件: 2.安装文件一…