机器学习理论梳理1: PCA主成分分析

机器学习的理论部分学习知识点比较乱且杂。我这里通过几篇文章,简单总结一下自己对机器学习理论的理解,以防遗忘。第一篇文章主要概述了机器学习的基本任务以及一个常用的降维方法,主成分分析。

机器学习的基本任务

机器学习能实现许多不同的任务,基本分为以下几类:

  1. 分类 : 算法需要判断输入属于哪一种类别。例如通过一张人像图片判断人的身份。
  2. 回归 : 算法需要将一个数值与输入联系起来。例如通过气象学的
    参数判断24小时的温度。
  3. 重写 : 通过观察输入,将其重写为文字形式。例如通过一张谷歌街道的图片,识别街道的名称。
  4. 翻译 : 将一系列的符号文字转化为另一种语言的符号和文字。例如将英语翻译成中文,将Java代码翻译为对应的C++代码。
  5. 异常寻找: 判断输入是不是非典型的。例如检测是否有逆行的车辆。
  6. 合成 : 生成与样本数据类似的新的样本。例如合成另一个角度的风景图。
  7. 降噪 : 对样本数据进行降噪处理。

协方差矩阵

协方差矩阵用于描述各个维度之间的联系,其元素是各个向量元素之间的协方差。
例如如果我们我们有N个维度为n的向量数据xix_ixi,他们的协方差矩阵如下
Σ=1N∑i=1N(xi−μ)(xi−μ)T\Sigma = \frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)(x_i-\mu)^TΣ=N1i=1N(xiμ)(xiμ)T
其中μ\muμ是数据xix_ixi的平均向量。协方差矩阵维度为n*n且对称。协方差矩阵中编码了数据各个维度之间的相互关系,以及各个维度的方差。例如在n=2,二维平面中,协方差矩阵可以表示为 :
Σ=(σxxσxyσyxσyy)\Sigma = \left( \begin{matrix} \sigma_{xx}\space\space \sigma_{xy}\\ \sigma_{yx}\space\space\sigma_{yy} \end{matrix} \right) Σ=(σxx  σxyσyx  σyy)
主对角线描述了该维度上数据的方差,副对角线描述了各个维度之间的协方差,当各个维度处于相同数量级时可以一定程度上反应各个维度之间的相关性。

主成分分析

现实生活中的样本数据的分布可能与很多的潜在因素有关,因此使得我们的数据往往呈现出高维的形式。高维度的数据会对我们进行数据分析造成很多干扰,例如在我们进行分类分析时,随着样本容量的不断增大,维度越高,计算量将呈几何倍数的增长且难以避免的会有噪声的影响。因此如何降维也是数据预处理十分重要的步骤。其中,主成分分析可以有效地降低样本数据的维度,减少计算量的同时使得样本数据对噪音干扰更不敏感。

主成分分析 principal component analysis, 其中心思想是将高维度的数据,投影到低维度,以此来实现降维。例如下图中,将原本的二维空间(O,i1i_1i1,i2i_2i2)中的数据,投影到向量i1′i{_1}'i1上。主成分分析的要点,即是将数据投影到新的坐标系中,其中坐标系的前几个基底向量应该包含样本数据最多的信息量。在进行主成分分析之间,要对数据进行预处理,中心化规格化数据,即对每个数据作减去平均值并除以标准差的操作。
在这里插入图片描述
主成分分析的数学表示如下:
对于每个在原始坐标系中的数据点xix_ixi,xi=xi1i1+xi2i1+...+xini1x_i = x_{i1}i_1 + x_{i2}i_1 +... +x_{in}i_1xi=xi1i1+xi2i1+...+xini1,其中xinx_{in}xinxix_ixi在各个维度的分量。将数据投影到新的坐标轴i1′i{_1}'i1后,新的坐标为xi1′=xiTi1′x{_{i1}}' = x{_i}^Ti{_1}'xi1=xiTi1。数据集沿着新的坐标轴i1′i{_1}'i1的方差计算如下:
σ=1N∑i=1Nxi1′2=1N∑i=1Nxi1′Txi1′=1N∑i=1Ni1′TxixiTi1′\sigma = \frac{1}{N}\sum_{i=1}^{N}x{_{i1}}'^2 = \frac{1}{N}\sum_{i=1}^{N}x{_{i1}}'^Tx{_{i1}}' = \frac{1}{N}\sum_{i=1}^{N}i{_1}'^Tx_ix_{i}^Ti{_1}' σ=N1i=1Nxi12=N1i=1Nxi1Txi1=N1i=1Ni1TxixiTi1

=1Ni1′T(∑i=1NxixiT)i1′= \frac{1}{N}i{_1}'^T (\sum_{i=1}^{N}x_ix_i^T)i{_1}'=N1i1T(i=1NxixiT)i1
σ=i1′TΣi1′\sigma = i{_1}'^T\Sigma i{_1}' σ=i1TΣi1
其中 Σ\SigmaΣ 是协方差矩阵 Σ=1N(∑i=1NxixiT)\Sigma = \frac{1}{N}(\sum_{i=1}^{N}x_ix_i^T)Σ=N1(i=1NxixiT)
在进行主成分分析时,我们假设某一维度所包含的信息量,与该维度数据的方差是呈正相关的,因此主成分分析问题就转化成了最大值问题,使用拉格朗日乘数法,找到使方差最大化的剩余维度:
L=i1′TΣi1−λ(i1′Ti1′−1)L = i{_1}'^T \Sigma i_1 - \lambda(i{_1}'^T i{_1}' - 1)L=i1TΣi1λ(i1Ti11)
∂L∂i1′=0即Σi1′=λi1′\frac{\partial L}{\partial i{_1}'} = 0 即 \Sigma i{_1}' = \lambda {i_1}'i1L=0Σi1=λi1

其中,i1′i{_1}'i1λ\lambdaλ 分别是数据协方差矩阵的特征向量和对应的特征值。第一个投影维度对应协方差矩阵的第一个特征向量(特征值最大的特征向量)。第二个投影维度对应第二个特征向量以此类推,我们可以得到一组对应特征值递减的特征向量。通过选出协方差矩阵的前K个特征向量,我们就能选出包含信息量最大的主成分维度,实现对原始数据的降噪,排除掉高维度的干扰,使得后续的数据分析成果更稳定。

Tips : 协方差矩阵是对称构成的且至少是半正定矩阵,因此其所有的特征向量都是实数,所有的特征值都是正数或0,所有的特征向量互相垂直不相关。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/386986.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

29 _react-router说明

一、SPA的理解 1.单页面web应用(single page web application ,SPA) 2.整个应用只有一个完整的页面 3.点击页面中的链接不会刷新页面,本身也不会向服务器发请求 4.当点击路由链接时,只会做页面的局部更新 5.数据都需要通过ajax请求获取,并在前…

Java程序员如何快速理解Kubernetes

我们希望微服务是可复制的,可替换的工作节点,这样可以轻松进行升级或降级,同时无需任何停机时间,并花费最少代价的管理。我们可以说我们希望他们成为我们的小黄人(minions)。本文我们将通过一个简单的例子来…

NLP基础 : HMM 隐马尔可夫模型

Hidden Markov Model, HMM 隐马尔可夫模型,是一种描述隐性变量(状态)和显性变量(观测状态)之间关系的模型。该模型遵循两个假设,隐性状态i只取决于前一个隐性状态i-1,而与其他先前的隐形状态无关。观测状态也只取决于当前的隐形状态。因此我们…

关于秒杀系统优化方向

今天听了一节咕泡学院的公开课,有收获。 秒杀系统的特点: 1.限时;2.限量供应;3.并发量大;如何优化: 1.客户端数据缓存。 2.CDN加速。 3.nginx动静分离,静态资源缓存,负载均衡。 4.se…

Mysql插入很慢,找到了稍微快点的方法

MYSQL批量插入数据库实现语句性能分析 假定我们的表结构如下 代码如下 CREATE TABLE example ( example_id INT NOT NULL, name VARCHAR( 50 ) NOT NULL, value VARCHAR( 50 ) NOT NULL, other_value VARCHAR( 50 ) NOT NULL ) 通常情况下单条插入的sql语句我们会这么写&…

Linux - 时间相关命令 - ntpdate, date, hwclock

1. 概述 最近也不知道写啥了, 把之前的老文档整理一下, 凑个数什么的配置时间这种工作, 偶尔还是要用一下主要描述 3 个命令的简单适用 ntpdatehwlock2. ntpdate 1. 概述 用于同步时钟的命令2. 机制 通常是有一个服务器对外提供时间客户端可以与时间服务器同步ntp 是他们之间交…

RUNOOB python练习题1

用来练手的python 练习题,原链接 : python练习实例1 题干 : 有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少? import numpy as np cen np.array([1,2,3,4]) tens np.array([1,2,3,4])…

mysql explain用法和结果的含义

explain显示了mysql如何使用索引来处理select语句以及连接表。可以帮助选择更好的索引和写出更优化的查询语句。 使用方法,在select语句前加上explain就可以了: 如: explain select surname,first_name form a,b where a.idb.id EXPLAIN列…

日志模块logging用法

一、常用日志记录场景及最佳解决方案: 日志记录方式 最佳记录日志方案 普通情况下,在控制台显示输出 print() 报告正常程序操作过程中发生的事件 logging.info()(或者更详细的logging.debug()) 发出有关特定事件的警告 warnings.warn()或者loggin…

MySQL 亿级数据需求的优化思路(一),交易流水记录的查询

对MySQL的性能和亿级数据的处理方法思考,以及分库分表到底该如何做,在什么场景比较合适? 比如银行交易流水记录的查询 限盐少许,上实际实验过程,以下是在实验的过程中做一些操作,以及踩过的一些坑&#…

RUNOOB python练习题2

用来练手的python 练习题,原链接 : python练习实例2 题干 : 企业发放的奖金根据利润提成。利润(I)低于或等于10万元时,奖金可提10%;利润高于10万元,低于20万元时,低于10万元的部分按10%提成,高于10万元的…

dubbo负载均衡策略和集群容错策略

dubbo负载均衡策略 random loadbalance 默认情况下,dubbo是random load balance随机调用实现负载均衡,可以对provider不同实例设置不同的权重,会按照权重来负载均衡,权重越大分配流量越高,一般就用这个默认的就可以了。…

MySQL 亿级数据需求的优化思路(二),100亿数据,1万字段属性的秒级检索

最近在研究亿级数据的时候,无意中看到了一个关于写58同城的文章 https://blog.csdn.net/admin1973/article/details/55251499?fromtimeline 其实上面讲的versionext的方式以及压缩json的思路,对于我来讲都可以看得懂,想得通,其…

RUNOOB python练习题3

用来练手的python 练习题,原链接 : python练习实例3 拿到题目就写了如下代码,思路是因为使用**0.5进行开平方操作时,python会将数据类型自动转换为float单精度浮点型。这里利用提取其整数部分,来判断这个数是否是完全平方数。 z…

使用git将项目上传到github(最简单方法)

使用git将项目上传到github(最简单方法) 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安装git工具,这里给出下载地址,下载后一路直接安装即可&#xff1…

数据库 概念详解

数据库 概念详解 一、MySQL MySQL 事务 MySQL 锁 MySQL 二、Redis 三、MongoDB 四、Memcached 转载于:https://www.cnblogs.com/guozepingboke/p/10743648.html

RUNOOB python练习题4

用来练手的python习题其四, 原题链接: python练习实例4 题干: 输入某年某月某日,判断这一天是这一年的第几天? 这个题目比较简单,只需要注意闰年和非闰年的区别就可以了。我这里使用numpy矩阵存储每个月的天数,之后用…

GitHub入门:如何上传与下载工程?

由于经常要在家写代码,所以需要有个能够方便访问代码管理工具。最近尝试了一下GitHub。经过了一翻纠结之后,基本上掌握了他的使用方式。 要使用GitHub需要首先在其网站上进行注册。其官方网站是https://github.com/。注册的流程在这里就不多少了&#x…

如何解决PIP命令不可用

今天想用PIP装一个python包,发现PIP报错,不是内部或外部命令。。。 遇事百度,有两种说法,一,没安装包,不管那么多命令执行了再说 在命令行输入:python -m ensurepip 将pip.exe文件下载下来 再pi…

RUNOOB python练习题5

用来练手的python 练习题其五,原链接 : python练习实例5 题干 : 输入三个整数x,y,z,请把这三个数由小到大输出。 又是非常简单的排序算法,只要使用numpy矩阵的排序方法或者使用python list的排序算法就可以轻松解决。 源代码如下 : import …