canoco5主成分分析步骤_R语言 PCA主成分分析

微信公众号:生信小知识
关注可了解更多的教程及生信知识。问题或建议,请公众号留言;

R语言 PCA主成分分析

前言统计学背景知识协方差相关系数函数总结实例讲解1.载入原始数据2.作主成分分析3.结果解读4.画主成分的碎石图并预测5.PCA结果绘制后记

前言

PCA分析大家肯定经常看到,但是你真的懂PCA分析的结果吗?

图我也会看,我只是不是很清楚PCA背后输出结果的解读而已。正好看到一篇不错的博客,就把主要的知识点记录下 。

reference:

  • http://www.cnblogs.com/longzhongren/p/4300593.html

  • https://www.zhihu.com/question/20852004

  • 223.主成分分析PCA

统计学背景知识

协方差

可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?

  • 你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的

  • 你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的

从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。

从公式出发来理解一下:

a441bd6a0763505ea2b12d32f7ada64d.png

公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。

具体例子可以去知乎详细查看:

https://www.zhihu.com/question/20852004

相关系数

对于相关系数,我们从它的公式入手。一般情况下,相关系数的公式为:

dfa0ddbeb4ce3baa2039ff11baf66397.png

翻译一下:就是用X、Y的协方差除以X的标准差和Y的标准差。

所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

既然是一种特殊的协方差,那它:

1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。

2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度

具体例子可以去知乎详细查看:

https://www.zhihu.com/question/20852004

函数总结

注意:这里的输入数据,rownames是样本名,colnames是样本的特征。(与正常数据正好相反,需要用t()转置数据)

  • princomp()主成分分析  可以从相关阵或者从协方差阵做主成分分析

  • fviz_pca_indprincomp()结果进行展示

  • summary()提取主成分信息

  • loadings()显示主成分分析或因子分析中载荷的内容

  • predict()预测主成分的值

  • screeplot()画出主成分的碎石图

  • biplot()画出数据关于主成分的散点图和原坐标在主成分下的方向

实例讲解

现有30名中学生身高、体重、胸围、坐高数据,对身体的四项指标数据做主成分分析。

1.载入原始数据

# 清空环境

2.作主成分分析

# PCA分析

结果解读:

  • Standard deviation 标准差  其平方为方差=特征值

  • Proportion of Variance 方差贡献率

  • Cumulative Proportion 方差累计贡献率

由结果显示:前两个主成分的累计贡献率已经达到96.36%,可以舍去另外两个主成分,达到降维的目的。

因此可以得到函数表达式:

  • Z1 = 0.497*height + 0.515*weight + 0.481*chest + 0.507*sit-h

  • Z2 = 0.543*height - 0.210*weight - 0.725*chest + 0.368*sit-h

注意要点:

  • princomp()函数中:

cor是逻辑变量,当cor=TRUE表示用样本的相关矩阵R做主成分分析,当cor=FALSE表示用样本的协方差阵S做主成分分析

  • summary()函数中:

loading是逻辑变量,当loading=TRUE时表示显示loading 的内容,loadings的输出结果为载荷是主成分对应于原始变量的系数,即Q矩阵

3.结果解读

这里我们可以看一看得到的test.pr变量的结构:

c2cf0865090a0d9102a63be195c9710c.png

  • sdev是标准偏差

  • center是每列计算是减去的均值

  • scores即降维之后的结果

我们可以利用函数来验证下scores的结果到底是什么意思:

library(factoextra)

PCA结果图:

7fba45702ba9b93067e263302be45945.png

手动画散点图:

2914f77f71802c7f80e8750bcb76749d.png

可以看到,这两者的结果图是一样的!

4.画主成分的碎石图并预测

"lines")

870a2c2e3df93bb14828238be16c3ca7.png

5.PCA结果绘制

主要用到的函数是fviz_pca_ind,这个函数来自factoextraR包,所以需要先安装&加载才可使用,下面记录下关于这个函数最常用的几个选项:

Usage

fviz_pca_ind(X, axes = c(1, 2), geom = c("point", "text"),
      geom.ind = geom, repel = FALSE, habillage = "none", palette = NULL,
      addEllipses = FALSE, col.ind = "black", fill.ind = "white",
      col.ind.sup = "blue", alpha.ind = 1, select.ind = list(name = NULL, cos2
      = NULL, contrib = NULL), ...)

Arguments
# geom——指定图形上是只显示点,还是同时也显示标签。默认同时显示。
# palette——自行指定颜色
# addEllipses——加95%置信椭圆
# col.ind——每个点的颜色
# legend.title——指定legend的名字

下面看实例:

fviz_pca_ind(test.pr,
             geom.ind = "point",
             col.ind = as.character(c(rep("Normal",15),rep("Tumor",15))),
             palette = c("red", "black"),
             addEllipses = T, 
             legend.title = "Groups")

3202504c156b15427ee578b42b35f8a9.png

是有点丑了,不过也是为了方便理解这个函数每个参数的意义。

后记

稍微整理了下,感觉对PCA怎么画有了更多了解,虽然之前画过,但是都是跑流程,从没有关注具体结果,所以,看似简单,但是却不熟悉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/289413.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

地理术语

1、无霜期:指一年中终霜后至初霜前的一整段时间。在这一期间内,没有霜的出现。农作物的生长期与无霜期有密切关系。无霜期愈长,生长期也愈长。无霜期的长短因地而异,一般纬度、海拔高度愈低,无霜期愈长。 2、返青(turn green):指植物的幼苗移栽或越冬后,由黄色变为绿…

物理专线流量平滑切换

在从传统IDC向云上迁移过程中,物理专线作为连接云上和云下的桥梁,在混合云架构中占有绝对重要的地位。作为基础设施,在伴随业务不断发展的过程当中,也会进行相应的更换升级。本文将介绍在物理专线特定情况下进行流量切换时&#x…

Android之使用PopupWindow让背景变黯但是华为手机出现屏幕一闪一闪问题解决办法

1、问题 我们使用PopupWindow设置背景变黯(代码如下),但是部分华为手机出现屏幕一闪一闪 //设置背景透明度public void setBackgroundAlpha(float bgAlpha) {WindowManager.LayoutParams lp CurrentActivity.this.getWindow().getAttributes();lp.alpha bgAlpha;…

利用计算机窃听,observer模拟监听器的实现

observer模拟监听器的实现考试吧(Exam8.com) 2008-10-14 08:00:00 评论(0)条学过awt,尤其是swing的就知道,swing中observer模式被大量的使用。比如,button.addActionListener(...)后,一旦你点击button后就能触发相应的事件。很多人一定想知道…

linux桌面版排行2019_新兴的桌面发行版 Septor Linux 发布 2019 版

导读Septor Linux 是一个新兴的桌面 GNU/Linux 发行版,基于 Debian “Testing” 分支,支持以 live 模式启动。其以 Tor 加密网络流量来匿名地访问网络,并搭载了一些常见的日用或匿名性软件。Septor Linux 是日益增多的关注于英特网访问时的匿…

怎么实现动态设置静态文件存储目录?

前言文章名字有点绕口,举例说明一下:多用户使用同一个网站上传文件,但是因为一些原因,文件需要存储到服务器的不同目录下。比如用户 A 对应 c:\abc,用户 B 对应 d:\xyz\123。并且,文件需要以静态文件方式提…

编写函数判断一个数是否是回文数_程序员面试金典 - 面试题 01.04. 回文排列

题目难度: 简单原题链接 题目描述给定一个字符串,编写一个函数判定其是否为某个回文串的排列之一。回文串是指正反两个方向都一样的单词或短语。排列是指字母的重新排列。回文串不一定是字典当中的单词。示例 1:输入:"tactcoa" 输出…

ArcGIS地理坐标系与投影坐标系

地理坐标:为球面坐标。 参考平面地是 椭球面,坐标单位:经纬度 大地坐标:为平面坐标。参考平面地是 水平面,坐标单位:米、千米等 地理坐标转换到大地坐标的过程可理解为投影。

js去除重复数值

var c[2,4,3,5,2,2,2],a {},i 0;for(;i<c.length;i){a[c[i]] 1 //利用对象名称不能重复的特性来去重}c[];for(var g in a){c.push(g-0);}console.log(c);转载于:https://www.cnblogs.com/xupeiyu/p/4373871.html

ubuntu之sudo apt-get update提示Could not connect to 127.0.0.1:8081 (127.0.0.1)解决办法

1、问题 由于要使用Git,需要执行 sudo apt-get install git 但是执行之前我需要先 sudo apt-get update 麻痹的,当我执行这个的时候错误提示如下 Could not connect to 127.0.0.1:8081 (127.0.0.1). - connect (111: Connection refused)Err:1 http://archive.canonical…

Facebook为Messenger应用添加群组付款功能

Facebook在2015年为Messenger应用添加了好友免费转账功能。这个使得用户可以方便安全地向朋友转账&#xff0c;但是如果用户需要向多人支付&#xff0c;可能会耗费时间。幸运的是&#xff0c;Facebook已经通过其最新的Messenger应用更新解决了这个缺点。扩展付款功能现在允许用…

浙大计算机系可以转专业吗,求教。。浙大转专业容易吗

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼学长考试周忙里偷闲水一会儿贴吧&#xff0c;终于看到有人问这个问题了。作为一名即将跨入大二的浙江汉子&#xff0c;刚好符合你说的跨大类的条件。自我介绍一下&#xff0c;我前不久从理科大类跨到了社科大类(财管)。回想起一年前…

hfss史密斯图_HFSS仿真工程实例 (微波器件).ppt

HFSS仿真工程实例 (微波器件)(3)要结束观看时&#xff0c;可点击Close按钮。 图5-3-18 SolutionData收敛曲线   2)创建报告   ※创建差分对S参数绘图   (1)在AnsoftHFSS窗口中选择菜单项HFSS>Results>CreateReport。   (2)在创建报告(CreateReport)窗口做…

Xamarin.Forms 5.0 项目实战发布!

活动介绍本次活动主要是 .NET Xamarin.Forms 移动端项目开发实战教程, 与以往相同, 本次的收入(其它部分会另行说明) 将用于社区公益活动, 不限于:公益性质的个人/组织机构捐赠开源社区个人/项目捐赠内部投票活动本次的活动费用为:399元, 相对于去年组织的WPF公益实战视频而言,…

unity webgl读写txt文件_VB 读写txt文件

No.7 读写txt文件​mp.weixin.qq.com许多程序需要读写数据&#xff0c;比如商品管理&#xff0c;图书管理&#xff0c;学生档案等&#xff0c;当需要查询的时候&#xff0c;就是读取数据&#xff0c;新增或者更改就需要写数据&#xff0c;VB来讲&#xff0c;中小型的数据一般用…

Android studio导入项目提示The same input jar [*.jar] is specified twice

1 问题 把项目导入Android studio提示用gradle编译提示下面错误 The same input jar [*.jar] is specified twice 2 原因 gradle里面配置了 dependencies {api fileTree(dir: libs, include: *.jar) } 然后在混淆文件proguard.cfg里面进行了如下配置 -libraryjars ./li…

地图投影系列介绍(一)----地球空间模型

1、现实世界和坐标空间的联系 任何空间特征都表示为地球表面的一个特定位置,而位置依赖于既定的坐标系来表示。 通过统一的坐标系和高程系,可以使不同源的GIS数据叠加在一起显示,以及执行空间分析。 2、地球空间模型描述

python学习day2:类与对象

类与对象 一、内置函数 1、int方法&#xff08;1&#xff09;def__add__(self, y): #两数相加""" x.__add__(y) <> xy """ 例&#xff1a; 1 #!/usr/bin/env python 2 x8 3 resultx.__add__(9) 4 print(result) 输出…

Java Web整合开发(14) -- Struts 1.x 概述

整合Spring与Struts1的三种方法总结 无论用那种方法来整合&#xff0c;第一步就是要装载spring的应用环境&#xff0c;有三种方式&#xff1a; #1. struts-config.xml <?xml version"1.0" encoding"UTF-8"?> <!DOCTYPE struts-config PUBLIC &q…

WiFi行业将走向何方?

WiFi技术无处不在&#xff0c;人们很难想象&#xff0c;如果离开了无线网络&#xff0c;生活将会变成什么样子。随着配备全新、大流量数据应用软件的智能移动设备日益增加&#xff0c;越来越多的用户不仅用这些设备打电话&#xff0c;还用它们开展其他活动&#xff0c;这无疑大…