标准正态分布表_表达矩阵的归一化和标准化,去除极端值,异常值

我们阅读量破万的综述:RNA-seq这十年(3万字长文综述)给粉丝朋友们带来了很多理解上的挑战,所以我们开辟专栏慢慢介绍其中的一些概念性的问题,上一期:

RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同

在数据挖掘过程,数据的归一化和标准化是必须的。取log值就是一种归一化的方法,z-score是常用的标准正态分布化的方法。

归一化和标准化的区别

实际上口语里面通常是没办法很便捷的区分这两个概念。
归一化:将每个样本的特征值(在转录组中,特征值就是表达量)转换到同一量纲下,把表达量映射到特定的区间内,区间的上下限由表达量的极值决定,这种区间缩放法是归一化的常用方法
标准化:按照表达矩阵中的一个基因在不同样本中的表达量处理数据,每个样本点都能对标准化产生影响,通过求z-score值,转换为标准正态分布,经过处理的数据的均值为0,标准差为1,因此z-score也称为零-均值规范化。

取log对表达量的影响

原始的raw counts矩阵是一个离散型的变量,离散程度很高。有的基因表达丰度比较高,counts数为10000,有些低表达的基因counts可能10,甚至在有些样本中为0。
即使经过了RPKM/FPKM等方法抵消了一些测序技术误差的影响,但高低丰度基因的表达量的差距依然很大。
如果对表达量去一下log10,发现10000变成了4,10变成了1,这样之前离散程度很大的数据就被集中了。

69303b316485d836a66bb9dd3cd94193.png


如上图,这些离散的表达量都汇聚到了不同底数的log函数线上,可以使绘制的热图、箱线图等图形更加美观。
有时当表达量为0时,取log会出现错误,可以log(counts+1)来取log值。当x=1时,所有的log系列函数值都为0。这样原本表达量为0的值,取log后仍为0。
这也就是UCSC的XENA下载到的表达矩阵的形式。

z-score对表达量的影响

log对每个样本的表达量的处理标准是一样,而z-score考虑到了不同样本对表达量的影响,计算z-score时,消除到了表达的平均水平和偏离度的影响。

07d723b6413ca73655a7d6af59878a00.png


转换后表达量符合正态分布分布,Z-score只是一个临界值,是标准化的结果,本身没有意义,有意义的在于在标准正态分布模型中它代表的概率值。
所以只要知道Z值, 查对应的正态分布表,就可以知道表达量偏离平均水平的程度。

4627b81f82d975698196af013ed719c8.png

表达量log归一化和z-score标准化的使用范围

  • 如果对表达量的范围有要求,用归一化。

  • 如果表达量较为稳定,不存在极端最大最小值,使用归一化。

  • 如果表达量离散程度很大,存在异常值和较多噪音,用标准化可以避免异常值和极端值的影响。

  • 在分类、聚类、PCA算法中,使用z-score值的结果更好。

  • 数据不太符合正态分布时,可以使用归一化。

  • 机器学习的算法(SVM、KNN、神经网络等)要求归一化/标准化

剔除异常值

大家看群主代码绘制热图,里面经常看到z-score以及去除极端值的:

1126864d0b4c920926a747a36fe9dd24.png

希望你看清楚下面代码是如何进行z-score的

pheatmap(dat)
n=t(scale(t(dat)))
n[n>2]=2 #限定上限,使表达量大于2的等于2
n[n-2]= -2 #限定下限,使表达量小于-2的等于-2n[1:4,1:4]pheatmap(n,show_colnames =F,show_rownames = F)ac=data.frame(group=cluster)rownames(ac)=colnames(n)pheatmap(n,annotation_col = ac,show_colnames =F,show_rownames = T)n[n-1]= -1 # 重新限定下限,使表达量小于-2的等于-2
n[1:4,1:4] 
pheatmap(n,annotation_col = ac,
         show_colnames =F,show_rownames = T)

总结

在一些公共数据库如TCGA、GEO中,会提供取log值、z-score后的表达量矩阵,这些值都是count矩阵的另一种表示形式。了解这些值背后的含义及应用范围,针对不同的数据挖掘模型,选取适合的表达量的表示形式来达到预期的结果。

那么,怎么样知道你的表达矩阵是否需要进行归一化或者标准化呢?下面的学习班可能会帮助你!

219bb06af2c46d18576c0c0c0c6c0baf.gif

全国巡讲约你

第1-11站北上广深杭,西安,郑州, 吉林,武汉,成都,港珠澳(全部结束)

一年一度的生信技能树单细胞线下培训班(已结束)

全国巡讲第13站-杭州(生信技能树爆款入门课)(下一站甘肃兰州,火热报名)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/430810.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络关于封装成帧题目,上海第二工业大学-计算机网络通信期中试卷答案...

上海第二工业大学 (试卷编号: )2014-2015学年第2学期 计算机网络与通信 期中考试试卷姓名: 学号: 班级: 成绩:一、 填空题 (每空1分,共18分)1. 当前广泛提及的三网融合中的三网分别是 电信网络 、 电视网络…

微星主板超频_内存超频能力依旧拔群!微星MEG Z490 ACE主板评测

一、前言:内存超频首选的新板子来了一直以来,微星主板都以强悍的内存超频能力而著称,而高频内存对于许多游戏带来的提升都是肉眼可见。随着全新Intel 10代酷睿处理器的上市,微星的MEG系列的Z490主板会给大家带来哪些惊喜呢&#x…

g++ 内存不够_手机内存老是不足?这三招,让你马上腾出12个G

不知道朋友们遇到手机卡慢、空间不足的第一反应是什么?A:换个手机。B:内存满了,找清理软件狂删啊!使用智能手机的人大家肯定和小编一样恋旧,觉得换手机很麻烦所以不断尝试各种清理软件,清理手机…

stringbuilder寻找字符串位置可能存在多个 java_Java 语言基础amp;String

Java 语言基础String 字符串的不可变性 定义一个字符串使用变量来赋值变量 String s2 s; s2 保存了相同的引用值, 因为他们代表同一个对象 字符串连接 s s.concat("ef"); s 中保存的是一个重新创建出来的 string 对象的引用 总结一旦一个 str…

cogs 547:[HAOI2011] 防线修建

★★★☆ 输入文件:defense.in 输出文件:defense.out 简单对比                      时间限制:1 s 内存限制:128 MB 题目描述: 近来A国和B国的矛盾激化,为了预防不测&#…

人工智能和计算机软件,人工智能在计算机软件方面有什么应用?

人工智能(Artificial Intelligence) ,英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似…

pq分解法中b’怎么求_14.初中数学:二元一次方程组,加减消元法怎么解?视频有详细解题步骤...

欢迎您来到方老师数学课堂,请点击上方蓝色字体,关注方老师数学课堂。所有的视频内容,全部免费,请大家放心关注,放心订阅。初中数学:二元一次方程组,加减消元法怎么解?视频有详细解题…

win8计算机可用内存不足,Win8.1玩游戏提示计算机内存不足,Win8.1内存不足怎么办?...

Win8.1玩游戏提示计算机内存不足,Win8.1内存不足怎么办?有朋友使用Win8.1系统,这一段时间,在玩游戏(如孤岛危机3、鬼泣4)过程中,频繁出现下面提示框:关闭程序以防止信息丢失计算机的内存不足。请保存文件并关闭这些程序Windows将…

css划上去变长,Css3如何实现鼠标移上变长特效?(图文+视频)

本篇文章主要给大家介绍用css3实现鼠标移入变长效果的方法。在前端页面设计中,css的功能是异常强大的,只要运用好它,你能实现很多网站各种精彩的动态效果。那么在之前的文章中也给大家分享介绍了一些用css实现动画效果的方法,比如…

小米路由器怎么连接无盘服务器,播放器+服务器的方法瞬间玩转小米路由方法图文介绍...

“厨具”:小米路由及其外接硬盘、安卓手机、威动播放器(VidOn Player)、威动服务器(VidOn Server)“食材”:冰雪奇缘、生活大爆炸用两种方法将其“熬制”,时间短、内容丰富,“营养价值”相当的高。一、将小米路由作为NAS&#xff…

统计源期刊目录_统计源期刊是什么意思

统计源期刊是什么意思?统计源期刊全称中国科技论文统计源期刊,也就是我们常说的科技核心期刊,科技核心期刊是我国核心期刊体系中的一类,在国内个人评职晋升、学术评估中占据着重要地位,统计源期刊也是根据期刊多方面指…

ajax 请求post和get,ajax请求get和post

ajax请求get和post 内容精选换一换正常返回值类型说明200OKGET、PUT、POST操作正常返回204No ContentDELETE操作正常返回异常返回值说明400 Bad Request服务器未能处理请求。401 Unauthorized被请求的页面需要用户名和密码。403 Forbidden对被请求页面的访问被禁止。404 Not Fo…

网页底部的版权信息_Shopify底部的版权信息(Powered by Shopify )如何删除

大多数新的Shopify商店所有者通常在一开始就遇到一个小问题。他们通常想摆脱商店页脚中的“Powered by Shopify”文本/链接。Shopify提供支持的含义是什么?Shopify是一个电子商务平台,可帮助创建和自定义电子商务商店。当您在此平台上创建商店时&#xf…

ftp 服务器 文件 连接 导出,ftp 服务器 文件 连接 导出

ftp 服务器 文件 连接 导出 内容精选换一换“数据导入”章节适用于MRS 3.x及后续版本。Loader是实现MRS与外部数据源如关系型数据库、SFTP服务器、FTP服务器之间交换数据和文件的ETL工具,支持将数据或文件从关系型数据库或文件系统导入到MRS系统中。Loader支持如下数…

多个虚拟主机服务器,Windows多个虚拟主机服务器

Windows多个虚拟主机服务器 内容精选换一换迁移前,您需要设置目的端服务器。该目的端用来接收源端的数据,同时您也可以使用该目的端进行迁移测试和启动目的端。只有“迁移阶段”为“已就绪”时才可设置目的端。或单击“操作”列的“更多 > 设置目的端…

armv8 汇编 绝对地址赋值_详解汇编语言B和LDR指令与相对跳转和绝对跳转的关系...

[TOC]为什么要有相对跳转和绝对跳转?顺序执行:指令一条一条按照顺序往下执行,比如变量的定义和赋值都是按照顺序执行的。跳转执行:当指令执行到当前位置后跳转到其他位置执行。比如,在主函数中调用其他函数就是典型的跳…

mongodb3.0 性能測试报告 一

mongodb3.0 性能測试报告 一 mongodb3.0 性能測试报告 二 mongodb3.0 性能測试报告 三測试环境: 服务器:X86 pcserver 共6台 cpu: 单颗8核 内存:64G 磁盘: raid 10 操作系统 :centos 6.5 mongo…

HTTP 错误 404.3 – Not Found 由于扩展配置问题而无法提供您请求的页面。如果该页面是脚本,请添加处理程序。如果应下载文件,请添加 MIME 映射。...

今天,在vs2013中新建了一个placard.json文件,当我用jq读取它的时候,去提示404,直接在浏览器访问这个文件,提示: HTTP 错误 404.3 – Not Found 由于扩展配置问题而无法提供您请求的页面。如果该页面是脚本&…

ArcGIS将CAD等高线转换为TIN/DEM数据

1.CAD图层分离 CAD快捷命令QSELECT(快速选择) 选择DGX,GCD图层,复制到新的CAD文件中 2.在ArcGIS中,将dwg文件转化为可编辑的要素类文件(shapefiles) 分析工具-提取分析-筛选 3.高程数据修正 鼠标右键生…

字节跳动专家会_字节跳动招聘直播策略运营专家/经理/海外财务AR BP,ACCA优先...

字节跳动是把人工智能技术大规模应用于信息分发的公司,短短7年,从最初的一个“今日头条”,已经发展为拥有“抖音”、“西瓜视频”、“火山小视频”、“FaceU”等十几款产品的公司。每天,都有6亿用户通过字节跳动的产品看见更大的世…