GSA、GSEA、ssGSEA、GSVA用到的统计学知识点

文章目录

  • 概率密度函数(probability density function,PDF)
  • 分布函数(Cumulative Distribution Function,CDF)
  • 核密度估计(KDE)
  • 经验累计分布函数(Empirical Cumulative Distribution Function,eCDF)
  • Kolmogorov–Smirnov test

概率密度函数(probability density function,PDF)

以下解释都来自维基百科:
在数学中,连续型随机变量的概率密度函数(Probability density function),简写作PDF。
是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
在这里插入图片描述

图中,横轴为随机变量的取值,纵轴为概率密度函数的值,而随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。(实在不能理解,就约等于认为横轴是连续的数值变量,纵轴是每个数值出现的概率)

当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。

分布函数(Cumulative Distribution Function,CDF)

以下解释都来自维基百科:
累积分布函数(cumulative distribution function,CDF)或概率分布函数,简称分布函数,是概率密度函数的积分,能完整描述一个随机变量 X的概率分布。

在标量连续分布的情况下,它给出了从负无穷到X的概率密度函数下的面积。 累积分布函数也用于指定多元随机变量的分布。
在这里插入图片描述
通俗点来说就是P(X <= x)的概率即为X的累积分布函数,也就是PDF那副图中的求阴影面积占整个钟形曲线包裹的面积的比例。

在这里插入图片描述

核密度估计(KDE)

以下内容来自维基百科:
核密度估计(Kernel density estimation,缩写:KDE)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一
在这里插入图片描述

可能看不懂啥意思,人话版如下:
一个变量 x,在样本中多次抽样,得到x1,x2,x3…xn .那么我们可以做一个直方图看一下数值和频次大概是什么样子。
在这里插入图片描述
是不是和正态分布的概率密度函数很像?但是不平滑,所以加了一个核函数让x的取值和概率密度的关系更平滑。

在这里插入图片描述
上面的蓝色线条就是kernel density的结果。

经验累计分布函数(Empirical Cumulative Distribution Function,eCDF)

简而言之,这是一个根据抽样样本数据来近似总体分布函数的方法。我们从总体中抽出n个样本{x1,x2,x3…xn},对于这个样本我们可以画一个频率密度直方图,并且我们设定每个样本的概率是1/n,于是据此可以画一个该抽样样本的分布函数。

因为样本数目有限,样本变量为离散的,所以这个分布函数是阶梯函数(step function),每一步阶梯的高度都是1/n,代表每个对应的样本数据的概率为1/n,将所有的样本数据爬完后最终到达1。

如果抽样样本足够多的话,eCDF也就越接近总体的CDF。

对于这种阶梯式的step function,被描述为random walk,也就是随机游走,随机游走也是一个统计学概念,在这里,我们考虑一个点从原点出发向右行走,当遇到抽样分布的样本点(数据点)时(对应的横坐标),就向上走1/n,如果没遇到就平行x轴行走。

样本少的时候,就像上述的KDE那里说的,需要核函数平滑概率密度函数,得到概率密度函数后求导得到分布函数/经验累计分布函数。

Kolmogorov–Smirnov test

这是一个非参数检验,通过比较两个抽样样本的eCDF的形状,来检验它们是否来源于同一个总体分布。往往用于检验一个抽样分布是否属于正态分布。

方法很简单,在同一个图上画出两个抽样样本的eCDF(样本数目分别为n、m),然后找到两条阶梯线最大的差距D,这个D就是我们需要的统计量,对于原假设H0:两抽样分布来源于同一总体,D就会很小,如果D过大(α=0.05)就可以拒绝原假设接受备择假设:两抽样分布来源于不同总体。

D本身的分布是通过非常多次改变两样本在x轴上的排序从而计算得到的,每一次打乱样本顺序,都可以计算出相应的一个D,得到一个D的分布,这样就可以考察现在的D的水平是否满足p<0.05。因为对于eCDF来说,确定样本量后,阶梯上升量就确定了,所以改变eCDF形状的因素就只剩下样本在x轴上的分布情况。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/729405.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解Vue.js的模板语法和数据绑定

Vue.js背景介绍 Vue.js 是一款流行的前端 JavaScript 框架&#xff0c;由**尤雨溪&#xff08;Evan You&#xff09;**开发并于2014年首次发布。Vue.js 的设计目标是通过简单易用的语法和灵活的组件化架构&#xff0c;帮助开发者构建交互性强、响应速度快的现代Web应用程序。 …

source not found for数组a的引用Exception

identityHashCode(数组名&#xff09; adressidentityHashCode(a)//将得到数组a的哈希值。在同一个数据类型下&#xff0c;同一对象的哈希值是一样的&#xff0c;同一哈希值对应同一对象。由于不同数据类型的变量哈希值生成算法不同&#xff0c;所以在数据类型不同的情况下&am…

关于esp8266的一些经验汇总,新手必看

说实话&#xff0c;esp8266的nodemcu 已经使用了2年多了&#xff0c;各种问题遇到过&#xff0c;就尝试各种解决&#xff0c;而现在回头来看真的是稀里糊涂的在用&#xff0c;当然这个问题也同样涉及到esp32. 因为最近打算自己打一块esp8266的板&#xff0c;之前打的比较多的是…

Redis冲冲冲——Redis分布式锁如何实现

目录 引出Redis分布式锁如何实现Redis入门1.Redis是什么&#xff1f;2.Redis里面存Java对象 Redis进阶1.雪崩/ 击穿 / 穿透2.Redis高可用-主从哨兵3.持久化RDB和AOF4.Redis未授权访问漏洞5.Redis里面安装BloomFilte Redis的应用1.验证码2.Redis高并发抢购3.缓存预热用户注册验证…

从根到叶:深入理解二叉搜索树

我们的心永远向前憧憬 尽管活在阴沉的现在 一切都是暂时的,转瞬即逝, 而那逝去的将变为可爱 &#x1f31d;(俄) 普希金 <假如生活欺骗了你> 1.二叉搜索树的概念 概念:搜索树&#xff08;Search Tree&#xff09;是一种有序的数据结构&#xff0c;用于存储和组…

github操作记录(踩坑)

github是程序员绕不开的东西。 网站打不开&#xff1f; 向雇主或有关部门申请合法信道连接互联网。 明明账号密码都对却登录失败&#xff1f; 向雇主或有关部门申请合法信道连接互联网。 重置密码失败&#xff1f; 向雇主或有关部门申请合法信道连接互联网。 TortoiseGit如…

模型压缩-剪枝算法概述

文章目录 1. 前言1.1 模型剪枝定义2 深度神经网络的稀疏性2.1,权重稀疏2.2 激活稀疏2.3 梯度稀疏2.4,小结3. 结构化稀疏3.1,结构化稀疏分类3.1.1 Channel/Filter 剪枝3.1.2 阶段级别剪枝3.2 结构化稀疏与非结构化稀疏比较参考资料参考自:

Facebook商城号为什么被封?防封养号技巧

由于Facebook商城的高利润空间&#xff0c;越来越多的跨境电商商家注意到它的存在。Facebook作为全球最大、用户量最大的社媒平台&#xff0c;同时也孕育了一个巨大的商业生态&#xff0c;包括广告投放、商城交易等。依托背后的大流量&#xff0c;Facebook商城起号较快&#xf…

优思学院|拉丁方实验设计是什么?

今天&#xff0c;我要给大家带来一个六西格玛实验设计的小窍门——拉丁方设计。这是一种巧妙的方式&#xff0c;帮助我们探索不同因素&#xff08;输入&#xff09;对结果&#xff08;输出&#xff09;的影响&#xff0c;同时巧妙地处理那些我们不想要的“噪音因素”。 想象一…

Linux 常用命令汇总(三):查看文件 内容处理

一、查看文件及内容处理命令 1.1 cat 1.1.1 介绍 cat 是 Linux 和其他 Unix-like 系统中一个非常基础且常用的命令&#xff0c;用于显示、合并或复制文本文件的内容 1.1.2 使用方法 cat [选项] [文件...] 1.1.3 参数详解 [选项]&#xff1a;控制 cat 命令的行为。[文件.…

vscode 远程开发golang

1.安装配置golang 下载解压 wget golangurl tar -xzvf golang 解压到/usr/local环境配置 在~/.bashrc文件最后加入下面三行 export GOROOT/usr/local/go # 这里就是go的源码目录 export PATH$PATH:$GOROOT/bin export GOPATH$HOME/goProject # 这里是home目录下的你自己建…

HEUFT电源维修x-ray发生器维修HBE211226

HEUFT电源维修x-ray发生器维修HBE211253;海富HEUFT在线液位检测X射线发生器维修&#xff0c;不限型型号系列。 德国海富推出HEUFT在线液位检测装置,满瓶检测系统HEUFT有着强大的功能,它的模块机构能整合很多程序,并依据不同的产品及其包装特性,照相技术,高频技术或X-ray技术。…

LInux-多线程基础概念

文章目录 前言预备页表详解缺页中断页表的映射 一、多线程是什么&#xff1f;轻量级进程 二、Pthread库pthread_create 前言 从本章的多线程开始&#xff0c;我们开始进入Linux系统的尾声&#xff0c;所以&#xff0c;在学习多线程的过程中&#xff0c;我们也会逐步对之前的内…

邮件营销新手必读指南?怎样做好邮件营销?

邮件营销的全流程及步骤&#xff1f;做好邮件营销有哪些注意点&#xff1f; 邮件营销作为一种传统却依然高效的推广手段&#xff0c;被众多企业所青睐。对于新手来说&#xff0c;如何开展邮件营销&#xff0c;却是一个值得探讨的话题。AokSend将为你提供一份邮件营销新手必读指…

国家妇女节放假是法定的假日

在这个充满活力和希望的春天&#xff0c;我们迎来了一个特殊的节日——国家妇女节。这是一个属于所有女性的节日&#xff0c;是一个庆祝女性成就、关爱女性权益的时刻。在这个特殊的日子里&#xff0c;我们不禁要问&#xff1a;国家妇女节放假是法定假日吗&#xff1f;让我们一…

Ps:辅助类工具组

工具箱里的辅助类工具为图像编辑和设计提供了重要的支持&#xff0c;能帮助用户更准确地测量、选取颜色或添加注释等。 快捷键&#xff1a;I 吸管工具 Eyedropper Tool 用于从图像中采样颜色。 用户可以通过点击屏幕上的任何点来选取那里的颜色&#xff0c;该颜色随即成为当前的…

Java+SpringBoot+Vue+MySQL实战:打造智能餐厅点餐系统

✍✍计算机编程指导师 ⭐⭐个人介绍&#xff1a;自己非常喜欢研究技术问题&#xff01;专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目&#xff1a;有源码或者技术上的问题欢迎在评论区一起讨论交流&#xff01; ⚡⚡ Java实战 |…

FreeRTOS学习笔记-基于stm32(2)任务的创建与删除,挂起与恢复

一、任务创建与删除 1、动态任务创建 xTaskCreate( TaskFunction_t pxTaskCode,const char * const pcName,const uint16_t usStackDepth,void * const pvParameters,UBaseType_t uxPriority,TaskHandle_t * const pxCreatedTask ); ①&#xff1a;使用此函数前需将宏 confi…

消息队列以及Kafka的使用

什么是消息队列 消息队列&#xff1a;一般我们会简称它为MQ(Message Queue)。其主要目的是通讯。 ps&#xff1a;消息队列是以日志的形式将数据顺序存储到磁盘当中。通常我们说从内存中IO读写数据的速度要快于从硬盘中IO读写的速度是对于随机的写入和读取。但是对于这种顺序存…

SQL 中 IN 与 <= 且 >= 的效率比较

1. 索引利用 当查询条件中的值是离散的、非连续的&#xff0c;或者是在多个不相邻的范围内时&#xff0c;使用 IN 可以更高效&#xff0c;因为 IN 可以直接跳到索引中的这些特定值。而 < 且 > 通常用于连续范围的查询&#xff0c;如果查询的是一个连续的区间&#xff0c…