点击上方“蓝字”关注我们
10.1 Top-Tables 简介limma包提供topTable和decideTests函数概括线性模型结果,进行假设检验,调整p值进行多重检验。结果包括(log2)倍数变化,标准误差,t统计和p值。用于显著性分析的基本统计量是修正t统计量,它是为每个探针和每个对比计算的。与普通t统计说明相同,除了标准误差是在基因间被调节,例如,使用简单的贝叶斯模型缩放到一个相同的值。它的作用是从基因集合中借用信息来帮助推断每个基因。修正t统计与普通t统计产生p值的方式相同,只是自由度增加了,反映了与平滑标准误差相关的更大的可靠性。
函数topTable提供了顶部差异基因和所选对比度的信息汇总。logFC列给出了对比的值, 通常这表示两个或多个实验条件之间的log2倍数变化,尽管有时它表示一个log2表达水平。AveExpr列给出了该基因在实验中所有阵列和通道中的平均log2表达水平。t列是修正t统计值。p值列是相关的p值,adj.P 值是多重检验的P值。最常见的调整是用Benjamini and Hochberg’s method来控制错误发现率。如果目的是控制和估计错误发现率,这个调整值通常叫q值。如果所有q值都低于阈值0.05的基因作为差异表达基因,那么在这个挑选出来的组中错误发现的预期比率都将控制在这个阈值之下。这一步骤与Benjamini and Hochberg’s method是一样的,虽然原文并没有按照调整后的p值来制定方法。
B统计量(lods or B)是差异表达基因的log-odds 。假设B = 1:5,差异表达的几率是exp(1.5)=4.48,基因发生差异表达的可能性是4.48/(1+4.48)=0.82 ,B=0代表该基因有50%的几率发生差异表达。B值在多重检验中通过假设1%的基因或者一些由用户调用eBayes来设定特定的百分比是差异表达的自动调整。正常来说,P值和B值对差异基因的排列是相同的。事实上,如果数据没有缺失值或质量权重,那么顺序将完全相同。
eBayes函数计算另一个有用的统计量。修正F -统计量(F)将所有差异的t-统计量合并为该基因的总体显著性检验。F统计检验该基因的任何对比是否非零,例如:该基因在任何对比中是否有差异表达。分母自由度与修正t相同。它的p值存储在fit$F.p.value。它与方差分析中的普通F统计量相似,不同之处在于分母的均方差在不同基因间得到了调节。
10.2 线性模型和多重检验lmFit函数输出的对象是MArrayLM 。该函数的输出结果为计算线性模型所得的残差、自由度、方差等结果。lmFit(object, design=NULL, ndups=1, spacing=1, block=NULL, correlation, weights=NULL, method="ls", ...)输出结果:fit存储残差值,df.residual存储自由度。多重检验是同时评估多个假设的情况,在生物芯片数据分析中是一种关键的统计学方法。当分析生物芯片数据时,对多个基因进行统计学检验,并且根据标准p值识别可能差异表达的基因。但是,由于p值的多样性和多重条件,在实验中进行检验的假设总次数会很多,此时会增加第一类错误发生的概率。函数decideTests() 提供了解决方法。
decideTests(object, method = "separate", adjust.method = "BH", p.value = 0.05, lfc = 0, ...) decideTests(object, method = "separate", adjust.method = "BH", p.value = 0.05, lfc = 0, coefficients = NULL, cor.matrix = NULL, tstat = NULL, df = Inf, genewise.p.value = NULL, ...)参数method可选的策略有:1.method="separate" :等同于topTable,能够对每一个对比进行单独的检验,但是不能在对比之间进行检验2.method="global" :对测得的数据进行检验,不区分阵列或探针3.method="hierarchical":用于族错误率(family-wise error rate)校正 4.method="nestedF": 在探针水平校正错误发现率(false discovery rate) 编辑:洪烁校审:罗鹏