CCA算法的简化描述
CA的发展过程中出现了两种计算方法,与此对应,存在两种CCA的计算方法。尽管计算过程存在区别,但结果都是一致的。以下是CCA计算过程简述,细节部分可参考Legendre和Legendre(1998)“Numerical Ecology”,594页后的内容。
基于迭代的CCA(最初方法)
这种CCA 方法的基本思路是在基于迭代的CA过程中,将每轮迭代获得的样方得分(坐标值)都与环境因子以多元回归的方式相结合。简化步骤如下:
(1)从任意(随机)样方得分(xi)开始。
(2)以样方中物种丰度加权的样方得分(xi)平均值计算物种得分(uj),权重(wij)代表了物种(j)在样方(i)中的丰度。
uj = ∑(wij * xi) / ∑(wij)
(3)计算新样方得分(xi),作为样方中物种丰度加权的物种得分(uj)平均值。
xi = ∑(wij * uj) / ∑(wij)
第(1)-(3)步与CA过程完全相同,仅使用响应变量(物种多度)矩阵;第(4)步开始加入解释变量(环境变量)数据。
(4)通过多元回归计算样方与环境变量之间的回归系数(bk),称为典范系数(canonical coefficient),它反映了各个环境变量对排序轴所起作用的大小。
(5)通过典范系数计算新样方得分(xi)。
xi = ∑bkUki + b0
式中xi为第i个样方的得分,b0是截距(常数),bk是样方i与第k个环境变量之间的回归系数,Uki是第k个环境变量在第i个样方中的测量值。
(6)标准化样方得分(轴因加权平均而收缩,因此拉伸轴),通过减去均值然后除以标准差实现。
(7)如果新计算的样方得分与旧样方得分相同(或几乎相同,即达到收敛),可停止运行;若仍存在明显差异,继续执行步骤(2)。
结合(1)-(7)过程,可以看到CCA和CA的区别是增加了(4)、(5)两步,其它步骤没有变化。并且同CA,无论从任意给定的随机数开始,然后以特定的方式收敛,最终的解始终是唯一的。
(8)在计算出第1轴的样方和物种得分之后,可以继续到第2轴以及更多轴,同时保持与所有先前计算的轴的线性独立性。以第2排序轴为例,与第1排序轴一样,进行(1)-(5),在选初始值时可以选第1轴某一步的结果,以加快迭代收敛速度。第(6)步时与CA一样,先进行正交化,再进行标准化。
(9)计算解释变量(环境变量)得分。
fkm = [λm (1-λm)]1/2 akm
式中fkm为第k个环境变量在第m排序轴上的得分,λm为第1排序轴的特征值,akm为第k个环境变量与第m个排序轴间的相关系数。这一相关系数不同于典范系数,它是最终求出的样方得分与环境变量之间的相关系数,但其生物学意义与典范系数基本一致。
基于迭代的CCA(目前大多数软件的方法)
这种CCA 方法为在CA分析中表征χ2统计量的贡献率的Ǭ矩阵中加入RDA的加权模式。
原始的响应变量矩阵(物种多度数据集)首先被转化为一个描述样方对对Pearson χ2统计量的贡献率的Ǭ矩阵,通过Ǭ矩阵完成回归集,并使用加权多元回归代替简单多元回归。其中权重为各样方中所有物种的总和。关于CCA轴的特征
CCA可获得的约束轴数为min[p–1, m, n–1]。其中,p为响应变量(物种)数量;m为定量解释变量数量以及定性解释变量(因子变量)的因子水平的自由度(即该变量因子水平数减1);n为排序对象(样方)数量。
在CA中,排序轴承载的总变差≠总方差,而是通过一个叫总惯量(total inertia)的指标表征,它代表了Ǭ矩阵所有值的平方和。与此对应,CCA中R2即代表了总惯量(而非总方差)被环境变量所解释的程度,约束轴承载了被成功解释的惯量部分。
根据计算过程,可以看到CCA与CA共享一套基础算法,CCA是在CA的基础上添加约束过程发展而来,其约束算法源自RDA中使用的多元回归。因此其很多特征与CA(体现在样方与物种的关系)或RDA(体现在环境变量的解释规则)相似,可分别参考前文CA或RDA。
CCA排序图
CCA三序图中一个非常瞩目的特征是物种在约束轴的排序位置反映其生态梯度最适点,这个特征使物种组成的生物学解释更加直观和容易。
CCA排序图中,样方和物种常用点表示,定性解释变量同样以点表示(质心位置),定量解释变量以向量表示。对于CCA中两种主要标尺的解读方式如下所述。
对于样方和物种的关系,其解释与CA中的解释相同。
I型标尺图中,(1)排序图内样方之间的距离近似于它们的χ2距离,排序图中两个样方点越近,代表这些样方内的物种组成越相似;(2)一个样方点靠近一个物种点,表示该物种对于该样方的贡献比较大。
II型标尺图中,(1)排序图内物种之间的距离近似于它们的χ2距离,排序图中两个物种点越近,代表它们的相对多度沿样方分布越相似;(2)一个物种点靠近一个样方点,表示该物种在该样方内存在的可能性很大,或在该样方内的多度比在其它样方内大。
对于解释变量(环境变量)与样方或物种的关系。
I型标尺图中,(1)将对象点垂直投影到变量向量或延长线上,投影点位置接近该样方内该解释变量数值的位置。(2)定性解释变量质心的点靠近某一样方,表明其在该样方中的状态更可能为“1”。
II型标尺图中,(1)将物种点垂直投影到变量向量或延长线上,投影点的位置表示该物种在该环境变量梯度上的最适区域。(2)定性解释变量质心的点靠近某一物种,表明该物种更可能出现在(或大量存在)该变量的状态为“1”的样方中。
CCA的一些注意事项
(1)保证物种在生态梯度上呈单峰响应分布。即环境梯度必须足够长,在所观测的样方中具有明显的物种丰度变化。梯度太短可能会表现出线性响应,尽管CCA也可以处理线性关系,但效果不如RDA。
(2)CCA对稀有物种敏感,低丰度物种经常在CCA排序图中作为异常值定位,带来较大的偏差。可选在执行CCA前过滤它们,尽管不是必须的过程。
(3)结果中,解释变量代表了与响应变量的线性因果关系。如果不确定是否真实存在这种因果关系,则应谨慎进行解释。
DCCA简述
类似CA,作为单峰排序方法,CCA中同样可能会出现弓形效应。可通过去趋势典范对应分析(DCCA)将第一轴分成数个区间,并在每一区间内通过中心化调整第二轴的坐标值,以去除弓形效应的影响,具体原理和去趋势对应分析(DCA)类似。关于弓形效应和DCA,可参考前文。
以下是对DCCA方法的简化描述,基本过程同上述CCA,除了第(8)步。
(1)从任意(随机)样方得分开始。
(2)以样方中物种丰度加权的样方得分平均值计算物种得分。
(3)以样方中物种丰度加权的物种得分平均值计算新样方得分。
(4)计算样方与环境变量之间的回归系数。
(5)结合回归系数计算新样方得分。
(6)标准化样方得分。
(7)回到第(2)步,重复迭代过程,得到稳定的值。
(8)可以看到,对于第1轴,计算方法和CCA相同。因为弓形趋势只影响正交轴,所以在第2轴开始,需将原来CCA中的正交化替换为去趋势方法。
(9)求环境变量得分。
尽管DCCA较少使用,但不可否认它的实用价值。
参考资料
张金屯. 数量生态学. 科学出版社, 2004.
DanielBorcard, FranoisGillet, PierreLegendre, et al. 数量生态学:R语言的应用(赖江山 译). 高等教育出版社, 2014.
GUSTA ME Blog:https://mb3is.megx.net/gustame/constrained-analyses/cca
RDA & CCA:https://www.davidzeleny.net/anadat-r/doku.php/en:rda_cca_examples
Robustness of CCA:http://ordination.okstate.edu/robust.htm
Legendre P, Legendre L. Numerical Ecology. Second English edition. Developments in Environmental Modelling, 1998, 20, Elsevier
友情链接R包vegan的基于距离的冗余分析(db-RDA)
R包vegan的冗余分析(RDA)
群落分析的冗余分析(RDA)概述
RDA、CCA的解释变量选择概述
RDA、CCA的R2校正及约束轴的显著性检验概述
R包vegan实现在物种多度的非约束排序中被动拟合环境变量
R包vegan的非度量多维标度(NMDS)分析
R包vegan的主坐标分析(PCoA)
主坐标分析(PCoA)及非度量多维标度(NMDS)概述
R包vegan的群落去趋势对应分析(DCA)
R包vegan的群落对应分析(CA)
R包vegan的群落PCA及tb-PCA分析