2015年6月技术总结
——关于偏离度的测算方法
研究院公用事业部 路璐
引言
《原理》中说“偏离度是指每一种偿债来源与财富创造能力的距离,所体现的是偿债来源对债务安全的保障程度,唯有通过揭示偿债来源与财富创造能力偏离度才能真正区别每一种偿债来源的风险程度,科学判断偿债能力”。
偏离度是描述偿债来源与财富创造能力之间的接近程度的指标,命名为“距离”,“距离”越小的偿债来源与财富创造能力越具有相似性。采用什么样的方法计算距离是很讲究,甚至关系到判断偿债能力的正确与否。
根据偏离度的两个分量偿债来源与财富创造能力的特性,我们发现,他们的量纲,也就是单位是不一样的,测算时需要考虑分量的分布(期望,方差等)。
以下三种算法,需要具体数据测试,校正,验证,再校正。
第一种偏离度算法的思路:先将分量偿债来源与财富创造能力都“标准化”到均值、方差相等。假设样本集X的均值为m,标准差为s,那么X的“标准化变量”表示为:而且标准化变量的数学期望为0,方差为1。因此样本集的标准化过程用公式描述就是:
标准化后的值 = (标准化前的值-分量的均值) /分量的标准差
经过简单的推导就可以得到两个n维向量偿债来源a(x11,x12,…,x1n)与财富创造能力b(x21,x22,…,x2n)间的偏离度的公式:
如果将方差的倒数看成是一个权重,这个公式可以看成是一种加权偏离度。
Matlab计算第一种偏离度:
计算(0,0)、(1,0)、(0,2)两两间的偏离度 (假设两个分量的标准差分别为0.5和1)
X= [0 0 ; 1 0 ; 0 2]
D= pdist(X, 'seuclidean',[0.5,1])
结果:D= 2.0000 2.0000 2.8284
第二种偏离度算法思路:几何中夹角余弦可用来衡量两个向量方向的差异,利用这一概念来衡量样本向量之间的差异,即偏离度。
在二维空间中向量A(X1,Y1)与向量B(X2,Y2)的夹角余弦公式:
两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦,对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用类似于夹角余弦的概念来衡量偿债来源与财富创造能力间的偏离度。
即:
偏离度取值范围为[-1,1]。偏离度夹角余弦越大表示向量偿债来源与财富创造能力的夹角越小,偏离度夹角余弦越小表示向量偿债来源与财富创造能力的夹角越大。当偿债来源与财富创造能力的方向重合时夹角余弦取最大值1,当向量偿债来源与财富创造能力的方向完全相反夹角余弦取最小值-1。
Matlab计算第二种偏离度算法:
计算(1,0)、( 1,1.732)、(-1,0)两两间的偏离度。
X= [1 0 ; 1 1.732 ; -1 0]
D=1-pdist(X,'cosine')%
Matlab中的pdist(X,'cosine')得到的偏离度是1减夹角余弦的值
结果:D=0.5000 -1.0000 -0.5000
第三种偏离度算法:
偏离度是衡量偿债来源X与财富创造能力Y相关程度的一种方法,偏离度的取值范围是[-1,1]。偏离度的绝对值越大,则表明偿债来源X与财富创造能力Y相关度越高。当X与Y线性相关时,偏离度取值为1(正线性相关)或-1(负线性相关)。
偏离距离的定义:
Matlab计算(1, 2 ,3 ,4 )与( 3 ,8 ,7 ,6 )之间的偏离度与偏离距离
X = [1 2 3 4 ; 3 8 7 6]
C = corrcoef(X') %将返回偏离度矩阵
D = pdist(X, 'correlation')
结果:C=
1.0000 0.4781
0.4781 1.0000
D=0.5219, 其中0.4781就是偏离度,0.5219是偏离距离。
三种偏离度测算方法,需要与实际数据结合,经过反复多次测试,校正,验证,再校正的过程,得到最佳偏离度测算方案。有关算法校正和验证方法,日后讨论。
公用事业部
二〇一五年六月十九日