题目:
这是机器学习基石作业三种的第二小题,额,在网上看了很多解答(解答也不多)感觉都没有说清楚为什么,所以励志清楚滴解决一下这个问题,经过努力,自认为得到了详细的解答,内容如下:
(一)解决选项(e):
当t=1时:
当t>=2时,假设,则有
所以,,即H为幂等矩阵,那么最终就必然成立了。
所以选项(e)是正确的。
(二)解决选项(c)(d):
设为H的任意特征值(对应于某个非零向量),则是的特征值(对应于同一个非零向量)
=>是的特征值,又,所以是0矩阵的任意特征值;而0矩阵的特征值只能为0;
=>=0;=>或
又 trace(H)=trace()=trace(){原因trace(ABC)=trace(CAB)}
由题可知,可逆,且,所以trace(H)=trace()=d+1
而trace(H)等于所有特征值的和,其值为d+1,而特征值只能为0或1,所以必有d+1个特征值恰好是1;
综上(c)错误,(d)正确。
(三)解决选项(a)(b):
所以H是对称矩阵,且,
因为实对称矩阵为半正定的充要条件是:A的特征值全部非负。所以由(二)可知H为半正定矩阵。(a正确)
而对于实对称矩阵其秩为非零特征值的个数,由(二)知为d+1;所以当N>(d+1)的时候,H必然是不可逆的。(b错误)
在解决了问题以后,我们就来看看林老师在课程中提出的通过H来证明线性回归的.
最重要的就是先理解这幅图了。
首先,这是一个什么空间? 这是一个以所有的样本对应的预测值为坐标轴的值空间。
假设样本为,那么。span of X则是整个假设空间H的值空间:
span of X
同时再增加一些假设(个人认为需要加的):noise的来源只是对于给定的观察到了错误的y,而本身不产生noise。
并且,对于每一个的真实观测值必然包含于H,也就是我们的假设空间是可分的(定义来源于《西瓜书》)。这样
也就说明了f()必然包含于span of X。因为垂直于span of X,所以垂直于f(x),那么f(x)*(I-H),也就是f(x)
向投影的值为0。
这样,很自然的就有如下的公式:
设noise level =
而前面的I-H则是一个矩阵,而则是I-H的范数的平方,我们用F范数来刻画的话,则
所以noise level*(N-(d+1))=