机器学习基石-作业三-第2题分析以及通过H证明EIN的讨论

题目：

这是机器学习基石作业三种的第二小题，额，在网上看了很多解答（解答也不多）感觉都没有说清楚为什么，所以励志清楚滴解决一下这个问题，经过努力，自认为得到了详细的解答，内容如下：

（一）解决选项（e）：

当t=1时：

$H=X(X^TX)^{-1}X^T$

当t>=2时，假设 H^t=H ,则有

$H^{t+1}=H^{t}X(X^TX)^{-1}X^T=X(X^TX)^{-1}[(X^TX)(X^TX)^{-1}]X^T=X(X^TX)^{-1}IX^T=X(X^TX)^{-1}X^T=H$
所以， $H^t=H (t\geq 1)$ ,即H为幂等矩阵，那么最终 $H^{1126}=H$ 就必然成立了。

所以选项（e）是正确的。

（二）解决选项（c）（d）：

设 $\lambda$ 为H的任意特征值（对应于某个非零向量 $\vec{a}$ ）,则 ${\lambda }^2$ 是 H^2 的特征值（对应于同一个非零向量 $\vec{a}$ ）

=> $\lambda ^2-\lambda$ 是 H^2-H 的特征值，又 H^2=H ，所以 $\lambda ^2-\lambda$ 是0矩阵的任意特征值；而0矩阵的特征值只能为0；

=> $\lambda ^2-\lambda$ =0；=> $\lambda =1$ 或 $\lambda =0$

又 trace(H)=trace( $X(X^TX)^{-1}X^T$ )=trace( $(X^TX)(X^TX)^{-1}$ ){原因trace(ABC)=trace(CAB)}

由题可知， X^TX 可逆，且 $X\in \mathbb{R}^{N\times (d+1)}$ ,所以trace(H)=trace( $I_{(d+1)\times (d+1)}$ )=d+1

而trace(H)等于所有特征值的和，其值为d+1，而特征值只能为0或1，所以必有d+1个特征值恰好是1；

综上（c）错误，（d）正确。

（三）解决选项（a）（b）：

$H^T=(X(X^TX)^{-1}X^T)^T=X[(X^TX)^{-1}]TX^T=X(X^TX)^{-1}X^T=H$

所以H是对称矩阵，且 $H\in \mathbb{R}^{N\times N}$ ,

因为实对称矩阵为半正定的充要条件是：A的特征值全部非负。所以由（二）可知H为半正定矩阵。（a正确）

而对于实对称矩阵其秩为非零特征值的个数，由（二）知为d+1；所以当N>(d+1)的时候，H必然是不可逆的。（b错误）

在解决了问题以后，我们就来看看林老师在课程中提出的通过H来证明线性回归的 $E_{in}=noise level\times(1-\frac{d+1}{N})$ .

最重要的就是先理解这幅图了。

首先，这是一个什么空间？这是一个以所有的样本对应的预测值为坐标轴的值空间。

假设样本为 $\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\}$ ，那么 $\vec{y}=[y_{1},y_{2},..y_{n}]^T$ 。span of X则是整个假设空间H的值空间：

span of X $= \{[h_{i}(x_{1}),h_{i}(x_{2}),...h_{i}(x_{n})]^T|h_{i}\in H\}$

同时再增加一些假设（个人认为需要加的）:noise的来源只是对于给定的 $\vec{x}$ 观察到了错误的y，而 $\vec{x}$ 本身不产生noise。

并且，对于每一个 $\vec{x}$ 的真实观测值必然包含于H，也就是我们的假设空间是可分的（定义来源于《西瓜书》）。这样

也就说明了f( $\vec{x}$ ) $\inH$ 必然包含于span of X。因为 $y-\hat{y}$ 垂直于span of X，所以 $y-\hat{y}$ 垂直于f(x),那么f(x)*(I-H)，也就是f(x)

向 $y-\hat{y}$ 投影的值为0。

这样，很自然的就有如下的公式：

$E_{in}(W_{LIN})=\frac{1}{N}\left \| y-\hat{y} \right \|^2=\frac{1}{N}\left \| (I-H)y\right \|^2=\frac{1}{N}\left \| (I-H)(f(x)+noise)\right \|^2=\frac{1}{N}\left \| (I-H)noise\right \|^2=\frac{1}{N}\left \| (I-H)\right \|^2\left \| noise \right \|^2$