机器学习基石-作业三-第2题分析以及通过H证明EIN的讨论

题目:

 


 

这是机器学习基石作业三种的第二小题,额,在网上看了很多解答(解答也不多)感觉都没有说清楚为什么,所以励志清楚滴解决一下这个问题,经过努力,自认为得到了详细的解答,内容如下:

(一)解决选项(e):

当t=1时:

H=X(X^TX)^{-1}X^T

当t>=2时,假设H^t=H,则有 

H^{t+1}=H^{t}X(X^TX)^{-1}X^T=X(X^TX)^{-1}[(X^TX)(X^TX)^{-1}]X^T=X(X^TX)^{-1}IX^T=X(X^TX)^{-1}X^T=H
所以,H^t=H (t\geq 1),即H为幂等矩阵,那么最终H^{1126}=H就必然成立了。

所以选项(e)是正确的。

 

(二)解决选项(c)(d):

\lambda为H的任意特征值(对应于某个非零向量\vec{a}),则{\lambda }^2H^2的特征值(对应于同一个非零向量\vec{a}

=>\lambda ^2-\lambdaH^2-H的特征值,又H^2=H,所以\lambda ^2-\lambda是0矩阵的任意特征值;而0矩阵的特征值只能为0;

=>\lambda ^2-\lambda=0;=>\lambda =1\lambda =0

又 trace(H)=trace(X(X^TX)^{-1}X^T)=trace((X^TX)(X^TX)^{-1}){原因trace(ABC)=trace(CAB)}

由题可知,X^TX可逆,且X\in \mathbb{R}^{N\times (d+1)},所以trace(H)=trace(I_{(d+1)\times (d+1)})=d+1

而trace(H)等于所有特征值的和,其值为d+1,而特征值只能为0或1,所以必有d+1个特征值恰好是1;

综上(c)错误,(d)正确。

 

(三)解决选项(a)(b):

H^T=(X(X^TX)^{-1}X^T)^T=X[(X^TX)^{-1}]TX^T=X(X^TX)^{-1}X^T=H

所以H是对称矩阵,且H\in \mathbb{R}^{N\times N},

因为实对称矩阵为半正定的充要条件是:A的特征值全部非负。所以由(二)可知H为半正定矩阵。(a正确)

而对于实对称矩阵其秩为非零特征值的个数,由(二)知为d+1;所以当N>(d+1)的时候,H必然是不可逆的。(b错误)

 


在解决了问题以后,我们就来看看林老师在课程中提出的通过H来证明线性回归的E_{in}=noise level\times(1-\frac{d+1}{N}).

最重要的就是先理解这幅图了。

首先,这是一个什么空间? 这是一个以所有的样本对应的预测值为坐标轴的值空间。

假设样本为\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\},那么\vec{y}=[y_{1},y_{2},..y_{n}]^T。span of X则是整个假设空间H的值空间:

span of X= \{[h_{i}(x_{1}),h_{i}(x_{2}),...h_{i}(x_{n})]^T|h_{i}\in H\}

同时再增加一些假设(个人认为需要加的):noise的来源只是对于给定的\vec{x}观察到了错误的y,而\vec{x}本身不产生noise。

并且,对于每一个\vec{x}的真实观测值必然包含于H,也就是我们的假设空间是可分的(定义来源于《西瓜书》)。这样

也就说明了f(\vec{x})\inH必然包含于span of X。因为y-\hat{y}垂直于span of X,所以y-\hat{y}垂直于f(x),那么f(x)*(I-H),也就是f(x)

y-\hat{y}投影的值为0。

这样,很自然的就有如下的公式:

E_{in}(W_{LIN})=\frac{1}{N}\left \| y-\hat{y} \right \|^2=\frac{1}{N}\left \| (I-H)y\right \|^2=\frac{1}{N}\left \| (I-H)(f(x)+noise)\right \|^2=\frac{1}{N}\left \| (I-H)noise\right \|^2=\frac{1}{N}\left \| (I-H)\right \|^2\left \| noise \right \|^2

设noise level = \left \| noise \right \|^2

而前面的I-H则是一个矩阵,而\left \| {I-H} \right \|^2则是I-H的范数的平方,我们用F范数来刻画的话,则

\left \| {I-H} \right \|_{F}^{2}=tr((I-H)^T(I-H))=tr((I-H)(I-H))=tr(I-H)=N-(d+1)

所以E_{in}(W_{LIN})=noise level*\frac{1}{N}​​​​​​(N-(d+1))= {noise\ level}\times (1-{\frac{d+1}{N}})

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/569157.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx的平滑升级记录---适用于编译安装的Nginx

一、查看自己的Nginx的版本号 [rootlocalhost sbin]# cd /usr/local/nginx/sbin/ [rootlocalhost sbin]# ls nginx [rootlocalhost sbin]# ./nginx -V nginx version: nginx/1.15.0 built by gcc 4.8.5 20150623 (Red Hat 4.8.5-36) (GCC) configure arguments: 二、确定自己要…

机器学习基石-作业三-代码部分

梯度下降迭代和牛顿迭代,gradient_and_newton.py # -*- coding:utf-8 -*- # Author: Evan Mi import numpy as np""" 作业三中使用梯度下降和牛顿法进行迭代 """def update(u, v, eta):u_tem u - eta * (np.exp(u) v * np.exp(u*v…

设备树中#address-cells和#size-cells作用

device tree source Example1 / {#address-cells <0x1>; // 在 root node 下使用 1 個 u32 來代表 address。#size-cells <0x0>; // 在 root node 下使用 0 個 u32 來代表 size。......memory { // memory device... reg <0x90000000>; /…

[线段树][树上差分] Jzoj P3397 雨天的尾巴

Description 深绘里一直很讨厌雨天。灼热的天气穿透了前半个夏天&#xff0c;后来一场大雨和随之而来的洪水&#xff0c;浇灭了一切。虽然深绘里家乡的小村落对洪水有着顽固的抵抗力&#xff0c;但也倒了几座老房子&#xff0c;几棵老树被连根拔起&#xff0c;以及田地里的粮食…

02(c)多元无约束优化问题-牛顿法

此部分内容接《02(a)多元无约束优化问题》&#xff01; 第二类&#xff1a;牛顿法(Newton method) \[f({{\mathbf{x}}_{k}}\mathbf{\delta })\text{ }\approx \text{ }f({{\mathbf{x}}_{k}}){{\nabla }^{T}}f({{\mathbf{x}}_{k}})\cdot \mathbf{\delta }\frac{1}{2}{{\mathbf{\…

推荐系统浅浅的例子

对于推荐系统&#xff0c;有很多的很强大的算法。这里作为练习&#xff0c;只介绍基本的协同过滤算法&#xff08;userbased&#xff09;和FM&#xff08;通过梯度下降的角度&#xff0c;还可以通过交替优化的角度来看&#xff09;。 这里的例子是在七月算法的视频中看的&#…

TPL Dataflow .Net 数据流组件,了解一下?

回顾上文 作为单体程序&#xff0c;依赖的第三方服务虽不多&#xff0c;但是2C的程序还是有不少内容可讲&#xff1b; 作为一个常规互联网系统&#xff0c;无外乎就是接受请求、处理请求&#xff0c;输出响应。 由于业务渐渐增长&#xff0c;数据处理的过程会越来越复杂和冗长&…

推荐系统实例

协同过滤与隐语义模型 在机器学习问题中&#xff0c;我们见到的数据集通常是如下的格式&#xff1a; input target ... ... &#xff0c;一个输入向量的集合以及对应的数据集合,就是我们想要去预测的值。 对于…

【转】深入理解JavaScript闭包(closure)

文章来源&#xff1a;http://www.felixwoo.com/archives/247 最近在网上查阅了不少Javascript闭包(closure)相关的资料&#xff0c;写的大多是非常的学术和专业。对于初学者来说别说理解闭包了&#xff0c;就连文字叙述都很难看懂。撰写此文的目的就是用最通俗的文字揭开Java…

从头开始建立神经网络翻译及扩展

目录翻译从头开始建立神经网络-简介导包和配置生成一个数据集实现用来展示决策边界的辅助函数Logistic Regression训练一个神经网络我们的神经网络如何进行预测学习神经网络的参数实现神经网络训练一个隐层有3个神经元的神经网络验证隐层神经元个数对神经网络的影响练习练习题解…

对比 C++ 和 Python,谈谈指针与引用

花下猫语&#xff1a;本文是学习群内 樱雨楼 小姐姐的投稿。之前已发布过她的一篇作品《当谈论迭代器时&#xff0c;我谈些什么&#xff1f;》&#xff0c;大受好评。本文依然是对比 C 与 Python&#xff0c;来探讨编程语言中极其重要的概念。祝大家读有所获&#xff0c;学有所…

《吴恩达深度学习》第一课第四周任意层的神经网络实现及BUG处理

目录一、实现1、吴恩达提供的工具函数sigmoidsigmoid求导relurelu求导2、实现代码导包和配置初始化参数前向运算计算损失后向运算更新参数组装模型3、问题及思考一、实现 1、吴恩达提供的工具函数 这几个函数这里只是展示一下&#xff0c;这是吴恩达写好的工具类&#xff0c;…

inverted dropout示例

目录1、前向传播2、后向传播这里是完成的吴恩达的深度学习课程作业中的一个inverted dropout的作业题&#xff0c;是一种很流行的正则化方式。这里做一个记录,重点记录了如何实现前向和后向的inverted dropout&#xff0c;都是代码片段&#xff0c;无法运行&#xff1b;完整的代…

球形坐标和Cartesian 坐标的转换 spherical coordinate

spherical coordinate 和cartesian坐标的转换&#xff0c; 个人认为在控制camera的时候最为有用&#xff0c;比如CS中的操作方式&#xff0c; 鼠标负责方向的改变&#xff0c;其恰恰就是球形坐标的改变。而camera的位置改变就是cartesian的改变&#xff0c;所以这两者的转换就必…

深度学习优化算法实现(Momentum, Adam)

目录Momentum初始化更新参数Adam初始化更新参数除了常见的梯度下降法外&#xff0c;还有几种比较通用的优化算法&#xff1b;表现都优于梯度下降法。本文只记录完成吴恩达深度学习作业时遇到的Momentum和Adam算法&#xff0c;而且只有简要的代码。具体原理请看深度学习优化算法…

【HANA系列】SAP HANA Studio出现Fetching Children...问题

公众号&#xff1a;SAP Technical本文作者&#xff1a;matinal原文出处&#xff1a;http://www.cnblogs.com/SAPmatinal/ 原文链接&#xff1a;【ABAP系列】SAP HANA Studio出现"Fetching Children..."问题前言部分 大家可以关注我的公众号&#xff0c;公众号里的排版…

朴素Bayse新闻分类实践

目录1、信息增益&#xff08;互信息&#xff09;介绍&#xff08;1&#xff09;西瓜书中的信息增益[^1]&#xff08;2&#xff09;PRML中的互信息[^2]&#xff08;3&#xff09; 其实他们是一个东西2、朴素Bayse新闻分类[^3]&#xff08;1&#xff09;常量及辅助函数&#xff0…

R树空间索引及其变种

1、R树及其变种&#xff1a;百度百科 2、R树详介&#xff1a;http://blog.csdn.net/jazywoo123/article/details/7792745 3、R树及变种小结 R树&#xff1a;叶子节点或中间节点都可能有交集。衡量指标有查询性能和更新性能&#xff0c;更新通过删除和插入实现。R树&#xff1a;…

Kaggle-泰坦尼克号

目录前言和感谢正题前言和感谢 机器学习本人还是一个新手&#xff0c;现在处在练习阶段。在网上找到了很多免费的比较老旧kaggle比赛讲解的python代码&#xff0c;在这里自己亲在体验并跟着过了一遍。在运行的过程中加入了自己的一些改动并且修改了一些存在的BUG&#xff0c;同…

hdu 六度分离 floyd

题目链接&#xff1a;http://acm.hdu.edu.cn/showproblem.php?pid1869 题意分析&#xff1a;比较简单的最短路算法&#xff0c;最后只需判断最远两点距离是否大于7即可。 /*六度分离Time Limit: 5000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Tot…