机器学习基石-作业三-第2题分析以及通过H证明EIN的讨论

题目:

 


 

这是机器学习基石作业三种的第二小题,额,在网上看了很多解答(解答也不多)感觉都没有说清楚为什么,所以励志清楚滴解决一下这个问题,经过努力,自认为得到了详细的解答,内容如下:

(一)解决选项(e):

当t=1时:

H=X(X^TX)^{-1}X^T

当t>=2时,假设H^t=H,则有 

H^{t+1}=H^{t}X(X^TX)^{-1}X^T=X(X^TX)^{-1}[(X^TX)(X^TX)^{-1}]X^T=X(X^TX)^{-1}IX^T=X(X^TX)^{-1}X^T=H
所以,H^t=H (t\geq 1),即H为幂等矩阵,那么最终H^{1126}=H就必然成立了。

所以选项(e)是正确的。

 

(二)解决选项(c)(d):

\lambda为H的任意特征值(对应于某个非零向量\vec{a}),则{\lambda }^2H^2的特征值(对应于同一个非零向量\vec{a}

=>\lambda ^2-\lambdaH^2-H的特征值,又H^2=H,所以\lambda ^2-\lambda是0矩阵的任意特征值;而0矩阵的特征值只能为0;

=>\lambda ^2-\lambda=0;=>\lambda =1\lambda =0

又 trace(H)=trace(X(X^TX)^{-1}X^T)=trace((X^TX)(X^TX)^{-1}){原因trace(ABC)=trace(CAB)}

由题可知,X^TX可逆,且X\in \mathbb{R}^{N\times (d+1)},所以trace(H)=trace(I_{(d+1)\times (d+1)})=d+1

而trace(H)等于所有特征值的和,其值为d+1,而特征值只能为0或1,所以必有d+1个特征值恰好是1;

综上(c)错误,(d)正确。

 

(三)解决选项(a)(b):

H^T=(X(X^TX)^{-1}X^T)^T=X[(X^TX)^{-1}]TX^T=X(X^TX)^{-1}X^T=H

所以H是对称矩阵,且H\in \mathbb{R}^{N\times N},

因为实对称矩阵为半正定的充要条件是:A的特征值全部非负。所以由(二)可知H为半正定矩阵。(a正确)

而对于实对称矩阵其秩为非零特征值的个数,由(二)知为d+1;所以当N>(d+1)的时候,H必然是不可逆的。(b错误)

 


在解决了问题以后,我们就来看看林老师在课程中提出的通过H来证明线性回归的E_{in}=noise level\times(1-\frac{d+1}{N}).

最重要的就是先理解这幅图了。

首先,这是一个什么空间? 这是一个以所有的样本对应的预测值为坐标轴的值空间。

假设样本为\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\},那么\vec{y}=[y_{1},y_{2},..y_{n}]^T。span of X则是整个假设空间H的值空间:

span of X= \{[h_{i}(x_{1}),h_{i}(x_{2}),...h_{i}(x_{n})]^T|h_{i}\in H\}

同时再增加一些假设(个人认为需要加的):noise的来源只是对于给定的\vec{x}观察到了错误的y,而\vec{x}本身不产生noise。

并且,对于每一个\vec{x}的真实观测值必然包含于H,也就是我们的假设空间是可分的(定义来源于《西瓜书》)。这样

也就说明了f(\vec{x})\inH必然包含于span of X。因为y-\hat{y}垂直于span of X,所以y-\hat{y}垂直于f(x),那么f(x)*(I-H),也就是f(x)

y-\hat{y}投影的值为0。

这样,很自然的就有如下的公式:

E_{in}(W_{LIN})=\frac{1}{N}\left \| y-\hat{y} \right \|^2=\frac{1}{N}\left \| (I-H)y\right \|^2=\frac{1}{N}\left \| (I-H)(f(x)+noise)\right \|^2=\frac{1}{N}\left \| (I-H)noise\right \|^2=\frac{1}{N}\left \| (I-H)\right \|^2\left \| noise \right \|^2

设noise level = \left \| noise \right \|^2

而前面的I-H则是一个矩阵,而\left \| {I-H} \right \|^2则是I-H的范数的平方,我们用F范数来刻画的话,则

\left \| {I-H} \right \|_{F}^{2}=tr((I-H)^T(I-H))=tr((I-H)(I-H))=tr(I-H)=N-(d+1)

所以E_{in}(W_{LIN})=noise level*\frac{1}{N}​​​​​​(N-(d+1))= {noise\ level}\times (1-{\frac{d+1}{N}})

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/569157.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx的平滑升级记录---适用于编译安装的Nginx

一、查看自己的Nginx的版本号 [rootlocalhost sbin]# cd /usr/local/nginx/sbin/ [rootlocalhost sbin]# ls nginx [rootlocalhost sbin]# ./nginx -V nginx version: nginx/1.15.0 built by gcc 4.8.5 20150623 (Red Hat 4.8.5-36) (GCC) configure arguments: 二、确定自己要…

02(c)多元无约束优化问题-牛顿法

此部分内容接《02(a)多元无约束优化问题》! 第二类:牛顿法(Newton method) \[f({{\mathbf{x}}_{k}}\mathbf{\delta })\text{ }\approx \text{ }f({{\mathbf{x}}_{k}}){{\nabla }^{T}}f({{\mathbf{x}}_{k}})\cdot \mathbf{\delta }\frac{1}{2}{{\mathbf{\…

推荐系统浅浅的例子

对于推荐系统,有很多的很强大的算法。这里作为练习,只介绍基本的协同过滤算法(userbased)和FM(通过梯度下降的角度,还可以通过交替优化的角度来看)。 这里的例子是在七月算法的视频中看的&#…

TPL Dataflow .Net 数据流组件,了解一下?

回顾上文 作为单体程序,依赖的第三方服务虽不多,但是2C的程序还是有不少内容可讲; 作为一个常规互联网系统,无外乎就是接受请求、处理请求,输出响应。 由于业务渐渐增长,数据处理的过程会越来越复杂和冗长&…

推荐系统实例

协同过滤与隐语义模型 在机器学习问题中,我们见到的数据集通常是如下的格式: input target ... ... ,一个输入向量的集合以及对应的数据集合,就是我们想要去预测的值。 对于…

【转】深入理解JavaScript闭包(closure)

文章来源:http://www.felixwoo.com/archives/247 最近在网上查阅了不少Javascript闭包(closure)相关的资料,写的大多是非常的学术和专业。对于初学者来说别说理解闭包了,就连文字叙述都很难看懂。撰写此文的目的就是用最通俗的文字揭开Java…

从头开始建立神经网络翻译及扩展

目录翻译从头开始建立神经网络-简介导包和配置生成一个数据集实现用来展示决策边界的辅助函数Logistic Regression训练一个神经网络我们的神经网络如何进行预测学习神经网络的参数实现神经网络训练一个隐层有3个神经元的神经网络验证隐层神经元个数对神经网络的影响练习练习题解…

对比 C++ 和 Python,谈谈指针与引用

花下猫语:本文是学习群内 樱雨楼 小姐姐的投稿。之前已发布过她的一篇作品《当谈论迭代器时,我谈些什么?》,大受好评。本文依然是对比 C 与 Python,来探讨编程语言中极其重要的概念。祝大家读有所获,学有所…

《吴恩达深度学习》第一课第四周任意层的神经网络实现及BUG处理

目录一、实现1、吴恩达提供的工具函数sigmoidsigmoid求导relurelu求导2、实现代码导包和配置初始化参数前向运算计算损失后向运算更新参数组装模型3、问题及思考一、实现 1、吴恩达提供的工具函数 这几个函数这里只是展示一下,这是吴恩达写好的工具类,…

球形坐标和Cartesian 坐标的转换 spherical coordinate

spherical coordinate 和cartesian坐标的转换, 个人认为在控制camera的时候最为有用,比如CS中的操作方式, 鼠标负责方向的改变,其恰恰就是球形坐标的改变。而camera的位置改变就是cartesian的改变,所以这两者的转换就必…

【HANA系列】SAP HANA Studio出现Fetching Children...问题

公众号:SAP Technical本文作者:matinal原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:【ABAP系列】SAP HANA Studio出现"Fetching Children..."问题前言部分 大家可以关注我的公众号,公众号里的排版…

朴素Bayse新闻分类实践

目录1、信息增益(互信息)介绍(1)西瓜书中的信息增益[^1](2)PRML中的互信息[^2](3) 其实他们是一个东西2、朴素Bayse新闻分类[^3](1)常量及辅助函数&#xff0…

【数据仓库】OLTP系统和OLAP系统区别

OLTP:联机事务处理系统(OnLine Transaction Processing) OLAP:联机分析处理系统(OnLine Analytical Processing) 参考文档: 操作数据库系统(OLTP)和联机分析处理系统(OLAP)的区别转载于:https://www.cnblogs.com/badboy200800/p/11189478.htm…

Good Numbers(HDU5447+唯一分解)

题目链接 传送门 题面 题意 首先定义对于\(k\)的好数\(u\):如果\(u\leq k\)且\(u\)的所有质因子与\(k\)的质因子一样则称\(u\)对于\(k\)是一个好数。 现给你两个数\(k1,k2(1\leq k1,k2\leq 10^{24})\),要你求\(k1,k2\)的好数个数,对于\(k1,k2…

从机器码到面向对象

1.从机器码到面向对象 本章节主要探讨是什么驱动着编程从机器码发展到了汇编语言,又从汇编语言发展到了面向过程编程,最后从面向过程编程发展到面向对象编程。通过这些探讨最终明确多年来的软件工程发展我们都解决了哪些棘手的问题。 1.1机器码 在真正…

spfa_队列

spfa:1.当给定的图存在负权边时,Dijkstra等算法便没有了用武之地,而Bellman-Ford算法的复杂度又过高,SPFA算法便派上用场了.2.我们约定有向加权图G不存在负权回路,即最短路径一定存在3.思路:用数组d记录每个结点的最短…

Tomcat配置解析

Tomcat文件配置 tomcat解压后目录 bin:可执行文件(startup.bat shutdown.bat) conf:配置文件(server.xml) lib:tomcat依赖的jar文件 log:日志文件(记录出错等信息) temp&…

教你配置安全的ProFTPD服务器(中)

二、 基本加固ProFTPD服务器步骤 1.升级版本 注:如果当前版本已经是最新版本,可以跳过第一步。 升级陈旧的ProFTPD版本,因为早期的ProFTPD版本存在的安全漏洞。对于一个新配置的ProFTPD服务器来说使用最新稳定版本是最明智的选择,…

Java 将Word转为PDF、PNG、SVG、RTF、XPS、TXT、XML

同一文档在不同的编译或阅读环境中,需要使用特定的文档格式来打开,通常需要通过转换文档格式的方式来实现。下面将介绍在Java程序中如何来转换Word文档为其他几种常见文档格式,如PDF、图片png、svg、xps、rtf、txt、xml等。 使用工具&#xf…

CentOS7上GitLab的使用

生成SSH Keys 生成root账号的ssh key # ssh-keygen -t rsa -C "adminexample.com" 显示pub key的值 # cat ~/.ssh/id_rsa.pub 复制显示出来的 pub key 以root账号登陆gitlab,点击 "profile settings" 然后点击 "SSH Keys" 将复制的pu…