吴恩达斯坦福大学机器学习 CS229 课程学习笔记(二)

终于要开始正式的学习了。看了第一节课最大的印象是Ng老师的优雅,儒雅,偏英式的发音(突然意识到他从小在伦敦长大)。配着字幕看的视频,但还是希望能锻炼一下自己的听力,也只有在自己看过一遍印象才深刻,别人的读书笔记再好那也是二手资料。公共课是300人的大课程,感觉和国内的上课氛围也差不多,也是三人一个小组完成project,只不过Ng最后给了一些自己学生的作品确实很具有吸引力。恭维一个西电的图像说斯坦福课程和他们差不多,没想到同学还开始喘了,说西电可是中国斯坦福。

这节课就要用到大量的线性代数的知识linear algebra。

Ng首先展示了一个视频,利用监督学习实现汽车的自动驾驶,作者把他的算法称之为神经网络,其核心算法就是梯度下降法。称作监督是因为有司机为它展示了如何行驶在正确的道路上,屏幕上分别显示了司机选择的方向和机器的输出,在短短两分钟的学习之后,机器输出就近似了司机的方向,切换到自动驾驶,汽车Alvin就可以自己行驶了。要知道这比Ng的公开课还要早15年,即1992年,天哪,在我还没出生的时候就已经有人在实验汽车的自动驾驶了。这也是一个回归问题,已知当前的传感器捕捉的路况和对应的司机的正确驾驶的操作,在出现新的路况时机器自主选择驾驶路线。

这样我们可以得到一个假设h,当再输入其他特征值时就可以输出预测值。线性回归时,h就是一个线性函数如h=b+ax1,当特征不仅仅是房屋面积时,可能还有卧室数目,h=b+ax1+cx2.

我们的目标是使这个函数最小化。求最小值的问题有多种不同的算法。第一种是搜索算法。

给参数向量初始化为0,之后改变参数向量使J减小。一个方法就是Gradient Descent梯度下降法。在一个三维的坐标系中,J函数的值代表高度,随机选择一组参数初始值,对应的J值就就可以想象成所在在山坡高度,目的就好比是找到一条高度下降最快的路线,即最陡的路线,那就可以在当前点求梯度,达到小一点的时候继续求梯度方向,迭代直至找到最优解。当换取另外一个初始值时,找到的最佳路径可能不同,说明找到的都是局部最优解。

在梯度下降的过程中,我们需要时刻更新参数值

偏导前面的系数 称作learningrate,表示了每次迭代时的步长。事实上,J函数是二次函数,它是一个碗状的二次曲面,可以看到它只有一个最小值。J函数的等高线的投影则是椭圆形,下降最快的路径就是通过等高线最密的路径。收敛时梯度变为0,得到的就是最小二乘拟合。

上面的式子针对了一个样本,当有许多样本时还需要加上求和符号。所以说这种算法叫Batch Gradient Descent,每次迭代需要遍历整个训练样本。所以在训练样本很大时,考虑采用Stactastic Gradient descent随机梯度下降法,也叫增量梯度下降法,incrementalgradient descent。每次更新只利用一组样本,即把一组样本看成多个单个的样本进行计算。这样调整参数的速度会快很多。对海量训练数据,随机梯度下降会快很多,但不会精确收敛到全局最小值。从等高线看,这种算法不是直接收敛到最小值,而是徘徊到最小值附近。

用矩阵计算会更加简洁,先看几个定理:

具体推导过程可以看:https://blog.csdn.net/xiaocainiaodeboke/article/details/50371986

求解出解析表达式就不需要迭代求解了,正规方程直接得到最优解,而且正规方程不需要选择学习速率,但是正规方程只适用于线性模型,像逻辑回归就不适用了。且特征数量大于10000时运算量过大。

以上结果其实也可以通过线性代数直接解出:


$Y = X * \theta $
$\begin{array}{l}
{X^T}Y = {X^T}X * \theta \\
{({X^T}X)^{ - 1}}{X^T}Y = {({X^T}X)^{ - 1}}({X^T}X) * \theta
\end{array}$

在这个例子中,各项特征是4x4的,但是假设函数有一个偏置项,所以矩阵X有一列全1

统计学和机器学习中,设计矩阵是一组观测结果中的所有解释变量的值构成的矩阵,常用X表示。设计矩阵常用于一些统计模型,如一般线性模型,方差分析中。

正规方程的解涉及X’X的求逆,在公开课就有人问会不会遇到不可逆的情况,其实确实会遇到X’X是奇异矩阵的情况,原因可能是两个特征值成比例,或者训练样本比参数少很多。前一种情况可以删除一种特征,后一种可以删除多余的特征或者正则化方法。实在不行还可以求伪逆。

参考:https://blog.csdn.net/u012790625/article/details/76906315

得知面对多维特征的时候,将特征值归一化成相近的尺度有利于加快收敛。比如房屋预测问题中,面积范围在0~2000平方英尺,而卧室数目在1~5,归一化后,等高线更近似为一个圆而不是椭圆,收敛更快。(为什么???)

关于迭代次数,当下降幅度小于一个阈值如 时就可以认为已经收敛了

关于学习率,太小的话容易迭代次数过多收敛过慢,太大的话容易找不到最小值

在选取学习率的时候,我们通常都需要设置多个学习率进行测试,学习率之间的倍数通常是3倍和10倍,通过测试,我们就可以找到最好的那一个学习率

学习线性回归的原因不仅仅是因为它是最简单的拟合方法,当我们用高次函数去拟合训练数据时,就是多项式回归,多项式回归其实也可以用线性回归来表示,方法就是把非一次项用变量代换。具体是使用多少项,用几次项,就需要我们对训练数据有深刻的认识了。

Reference:

1.https://blog.csdn.net/u012790625/article/details/76906315

2.https://blog.csdn.net/xiaocainiaodeboke/article/details/50371986






本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493750.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

当自动驾驶汽车撞过来的时候,你希望它如何判断?

来源:网易智能 摘要:据报道,当无人驾驶汽车在繁忙的街道上发生碰撞的时候,它该优先避免让谁受伤呢?它该杀死谁,而不杀死谁呢?麻省理工学院的一项研究表明,你的回答将取决于你来自哪里…

细数黑客攻击的七大战术

不计其数的黑客们游荡在因特网中来欺骗那些容易上当的用户。它们多年使用着重复的攻击手段,毫无创新地利用着我们懒惰、误判和一些犯二的行为。 不过每年,恶意软件研究人员总会遇到一些引人侧目的攻击手段。这些攻击手段在不断拓展恶意攻击的范围。新的攻…

人工智能黑暗面

来源:大数据文摘编译:DonFJ、蒋宝尚机器学习是现在大家都打了鸡血想用或者在用的技术。但是,你以为只有好人能用它吗?Too young too simple!接下来,我将揭秘AI技术黑暗的一面——犯罪份子和人工智能的孽缘。…

认识蚁群算法

好像是看罗胖的罗辑思维,看到过一种说法,越是准入门槛高的,难以取代的行业,所需的工具是越简单的。摄影师需要昂贵的镜头,而画家却只需要简单的纸笔,尽管照片比画逼真得多,但是却无法取代绘画的…

薛定谔的猫跳进了生物学界,化学家表示:没有我可能办不到

来源:原理摘要:在生物科学界流传着“物理学家累了就来生物界玩一玩”的调侃。确实,现今学科之间密不可分,生物学的发展对特定物理技术的需求也越大。但是这样化学家却不满意了?1943年,物理学家薛定谔在都柏…

图像配准之特征点匹配的思考

最近赶时髦,看了一些智能优化算法如蚁群算法,还有机器学习的一些东西,就想着怎么把这些先进的东西用在图像配准中。头脑风暴了一下,觉得在已经检测到两幅图像的特征点的基础上,就如何对它们进行匹配似乎有优化的空间。…

指针%p输出的一些认识

还是看源码发现的问题 static int import_lowe_features( char*filename, struct feature** features ) 这个函数的作用是将txt文件中的Lowe的特征点导入到feature结构体中。在这个函数中第二个参数是指向结构体的指针的指针。 f calloc( n, sizeof(struct feature) );//在内存…

全球智慧医疗产业发展现状

来源:无锡情报所摘要:全球智慧医疗市场主要集中在美国、欧洲、日本和中国,而产品生产主要集中在美国、欧洲和日本。 随着大数据、云计算、物联网和人工智能技术快速发展和普及,运用互联网应用平台提升医疗资源的使用效率、提高救治和服务水平…

2018AI和机器学习界的12个重大收购案

来源:网络大数据据IDC声称,到2018年,全球人工智能(AI)和认知系统支出将达到190亿美元,这比2017年的支出总额增加约54%。并购在不断发生。仅2017年就见证了几起大宗收购,比如雅虎被Verizon收购、苹果收购Shazam等。知名…

PCA对特征点描述子降维

降维在机器学习领域其实是很重要的一部分,因为在高维情形下回出现样本稀疏,计算距离、内积困难,是所有机器学习面临的共同问题,被称为维数灾难(Curse of dimensionality),而降维就是解决的一个办…

C语言基础知识整理

一、 关于sizeof和strlen。Sizeof()用于计算某类型或者某变量在内存中所占空间。比如整数分为short型,int型,long整型,分别占2,2/4,4个字节,int型具体占用几个字节和编译系统有关。我们输入字符串时通常用c…

【2017-2019】Gartner战略技术趋势一览

来源:学术plus 、装备参考近期,Gartner公布了2019年十大战略技术趋势的预测,值此之际,本文总结回顾并简要分析了2017-2019三年的战略趋势变化。Gartner副总裁兼研究员David Cearley指出:在智能、数字、网格三大领域下的…

目标检测必看——RCNN是怎样融合了分类与回归,CNN与SVM

人和动物的区别之一是人能使用工具,而在人开始使用磨制石器时人类进入新石器时代。在目标检测领域,也有一个划时代的算法,在它之后目标检测开始进入深度学习的时代——它就是今天的主角:R-CNN。在RCNN之后,出现了更多优…

《自然》杂志:面对“电车难题”,不同国家的人有不同的道德选择

来源:36Kr电车难题原本只是一个思想实验。但是无人车的发展却绕不开这个问题。因为机器在无论如何都会撞死人的情况下必须靠预先植入的道德代码做出判断:该牺牲谁,该保谁。但是一项有全球230万人参与的调查表明:这个问题并不存在普…

Mac OS X Terminal 101:终端使用初级教程

文章目录1 为什么要使用命令行/如何开启命令行?2 初识Command Line3 关于 man 命令4 命令行,文件和路径 4.1 两种路径:绝对路径和相对路径4.2 切换到其他路径和目录4.3 处理特殊字符4.4 查看隐藏文件4.5 前往其他卷5 用Command-Line管理文件 …

Fast R-CNN整体把握

RCNN很好地解决了目标检测分类和定位的问题。但是缺点是速度太慢。 原因1:2k个候选区域都要经过变形成统一的正方形才能依次输入CNN进行特征提取。候选区域可能是互相包含的,这就导致原图同一个区域特征的重复提取。 原因2:RCNN的分类和回归…

2万字看完腾讯最纯粹的一届WE大会:从黑洞、虫洞到克隆猴

来源:虎嗅APP腾讯还有梦想,因为腾讯还有WE大会。5年来,腾讯从全世界邀请了几十位难得一见的科学家不远万里来到北京展览馆,比如去年邀请的剑桥大学教授、著名宇宙学家霍金(视频演讲),不想成为绝…

Fater R-CNN 整体把握

在R-CNN中提到过,候选区域的提取和之后的目标检测其实是独立的,所以我们可以使用任意的算法如SS。Fast-RCNN改进的是目标检测部分,但是其实候选区域的提取也挺费时的,Faster R-CNN就把改进方向放在了这里。 我们已经领略到了CNN的…

马斯克,特斯拉首席小白鼠

来源:量子位伊隆马斯克,比你想的还要激进。作为特斯拉CEO,马斯克经常一边自己坐在Model S上,一边召开电话会议。车辆的驾驶交给Autopilot,也就是那个时不时会出次意外的自动驾驶系统。他这么做不仅仅是想节约时间&…

windows下caffe+CPUOnly实现MNIST手写分类

工具下载 微软官方移植的Caffe&#xff1a;https://github.com/Microsoft/caffe 对属性表的操作需要把实例属性表的后缀改成vs可用的.props 打开同一个文件夹下的Caffe.sln&#xff0c;查看其中的属性表<CpuOnlyBuild>true</CpuOnlyBuild><UseCuDNN>false<…