吴恩达《机器学习》学习笔记二——单变量线性回归

吴恩达《机器学习》学习笔记二——单变量线性回归

  • 一、 模型描述
  • 二、 代价函数
    • 1.代价函数和目标函数的引出
    • 2.代价函数的理解(单变量)
    • 3.代价函数的理解(两个参数)
  • 三、 梯度下降——求解最优参数
    • 1.梯度下降的步骤
    • 2.梯度下降的数学表达
  • 四、 用梯度下降法求解的线性回归

课程链接: https://www.bilibili.com/video/BV164411b7dx?from=search&seid=5329376196520099118

第二次笔记主要针对机器学习第一个模型——线性回归,首先给出模型的描述,理清楚各个变量都是什么含义;然后介绍代价函数以及目标函数,并详细生动地解释了参数优化的过程,也就是梯度下降方法。

一、 模型描述

首先回顾一下笔记一的房价预测模型,这是监督学习里回归问题最经典的例子,如下图所示。后面就会依据这个问题来进行线性回归模型的学习。
在这里插入图片描述
监督学习有一个带标注的数据集,为后面分析问题的方便,先定义一下几个变量,如下图所示。
在这里插入图片描述图中那个两列的表格即为房价预测数据集。数据集样本的数量用m表示,假如此处有47条数据样本,则m=47;第一列是数据的面积属性(输入变量),用x来表示;第二列是价格(输出变量),用y来表示。那么一个数据样本就可以用(x,y)来表示,第i个样本就可以用(x(i), y(i))来表示,需要注意的是,这里的上标不是指幂次,而是指代第i个样本,如x(1) = 2104,x(2) = 1416。。。。。。

下面看一下房价预测这个问题的解决思路,如下图所示。
在这里插入图片描述简单来说,就是将数据集送入学习算法进行训练,用训练好的模型对输入x(房屋面积)进行预测,得到预测的输出y(房价)。而这个被训练和用于预测的关键模型就被称为假设函数。在训练阶段需要利用数据集对假设函数的参数进行不断更新,在预测阶段假设函数就是做x到y的一个映射。

在房价预测这个问题中,我们选择的模型形式是单变量一次线性函数形式:
在这里插入图片描述也可以简写为h(x)。需要说明一下,房价预测的模型可以有很多种,除了这种一次线性模型以外,如二次、指数、对数等复杂模型都有可能适用这个问题。但是这里为了方便讲解求解目标函数的过程,选择了最简单的单变量一次线性函数来作为假设函数,便于解释原理

二、 代价函数

1.代价函数和目标函数的引出

用数据集对假设函数进行训练的过程,其实就是求模型参数θ_0和θ_1的值的过程,不同的值表示不同的假设函数,取何值可以最拟合数据集是模型优化的目标。
在这里插入图片描述在这里插入图片描述
我们可以这样理解,当假设函数与数据集最拟合的时候,就是所有数据样本到假设函数的距离平均值最小的时候。那么反之,所有数据样本到假设函数的距离平均值最小的时候,就是最拟合的时候,所以我们要求假设函数的参数,可以这样定义:
在这里插入图片描述
其中,求和符号后的部分是各样本点与假设函数的平方距离,求和之后取平均,然后求使得该表达式最小的θ_0,θ_1的值,即为最合适的假设函数。需要注意的是求平均时不是1/m,而是1/2m,主要是为了后续梯度下降法求最小值时求导方便,这点后面会提到。

在这里,令
在这里插入图片描述
并称其为代价函数(也称为平方误差函数),则目标函数可以简写为
在这里插入图片描述
总结一下:在这里插入图片描述

2.代价函数的理解(单变量)

首先为了简化理解,我们假设θ_0为0,即只包含θ_1一个变量,如下图所示。
在这里插入图片描述
下面我们来看一下假设函数h(x)与代价函数J(θ)之间的关系,三个数据样本为(1,1)、(2,2)、(3,3)。

(1)θ_1=1,h(x)正好经过三个数据样本,代价函数计算下来为0。
在这里插入图片描述
(2)θ_1=0.5
在这里插入图片描述
(3)θ_1=0
在这里插入图片描述
以此类推,通过改变θ_1的值,可以绘制出代价函数J(θ)的曲线,如下图。
在这里插入图片描述
可以观察到,当θ_1=1时,代价函数最小,此时假设函数也是最拟合数据集的,所以利用最小化平方误差函数(代价函数)来求假设函数的参数是正确的。但这是针对只有一个参数的情况,下面将对含有θ_0,θ_1两个参数的情况进行理解。

3.代价函数的理解(两个参数)

当考虑两个参数时,代价函数已经不能用二维坐标来绘制了,因为多了一个变量,所以可以用三维坐标绘制,如下图所示,有了单个参数的经验,这个也不难理解,当改变θ_0,θ_1两个参数的值时,代价函数J(θ_0,θ_1)也会随之改变。
在这里插入图片描述
在课中,因为三维坐标不便演示变化的过程,故引入了等高线图的概念,即将相同高度的J(θ_0,θ_1)画成一个椭圆,在同一椭圆上的J(θ_0,θ_1)值都相同,不同椭圆上的J(θ_0,θ_1)值都不同,仅为方便演示。而所有椭圆的中心就是J(θ_0,θ_1)值最小的地方
在这里插入图片描述
我们来看一些举例:图中红色的×代表对应的θ_0,θ_1取值及其相应的J(θ_0,θ_1),椭圆的中心为J(θ_0,θ_1)值最小的地方,两者的距离就是差的多少。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
综上,选择合适的参数,可以最好的拟合数据是问题的求解目标,而目前还停留在一组一组数据的尝试,这显然是不科学的,下面将介绍一种自动求解最优参数解的方法——梯度下降。

三、 梯度下降——求解最优参数

梯度下降是求解最优参数很常用的一种方法,不仅可以使用在线性回归中,后续很多模型的求解都可以使用

1.梯度下降的步骤

其大致的思路如下所示,代价函数J(θ_0,θ_1),目标是求其最小时的θ_0,θ_1参数值,首先给定θ_0,θ_1一组初始值(可以是任意的,比如都设为0),然后按照一定的规则去小小地改变θ_0,θ_1的值使得代价函数J(θ_0,θ_1)的值变小,直到其最小(很可能是局部最小,而不是全局最小),此时的θ_0,θ_1值就是待求的。显然,其中的关键,就是按照什么规则去改变参数值。
在这里插入图片描述
下面用可视化图来演示一下梯度下降的上述过程:
(1) 首先选择一个初始点
在这里插入图片描述(2) 然后每次朝下降最快的方向下降一小步,每次都独立地寻找下降方向。
在这里插入图片描述
需要注意的是,因为初始位置选择的不确定性,下降的路径可能完全不一样,如下图所示,是从另一个初始位置开始下降,最终下降到了不同的最优点。这两个最优点可能是全局最优点,可能是局部最优点,无法保证一定是全局最优。
在这里插入图片描述

2.梯度下降的数学表达

上面提到,梯度下降方法最关键的是按照什么规则改变参数值,也就是可视化图中朝着哪个方向下降一小步,它的数学表达式如下所示。
在这里插入图片描述
(1):=是赋值的意思,将计算后的值赋给θ_j。当不止一个参数需要更新的时候,注意要使用同步更新的方法,就是将每个参数的新值用旧值计算好后,一次性全部赋值,而错误的做法是,计算更新了一个参数,然后用更新的值去计算更新别的参数,这样就没有做到同步更新。
在这里插入图片描述(2)表达式中的α称为学习率,它决定了参数更新的大小,它越大,每次更新的变化就越大,反之则越小。如果学习率太小,可能导致梯度下降收敛速度很慢;如果学习率太大,可能导致无法收敛甚至是发散,如下图所示。
在这里插入图片描述
(3)偏导数项我们用单变量函数J(θ)来说明一下原理。
若J(θ)是一个如下图所示的函数,在红色点位置,J(θ)的导数为正数,θ将减去一个正数,即减小,从图中可见,θ减小正是朝着使得J(θ)减小的方向变化。
在这里插入图片描述
再考虑如下红色点位置,J(θ)的导数为负数,θ将减去一个负数,即增大,从图中可见,θ增大正是朝着使得J(θ)减小的方向变化。
在这里插入图片描述
推广到多参数的情况,虽然不方便可视化,但原理是一样的,减去这个偏导数项,就是朝着使得J(θ)减小的方向变化。

如果已经下降到局部最优点,那么导数将等于0,参数将不再更新。
在这里插入图片描述

四、 用梯度下降法求解的线性回归

主要就是将梯度下降法中的代价函数具体为线性回归的表达式。
在这里插入图片描述

在这里插入图片描述
求偏导。
在这里插入图片描述
所以梯度下降表达式可表示为如下
在这里插入图片描述
下面用可视化图来演示参数变化的过程,先给出初始位置。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
补充:梯度下降有时也称为Batch梯度下降,就是参数每次更新都用到了整个数据集的数据样本。相应的还有随机梯度下降,每次更新只用随机一个数据样本,mini-batch梯度下降,每次使用一部分数据样本进行更新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/491776.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吴恩达《机器学习》学习笔记三——多变量线性回归

吴恩达《机器学习》学习笔记三——多变量线性回归一、 多元线性回归问题介绍1.一些定义2.假设函数二、 多元梯度下降法1. 梯度下降法实用技巧:特征缩放2. 梯度下降法的学习率三、 特征选择与多项式回归四、 正规方程法1. 一些定义2. 正规方程解的公式3. 梯度下降法和…

五大核心构成的AIoT,正在遭遇三大挑战,两条突破口外还有什么?

来源:物联网智库随着IoT与AI逐步走向融合,AIoT正将以全新的方式改变人们的生活。一、新业务需求近年来,物联网呈现突飞猛进的发展态势。根据中商情报网的数据,2018年全球物联网设备已经达到70亿台;到2020年&#xff0c…

机器学习中防止过拟合的方法总结

来自机器学习成长之路公众号 在对模型进行训练时,有可能遇到训练数据不够,即训练数据无法对整个数据的分布进行估计的时候,或者在对模型进行过度训练(overtraining)时,常常会导致模型的过拟合(…

吴恩达《机器学习》学习笔记四——单变量线性回归(梯度下降法)代码

吴恩达《机器学习》学习笔记四——单变量线性回归(梯度下降法)代码一、问题介绍二、解决过程及代码讲解三、函数解释1. pandas.read_csv()函数2. DataFrame.head()函数3. Dataframe.insert()函数课程链接: https://www.bilibili.com/video/BV…

从IoT World 2019看全球IoT九大发展趋势

来源:全球物联网观察美国时间5月14日,IoT World2019在美国硅谷圣克拉拉会议中心举行,今年的主题是“工业与IOT的交互”,从大会主题演讲内容和现场产品展示来看,随着5G的商用和人工智能技术的大面积落地,IoT…

美国一箭投放60颗卫星 马斯克组互联网“星链”

来源:新华网美国太空探索公司当地时间23日晚在美国佛罗里达州一处空军基地发射火箭,将60颗小卫星送入近地轨道。这标志着企业家埃隆马斯克组建互联网卫星群的“星链”项目迈出实质性一步,抢在电子商务巨头亚马逊公司创始人杰夫贝索斯的“柯伊…

吴恩达《机器学习》学习笔记五——逻辑回归

吴恩达《机器学习》学习笔记五——逻辑回归一、 分类(classification)1.定义2.阈值二、 逻辑(logistic)回归假设函数1.假设的表达式2.假设表达式的意义3.决策界限三、 代价函数1.平方误差函数的问题2.logistic回归的代价函数四、梯…

协方差与相关系数

定义: 协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为: 如果两个变量的变化趋势一致,也就是说如果其中一…

吴恩达《机器学习》学习笔记六——过拟合与正则化

吴恩达《机器学习》学习笔记六——过拟合与正则化一、 过拟合问题1.线性回归过拟合问题2.逻辑回归过拟合问题3.过拟合的解决二、 正则化后的代价函数1.正则化思想2.实际使用的正则化三、 正则化的线性回归1.梯度下降的情况2.正规方程的情况四、 正则化的逻辑回归1.梯度下降的情…

5G时代,智能工厂迎来4大改变!

来源:亿欧网作为新一代移动通信技术,5G技术切合了传统制造企业智能制造转型对无线网络的应用需求,能满足工业环境下设备互联和远程交互应用需求。在物联网、工业自动化控制、物流追踪、工业AR、云化机器人等工业应用领域,5G技术起…

主成分分析PCA以及特征值和特征向量的意义

定义: 主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。PCA的思想是将n维特征映射到k维上…

吴恩达《机器学习》学习笔记七——逻辑回归(二分类)代码

吴恩达《机器学习》学习笔记七——逻辑回归(二分类)代码一、无正则项的逻辑回归1.问题描述2.导入模块3.准备数据4.假设函数5.代价函数6.梯度下降7.拟合参数8.用训练集预测和验证9.寻找决策边界二、正则化逻辑回归1.准备数据2.特征映射3.正则化代价函数4.…

从认知学到进化论,详述强化学习两大最新突破

来源:大数据文摘深层强化学习(deep RL)近年来在人工智能方面取得了令人瞩目的进步,在Atari游戏、围棋及无限制扑克等领域战胜了人类。通过将表征学习与奖励驱动行为相结合,深层强化学习又引发了心理学和神经科学领域的…

吴恩达《机器学习》学习笔记九——神经网络相关(1)

吴恩达《机器学习》学习笔记九——神经网络相关(1)一、 非线性假设的问题二、 神经网络相关知识1.神经网络的大致历史2.神经网络的表示3.前向传播:向量化表示三、 例子与直觉理解1.问题描述:异或XOR、同或XNOR2.单个神经元如何计算…

刚刚,科学家发现了一大堆解释人类进化的基因...

图片来源:《Nature Genetics》来源:中国生物技术网 5月27日发表在《Nature Genetics》上的一项新研究发现, 以前被认为在不同生物体中具有相似作用的数十种基因,实际上是人类独有的, 这或许有助于解释我们这个物种是如…

吴恩达《机器学习》学习笔记八——逻辑回归(多分类)代码

吴恩达《机器学习》笔记八——逻辑回归(多分类)代码导入模块及加载数据sigmoid函数与假设函数代价函数梯度下降一对多分类预测验证课程链接:https://www.bilibili.com/video/BV164411b7dx?fromsearch&seid5329376196520099118 之前笔记…

DeepMind 综述深度强化学习:智能体和人类相似度竟然如此高!

来源:AI科技评论近年来,深度强化学习(Deep reinforcement learning)方法在人工智能方面取得了瞩目的成就,从 Atari 游戏、到围棋、再到无限制扑克等领域,AI 的表现都大大超越了专业选手,这一进展…

吴恩达《机器学习》学习笔记十——神经网络相关(2)

吴恩达《机器学习》学习笔记十——神经网络相关(2)一、 代价函数二、 反向传播算法三、 理解反向传播算法四、 梯度检测五、 随机初始化1.全部初始化为0的问题2.随机初始化的思想六、 神经网络算法整体流程1.选择网络具体架构2.训练神经网络课程链接&…

吴恩达《机器学习》学习笔记十一——神经网络代码

吴恩达《机器学习》学习笔记十一——神经网络代码数据准备神经网络结构与代价函数初始化设置反向传播算法训练网络与验证课程链接:https://www.bilibili.com/video/BV164411b7dx?fromsearch&seid5329376196520099118 数据集链接:https://pan.baidu…

中国科研人员发明单晶体管逻辑结构新原理

▲随着晶体管不断缩小特征尺寸,集成电路的性能得以持续提升。然而在超小器件尺寸下,硅材料的物理极限导致了功耗的大幅提升,难以进一步持续减小晶体管的特征尺寸。来源:文汇网通过引入层状半导体,并依据其特性设计新型…