吴恩达《机器学习》学习笔记六——过拟合与正则化

吴恩达《机器学习》学习笔记六——过拟合与正则化

  • 一、 过拟合问题
    • 1.线性回归过拟合问题
    • 2.逻辑回归过拟合问题
    • 3.过拟合的解决
  • 二、 正则化后的代价函数
    • 1.正则化思想
    • 2.实际使用的正则化
  • 三、 正则化的线性回归
    • 1.梯度下降的情况
    • 2.正规方程的情况
  • 四、 正则化的逻辑回归
    • 1.梯度下降的情况
    • 2.高级优化算法的情况

课程链接:https://www.bilibili.com/video/BV164411b7dx?from=search&seid=5329376196520099118

上一个笔记介绍了第二个机器学习算法——逻辑回归,主要用于解决分类问题,应用非常广泛。这一次我们学习一下过拟合和正则化的概念,并将正则化技术运用到已学的线性回归和逻辑回归模型上,来减小过拟合的问题。

一、 过拟合问题

在学习正则化的概念之前先看一下过拟合的问题。线性回归和逻辑回归在实际应用时,都可能因为假设函数选择的原因或是数据集的原因导致过拟合。

1.线性回归过拟合问题

在这里插入图片描述
对于房价预测问题,我们之前是使用左边这个图的假设函数去拟合数据,可以看出,不论怎么优化参数,直线也无法很好的拟合所有数据,这时就被称为是欠拟合的情况,存在高偏差,这是因为假设函数过于简单,无法拟合较为复杂的数据。

再看中间的图,在原来的假设函数上加上了一个平方项,优化后的结果则很好的拟合了数据集,此时是最佳状态。

最后看右边的图,假设函数包含了一些较高次幂的项,使得假设函数过于复杂,虽然能拟合已有的所有数据,但是很显然这个曲线有波动,房子的面积越大甚至价格出现了越低的情况,这显然是不对的,而且若此时添加进来一些新的数据,很可能就不能很好的拟合,这样的问题被称为过拟合,存在高方差,假设函数过于复杂,过度学习了已有数据的特征,它的定义如下所示:
在这里插入图片描述
这里可能涉及到训练误差和泛化误差的概念,训练误差是指训练数据集在假设函数上产生的误差,泛化误差是指模型训练好之后,给定新的数据在假设函数上产生的误差,用以估计模型应用到到新样本的能力。那么欠拟合的情况,训练和泛化误差都高,而过拟合的情况,训练误差很低,泛化误差则很高。

2.逻辑回归过拟合问题

参考线性回归的例子,下面逻辑回归的三种情况分别为欠拟合、拟合良好和过拟合的情况。
在这里插入图片描述

3.过拟合的解决

产生过拟合的原因较多,其中很常见的一个是数据样本的数量比特征的数量还要少。所以有如下两种常见的解决过拟合的办法:
在这里插入图片描述
一个是在数据集有限的情况下,减少特征的数量来减少过拟合问题,可以人工手动选择减少哪些特征,也可以使用一些算法来衡量减少哪些特征。这种方法的缺点就是需要丢弃一些特征,这就有可能丢弃了一些信息。

二是如果不希望丢弃信息或者是不知道如何选择特征,想保留所有特征时,可以使用正则化方法,正则化方法利用正则化项来减小相关参数的大小,减轻它对预测的贡献,相应的就减轻了过拟合问题。

二、 正则化后的代价函数

1.正则化思想

首先来看一个线性回归的例子:
在这里插入图片描述
左边是良好拟合,右边是过拟合。要解决过拟合的问题,我们希望θ_3,θ_4两个参数非常小,当它们很小的时候,对预测结果的贡献就非常小,甚至可以忽略,从而解决过拟合问题。所以我们在原来的代价函数上进行了修改,变成如下所示:
在这里插入图片描述
因为这是一个最小化的式子,加上有关θ_3,θ_4的两项,因为其系数较大,所以这两个参数在最小化表达式的过程中必须变得较小,才能使得总体很小,所以这样可以达到使得θ_3,θ_4很小接近于0的目的,从而减轻过拟合。那么这两项就可以被称为正则化项。

还是使用原来过拟合的假设函数,当代价函数加上正则化项之后优化,结果就会从下面的蓝色曲线变成紫红色曲线,从而与良好拟合的情况接近,算是达到了解决过拟合的问题:
在这里插入图片描述
正则化思想可以简单归结如下:使参数值非常小,从而几乎消除它的贡献,使得假设函数更简单,这样就更不可能过拟合。
在这里插入图片描述

2.实际使用的正则化

但是在大多数问题中,你不能像刚刚那样看出哪些参数应该被惩罚,哪些应该保留,尤其是参数量非常多的时候,如下所示:
在这里插入图片描述
所以索性将所有的参数都减小,这样使得所有的参数都不会很大,也就使得假设函数不会过于复杂,达到解决过拟合的效果

而在实际应用中,也基本都是使用将所有参数都加到代价函数中去的方法,如下所示,使用前后的变化,就是蓝色曲线变成了紫红色曲线:
在这里插入图片描述
其中的λ被称为正则化系数,它是平衡假设函数的关键。如果它被设置的太大的话,如下所示:
在这里插入图片描述
会使得所有的参数都接近于0,那么假设函数接近于是一个常数函数,过于简单,变成了欠拟合的情况。所以为了正则化的效果,需要合理地选择正则化参数的大小,过大会使得模型过于简单,过小又达不到解决过拟合的要求。

三、 正则化的线性回归

根据上面对正则化的介绍,线性回归加上正则化之后的代价函数如下所示:
在这里插入图片描述

1.梯度下降的情况

相应的,它对应的梯度下降表达式如下图所示:
在这里插入图片描述
因为正则化的惩罚项中不包含θ_0,所以它的更新与原来不加正则化时一样。

2.正规方程的情况

正规方程的方法是将代价函数的导数设置为0,从而求出的表达式,也就将变成如下所示:
在这里插入图片描述

四、 正则化的逻辑回归

逻辑回归加上正则化之后的代价函数如下图所示:
在这里插入图片描述

1.梯度下降的情况

对代价函数求导后更新参数,发现形式与线性回归几乎一模一样,但是需要注意的是,假设函数h(x)的表达式是完全不同的,所以和线性回归的梯度下降表达式内容也是完全不同的
在这里插入图片描述

2.高级优化算法的情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/491764.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5G时代,智能工厂迎来4大改变!

来源:亿欧网作为新一代移动通信技术,5G技术切合了传统制造企业智能制造转型对无线网络的应用需求,能满足工业环境下设备互联和远程交互应用需求。在物联网、工业自动化控制、物流追踪、工业AR、云化机器人等工业应用领域,5G技术起…

主成分分析PCA以及特征值和特征向量的意义

定义: 主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。PCA的思想是将n维特征映射到k维上…

吴恩达《机器学习》学习笔记七——逻辑回归(二分类)代码

吴恩达《机器学习》学习笔记七——逻辑回归(二分类)代码一、无正则项的逻辑回归1.问题描述2.导入模块3.准备数据4.假设函数5.代价函数6.梯度下降7.拟合参数8.用训练集预测和验证9.寻找决策边界二、正则化逻辑回归1.准备数据2.特征映射3.正则化代价函数4.…

从认知学到进化论,详述强化学习两大最新突破

来源:大数据文摘深层强化学习(deep RL)近年来在人工智能方面取得了令人瞩目的进步,在Atari游戏、围棋及无限制扑克等领域战胜了人类。通过将表征学习与奖励驱动行为相结合,深层强化学习又引发了心理学和神经科学领域的…

吴恩达《机器学习》学习笔记九——神经网络相关(1)

吴恩达《机器学习》学习笔记九——神经网络相关(1)一、 非线性假设的问题二、 神经网络相关知识1.神经网络的大致历史2.神经网络的表示3.前向传播:向量化表示三、 例子与直觉理解1.问题描述:异或XOR、同或XNOR2.单个神经元如何计算…

刚刚,科学家发现了一大堆解释人类进化的基因...

图片来源:《Nature Genetics》来源:中国生物技术网 5月27日发表在《Nature Genetics》上的一项新研究发现, 以前被认为在不同生物体中具有相似作用的数十种基因,实际上是人类独有的, 这或许有助于解释我们这个物种是如…

吴恩达《机器学习》学习笔记八——逻辑回归(多分类)代码

吴恩达《机器学习》笔记八——逻辑回归(多分类)代码导入模块及加载数据sigmoid函数与假设函数代价函数梯度下降一对多分类预测验证课程链接:https://www.bilibili.com/video/BV164411b7dx?fromsearch&seid5329376196520099118 之前笔记…

DeepMind 综述深度强化学习:智能体和人类相似度竟然如此高!

来源:AI科技评论近年来,深度强化学习(Deep reinforcement learning)方法在人工智能方面取得了瞩目的成就,从 Atari 游戏、到围棋、再到无限制扑克等领域,AI 的表现都大大超越了专业选手,这一进展…

吴恩达《机器学习》学习笔记十——神经网络相关(2)

吴恩达《机器学习》学习笔记十——神经网络相关(2)一、 代价函数二、 反向传播算法三、 理解反向传播算法四、 梯度检测五、 随机初始化1.全部初始化为0的问题2.随机初始化的思想六、 神经网络算法整体流程1.选择网络具体架构2.训练神经网络课程链接&…

吴恩达《机器学习》学习笔记十一——神经网络代码

吴恩达《机器学习》学习笔记十一——神经网络代码数据准备神经网络结构与代价函数初始化设置反向传播算法训练网络与验证课程链接:https://www.bilibili.com/video/BV164411b7dx?fromsearch&seid5329376196520099118 数据集链接:https://pan.baidu…

中国科研人员发明单晶体管逻辑结构新原理

▲随着晶体管不断缩小特征尺寸,集成电路的性能得以持续提升。然而在超小器件尺寸下,硅材料的物理极限导致了功耗的大幅提升,难以进一步持续减小晶体管的特征尺寸。来源:文汇网通过引入层状半导体,并依据其特性设计新型…

Java 内存模型

1、并发模型编程的分类 在并发模型编程中,我们需要解决两个关键问题:线程之间如何通信以及线程之间如何同步。线程之间的通信包括两种:共享内存和消息传递。 Java并发采用的是共享内存模型。 2、Java内存模型的抽象 Java内存模型的主要目标是…

PyTorch框架学习一——PyTorch的安装(CPU版本)

PyTorch框架学习一——PyTorch的安装(CPU版本)PyTorch简介PyTorch的安装(CPU版)机器学习/深度学习领域的学习都是需要理论和实践相结合的,而它们的实践都需要借助于一个框架来实现,PyTorch在学术界目前处于…

你的大脑在自动驾驶,而你一无所知

来源:果壳想象一下,你的大脑里有着两个小人,它们在不停地打架,试图夺取控制你行动的权力。当然,这两个小人并不是你善意和邪恶的念头。那它们是什么?在很多人看来,这两者就是我们的意识和无意识…

常用的损失函数

来自 机器学习成长之路公众号 本文将常用的损失函数分为了两大类:分类和回归。然后又分别对这两类进行了细分和讲解,其中回归中包含了一种不太常见的损失函数:平均偏差误差,可以用来确定模型中存在正偏差还是负偏差。 从学习任务…

吴恩达《机器学习》学习笔记十一——应用机器学习的建议

吴恩达《机器学习》学习笔记十一——应用机器学习的建议一、训练完模型后下一步要做什么二、评估算法与模型选择1.训练集与测试集2.训练/测试步骤3.模型选择4.数据集新的划分——验证集的加入三、偏差与方差1.偏差与方差的理解2.正则化和偏差方差的关系3.学习曲线四、决定接下来…

为什么说深耕AI领域绕不开知识图谱?

来源:AI科技大本营“所有在 AI 领域深耕的人,最终都会发现语义鸿沟仍是一个非常具有挑战性的问题,这最终还需要借助知识图谱等技术,来帮助将整体的 AI 认知取得新进展。”在 5 月 26 日的 CTA 峰会机器学习专场,Hulu 首…

机器学习中的相似性度量总结

来自 机器学习算法那些事公众号 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 目录 1. 欧氏距离 …

吴恩达《机器学习》学习笔记十二——机器学习系统

吴恩达《机器学习》学习笔记十二——机器学习系统一、设计机器学习系统的思想1.快速实现绘制学习曲线——寻找重点优化的方向2.误差分析3.数值估计二、偏斜类问题(类别不均衡)三、查准率P与召回率R——代替准确率的评估指标四、查准率与召回率的权衡——…

增强现实:一场正在到来的医疗革命

来源: 资本实验室图像化可以让医生的诊断、决策和治疗更加准确,可以说是医疗史上非常重要的一项技术突破。近几年,通讯技术的发展推动了空间计算的快速商业化。在医疗领域,增强现实(AR)、虚拟现实&#xff…