模型训练中的过拟合和欠拟合

基本概念

  我们知道,所谓的神经网络其实就是一个复杂的非线性函数,网络越深,这个函数就越复杂,相应的表达能力也就越强,神经网络的训练则是一个拟合的过程。
  当模型的复杂度小于真实数据的复杂度,模型表达能力不够,不足以表达真实数据,这种情况就叫欠拟合,其典型表现是即使是在训练集上依然达不到一个很好的水平,准确度和loss都比较差。欠拟合可以通过增加模型复杂度来改善。
  但是,当模型过于复杂时,拟合能力过强,这就会导致模型拟合了训练集中的一些噪声点,在测试集上的性能反而不强,这就造成了过拟合现象,因为我们希望模型学习到的应该是普适的规律,而不是训练集中的一些特殊情况。其典型表现是在训练集上的性能逐渐变强(损失还在下降),但是在测试集上的损失开始稳定上升。下图中的三种曲线分别代表了欠拟合、好的拟合和过拟合三种情况:
在这里插入图片描述

如何应对?

应对过拟合

  解决过拟合最好的方法就是获取更多的训练数据。只要给足够多的数据,让模型学习尽可能多的情况,它就会不断修正自己,从而获得更强的性能。但是在实验的过程中,获取有效的数据往往是非常困难的,或者说我们需要使用固定的数据集。那么就需要在模型结构和训练方式上下点功夫。

Dropout正则化层的使用

  Dropout正则化是一种广泛使用的技术,用于减少神经网络中的过拟合问题。这是一种随机丢弃神经元的方法,在模型的某层映射后添加dropout层,网络在经过该层映射时,每个神经元都有一定的概率被丢弃,这意味着在每个训练批次中,不同的神经元会被丢弃,从而使得网络更加健壮和通用,增加网络的鲁棒性。这样,网络不会过度依赖任何一个特定的神经元,从而减少过拟合的风险。
在这里插入图片描述

  pytorch中的dropout层:

output = torch.nn.functional.dropout(input, p=0.5, training=True, inplace=False)

  其中p值表示该层零化元素的概率,即每一次使多少随机的神经元失活,默认为0.5。p值的设置比较重要,设置太大可能会造成信息丢失,设置太小可能效果不明显,0.5是一个比较常用的值。

正则化(权值衰减)

  权值衰减是一直以来经常被使用的一种抑制过拟合的方法。该方法通过在学习过程中对大的权重进行惩罚,来抑制过拟合。因为很多过拟合原本就是因为权重参数取值过大才发生的。
  神经网络的习目的是减小损失函数的值。这时,例如为损失函数加上权值的平方范数(L2范数)。这样就可以抑制权重变大。L2范数的计算方式为: L 2 r e g u l a r i z a t i o n t e r m = ∣ ∣ w ∣ ∣ 2 2 = w 1 2 + w 2 2 + . . . + w n 2 L_2 regularization term = ||w||_2^2=w_1^2+w_2^2+...+w_n^2 L2regularizationterm=∣∣w22=w12+w22+...+wn2  在这个公式中,接近于 0 的权重对模型复杂度几乎没有影响,而离群值权重则可能会产生巨大的影响。我们可以使用python计算L2范数的值:

def loss(self, predict,label):weight_decay = 0# 计算所有权重的L2范数for idx in range(1, self.hidden_layer_num + 2):W = self.params['W' + str(idx)]weight_decay += 0.5 * self.weight_decay_lambda * np.sum(W ** 2)loss = loss_fun(predict,label) + weight_decay 

应对欠拟合

  欠拟合的主要表现是模型在训练集就无法得到一个很好的性能,也就是无法收敛,这代表模型没有能力捕获重要的特征,可以想象,这样的模型在测试集的变现更差。这种情况可以从数据集和模型两方面考虑,从数据集的角度来说,有可能是样本质量较低,数据本身就不包含足够的特征供网络学习,如果数据集本身是常用的,无法改变的。从模型的角度来说,可以尝试以下几种方法:

增加模型复杂度

  模型的复杂程度越高,就可以拟合出更复杂的函数,相应的学习能力也就越强,对于神经网络模型,可以增加隐藏层数或者每层的神经元个数,以增加模型的复杂度。

特征工程

  对数据特征进行处理,主要包括特征选择、特征提取、特征变换三种。特征选择是指选择对目标变量具有较大影响的特征,去除无关特征,减少噪声的干扰;特征提取是指从原始数据中提取更有用的特征,例如通过统计学方法、主成分分析等方法提取出更具代表性的特征;特征变换是指对原始特征进行变换,例如对数变换、归一化、标准化等,使得特征更符合模型的假设。

调整超参数

  bachsize、学习率等超参数也可能会带来一定影响,使用一个太大的batch size会因为降低了梯度下降的随机性,导致降低了网络的准确度。学习率对训练网络的容易程度以及准确度也会产生很大的影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/5808.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python中的进程线程和协程

目录 进程(Process)多进程代码实例 线程(Thread)多线程存在原因及其缺点多线程代码实例 协程(Coroutine)协程的优点协程代码实例 进程、线程和协程适合的任务性质和环境多进程更适合的场景多线程更适合的场…

在Android中,如何通过Kotlin协程处理多个API调用

在Android中,如何通过Kotlin协程处理多个API调用 在Android开发中,如何使用Kotlin协程处理多个API调用的示例呢?假设我们已经对Kotlin协程有了一定的了解,包括定义、简单用例和示例等。现在,让我们来看一些真实的Andr…

Tokitsukaze and Average of Substring

原题链接:登录—专业IT笔试面试备考平台_牛客网 目录 1. 题目描述 2. 思路分析 3. 代码实现 1. 题目描述 2. 思路分析 前缀和。 开一个int类型的前缀和数组pre[30][N](pre[i][j]表示某字符转成的数字 i 在一段区间的前缀个数。因为字母表有‘a’~z…

带你学C语言:结构体及其内存

目录 🍺0.前言 ✍1.结构体 👀1.1为何结构体 👀1.2结构体怎么声明 👀1.3结构体怎么创建 👀1.4结构体初始化与访问 ✋1.5匿名结构体问题 🙆1.6结构体的自我调用 🚝 2.结构体的内存对齐 &a…

【数据结构】时间复杂度和空间复杂度解析

数据结构前言: 1. 什么是数据结构 打个比方来说不同的数据就相当于不同的书籍,我们经常在图书馆可以看到不同类别的书籍会被整理放在书架上方便查看存放,数据结构就是一种计算机存储管理数据的方式。 2. 什么是算法 算法就是一系列的计算…

UDP和TCP(传输层)

这里写目录标题 UDPUDP的基本特点UDP协议报文格式 TCPTCP协议报文格式TCP特点可靠传输实现机制确认应答超时重传数据丢了应答报文丢了 小结 UDP UDP的基本特点 无连接不可靠传输面向数据报全双工 UDP协议报文格式 2个字节有效范围(无符号): 0 ~ 65535(2^16 - 1). 2个字节有效范…

安装 AngularJS

安装 AngularJS 文章目录 安装 AngularJS1. 使用在线 cdn2. 使用依赖管理工具 npm 1. 使用在线 cdn <!-- 1. 引入在线地址 --> <script src"http://code.angularjs.org/1.2.25/angular.min.js"></script><!-- 2. 下载到本地&#xff0c;引入文…

【Python】常用数据结构

1、熟悉字典和列表 2、使用条件判断语句 3、list列表中计算 1、从键盘输人一个正整数列表,以-1结束,分别计算列表中奇数和偶数的和。 &#xff08;1&#xff09;源代码&#xff1a; # 初始化奇数和偶数的和为0 odd_sum 0 even_sum 0 #输入 while True:num int(input(&qu…

ubuntu下安装配置python3.11

方案1 添加仓库&#xff1a; $ sudo add-apt-repository ppa:deadsnakes/ppa $ sudo apt update $ sudo apt install python3.11然后查看有多少个python版本已经安装了&#xff1a; ls -l /usr/bin/python*python2.7,python 3.8 ,python 3.11. 然后&#xff0c;设置系统默认…

智能车入门——‘教程引导’ <新手从零做车>

目录 前言 本系列文章是为了帮助第一次接触智能车或者学校没有传承&#xff0c;不知道如何上手做智能车的同学。 通过阅读完整个系列&#xff0c;你应该能够制作一辆正常参赛的智能车。 我写这一系列博客的初衷主要是为了方便新手快速入门智能车。 如果追求高级算法以及提速&a…

Q1季度家用健身器械行业线上市场销售数据分析

自疫情开始&#xff0c;全民健身的浪潮就持续至今。然而&#xff0c;水能载舟亦能覆舟&#xff0c;一边是不断释放的健身需求&#xff0c;另一边却是无数健身房的闭店潮。 越来越多人倾向于选择家用健身器械来运动或是直接选择无器械的健身运动&#xff0c;比如各类健身操。而…

AngularJS 的生命周期和基础语法

AngularJS 的生命周期和基础语法 文章目录 AngularJS 的生命周期和基础语法1. 使用步骤2. 生命周期钩子函数3. 点击事件4. if 语句1. if 形式2. if else 形式 5. for 语句6. switch 语句7. 双向数据绑定 1. 使用步骤 // 1. 要使用哪个钩子函数&#xff0c;就先引入 import { O…

Windows下载MingGW

因为要配置vscode的c/c环境&#xff0c;需要下载一个编译器&#xff0c;gcc官方推荐开源的MingGW-W64&#xff0c;看了几个下载方法&#xff0c;决定用最简单的离线安装。 niXman/mingw-builds-binaries/releases 32位的操作系统&#xff1a;i686&#xff0c;64位的操作系统&a…

linux的常见命令

&#x1f4dd;个人主页&#xff1a;五敷有你 &#x1f525;系列专栏&#xff1a;Linux ⛺️稳中求进&#xff0c;晒太阳 Linux中检查进程是否存在&#xff1a; ps -ef | grep [进程名或进程ID] pgrep -f [进程名|进程ID] pidof [进程名] Linux中检查某个端口是否被…

外包干了3天,技术就明显退步了。。。。。

先说一下自己的情况&#xff0c;本科生&#xff0c;19年通过校招进入广州某软件公司&#xff0c;干了接近4年的功能测试&#xff0c;今年年初&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试…

rabbitMq 0 到1

前言 工作中MQ的使用场景是数不胜数&#xff0c;每个公司的技术选型又不太一样&#xff0c;用的哪个MQ&#xff0c;我们必须要先玩起来&#xff0c;RabbitMQ在windows安装遇到很多问题&#xff0c;博客也是五花八门&#xff0c;算了还是自己搞吧&#xff0c;记录一下&#xff…

机器视觉系统-同轴光源大小选择技巧

同轴光源多用于检测光滑平面产品上的缺陷&#xff0c;同样利用上述的方法计算得出光源尺寸。 实际上&#xff0c;同轴光源可理解为没有孔的开孔面光&#xff0c;因此可等效为发光面相等的面光源&#xff0c;如下图&#xff1a; 如图所示&#xff0c;同轴光源的效果与开孔面光的…

karpathy make more -- 4

1 Introduction 这个部分要完成一个网络的模块化&#xff0c;然后实现一个新的网络结构。 2 使用torch的模块化功能 2.1 模块化 将输入的字符长度变成8&#xff0c;并将之前的代码模块化 # Near copy paste of the layers we have developed in Part 3# -----------------…

8. Django 表单与模型

8. 表单与模型 表单是搜集用户数据信息的各种表单元素的集合, 其作用是实现网页上的数据交互, 比如用户在网站输入数据信息, 然后提交到网站服务器端进行处理(如数据录入和用户登录注册等).网页表单是Web开发的一项基本功能, Django的表单功能由Form类实现, 主要分为两种: dj…

Odoo14修改登录界面,实现炫酷粒子效果

目录 原登录界面 最终效果 实现步骤 插件下载 原登录界面 最终效果 实现步骤 1 odoo创建插件web_login 2 在static目录下编写css和js文件 login.css代码 html, body {position:fixed;top:0px;left:0px;height:100%;width:100%;/*Fallback if gradeints dont work */b…