深度学习中的正则化

 正则化方法有如下几种:

一、参数范数惩罚

 其中L2、L1参数正则化介绍与关系如下

1、L2 参数正则化

直观解释如下:

2、L1 参数正则化

 

二、获取更多数据(扩样本)

        避免过拟合的基本方法之一是从数据源获得更多数据,当训练数据有限时,可以通过数据增强(data augmentation)变换原有的数据生成新的数据来扩大训练集。即使拥有大量数据,进行数据增强也是有必要的,因为可以防止神经网络学习到不相干的模式,从根本上提升整体性能。还要注意在使用增强技术的同时,必须确保不增加无关(无意义)的数据。数据增强的主要方法,请移步:https://www.cnblogs.com/CJT-blog/p/10423213.html

 

三、噪声鲁棒性

将噪声加入到输入。在一般情况下,注入噪声远比简单地收缩参数强大,特别是噪声被添加到隐藏单元时会更加强大(如Dropout)。对于某些模型而言,向输入添加方差极小的噪声等价于对权重施加范数惩罚。

将噪声加入到权重。这项技术主要用于循环神经网络。权重上的噪声相当于鼓励参数进入权重小扰动对输出相对影响较小的参数空间区域。或者说,推动模型进入对权重小的变化相对不敏感的区域,找到的点不只是极小点,还是由平坦区域包围的极小点。

 

四、BN层

请移步:https://www.cnblogs.com/CJT-blog/p/10424058.html

 

五、限制训练时间、次数,及早停止(可以看作正则化方法一种)

数据集一般分为训练集、验证集和测试集。训练过程中,每隔一定step就会在验证集上测试一次,训练集和测试集上的Loss变化趋势如下图所示(图片来自Deep Learning)。 

从上图可以看出,训练到一定步数后,训练集上的损失还在下降, 但验证集上的损失已经不变(甚至增大)。这时,模型就有过拟合的风险,应提前终止模型训练。

 

六、参数绑定和参数共享
参数范数惩罚或约束是相对于固定区域或点,如 L2 正则化是对参数偏离0 固定值进行惩罚。但有时我们需要对模型参数之间的相关型进行惩罚,使模型参数尽量接近或者相等。

卷积神经网络
参数共享:强迫模型某些参数相等
主要应用:卷积神经网络(CNN)
优点:显著降低了CNN模型的参数数量(CNN模型参数数量经常是千万量级以上),减少模型所占用的内存,并且显著提高了网络大小而不需要相应的增加训练数据。

 

七、稀疏表示
稀疏表示也是卷积神经网络经常用到的正则化方法。 L1 正则化会诱导稀疏的参数,使得许多参数为0;而稀疏表示是惩罚神经网络的激活单元,稀疏化激活单元。换言之,稀疏表示是使得每个神经元的输入单元变得稀疏,很多输入是0。 

 

八、多种模型结合

其实bagging的方法是可以起到正则化的作用,因为正则化就是要减少泛化误差,而bagging的方法可以组合多个模型起到减少泛化误差的作用. 
在深度学习中同样可以使用此方法,但是其会增加计算和存储的成本.

 

九、Dropout策略

Dropout是一种非常有效的防止模型过拟合的技术,可以看作正则化方法一种,参考论文《ImageNet Classification with Deep Convolutional》。其基本原理是,在深度神经网络训练过程中,按照一定的概率随机丢弃(dropout)一些神经元的激活,提高模型的泛化能力,使模型更为鲁棒。下图给出Dropout的示意图:

Dropout在模型训练中非常有效,尤其是当数据量大时,效果会很好。但Dropout为什么会起作用呢?

  • 在每次训练过程中,Dropout强迫一个神经元和随机挑选出来的其他神经元共同工作,消弱减除了神经元节点之间的联合适应性,可以阻止某些特征的协同作用,使得模型不会太依赖某些局部特征,从而增强模型的鲁棒性。
  • 模型组合(ensemble):每次做完Dropout,相当于从整个网络中得到一个子网络。通过多个网络的组合,能够提高模型的泛化能力。而且,这些子网络权值共享,具有相同的网络层数,能够大大减小计算量(与直接把n个结构完全不同的网络组合相比)。需要注意的是,使用dropout后会使训练时间加长(收敛速度变慢),但是对测试阶段没有影响。
  • 使用dropout进行训练时,相当于做了data augmentation,因为总可以找到一个样本,使得在原始网络上也能达到dropout后的效果。同时,使用dropout后,相当于得到了更多的局部簇,同等数据下,簇变多了,使得区分性变大,同时稀疏性也变大。

 

十、半监督学习、多任务学习、对抗学习

 

 参考文献:

https://blog.csdn.net/u011239443/article/details/78152022

https://blog.csdn.net/red_stone1/article/details/80755144

转载于:https://www.cnblogs.com/CJT-blog/p/10424060.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/249590.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spring uml

spring执行流程: 1: 加载spring.xml文件 2: 创建xml文件解析器 3: 获取命名空间,即在spring.xml文件中的 http://www.springframework.org/schema/context 4: 根据命名空间找到命名空间处理器,在…

「造个轮子」——cicada(轻量级 WEB 框架)

前言 俗话说 「不要重复造轮子」,关于是否有必要不再本次讨论范围。 创建这个项目的主要目的还是提升自己,看看和知名类开源项目的差距以及学习优秀的开源方式。 好了,现在着重来谈谈 cicada 这个项目的核心功能。 我把他定义为一个快速、轻量…

基于owncloud构建私有云储存网盘

注意事项:需要ping通外网 需要LAMP架构yum -y install httpd php php-mysql mariadb-server mariadb sqlite php-dom php-mbstring php-gd php-pdo 开启服务[rootowncloud ~]# setenforce 0setenforce: SELinux is disabled[rootowncloud ~]# systemctl stop firewa…

Spring 源码分析之AbstractApplicationContext源码分析

首先我觉得分析ApplicationContext必须从它的实现类开始进行分析,AbstractApplicationContext我觉得是一个不错的选择,那我们就从这里开始逐一分析吧,首先我自己手画了一张图,作为索引吧,其中蓝色的为类,紫…

[USACO15FEB]Superbull (最小生成树)

题目链接 Solution 基本上就是个板子. 因为 \(n\) 很小,只有 \(2000\),所以直接暴力建图,然后跑最小生成树就好了. Code #include<bits/stdc.h> #define ll long long using namespace std; const int maxn2008; struct sj{int to,fr; ll w; }a[maxn*maxn]; int fa[maxn]…

Java中九大内置对象

1、Request对象 该对象封装了用户提交的信息&#xff0c;通过调用该对象相应的方法可以获取封装的信息&#xff0c;即使用该对象可以获取用户提交的信息。 当Request对象获取客户提交的汉字字符时&#xff0c;会出现乱码问题&#xff0c;必须进行特殊处理。首先&#xff0c;…

ORACLE导出导入意外终止导致 ORACLE initialization or shutdown in progress 问题解决

由于意外情况导致 ORACLE initialization or shutdown in progress 个人理解为主要是归档日志出现问题&#xff0c; 首先cmd 1.sqlplus /nolog 进入sqlplus 2.connect /as sysdba 连接dba 3.shutdown normal 卸载数据库 4.startup mount;重启例程 5.alter database open;开…

Spring中资源的加载ResourceLoader

Spring中资源的加载是定义在ResourceLoader接口中的&#xff0c;它跟前面提到的抽象资源的关系如下&#xff1a; ResourceLoader的源码 public interface ResourceLoader { /** Pseudo URL prefix for loading from the class path: "classpath:" */ String CLAS…

Codeforces Round #540 (Div. 3)(部分题解)

链接:http://codeforces.com/contest/1118 来源:Codeforces 文章目录A. Water BuyingB. Tanya and Candies(前缀和)D1. Coffee and Coursework (Easy version)(贪心)D2. Coffee and Coursework (Hard Version)(二分)A. Water Buying 题意:用最小的花费买到刚好合适的东西.我们可…

集合一些方法陷阱

一&#xff1a;asList 数组转ArrayList陷阱&#xff1a; asList() 源码&#xff1a;public static <T> List<T> asList(T... a) { return new ArrayList<T>(a); } private final E[] a; ArrayList(E[] array) { if (arraynull) throw new NullPointerExcept…

java项目中的classpath

在java项目中&#xff0c;你一定碰到过classpath&#xff0c;通常情况下&#xff0c;我们是用它来指定配置/资源文件的路径。在刚开始学习的时候&#xff0c;自己也糊里糊涂&#xff0c;但是现在&#xff0c;是时候弄清楚它到底是指什么了。 顾名思义&#xff0c;classpath就是…

C++命名空间(namespace)

在c中&#xff0c;名称&#xff08;name&#xff09;可以是符号常量、变量、函数、结构、枚举、类和对象等等。工程越大&#xff0c;名称互相冲突性的可能性越大。另外使用多个厂商的类库时&#xff0c;也可能导致名称冲突。为了避免&#xff0c;在大规模程序的设计中&#xff…

P1556 幸福的路

题意&#xff1a;平面内有N头牛$N\le 10$john从&#xff08;0,0&#xff09;出发&#xff0c;最后回到(0,0) 只有走到牛那里john才可以改变方向&#xff0c;否则沿着直线走 问john经过每一头牛并且在每一头牛出恰好改变方向一次的方案&#xff08;牛可以经过多次&#xff0c;但…

Class.getResource和ClassLoader.getResource

一案例驱动 二源码分析 三类加载器ClassLoader 四总结 五参考 一案例驱动 最近加载文件的时候遇到了一个问题&#xff0c;很有意思&#xff01; 具体看下面案例代码 public class TestClassLoader {public static void main(String[] args) {System.out.println(TestClassLoad…

spring-6、动态代理(cglib 与 JDK)

JDK动态代理与Cglib动态代理 JDK动态代理: 1.能够继承静态代理的全部优点.并且能够实现代码的复用.2.动态代理可以处理一类业务.只要满足条件 都可以通过代理对象进行处理.3.动态代理的灵活性不强.4.JDK 的动态代理要求代理者必须实现接口, , 否则不能生成代理对象. . 1 packag…

JDK安装与配置(Windows 7系统)

1.前言 安装之前需弄清JDK、JRE、JVM这几个概念&#xff0c;不然稀里糊涂不知道自己在装什么。 &#xff08;1&#xff09;什么是java环境&#xff1a;我们知道&#xff0c;想听音乐就要安装音乐播放器&#xff0c;想看图片需要安装图片浏览器&#xff0c;同样道理&#xff0c;…

UVA839

这道题又是一道递归的题目 先贴上代码 //这种没有明确说个数的动态分配还是得用new #include<cstdio> #include<iostream> using namespace std; struct mobile {int WL,DL,WR,DR;mobile *left,*right;mobile(mobile *aNULL,mobile*bNULL):left(a),right(b){} }; m…

Thread.getContextClassLoader与Thread.getClassLoader()区别

在阅读spring boot启动时候的源码中&#xff0c;发现获取classLoader使用的是getContextClassLoader于是乎产生了疑问&#xff0c;这种获取ClassLoader的方式与我们最常见的通过Class.getClassLoader二者有什么区别&#xff1f;都是在什么场景下使用呢&#xff1f; 首先来看看…

ssl 的jks 生成工具

https://www.myssl.cn/tools/merge-jks-cert.html 通过key 私钥 &#xff0c;和公钥pem 生成jks 转载于:https://www.cnblogs.com/vana/p/9594298.html

NOIP模拟赛10 题解

t3&#xff1a; 题意 给你一棵树&#xff0c;然后每次两种操作&#xff1a;1.给一个节点染色 &#xff1b; 2. 查询一个节点与任意已染色节点 lca 的权值的最大值 分析 考虑一个节点被染色后的影响&#xff1a;令它的所有祖先节点&#xff08;包括自身&#xff09;的所有除去更…