解读Batch Normalization

【活动】Python创意编程活动开始啦!!!     CSDN日报20170424 ——《技术方向的选择》    程序员4月书讯:Angular来了!

解读Batch Normalization

5262人阅读 评论(1) 收藏 举报
本文章已收录于:
分类:
作者同类文章X

    目录(?)[+]

    1. 目录
      1. 1-Motivation
      2. 2-Normalization via Mini-Batch Statistics
        1. 测试
        2. BN before or after Activation
      3. 3-Experiments

    目录

      • 目录
        • 1-Motivation
        • 2-Normalization via Mini-Batch Statistics
          • 测试
          • BN before or after Activation
        • 3-Experiments

    本次所讲的内容为Batch Normalization,简称BN,来源于《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》,是一篇很好的paper。

    1-Motivation

    作者认为:网络训练过程中参数不断改变导致后续每一层输入的分布也发生变化,而学习的过程又要使每一层适应输入的分布,因此我们不得不降低学习率、小心地初始化。作者将分布发生变化称之为 internal covariate shift

    大家应该都知道,我们一般在训练网络的时会将输入减去均值,还有些人甚至会对输入做白化等操作,目的是为了加快训练。为什么减均值、白化可以加快训练呢,这里做一个简单地说明:

    首先,图像数据是高度相关的,假设其分布如下图a所示(简化为2维)。由于初始化的时候,我们的参数一般都是0均值的,因此开始的拟合y=Wx+b,基本过原点附近,如图b红色虚线。因此,网络需要经过多次学习才能逐步达到如紫色实线的拟合,即收敛的比较慢。如果我们对输入数据先作减均值操作,如图c,显然可以加快学习。更进一步的,我们对数据再进行去相关操作,使得数据更加容易区分,这样又会加快训练,如图d。
    这里写图片描述

    白化的方式有好几种,常用的有PCA白化:即对数据进行PCA操作之后,在进行方差归一化。这样数据基本满足0均值、单位方差、弱相关性。作者首先考虑,对每一层数据都使用白化操作,但分析认为这是不可取的。因为白化需要计算协方差矩阵、求逆等操作,计算量很大,此外,反向传播时,白化操作不一定可导。于是,作者采用下面的Normalization方法。

    2-Normalization via Mini-Batch Statistics

    数据归一化方法很简单,就是要让数据具有0均值和单位方差,如下式:
    这里写图片描述
    但是作者又说如果简单的这么干,会降低层的表达能力。比如下图,在使用sigmoid激活函数的时候,如果把数据限制到0均值单位方差,那么相当于只使用了激活函数中近似线性的部分,这显然会降低模型表达能力。
    这里写图片描述

    为此,作者又为BN增加了2个参数,用来保持模型的表达能力。
    于是最后的输出为:
    这里写图片描述
    上述公式中用到了均值E和方差Var,需要注意的是理想情况下E和Var应该是针对整个数据集的,但显然这是不现实的。因此,作者做了简化,用一个Batch的均值和方差作为对整个数据集均值和方差的估计。
    整个BN的算法如下:
    这里写图片描述
    求导的过程也非常简单,有兴趣地可以自己再推导一遍或者直接参见原文。

    测试

    实际测试网络的时候,我们依然会应用下面的式子:
    这里写图片描述
    特别注意: 这里的均值和方差已经不是针对某一个Batch了,而是针对整个数据集而言。因此,在训练过程中除了正常的前向传播和反向求导之外,我们还要记录每一个Batch的均值和方差,以便训练完成之后按照下式计算整体的均值和方差:
    这里写图片描述

    BN before or after Activation

    作者在文章中说应该把BN放在激活函数之前,这是因为Wx+b具有更加一致和非稀疏的分布。但是也有人做实验表明放在激活函数后面效果更好。这是实验链接,里面有很多有意思的对比实验:https://github.com/ducha-aiki/caffenet-benchmark

    3-Experiments

    作者在文章中也做了很多实验对比,我这里就简单说明2个。
    下图a说明,BN可以加速训练。图b和c则分别展示了训练过程中输入数据分布的变化情况。
    这里写图片描述

    下表是一个实验结果的对比,需要注意的是在使用BN的过程中,作者发现Sigmoid激活函数比Relu效果要好。
    这里写图片描述

    6
    0

    我的同类文章

    http://blog.csdn.net
    • CNN不能识别Negative图像2017-04-10
    • 深度模型一些新的运行框架或者辅助库工具等2016-11-04
    • 深度学习——PReLU激活2016-05-08
    • GoogLeNet系列解读2016-02-25
    • 多尺度竞争卷积2016-01-12
    • 思考深度学习的泛化能力2017-02-20
    • 深度学习——MSRA初始化2016-05-08
    • 深度学习——Xavier初始化方法2016-05-07
    • 系列解读Dropout2016-01-25
    • mxnet学习记录【1】2015-12-01

    参考知识库

    img

    软件测试知识库

    img

    算法与数据结构知识库

    更多资料请参考:
    猜你在找
    使用决策树算法对测试数据进行分类实战
    使用决策树算法对测试数据进行分类实战
    《C语言/C++学习指南》加密解密篇(安全相关算法)
    数据结构与算法在实战项目中的应用
    C语言系列之 字符串相关算法
    深入浅出深度学习中的Batch Normalization使用
    Batch Normalization 学习
    Batch Normalization导读
    Batch Normalization 神经网络加速算法
    Batch Normalization导读
    关闭
    查看评论
    1楼 meadl 2016-11-23 18:20发表 [回复] [引用] [举报]
    博主 具体到一个batch,假设为20,要对每个map在激活前使用BN,我要对y=wx+b的中的y求和,然后除以20 ,这样就是这个神经元的均值吗?那么方差是多少了?难道把输入的20张map看成一个数来求方差吗?比如2*1的向量方差是2*2的呀
    发表评论
    • 用 户 名:
    • jqw11
    • 评论内容:
    • 插入代码
      HTML/XMLobjective-cDelphiRubyPHPC#C++JavaScriptVisual BasicPythonJavaCSSSQL其它
    •   
    * 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    快速回复 TOP
    核心技术类目
    全部主题HadoopAWS移动游戏JavaAndroidiOSSwift智能硬件DockerOpenStackVPNSparkERPIE10EclipseCRMJavaScript数据库UbuntuNFCWAPjQueryBIHTML5SpringApache.NETAPIHTMLSDKIISFedoraXMLLBSUnitySplashtopUMLcomponentsWindows MobileRailsQEMUKDECassandraCloudStackFTCcoremailOPhone CouchBase云计算iOS6Rackspace Web AppSpringSideMaemoCompuware大数据aptechPerlTornadoRubyHibernateThinkPHPHBasePureSolrAngularCloud FoundryRedisScalaDjangoBootstrap

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510307.shtml

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    Caffe学习系列(1):安装配置ubuntu14.04+cuda7.5+caffe+cudnn

    Caffe学习系列(1):安装配置ubuntu14.04cuda7.5caffecudnn 一、版本 linux系统:Ubuntu 14.04 (64位) 显卡:Nvidia K20c cuda: cuda_7.5.18_linux.run cudnn: cudnn-7.0-linux-x64-v4.0-rc 二、下载 Ubuntu 14.04下载地址…

    将数据集做成VOC2007格式用于Faster-RCNN训练

    [置顶] 将数据集做成VOC2007格式用于Faster-RCNN训练 2016-02-23 15:35 29068人阅读 评论(336) 收藏 举报 本文章已收录于: 分类: Deep Learning(7) 作者同类文章X版权声明:本文为博主原创文章,未经博主…

    快速排序的实现--代码

    #include<stdio.h>int a[10000]; void QickSort(int a[],int l,int r) {int temp;int il,jr;if(l<r){tempa[l];//存val的值while(i!j){while(j>i&&a[j]>temp) --j;// 从右往左找出该数比val值小的数if(i<j){a[i]a[j];//放在val的左 边i;//i右移动}wh…

    SSD框架训练自己的数据集

    SSD框架训练自己的数据集 SSD demo中详细介绍了如何在VOC数据集上使用SSD进行物体检测的训练和验证。本文介绍如何使用SSD实现对自己数据集的训练和验证过程&#xff0c;内容包括&#xff1a; 1 数据集的标注2 数据集的转换3 使用SSD如何训练4 使用SSD如何测试1 数据集的标注 …

    归并排序的实现-代码

    #include<stdio.h> void merge_sort(int *a,int *b,int x,int y) { if(y-x>1) { int mx(y-x)/2;//中间点的坐标 int px,qm,ix; merge_sort(a,b,x,m); merge_sort(a,b,m,y); while(p<m||q<y) { if(q>y||(p<m&&a[p]<a[q])) b[i]…

    SSD+caffe︱Single Shot MultiBox Detector 目标检测+fine-tuning(二)

    承接上一篇SSD介绍&#xff1a;SSDcaffe︱Single Shot MultiBox Detector 目标检测&#xff08;一&#xff09; 如果自己要训练SSD模型呢&#xff0c;关键的就是LMDB格式生成&#xff0c;从官方教程weiliu89/caffe来看&#xff0c;寥寥几行code&#xff0c;但是前面的数据整理…

    把图片存成视频 python

    tips: 1.保存的图片大小一定要一样 2.图像做好是标准的视频格式大小 3.图片要和视频size一样大小 代码如下 # -*- coding:utf8 -*- import os import cv2 import numpy as np import cv2.cv as cv path /home/m/mycode/cv filelist os.listdir(path) total_num len(f…

    sdut 双向队列(STL)

    deque<ll>q;//定义一个双向队列q&#xff0c;类型为long long q.push_front(a);//将a从队首插入队列 q.push_back(a);//将a从队尾插入队列 q.pop_front();//队首弹掉一个元素 q.pop_back();//队尾弹出一个元素 aq.front();//返回队首元素 aq.back();//返回队尾元素 aq.si…

    给文件重命名

    # -*- coding:utf8 -*-import osclass BatchRename():批量重命名文件夹中的图片文件def __init__(self):self.path home/l/imagedef rename(self):filelist os.listdir(self.path)total_num len(filelist)i 0for item in filelist:if item.endswith(.jpg):src os.path.joi…

    pip install scikit-image on windows 失败 解决方案

    到官网下载包 http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-image 我们下载 scikit_image‑0.13.0‑cp35‑cp35m‑win_amd64.whl 也可到我的CNDS下载 安装时会出现一下错误 scikit_image-0.13.0-cp34-none-win_amd64.whl is not a supported wheel on this platform…

    sdut 数据结构实验之排序三:bucket sort

    一开始这种做法超时&#xff1a; #include<stdio.h>int b[5000000],a[5000000],n,ans; void merge_sort(int *a,int *b,int x,int y) {if(y-x>1){int mx(y-x)/2;//中间点的坐标int px,qm,ix;merge_sort(a,b,x,m);merge_sort(a,b,m,y);while(p<m||q<y){if(q>…

    Caffe训练源码基本流程

    苏的专栏 致力于学习计算机视觉、模式识别、机器学习、深度学习相关技术&#xff1a;&#xff1a;&#xff1a;&#xff1a;希望结识更多同道中人。 QQ&#xff1a;2816568984 微信&#xff1a;Suc1011 目录视图 摘要视图 订阅 【活动】2017 CSDN博客专栏评选 【评论送书】…

    fatal error: GL/glew.h: 没有那个文件或目录

    搜索libglew的版本 #apt-cache search glew libglew-dbg - OpenGL Extension Wrangler (debugging symbols) libglew-dev - OpenGL Extension Wrangler - development environment libglew1.13 - OpenGL Extension Wrangler - runtime environment libglewmx-dbg - OpenGL E…

    运行cudasift

    文件中有cmakelist.txt 运行命令 cmake . 就会生成makefile type: make 出现错误&#xff1a; /usr/bin/ld: 找不到 -lopencv_dep_cudart 在cmake 时候用一下指令&#xff1a; cmake -D CUDA_USE_STATIC_CUDA_RUNTIMEOFF . make的时候可能会出现以下错误 make[2]: …

    电脑DNS修复

    首先在dos窗口下输入以下命令&#xff1a; ipconfig/displaydns 可以看到当前的缓存的所有DNS记录&#xff1a; 然后&#xff1a; ipconfig/flushdns 刷新当前的DNS

    数据结构实验之排序七:选课名单(卡内存的一道题。。坑)

    RE。。。 带更正 #include<iostream> #include<algorithm> using namespace std; #include<cstdio> #include<cstring> struct people {char name[100];int sum_class;int cl[2005]; }a[40000],b[40000]; int cmp(people a,people b) {char t[100],l[…

    /usr/bin/ld: 找不到 -lopencv_dep_cudart

    make出现/usr/bin/ld: 找不到 -lopencv_dep_cudart错误时候 我们在cmake时候加上参数 cmake -D CUDA_USE_STATIC_CUDA_RUNTIMEOFF .

    ubuntu16.04下安装opencv3.2版本

    1、下载OpenCV的源码 OpenCV官网上有linux版本的源码包可以下载&#xff0c;不过最好是从git上下载&#xff0c;这样可以保证下载得到的是最新的代码&#xff1a;1 wget -O opencv.zip https://github.com/Itseez/opencv/archive/3.2.0.zip 2 unzip opencv.zip 2、编译安装…

    数据结构实验之栈六:下一较大值(二)

    #include <bits/stdc.h> #include <iostream> using namespace std; struct node {int data;int next;//记录下一个元素死亡值int pos;//用来记录每个元素的位置*/ } a[100001],val[100000]; int main() {int t;while(~scanf("%d",&t)){int l0;while…

    双系统安装ubuntu后没有windows启动项

    打开terminal&#xff0c;sudo update-grub 如果看到windows的选项的话&#xff0c;下次重启就有了